Benchmark isimlerinde tam prompt ve EVAL kodu ile veri seti tam olarak adında yer almalıdır. her kıyaslama adı 50K token uzunluğunda olmalı