Numele benchmark-urilor ar trebui să includă întregul prompt și codul de evaluare și setul de date chiar acolo în nume. fiecare nume de benchmark ar trebui să aibă o lungime de 50.000 de tokenuri