Benchmarknamn bör innehålla hela prompten samt utvärderingskoden och datamängden direkt i namnet. varje benchmarknamn bör vara 50 000 tokens långt