Celý článek jsem ještě nečetl, takže nemohu mluvit o podrobnostech, ale jsem rád, že se jako soudce na LLM uplatňuje větší metodologická důslednost. Hodnocení LLM jsou jádrem velkého množství benchmarků a často se používají bez jasné statistické validace.