A sabedoria predominante é que a computação é o fator mais importante para o treinamento de IA de fronteira. Achamos que isso está errado: os dados são o componente mais caro e importante do treinamento de IA. Coletamos estimativas de receita para as principais empresas de rotulagem de dados e as comparamos com o custo marginal de computação para treinar os principais modelos em 2024. Nossas estimativas mostram que a rotulagem de dados é ~ 3x maior do que a computação de treinamento marginal. 1/8
Nossa postagem recente no blog detalha o verdadeiro custo do treinamento dos principais modelos de hoje com números concretos e estudos de caso A análise completa está no Substack: 2/8
Um instantâneo de 2024: calculamos a receita anual das principais empresas de etiquetagem (Scale, Surge, Mercor, Labelbox, ...) e a comparamos com o gasto marginal de computação para treinamento GPT-4o, Sonnet-3.5, Mistral-Large, Grok-2 e Llama-3-405B. Resultado: os custos de rotulagem são aproximadamente 3x os custos marginais de computação. 3/8
De 2023 a 2024, encontramos um salto de 88x no setor de rotulagem de dados, enquanto os custos de computação de treinamento aumentaram apenas 1,3x. Esta é uma taxa de crescimento ~ 70x mais rápida para rotulagem de dados Observe que não esperamos que as tendências continuem em 2025 e além, já que a maior parte do crescimento é da Mercor, portanto, as taxas de crescimento serão menores, mesmo com o aumento do valor total dos custos de dados 4/8
Além das receitas, o MiniMax-M1 precisava de <US$ 1 milhão em computação para alcançar a qualidade Claude-Opus-4, mas a curadoria de um conjunto de dados RL com 140 mil anotações humanas custaria ~US$ 14 milhões, 28x a computação de treinamento 5/8
Da mesma forma, o SkyRL-SQL combinou o GPT-4o em texto para SQL com apenas US$ 360 de computação de treinamento, mas as 600 consultas anotadas por especialistas usadas no pós-treinamento custaram ~US$ 60 mil 6/8
Incentivamos as organizações que rastreiam entradas para IA a também rastrear os custos de dados humanos, pois acreditamos que isso é fundamental para entender o progresso da IA 7/8
Co-escrito com @maxYuxuanZhu 8/8
442