Die vorherrschende Meinung ist, dass Rechenleistung der wichtigste Faktor für das Training von fortschrittlicher KI ist. Wir denken, dass dies falsch ist: Daten sind die kostspieligste und wichtigste Komponente des KI-Trainings. Wir haben Schätzungen der Einnahmen für große Datenkennzeichnungsunternehmen gesammelt und diese mit den marginalen Rechenkosten für das Training der besten Modelle im Jahr 2024 verglichen. Unsere Schätzungen zeigen, dass die Datenkennzeichnung etwa 3x höher ist als die marginalen Trainingsrechenkosten. 1/8
Unser aktueller Blogbeitrag analysiert die tatsächlichen Kosten für das Training der heutigen Flaggschiff-Modelle mit konkreten Zahlen und Fallstudien. Die vollständige Analyse finden Sie auf Substack: 2/8
Ein Überblick über 2024: Wir haben den Jahresumsatz der großen Labeling-Firmen (Scale, Surge, Mercor, Labelbox, …) berechnet und mit den marginalen Compute-Ausgaben für das Training von GPT-4o, Sonnet-3.5, Mistral-Large, Grok-2 und Llama-3-405B verglichen. Ergebnis: Die Labeling-Kosten sind ungefähr dreimal so hoch wie die marginalen Compute-Kosten. 3/8
Von 2023 bis 2024 beobachten wir einen Anstieg von 88x in der Datenkennzeichnungsbranche, während die Kosten für das Training nur um 1,3x gestiegen sind. Dies entspricht einer Wachstumsrate, die etwa 70x schneller ist für die Datenkennzeichnung. Bitte beachten Sie, dass wir nicht erwarten, dass sich die Trends bis 2025 und darüber hinaus fortsetzen, da das meiste Wachstum von Mercor stammt, sodass die Wachstumsraten niedriger sein werden, auch wenn die Gesamtkosten für Daten steigen.
Neben den Einnahmen benötigte MiniMax-M1 weniger als 1 Million Dollar an Rechenleistung, um die Qualität von Claude-Opus-4 zu erreichen, während die Kuratierung eines RL-Datensatzes mit 140.000 menschlichen Annotationen etwa 14 Millionen Dollar kosten würde, das 28-fache der Trainingsrechenleistung. 5/8
Ähnlich hat SkyRL-SQL GPT-4o im Bereich Text-zu-SQL mit nur 360 $ an Trainingsressourcen erreicht, aber die 600 von Experten annotierten Abfragen, die im Nachtraining verwendet wurden, kosteten etwa 60.000 $. 6/8
Wir ermutigen Organisationen, die Eingaben für KI verfolgen, auch die Kosten für menschliche Daten zu verfolgen, da wir glauben, dass dies entscheidend für das Verständnis des Fortschritts der KI ist. 7/8
Co-geschrieben mit @maxYuxuanZhu 8/8
140,99K