Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GAUSS: Общая оценка базовых структурированных навыков в математике
Мы рады представить GAUSS, бенчмарк для ИИ в математике нового поколения, созданный для преодоления ограничений низкой разрешающей способности навыков в современных бенчмарках.
Что он делает
GAUSS профилирует LLM по 12 когнитивным измерениям навыков, охватывающим знания, рассуждения, обучение и креативность, предлагая точный и всесторонний взгляд на математические способности моделей.
Почему это важно
Выявляя сильные и слабые стороны на детальном уровне, GAUSS закладывает основу для продвижения ИИ в математике от поверхностного распознавания паттернов к истинному рассуждению и пониманию.
Что мы узнали
Применяя GAUSS к GPT-5 Thinking, мы узнали:
✅ Сильные стороны в воспоминании таксономии, оценке аргументов, проверке правдоподобия, резюмировании сложных статей и постановке задач
❌ Слабые стороны в применении теорем, символических вычислениях, применении стратегий решения задач, геометрической интуиции и обобщении.
Что дальше
Мы создаем кураторские наборы задач с рубриками через краудсорсинг сообщества, графики навыков для LLM и автооценщик ИИ, основы для обучения моделей к математической суперинтеллектуальности.
Мы тепло приглашаем всех присоединиться к сообществу GAUSS, вносить задачи через наш портал и помогать формировать будущее ИИ в математике!
Эту работу возглавили я и Цзяньсин Чжан (@JiaxinZhang626) в @hyperbolic_labs / @Caltech, вместе с Цюю Рен и Тахсином Саффатом в @UCBerkeley, Лили Лю (@eqhylxx) в @UCBerkeley → теперь @OpenAI, Цзитонг Янг (@ZitongYang0) в @Stanford, профессор Бангхуа Чжу (@BanghuaZ) в @nvidia / @UW и профессор И Ма (@YiMaTweets) в @UCBerkeley / @HKUniversity.
Ссылки и детали ниже 👇 (1/n)


Топ
Рейтинг
Избранное