Обучение LLM от начала до конца сложно. Очень рад поделиться нашим новым блогом (книгой?), который охватывает весь процесс: предобучение, постобучение и инфраструктура. Более 200 страниц о том, что сработало, что не сработало и как сделать так, чтобы это работало надежно
> создание новой базовой модели в несколько раз сложнее, чем доработка открытой модели и оптимизация вывода.
довольно дико, как мало обсуждается то, что большинство стартапов (даже хорошо финансируемых) не могут создать свои собственные базовые модели и полагаются на открытые разработки лабораторий на переднем крае в Китае..
Причина, по которой Cursor и Windsurf выпустили модели, оптимизированные для скорости, заключается в том, что это гораздо проще, чем создание модели, продвигающей интеллект.
1. возьмите Qwen3 и доработайте его с помощью RL на вашем хранилище
2. установите его на оборудование Cerebras (или оптимизированный GPU)
3. дайте этой среднеумной, супербыстрой модели поработать
Для компаний, занимающихся кодирующими агентами, если вы хотите вывести что-то ценное на рынок, создание новой базовой модели в разы сложнее, чем доработка открытой модели и оптимизация вывода.
Честно говоря, это эффективный способ выпустить что-то, что приближается к парето-фронтиру, и мне нравится, что компании, занимающиеся кодирующими агентами, начинают участвовать.
Но не путайте это с тем, что компании кодирующих агентов заявляют: "среднеумный, но быстрый > высокоумный, но медленный".