LLM:ien kouluttaminen päästä päähän on vaikeaa. Erittäin innoissani voidessamme jakaa uuden blogimme (kirjamme?), joka kattaa koko putken: esikoulutuksen, koulutuksen jälkeisen ja infran. 200+ sivua siitä, mikä toimi, mikä ei ja miten se saadaan toimimaan luotettavasti
> uuden perusmallin rakentaminen on suuruusluokkaa vaikeampaa kuin avoimen mallin hienosäätö ja päättelyn optimointi.
Aika hurjaa, kuinka vähän on keskusteltu siitä, että useimmat startupit (edes hyvin rahoitetut) eivät voi rakentaa omia perustusmallejaan ja luottaa siihen, että kiinalaiset laboratoriot tarjoavat avoimen lähdekoodin omaansa.
Syy siihen, miksi Cursor and Windsurf julkaisi nopeuteen optimoituja malleja, on se, että se on paljon helpommin toteutettavissa kuin älykkyyttä työntävän perusmallin rakentaminen
1. Ota qwen3 ja hienosäädä se valjaiden RL:n avulla
2. lyö se Cerebras (tai optimoitu GPU) -laitteistoon
3. Anna keskiälykkään, supernopean mallin kypsyä
Jos koodausagenttiyrityksille halutaan tuoda markkinoille jotain arvokasta, uuden perusmallin rakentaminen on suuruusluokkaa vaikeampaa kuin avoimen mallin hienosäätö ja päättelyn optimointi.
Suoraan sanottuna se on tehokas tapa julkaista jotain, joka lähestyy Pareton rajaa, ja pidän siitä, että koodausagenttiyritykset alkavat osallistua.
Mutta älä sekoita tätä koodausagenttiyrityksiin, jotka julistavat "keskiälykäs mutta nopea > erittäin älykäs mutta hidas"