Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
joten valitset kuoleman

Vastatakseni objektitasolla @TheZvi
Teknisesti DSA saattaa olla merkittävä harppaus, joka tekee Gemini-mittakaavan konteksteista triviaalin halpoja, jopa aiemman sukupolven malleissa. Varoituksista:
- emme ole varmoja, *skaalaako* se 1M+:aan (mutta V3.2 exp≥V3.1 identtisestä esiharjoittelusta huolimatta, ja V3.2>> exp, joten hyvin todennäköinen kyllä)
- Emme ole varmoja, miten sitä voi kouluttaa ilman itseäidistä toimintaa tiheästä huomiosta. Ehkä DeepSeek tietää. Luulen, että V4 ei käytä DSA:ta, sitä kutsutaan nimenomaan prototyypiksi. Pahimmassa tapauksessa on myös järkevää esiharjoitella täydellä huomiolla => ojentaa => harventaa, jolloin kulut enemmän ennakkokoulutuksesta pysyvästi halvemman päättelyn saamiseksi.
- Kimin KDA tai Qwenin GDN+ tai jotain vastaavaa voisi olla jopa parempi kuin DSA+/NSA+
Näiden varausten mukaan tämä ei ole kaksinkertainen hinnanalennus, olen sarkastinen. Pikemminkin kymmenkertainen. Vähäinen huomio, joka ei heikkene, on aika iso juttu.
Nopeuden osalta se on mallin näkökulmasta tyhjä pointti. DeepSeek ei ole kiinnostunut tarjoamaan parasta tuotetta. He palvelevat valtavien erien kanssa H800/Ascendsista. Voit laittaa sen amerikkalaiselle laitteistolle ja saada 60-150 t/s, tai Cerebrasille ja saada GLM-tyylisen 1000 t/s, ilman että hinta kasvaa. Tämä arkkitehtuuri on luonteeltaan nopeaa (pinnallinen, halpa huomio), mutta DeepSeek palvelee sitä hitaasti.
Frontier intelligencen osalta sanon, että nämä frontierin «usemaxing» edut – pääasiassa agenttinen koodaus, mutta samalla tavalla voi kattaa useampia alueita – ovat tulosta laskentatehosta RL-vaiheisiin ja synteettisten ympäristöjen iterointiin. Heillä on resepti. He raportoivat, että ≈10 % esikoulutuksen kustannuksista kuluu Specialeen. Se on ≈600 000 dollaria. Grok 4:n kerrotaan käyttäneen 100 % Grok 3:sta, eli kymmeniä satoja miljoonia. Grokin kanssa se on selvästi ollut hyvin tehoton, mutta uskon, että DeepSeek voisi helposti mennä 100 %:iin, resepti on tiedossa. He eivät todennäköisesti halua tuhlata sitä vanhentuneelle pohjalle, sillä he huomaavat, että se on edelleen tiedon pullonkaula.
Minusta on hauska suhtautuminen minun mielestäni arvokkaisiin matematiikkasuorituksiin (tai siihen, että Erdos-ongelmia on niin helppoa, että ihmisratkaisija sanoo »kyllä, se on käytännössä minun ratkaisuni») hauskana. Eikö meidän kaikkien pitänyt odottaa AGI:ta itsenäiseltä matematiikan tutkimukselta? Vai onko kyse vain koodauksesta nyt? Todennäköisesti tämä on mielenkiintoisin kyky arvioida nousunopeuksia. Mutta olkoon, uskon itsekin hitaaseen nousuun, itsensä kehittäminen kohtaa logistisia ongelmia riippumatta siitä, mistä aloitamme.
Tärkein panos tähän, kuten olen sanonut, on se, että he ilmoittavat uskovansa, että he ovat pohjimmiltaan ratkaisseet vuoden 2025 lopun rajaseudun LLM:ien koulutuksen tutkimusohjelmana, ja voisivat päästä nykyiselle länsitasolle tai sen yli vain lisäämällä laskentatehoa (plus pieniä muutoksia tokenien tehokkuuteen). Teoriassa heidän ilmoituksensa siitä, että he lopulta siirtyisivät laajempaan koulutukseen, voidaan tulkita "ja juuri sitä me nyt teemme". Mutta se jää nähtäväksi.
@TheZvi > vaikka esikoulutus on identtinen
ja koulutuksen jälkeinen korjaus
3,62K
Johtavat
Rankkaus
Suosikit

