Miksi DeepSeek-OCR on niin ISO JUTTU? Nykyiset LLM:t kamppailevat pitkien syötteiden kanssa, koska ne pystyvät käsittelemään vain kiinteän määrän tokeneita, joita kutsutaan kontekstiikkunaksi, ja huomiokustannukset kasvavat nopeasti syötteiden pidentyessä. DeepSeek-OCR ottaa uuden lähestymistavan. Sen sijaan, että se lähettäisi pitkän kontekstin suoraan LLM:ään, se muuttaa sen kuvaksi, pakkaa kuvan visuaalisiksi tunnuksiksi ja välittää sitten nämä tunnukset LLM:lle. Vähemmän tokeneita johtaa pienempiin laskentakustannuksiin huomion vuoksi ja suurempaan tehokkaaseen kontekstiikkunaan. Tämä tekee chatboteista ja asiakirjamalleista tehokkaampia ja tehokkaampia. Miten DeepSeek-OCR on rakennettu? Järjestelmässä on kaksi pääosaa: 1. Enkooderi: Se käsittelee tekstin kuvan, poimii visuaaliset ominaisuudet ja pakkaa ne pieneksi määräksi näkömerkkejä. 2. Dekooderi: Sekoitus asiantuntijoita -kielimalli, joka lukee nämä tunnukset ja luo tekstiä yksi tunnus kerrallaan, samalla tavalla kuin tavallinen vain dekooderimuuntaja. Milloin sitä käytetään? DeepSeek-OCR osoittaa, että teksti voidaan pakata tehokkaasti visuaalisten esitysten avulla. Se on erityisen hyödyllinen käsiteltäessä erittäin pitkiä asiakirjoja, jotka ylittävät vakiokontekstin rajat. Voit käyttää sitä kontekstin pakkaamiseen, tavallisiin OCR-tehtäviin tai syväjäsentämiseen, kuten taulukoiden ja monimutkaisten asettelujen muuntamiseen tekstiksi. Sinulle: Mitä mieltä olet visuaalisten tokenien käyttämisestä pitkän kontekstin ongelmien ratkaisemiseen LLM:issä? Voisiko tästä tulla seuraava standardi suurille malleille? -- Lanseerasimme juuri Ryhdy tekoälyinsinööriksi | Opi tekemällä: Kohortti 2. Jos missasit kohortin 1, nyt on tilaisuutesi liittyä joukkoomme kohorttiin 2. Katso se täältä: #AI #AIEngineer #MachineLearning...