Miksi DeepSeek-OCR on niin ISO JUTTU?
Nykyiset LLM:t kamppailevat pitkien syötteiden kanssa, koska ne pystyvät käsittelemään vain kiinteän määrän tokeneita, joita kutsutaan kontekstiikkunaksi, ja huomiokustannukset kasvavat nopeasti syötteiden pidentyessä.
DeepSeek-OCR ottaa uuden lähestymistavan.
Sen sijaan, että se lähettäisi pitkän kontekstin suoraan LLM:ään, se muuttaa sen kuvaksi, pakkaa kuvan visuaalisiksi tunnuksiksi ja välittää sitten nämä tunnukset LLM:lle.
Vähemmän tokeneita johtaa pienempiin laskentakustannuksiin huomion vuoksi ja suurempaan tehokkaaseen kontekstiikkunaan. Tämä tekee chatboteista ja asiakirjamalleista tehokkaampia ja tehokkaampia.
Miten DeepSeek-OCR on rakennettu? Järjestelmässä on kaksi pääosaa:
1. Enkooderi: Se käsittelee tekstin kuvan, poimii visuaaliset ominaisuudet ja pakkaa ne pieneksi määräksi näkömerkkejä.
2. Dekooderi: Sekoitus asiantuntijoita -kielimalli, joka lukee nämä tunnukset ja luo tekstiä yksi tunnus kerrallaan, samalla tavalla kuin tavallinen vain dekooderimuuntaja.
Milloin sitä käytetään?
DeepSeek-OCR osoittaa, että teksti voidaan pakata tehokkaasti visuaalisten esitysten avulla.
Se on erityisen hyödyllinen käsiteltäessä erittäin pitkiä asiakirjoja, jotka ylittävät vakiokontekstin rajat. Voit käyttää sitä kontekstin pakkaamiseen, tavallisiin OCR-tehtäviin tai syväjäsentämiseen, kuten taulukoiden ja monimutkaisten asettelujen muuntamiseen tekstiksi.
Sinulle: Mitä mieltä olet visuaalisten tokenien käyttämisestä pitkän kontekstin ongelmien ratkaisemiseen LLM:issä? Voisiko tästä tulla seuraava standardi suurille malleille?
--
Lanseerasimme juuri Ryhdy tekoälyinsinööriksi | Opi tekemällä: Kohortti 2. Jos missasit kohortin 1, nyt on tilaisuutesi liittyä joukkoomme kohorttiin 2.
Katso se täältä:
#AI #AIEngineer #MachineLearning
.