Näyttää siltä, että OpenAI on käyttänyt Nousin YaRN:ää ja kaiokendevin köysiskaalausta kontekstin pituuden pidentämiseen koko ajan - tietenkään ei koskaan mitään kunniaa, mutta... Jokainen, joka sanoo, että "avoin lähdekoodi vain varastaa heidän 'oikealta' tutkimukseltaan ja ratsastaa heidän harteillaan", on täysin väärässä Kutsuin sitä, kun he julkaisivat laajennetun 128k-kontekstin gpt4:llä vain muutama viikko sen jälkeen, kun Nous julkaisi langan lol langan kontekstiin; Deepseek ja Qwen käyttävät sitä myös; Paperi:
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc1.8. klo 16.03
Eh: Se tulee ulos joka tapauksessa nyt Config: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113,31K