літав непомітно: гібрид Mamba-2+MLA, *після навчання* з Llama 3. Ми знали, що GQA=> повний MLA можливий. Кімі довів, що можна поєднувати MLA і лінійні призначення (KDA більш складний, ніж Mamba2), але вони тренувалися з нуля. Технічно це вражає.