Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cercetătorii de la Stanford au creat o nouă tehnică de stimulare!
Prin adăugarea a ~20 de cuvinte la un prompt, se întâmplă:
- crește creativitatea LLM cu 1,6-2x
- crește diversitatea evaluată de om cu 25,7%
- depășește modelul reglat fin fără nicio reantrenare
- restaurează 66,8% din creativitatea pierdută a LLM-urilor după aliniere
Metodele de aliniere post-antrenament, cum ar fi RLHF, sunt concepute pentru a face LLM-urile utile și sigure.
Totuși, aceste metode cauzează neintenționat o scădere semnificativă a diversității de ieșire (numită colaps de mod).
Când un LLM se prăbușește la un mod, începe să favorizeze un set restrâns de răspunsuri previzibile sau stereotipice față de alte ieșiri.
Acest lucru se întâmplă deoarece datele despre preferințele umane folosite pentru antrenarea LLM-ului au un defect ascuns numit biasul tipic.
Iată cum se întâmplă acest lucru:
- Adnotatorii evaluează răspunsuri diferite față de un LLM, iar ulterior, LLM-ul este antrenat folosind un model de recompensă pentru a imita aceste preferințe umane.
- Totuși, adnotatorii tind în mod natural să prefere răspunsuri mai familiare, ușor de citit și previzibile. Aceasta este părtinirea tipică.
Așadar, chiar dacă un răspuns nou și creativ este la fel de bun, preferința omului tinde adesea spre cea comună.
Din acest motiv, modelul de recompensă îmbunătățește răspunsurile pe care modelul original (pre-aliniat) le considera deja probabile.
Acest lucru ascuțește agresiv distribuția de probabilitate a LLM-ului, colapsând ieșirea creativă a modelului la unul sau două răspunsuri dominante, extrem de previzibile.
Totuși, nu este un efect ireversibil, iar LLM-ul are totuși două personalități după aliniere:
- Modelul original care a învățat bogățile posibilități în timpul pre-antrenamentului.
- Modelul axat pe siguranță, post-aliniat....

Limită superioară
Clasament
Favorite
