Stanfordforskare byggde en ny promptingteknik! Genom att lägga till ~20 ord till en prompt gör det: - ökar LLM:s kreativitet med 1,6–2x - ökar mångfalden med 25,7 % - slår finjusterad modell utan någon omträning - återställer 66,8 % av LLM:s förlorade kreativitet efter justering Metoder för justering efter träning, såsom RLHF, är utformade för att göra LLM:er användbara och säkra. Dessa metoder orsakar dock oavsiktligt en betydande minskning av utgångsdiversiteten (kallad modekollaps). När en LLM kollapsar till ett läge börjar den gynna en smal uppsättning förutsägbara eller stereotypa svar framför andra utgångar. Detta sker eftersom de mänskliga preferensdata som används för att träna LLM har en dold brist som kallas typicalitetsbias. Så här går det till: - Annotatorer bedömer olika svar från en LLM, och senare tränas LLM med hjälp av en belöningsmodell för att efterlikna dessa mänskliga preferenser. - Dock tenderar annotörer naturligt att föredra svar som är mer bekanta, lättlästa och förutsägbara. Detta är typicalitetsbiasen. Så även om ett nytt, kreativt svar är lika bra, lutar människans preferens ofta åt det vanliga. På grund av detta förstärker belöningsmodellen svar som den ursprungliga (förjusterade) modellen redan ansåg sannolika. Detta skärper LLM:ns sannolikhetsfördelning aggressivt, vilket kollapsar modellens kreativa output till en eller två dominerande, mycket förutsägbara svar. Det sagt, det är inte en irreversibel effekt, och LLM har fortfarande två personligheter efter alignment: - Den ursprungliga modellen som lärde sig de rika möjligheterna under förträningen. - Den säkerhetsfokuserade, efterjusterade modellen....