Onderzoekers van Stanford hebben een nieuwe promptingtechniek ontwikkeld! Door ~20 woorden aan een prompt toe te voegen, het: - verhoogt de creativiteit van LLM met 1,6-2x - verhoogt de door mensen beoordeelde diversiteit met 25,7% - overtreft een fijn afgesteld model zonder enige hertraining - herstelt 66,8% van de verloren creativiteit van LLM na afstemming Methoden voor afstemming na training, zoals RLHF, zijn ontworpen om LLM's nuttig en veilig te maken. Echter, deze methoden veroorzaken onbedoeld een significante daling in outputdiversiteit (genoemd mode collapse). Wanneer een LLM ineenstort naar een modus, begint het een smalle set van voorspelbare of stereotype reacties te bevoordelen boven andere outputs. Dit gebeurt omdat de menselijke voorkeurdata die gebruikt worden om de LLM te trainen een verborgen fout heeft die typische bias wordt genoemd. Hier is hoe dit gebeurt: - Annotators beoordelen verschillende reacties van een LLM, en later wordt de LLM getraind met behulp van een beloningsmodel om deze menselijke voorkeuren na te volgen. - Echter, annotators hebben van nature de neiging om antwoorden te bevoordelen die bekender, gemakkelijk te lezen en voorspelbaar zijn. Dit is de typische bias. Dus zelfs als een nieuw, creatief antwoord net zo goed is, neigt de menselijke voorkeur vaak naar het gebruikelijke antwoord. Als gevolg hiervan versterkt het beloningsmodel reacties die het originele (pre-gealigneerde) model al waarschijnlijk achtte. Dit scherp de waarschijnlijkheidsverdeling van de LLM agressief aan, waardoor de creatieve output van het model ineenstort naar een of twee dominante, zeer voorspelbare reacties. Dat gezegd hebbende, het is geen onomkeerbaar effect, en de LLM heeft nog steeds twee persoonlijkheden na afstemming: - Het originele model dat de rijke mogelijkheden tijdens de pre-training heeft geleerd. - Het veiligheid-georiënteerde, post-gealigneerde model....