DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Andrej Karpathy

Construyendo @EurekaLabsAI. Anteriormente Director de IA @ Tesla, equipo fundador @ OpenAI, CS231n/PhD @ Stanford. Me gusta entrenar grandes redes neuronales profundas.

Nueva publicación: miniserie nanochat v1 La forma correcta de pensar sobre los LLMs es que no estás optimizando para un modelo específico, sino para una familia de modelos controlados por un solo dial (el cómputo que deseas gastar) para lograr resultados monotonamente mejores. Esto te permite hacer una ciencia cuidadosa de las leyes de escalado y, en última instancia, esto es lo que te da la confianza de que cuando pagas por "la gran ejecución", la extrapolación funcionará y tu dinero estará bien gastado. Para el primer lanzamiento público de nanochat, mi enfoque fue en una tubería de extremo a extremo que ejecuta toda la tubería LLM con todas sus etapas. Ahora, después de hacer algunos intentos antes, estoy volviendo para desarrollar algunas de las partes que aceleré, comenzando, por supuesto, con el preentrenamiento, que es tanto computacionalmente pesado como crítico como la base de la inteligencia y el conocimiento en estos modelos. Después de ajustar localmente algunos de los hiperparámetros, descarté varios modelos fijando el presupuesto de FLOPs. (Para cada objetivo de FLOPs, puedes entrenar un modelo pequeño durante mucho tiempo, o un modelo grande durante poco tiempo). Resulta que nanochat obedece leyes de escalado muy agradables, reproduciendo básicamente los gráficos del artículo de Chinchilla: Lo cual es solo una versión pequeña de este gráfico de Chinchilla: Muy importante y alentador, el exponente en N (parámetros) y D (tokens) es igual a aproximadamente 0.5, así que, al igual que Chinchilla, obtenemos una constante (independiente del cómputo) que relaciona el tamaño del modelo con los horizontes de entrenamiento de tokens. En Chinchilla, esto se midió en 20. En nanochat parece ser 8! Una vez que podamos entrenar modelos óptimos en cómputo, descarté una miniserie de d10 a d20, que son tamaños de nanochat que pueden hacer 2**19 ~= 0.5M tamaños de lote en un nodo 8XH100 sin acumulación de gradientes. Obtenemos gráficos de entrenamiento bonitos y no intersecados para cada tamaño de modelo. Luego, la parte divertida es relacionar esta miniserie v1 con las miniseries de GPT-2 y GPT-3 para que sepamos que estamos en el camino correcto. La pérdida de validación tiene muchos problemas y no es comparable, así que en su lugar utilizo la puntuación CORE (del artículo DCLM). La calculé para GPT-2 y la estimé para GPT-3, lo que nos permite finalmente colocar nanochat de manera adecuada y en la misma escala: El costo total de esta miniserie es solo ~$100 (~4 horas en 8XH100). Estos experimentos nos dan confianza de que todo está funcionando bastante bien y que si pagamos más (giramos el dial), obtenemos modelos cada vez mejores. Resumen: podemos entrenar miniseries óptimas en cómputo y relacionarlas con GPT-2/3 a través de puntuaciones CORE objetivas, pero se desean y necesitan más mejoras. Por ejemplo, igualar a GPT-2 actualmente necesita ~$500, pero en mi opinión debería ser posible hacerlo por menos de $100 con más trabajo. La publicación completa con mucho más detalle está aquí: Y todo el ajuste y el código se ha subido a master y la gente puede reproducir esto con los scripts bash scaling_laws .sh y miniseries .sh.

Parte superior

Clasificación

Favoritos