Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

汉松
Desarrollo de aplicaciones de grandes fábricas y grandes modelos | Adviento de IA | Aprendiz de por vida | El sabor es todo lo que necesitas
En el cuarto artículo sobre la implementación de vLLM desde cero, dirigimos nuestra atención a otro componente aparentemente simple pero crucial de la arquitectura de Transformer: RMSNorm (Root Mean Square Normalization).
Primero echemos un vistazo a qué es la normalización, digamos que acabas de terminar el examen final y salen los resultados de los tres cursos:
Matemáticas: 120 de 150
Inglés: 80 de 100
Física: 160 de 200
¿Qué curso es el mejor? Si comparas 120, 80, 160 directamente, llegarás a la mejor conclusión en física. Pero la situación real es que los tres campos son igualmente buenos.
Matemáticas: 120/150 = 80%
Inglés: 80/100 = 80%
Físico: 160/200 = 80%
Esta es la idea central de la normalización: convertir datos de diferentes dimensiones y diferentes rangos en un estándar unificado para la comparación.
¿Por qué es necesario normalizar las redes neuronales?
Imagina que estás jugando un juego de mensajería. La primera persona dijo "Me gustan las manzanas", y cuando pasó a la décima persona, se convirtió en "Me gusta la piña". Este es el problema al que se enfrentan las redes neuronales profundas.
Cada capa de la red realiza algunos cálculos en la entrada y luego pasa los resultados a la siguiente capa. El problema es que a medida que aumenta el número de capas, estos valores se vuelven cada vez más incontrolables, ya sea explotando o desapareciendo sin dejar rastro. Al igual que un juego de mensajería, la información se distorsiona gradualmente durante la transmisión.
Agregar una capa de normalización al modelo puede reducir la probabilidad de explosión o desaparición del gradiente, y el proceso de entrenamiento del modelo se vuelve más estable. La tecnología de normalización ha evolucionado de BatchNorm a LayerNorm y finalmente a RMSNorm, convirtiéndose en la configuración estándar para modelos grandes.
Mi artículo lo llevará a la historia de la evolución de la tecnología de normalización, si está interesado, puede consultar el artículo original.


63.97K
Las habilidades de agente de Claude son esencialmente una "descarga de contexto" que saca de contexto la información de habilidades extensas y la carga a pedido. Casualmente, Manus' Peak también compartió recientemente algunos consejos de "descarga contextual". Manus tiene muchas herramientas, pero no le da al modelo una definición completa de estas herramientas. Entonces, ¿cómo sabe qué herramientas existen y cómo las llamas? Imagina que te dan una computadora nueva, ¿cómo sabes qué herramientas están disponibles? El usuario promedio abrirá la lista de aplicaciones y el programador 'ls /usr/bin' para ver qué comandos están disponibles.
De manera similar, la solución de Manus es decirle al modelo en un indicador del sistema que hay muchas utilidades de línea de comandos preinstaladas en una carpeta en particular. Las herramientas más utilizadas (ls, grep, cat, less, more, etc.) están integradas en las indicaciones del sistema de forma predeterminada. En lugar de decirle al modelo cómo usar las herramientas, simplemente enumere el nombre de la herramienta y luego dígale cómo usar el parámetro --help para comprender cómo usar la herramienta. La mejor parte es que estos modelos de operación de shell han sido aprendidos, por lo que tiene una fuerte capacidad de generalización, y para agregar nuevas herramientas, solo necesita poner un comando en la carpeta.
Descubrí que Manus realmente siguió la filosofía de Unix hasta el final: KISS (Keep It Simple, Stupid).


宝玉17 oct 2025
Agent Skills 是很好的东西,可以引导 Agent 获取某些技能,而且制作起来很方便。
制作一个技能,就好像给新员工写一份入职手册。不需要为每一个不同任务都专门打造一个独立的智能体,而是只要共享特定领域的专业知识,任何人都可以快速将智能体变成对应领域的高手。
我之前提到过朋友做一个基于他们 Design System 的 Agent,需要通过提示词引导 Agent 去 grep 检索文档,现在就更简单了,只要在全局或者项目目录下的 .claude/skills 下面添加目录,并且放一个包含meta信息的 SKILL\.md 文件,就可以引导 Agents 去学习使用这些 Skill。
官方也给了一个例子就是 PDF Skill,就是包含了一系列 PDF 操作的说明和脚本,Agent 借助这些脚本,就可以操作 PDF,比如提取表单之类。也就是说 Skill 不仅可以包含文档,还可以包含可执行的脚本。
需要注意的是 Skill 里面的 Meta 信息是默认会加载到上下文文的,其余信息用到才会加载。



136.55K
Populares
Ranking
Favoritas

