Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

汉松
Sviluppo di applicazioni di grandi fabbriche e modelli di grandi dimensioni | Avvento AI | Studente permanente | Il gusto è tutto ciò di cui hai bisogno
Nella quarta parte della serie "Realizzare vLLM da zero", ci concentriamo su un altro componente apparentemente semplice ma cruciale dell'architettura Transformer: RMSNorm (Normalizzazione della radice quadrata media).
Iniziamo a vedere cos'è la normalizzazione. Immagina di aver appena sostenuto l'esame finale e di aver ricevuto i voti di tre materie:
Matematica: 120 punti (su 150)
Inglese: 80 punti (su 100)
Fisica: 160 punti (su 200)
Qual è la materia in cui hai ottenuto il punteggio migliore? Se confronti direttamente 120, 80 e 160, arriverai alla conclusione che la fisica è la migliore. Ma la realtà è che hai ottenuto lo stesso punteggio in tutte e tre le materie.
Matematica: 120/150 = 80%
Inglese: 80/100 = 80%
Fisica: 160/200 = 80%
Questo è il concetto fondamentale della normalizzazione: convertire dati di dimensioni e intervalli diversi in uno standard uniforme per il confronto.
Perché le reti neurali hanno bisogno di normalizzazione?
Immagina di giocare a un gioco di passaparola. La prima persona dice "Mi piacciono le mele", e quando arriva alla decima persona diventa "Mi piacciono gli ananas". Questo è il problema che affrontano le reti neurali profonde.
Ogni strato della rete esegue alcuni calcoli sull'input e poi passa il risultato allo strato successivo. Il problema è che, con l'aumentare del numero di strati, questi valori diventano sempre più incontrollabili: o crescono in modo esplosivo o svaniscono nel nulla. Proprio come nel gioco di passaparola, le informazioni si distorcono durante il passaggio.
Aggiungere uno strato di normalizzazione al modello può ridurre la probabilità di esplosione o scomparsa del gradiente, rendendo il processo di addestramento del modello più stabile. La tecnologia di normalizzazione è evoluta da BatchNorm a LayerNorm, fino a diventare RMSNorm, diventando uno standard per i grandi modelli.
Il mio articolo guiderà i lettori attraverso la storia dell'evoluzione della tecnologia di normalizzazione; chi è interessato può consultare il testo originale.


63,97K
Le abilità dell'agente di Claude sono essenzialmente un tipo di "scarico del contesto", che sposta le informazioni sulle abilità lunghe fuori dal contesto e le carica su richiesta. Per coincidenza, recentemente Manus ha condiviso alcuni trucchi per "scaricare il contesto". Manus ha molti strumenti, ma non fornisce la definizione completa di questi strumenti al modello. Come fa quindi a sapere quali strumenti ci sono e come richiamarli? Immagina di avere un nuovo computer, come fai a sapere quali strumenti puoi usare? Un utente normale aprirebbe l'elenco delle applicazioni, mentre un programmatore eseguirebbe `ls /usr/bin` per vedere quali comandi sono disponibili.
Allo stesso modo, la soluzione di Manus è di informare il modello, attraverso il prompt di sistema, che in una specifica cartella ci sono molti strumenti da riga di comando preinstallati. Gli strumenti più comuni (ls, grep, cat, less, more, ecc.) sono già integrati nel prompt di sistema. Non è necessario dire al modello come utilizzare questi strumenti, basta elencare i nomi degli strumenti e dirgli che può usare il parametro --help per capire come usarli. La cosa più interessante è che questi modelli di operazioni shell hanno già studiato, quindi la loro capacità di generalizzazione è molto forte; per aggiungere nuovi strumenti, basta inserire un comando nella cartella.


宝玉17 ott 2025
Agent Skills 是很好的东西,可以引导 Agent 获取某些技能,而且制作起来很方便。
制作一个技能,就好像给新员工写一份入职手册。不需要为每一个不同任务都专门打造一个独立的智能体,而是只要共享特定领域的专业知识,任何人都可以快速将智能体变成对应领域的高手。
我之前提到过朋友做一个基于他们 Design System 的 Agent,需要通过提示词引导 Agent 去 grep 检索文档,现在就更简单了,只要在全局或者项目目录下的 .claude/skills 下面添加目录,并且放一个包含meta信息的 SKILL\.md 文件,就可以引导 Agents 去学习使用这些 Skill。
官方也给了一个例子就是 PDF Skill,就是包含了一系列 PDF 操作的说明和脚本,Agent 借助这些脚本,就可以操作 PDF,比如提取表单之类。也就是说 Skill 不仅可以包含文档,还可以包含可执行的脚本。
需要注意的是 Skill 里面的 Meta 信息是默认会加载到上下文文的,其余信息用到才会加载。



136,54K
Principali
Ranking
Preferiti

