Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

汉松
Applicatieontwikkeling van grote fabrieken en grote modellen | AI Advent | Levenslang leren | Smaak is alles wat je nodig hebt
In het vierde artikel van het realiseren van vLLM vanaf nul, richten we ons op een andere schijnbaar eenvoudige, maar cruciale component in de Transformer-architectuur: RMSNorm (Root Mean Square Normalization).
Laten we eerst kijken naar wat normalisatie is. Stel je voor dat je net je eindexamen hebt gedaan en de cijfers voor drie vakken zijn binnen:
Wiskunde: 120 punten (maximaal 150)
Engels: 80 punten (maximaal 100)
Natuurkunde: 160 punten (maximaal 200)
In welk vak heb je het beste gepresteerd? Als je gewoon 120, 80 en 160 vergelijkt, zou je concluderen dat natuurkunde het beste is. Maar de werkelijkheid is: je hebt in alle drie de vakken eigenlijk even goed gepresteerd.
Wiskunde: 120/150 = 80%
Engels: 80/100 = 80%
Natuurkunde: 160/200 = 80%
Dit is de kern van normalisatie: het omzetten van gegevens met verschillende dimensies en bereiken naar een uniforme standaard voor vergelijking.
Waarom heeft een neuraal netwerk normalisatie nodig?
Stel je voor dat je een doorgeefspel speelt. De eerste persoon zegt "Ik hou van appels", en tegen de tiende persoon is het veranderd in "Ik hou van ananassen". Dit is het probleem waarmee diepe neurale netwerken worden geconfronteerd.
Elke laag van het netwerk voert enkele berekeningen uit op de invoer en geeft het resultaat door aan de volgende laag. Het probleem is dat naarmate het aantal lagen toeneemt, deze waarden steeds moeilijker te beheersen worden - ze groeien explosief of verdwijnen zonder enige spoor. Net als in het doorgeefspel vervormt de informatie tijdens de overdracht geleidelijk.
Door een normalisatielaag aan het model toe te voegen, kan de kans op gradient explosie of verdwijning worden verminderd, waardoor het trainingsproces van het model stabieler wordt. Normalisatietechnieken zijn geëvolueerd van de oorspronkelijke BatchNorm naar LayerNorm en uiteindelijk naar RMSNorm, wat een standaard is geworden voor grote modellen.
Mijn artikel zal je meenemen in de evolutie van normalisatietechnologie, geïnteresseerden kunnen het origineel bekijken.


63,97K
Claude's Agent Skills zijn in wezen een vorm van "contextuele ontlasting", waarbij lange vaardigheidsinformatie uit de context wordt verwijderd en op aanvraag wordt geladen. Toevallig heeft Manus onlangs ook enkele tips over "contextuele ontlasting" gedeeld. Manus heeft veel tools, maar vertelt het model niet de volledige definitie van deze tools. Hoe weet het dan welke tools er zijn en hoe ze aan te roepen? Stel je voor, je krijgt een nieuwe computer, hoe weet je welke tools je kunt gebruiken? Een gewone gebruiker zou de lijst met applicaties openen, terwijl een programmeur `ls /usr/bin` zou gebruiken om te zien welke commando's beschikbaar zijn.
Op dezelfde manier is Manus' oplossing om in de systeemprompt het model te vertellen dat er in een bepaalde map veel vooraf geïnstalleerde command-line hulpprogramma's zijn. De meest gebruikte tools (ls, grep, cat, less, more, enz.) zijn standaard ingebouwd in de systeemprompt. Het is niet nodig om het model te vertellen hoe deze tools te gebruiken, je hoeft alleen maar de toolnamen op te sommen en het te vertellen dat het de --help parameter kan gebruiken om te leren hoe het de tools moet gebruiken. Het mooiste is dat deze shell-operatiemodellen allemaal geleerd hebben, dus hun generalisatievermogen is sterk; om nieuwe tools toe te voegen, hoef je alleen maar een commando in de map te plaatsen.
Ik ontdekte dat Manus echt de Unix-filosofie tot in de puntjes heeft doorgevoerd: KISS (Keep It Simple, Stupid).


宝玉17 okt 2025
Agent Skills 是很好的东西,可以引导 Agent 获取某些技能,而且制作起来很方便。
制作一个技能,就好像给新员工写一份入职手册。不需要为每一个不同任务都专门打造一个独立的智能体,而是只要共享特定领域的专业知识,任何人都可以快速将智能体变成对应领域的高手。
我之前提到过朋友做一个基于他们 Design System 的 Agent,需要通过提示词引导 Agent 去 grep 检索文档,现在就更简单了,只要在全局或者项目目录下的 .claude/skills 下面添加目录,并且放一个包含meta信息的 SKILL\.md 文件,就可以引导 Agents 去学习使用这些 Skill。
官方也给了一个例子就是 PDF Skill,就是包含了一系列 PDF 操作的说明和脚本,Agent 借助这些脚本,就可以操作 PDF,比如提取表单之类。也就是说 Skill 不仅可以包含文档,还可以包含可执行的脚本。
需要注意的是 Skill 里面的 Meta 信息是默认会加载到上下文文的,其余信息用到才会加载。



136,55K
Boven
Positie
Favorieten

