Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

汉松
Suurten tehtaiden ja suurten mallien sovelluskehitys | AI Adventti | Elinikäinen oppija | Maku on kaikki mitä tarvitset
Neljännessä artikkelissa vLLM:ien toteuttamisesta tyhjästä kiinnitämme huomiomme toiseen näennäisesti yksinkertaiseen mutta ratkaisevaan Transformer-arkkitehtuurin komponenttiin: RMSNormiin (Root Mean Square Normalization).
Katsotaanpa ensin, mitä normalisointi on, oletetaan, että olet juuri suorittanut loppukokeen ja kolmen kurssin tulokset tulevat esiin:
Matematiikka: 120/150
Englanti: 80/100
Fysiikka: 160/200
Mikä kurssi on paras? Jos vertaat 120, 80, 160 suoraan, tulet fysiikan parhaaseen johtopäätökseen. Mutta todellinen tilanne on, että kolme kenttää ovat itse asiassa yhtä hyviä.
Matematiikka: 120/150 = 80 %
Englanti: 80/100 = 80 %
Fyysinen: 160/200 = 80 %
Tämä on normalisoinnin ydinajatus: eri ulottuvuuksien ja eri alueiden tietojen muuntaminen yhtenäiseksi vertailustandardiksi.
Miksi hermoverkot on normalisoitava?
Kuvittele, että pelaat viestipeliä. Ensimmäinen henkilö sanoi "Pidän omenoista", ja kun se siirtyi kymmenennelle henkilölle, siitä tuli "Pidän ananaksesta". Tämä on syvien hermoverkkojen kohtaama ongelma.
Jokainen verkon kerros tekee joitain laskelmia syötteelle ja välittää sitten tulokset seuraavalle tasolle. Ongelmana on, että kerrosten määrän kasvaessa nämä arvot muuttuvat yhä hallitsemattommiksi - joko räjähtävät tai katoavat jälkiä jättämättä. Kuten viestipelissä, tieto vääristyy vähitellen lähetyksen aikana.
Normalisointikerroksen lisääminen malliin voi vähentää gradientin räjähdyksen tai katoamisen todennäköisyyttä, ja mallin koulutusprosessista tulee vakaampi. Normalisointitekniikka on kehittynyt BatchNormista LayerNormiin ja lopulta RMSNormiin, ja siitä on tullut suurten mallien vakiokokoonpano.
Artikkelini vie sinut normalisointitekniikan evoluutiohistoriaan, jos olet kiinnostunut, voit tarkistaa alkuperäisen artikkelin.


63,99K
Clauden agenttitaidot ovat pohjimmiltaan "kontekstin purkamista", joka siirtää pitkät taitotiedot pois asiayhteydestään ja lataa ne tarvittaessa. Sattumalta Manus' Peak jakoi äskettäin myös joitain "kontekstuaalisia purkamisvinkkejä". Manuksella on monia työkaluja, mutta se ei anna mallille täydellistä määritelmää näistä työkaluista. Joten mistä se tietää, mitä työkaluja on olemassa ja miten niitä kutsutaan? Kuvittele, että annat sinulle uuden tietokoneen, mistä tiedät, mitä työkaluja on saatavilla? Keskivertokäyttäjä avaa sovellusluettelon, ja ohjelmoija "ls /usr/bin" nähdäkseen, mitä komentoja on saatavilla.
Vastaavasti Manuksen ratkaisu on kertoa mallille järjestelmäkehotteessa, että tietyssä kansiossa on monia esiasennettuja komentoriviapuohjelmia. Yleisimmin käytetyt työkalut (ls, grep, cat, vähemmän, enemmän jne.) on oletusarvoisesti sisäänrakennettu järjestelmän kehotteisiin. Sen sijaan, että kertoisit mallille, miten työkaluja käytetään, luettele vain työkalun nimi ja kerro sitten, miten --help-parametria käytetään työkalun käytön ymmärtämiseen. Parasta on, että nämä komentotulkin toimintamallit on opittu, joten sillä on vahva yleistyskyky, ja uusien työkalujen lisäämiseksi sinun tarvitsee vain laittaa komento kansioon.
Huomasin, että Manus todella noudatti Unixin filosofiaa loppuun asti: KISS (Keep It Simple, Stupid).


宝玉17.10.2025
Agent Skills 是很好的东西,可以引导 Agent 获取某些技能,而且制作起来很方便。
制作一个技能,就好像给新员工写一份入职手册。不需要为每一个不同任务都专门打造一个独立的智能体,而是只要共享特定领域的专业知识,任何人都可以快速将智能体变成对应领域的高手。
我之前提到过朋友做一个基于他们 Design System 的 Agent,需要通过提示词引导 Agent 去 grep 检索文档,现在就更简单了,只要在全局或者项目目录下的 .claude/skills 下面添加目录,并且放一个包含meta信息的 SKILL\.md 文件,就可以引导 Agents 去学习使用这些 Skill。
官方也给了一个例子就是 PDF Skill,就是包含了一系列 PDF 操作的说明和脚本,Agent 借助这些脚本,就可以操作 PDF,比如提取表单之类。也就是说 Skill 不仅可以包含文档,还可以包含可执行的脚本。
需要注意的是 Skill 里面的 Meta 信息是默认会加载到上下文文的,其余信息用到才会加载。



136,58K
Johtavat
Rankkaus
Suosikit

