Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Avi Chawla
Denní návody a postřehy o DS, ML, LLM a RAG • Spoluzakladatel @dailydoseofds_ • IIT Varanasi • bývalý inženýr AI @ MastercardAI
Jste na pohovoru ML Engineer na Netflixu.
Tazatel se ptá:
"Vytrénovali jste nový model doporučení.
Jak se ujistíte, že je připraven nahradit ten starý?"
Vy odpovíte: "Porovnám metriky na validaci a testovací sady."
Rozhovor skončil.
Zde je to, co jste zmeškali:
Problém je v tom, že navzdory přísnému testování modelu ML lokálně (na validaci a testovacích sadách) by mohl být hrozný nápad okamžitě nahradit předchozí model novým modelem.
Je to proto, že je obtížné replikovat přesné produkční prostředí a podmínky lokálně a ospravedlnit úspěch pomocí přesnosti val/test.
Spolehlivější strategií je otestovat model v produkčním prostředí (ano, na reálných příchozích datech).
I když to může znít riskantně, týmy ML to dělají neustále a není to tak složité.
Poznámka:
> Starší model: Stávající model.
> Kandidátský model: Nový model.
Zde jsou čtyři běžné způsoby, jak to udělat:
1️⃣ A/B testování
Rozdělte příchozí požadavky nerovnoměrně mezi starší model a kandidátský model. To omezuje expozici kandidátského modelu, aby se předešlo případným rizikům.
Řekněme tedy, že 10 % požadavků směřuje do modelu kandidátů a zbytek je stále obsluhován starším modelem.
2️⃣ Testování kanárků
A/B testování obvykle ovlivňuje všechny uživatele, protože náhodně rozděluje "provoz" mezi oba modely (bez ohledu na uživatele).
Při kanárkovém testování je kandidátský model vystaven malé podskupině uživatelů v produkčním prostředí a postupně se zavádí pro více uživatelů, pokud jeho metriky signalizují úspěch.
3️⃣ Prokládané testování
To zahrnuje míchání předpovědí více modelů v odpovědi.
Například v doporučovacím systému Netflixu mohou některá doporučení filmů pocházet ze staršího modelu, zatímco některá mohou být vytvořena kandidátským modelem.
Kromě toho můžeme zaznamenávat metriky úspěšnosti v navazujících fázích (míra kliknutí, doba sledování, doporučení hlášeno jako neužitečné atd.) pro pozdější srovnání.
4️⃣ Stínové testování
Všechny výše uvedené techniky ovlivňují některé (nebo všechny) uživatele.
Stínové testování (neboli dark launches) nám umožňuje otestovat nový model v produkčním prostředí bez ovlivnění uživatelské zkušenosti.
Kandidátský model je nasazen společně se stávajícím starším modelem a obsluhuje požadavky jako starší model.
Výstup se ale neodesílá zpět uživateli. Místo toho se výstup zaznamená pro pozdější použití k porovnání výkonu se starším modelem.
Explicitně nasazujeme kandidátský model namísto testování offline, protože přesné produkční prostředí může být obtížné replikovat offline.
Stínové testování nabízí bezrizikové testování kandidátského modelu v produkčním prostředí.
Jednou výhradou však je, že při stínovém testování nemůžete měřit metriky orientované na uživatele.
Vzhledem k tomu, že předpovědi modelu kandidátů se uživatelům nikdy nezobrazují, nezískáte skutečné údaje o zapojení, jako jsou kliknutí, doba sledování nebo konverze.
A přesně tak špičkové týmy ML v Netflixu, Amazonu a Googlu bezpečně zavádějí nové modely.
Nikdy nepřepnou vypínač všechny najednou.
Testují v produkčním prostředí, pozorují, porovnávají a poté povyšují model na 100% návštěvnost.
Vedle toho všeho byste samozřejmě měřili také latenci, propustnost, využití zdrojů a metriky úspěšnosti downstreamu.
Model, který je o 2 % přesnější, ale o 3 × pomalejší, není z hlediska uživatelské zkušenosti žádoucí.
K vám: Jak testujete své modely před výměnou starých?
67,11K
Top
Hodnocení
Oblíbené