Mixture of Experts: a jövő hatékonyabb nyelvi modelljei

Az utóbbi években a nyelvi modellek fejlődése elsősorban a paraméterszám növelésével és a sűrű (dense) architektúrák méretezésével zajlott. Az olyan modellek, mint a GPT-2 vagy a GPT-3 hatalmas, több milliárd paraméterből állnak, és ez a megközelítés egy ideig valóban eredményes volt. Ugyanakkor a sűrű modellek képzése és futtatása egyre költségesebbé és erőforrás-igényesebbé válik, így új megoldások után kellett nézni. Ezek közül az egyik legígéretesebb a Mixture of Experts (MoE) megközelítés, amely a hagyományos Transformer architektúrát okosan átalakítva jelentősen javítja a számítási hatékonyságot.

Mi is az a Mixture of Experts?

A Mixture of Experts lényege, hogy a Transformer egyes rétegeiben – jellemzően a feed-forward blokkokban – nem egyetlen, nagy sűrű hálózat dolgozik, hanem több kisebb, úgynevezett „szakértő” (expert) hálózat. Ezek a szakértők nem feltétlenül speciális tudású részek, hanem tanulható, önálló alhálózatok. Minden egyes bemeneti tokenhez egy router algoritmus kiválaszt néhány szakértőt, amelyek feldolgozzák az adott információt. Így a modell kapacitása a teljes paraméterszámból adódik, de a tényleges számítási terhelés csak azokra a szakértőkre korlátozódik, amelyek aktívan részt vesznek a feldolgozásban.

Például a gpt-oss-20b modell összesen 21 milliárd paramétert tartalmaz, de egy-egy token feldolgozásakor csak 4 szakértő aktív a 32-ből, így a ténylegesen használt paraméterek száma csupán 3,6 milliárd körül mozog. Ez a megoldás jelentősen csökkenti a szükséges számítási kapacitást és memóriát, miközben megtartja a nagy modell minőségét. Egy modern M3 Ultra processzorral például így körülbelül 115 token másodpercenkénti generálása válik lehetővé, ami rendkívül gyorsnak számít ilyen paraméterméret mellett.

Miért érdemes MoE-ket alkalmazni?

Az egyik legnagyobb előnye az, hogy adott számítási keret mellett a MoE modellek általában hatékonyabban tanulnak, mint a hagyományos sűrű modellek. Ez gyorsabb iterációs ciklusokat és jobb skálázhatóságot jelent, ami rendkívül fontos a fejlesztési folyamatok során. Emellett a MoE modellarchitektúra természetes módon kínál párhuzamosítási lehetőségeket: mivel a különböző tokenek különböző szakértőket hívnak meg, a számításokat egyszerűen el lehet osztani több processzor vagy gép között.

A piacon is egyre több nyílt forráskódú és ipari MoE modell jelenik meg, mint például a Qwen 3.5, MiniMax M2 vagy a GLM-5. A trendet tovább erősítette a DeepSeek R1 sikere 2025 elején, de a ChatGPT-hez hasonló zárt rendszerek is feltehetően használnak valamilyen ritkított architektúrát. Ezek a fejlesztések mind azt mutatják, hogy a MoE-k a jövő nyelvi modelljeinek egyik kulcsfontosságú irányát jelentik.

Hogyan támogatják a Transformers könyvtárak a MoE-ket?

A MoE-k bevezetése komoly mérnöki kihívást jelentett a meglévő eszközök, például a Transformers könyvtárak számára, amelyek eredetileg sűrű modellek kezelésére készültek. A szakértők súlyainak betöltése, a futtatási logika, a párhuzamosítás és a kvantizáció mind újragondolást igényelt, hogy hatékonyan kezeljék a ritkított architektúrákat.

Az egyik fontos lépés volt a súlyok betöltésének átszervezése: míg sűrű modelleknél egy-egy súlymátrix egy az egyben a modell paraméteréhez tartozik, MoE-knél minden szakértő saját, különálló súlyhalmazzal rendelkezik, amelyek egy checkpointban külön-külön vannak tárolva. Ez megkövetelte a betöltő pipeline és a futtató környezet átalakítását, hogy a párhuzamos feldolgozás mellett a memóriakezelés is hatékony legyen.

Ha mélyebben érdekel a téma, érdemes elolvasni ezt a átfogó cikket, amely részletesen bemutatja a MoE-k működését és integrációját a modern nyelvi modellekben.