Hatékonyabb megerősítéses tanulás: 16 nyílt forráskódú könyvtár tanulságai

A mesterséges intelligencia és a gépi tanulás egyik legizgalmasabb területe ma a megerősítéses tanulás (reinforcement learning, RL), amely folyamatosan fejlődik, hogy a nagy modellek és komplex környezetek igényeit is kiszolgálja. A hagyományos, szinkronizált RL-tréning azonban egyre kevésbé hatékony, hiszen a modellgenerálás (inferencia) időigényesebb, mint maga a tanítás, így a drága GPU-k sokszor tétlenül várakoznak. Ez a probléma vezette a kutatókat és fejlesztőket arra, hogy az aszinkron (async) tréningarchitektúrák felé forduljanak, melyekben a generálás és a tanítás külön erőforrásokon, párhuzamosan fut, hogy a teljes rendszer kihasználtsága javuljon.

Szinkronból aszinkronba: miért vált kritikus a váltás?

A hagyományos RL-tréningek során a modell egy adott batch adaton egyszerre fut át, majd a paramétereket frissítik, és kezdődik az újabb kör. Ez azonban komoly szűk keresztmetszetet jelent, különösen akkor, ha a modellek nagyon nagyok, és a rolloutok (adatgenerálások) hosszúak. Például egy 32 milliárd paraméteres modell esetén egy 32 ezres token batch generálása órákig is eltarthat, miközben a GPU-k inaktívak maradnak. Ráadásul az újabb algoritmusok, mint a kritikus nélküliek vagy a multi-agent rendszerek, még bonyolultabbá és lassabbá teszik a folyamatokat, hiszen a lassabb komponensek (stragglerek) miatt a teljes rendszer teljesítménye romlik.

Az aszinkron megközelítés lényege, hogy a generálás és a tanítás külön GPU-csoportokon történik, egy úgynevezett rollout buffer (ideiglenes tároló) köti őket össze. A modell súlyait pedig nem várakozva, hanem aszinkron módon frissítik, így egyik fél sem áll le a másikra várva. Ez a stratégia jelentősen megnöveli a GPU-k kihasználtságát és a tanulási sebességet.

Mit tanulhatunk a 16 nyílt forráskódú RL könyvtár összehasonlításából?

Egy friss elemzés során tizenhat, nyílt forráskódú RL könyvtárat vizsgáltak meg, amelyek mind az aszinkron tanításra fókuszálnak. A kutatók hét fő szempont mentén hasonlították össze őket, többek között az orchestration és párhuzamosság kezelésében, a rollout buffer kialakításában, a súlyok szinkronizációjában, az elavult adatok kezelésében, részleges rollout támogatásban, LoRA (Low-Rank Adaptation) támogatásban, valamint a párhuzamos és elosztott tanítási backendekben.

Kiderült, hogy az orchestration terén a Ray könyvtár dominál, amely a vizsgált rendszerek felében megtalálható. A súlyok átvitelénél az NVIDIA NCCL (Collective Communications Library) broadcast megoldása a legelterjedtebb, mivel nagy hatékonysággal kezeli a modellparaméterek aszinkron frissítését. Az elavult adatminták kezelése viszont még megoldatlan probléma: a legtöbb könyvtár egyszerűen kidobja a régieket, míg néhány fejlettebb rendszer fontossági mintavételezést alkalmaz.

Érdekesség, hogy a LoRA-alapú finomhangolás még kevéssé támogatott, pedig ez a technika egyre népszerűbb a modellek hatékony adaptálásában. A jövő egyik fontos iránya a Mixture of Experts (MoE) modellek elosztott kezelése, ami jelentős előrelépést hozhat a nagy modellek skálázásában.

Az aszinkron RL tréning kulcstervezési elvei a gyakorlatban

A Transformers Reinforcement Learning (TRL) csapata a saját, aszinkron trénerének tervezésekor három alapelvet követ: könnyű orchestration, egy tokenenként korlátozott queue használata (elkerülve a dupla bufferelést), NCCL alapú súlyszinkronizáció csomagolt adatátvitellel, valamint részleges rollout támogatás az agent-alapú, változatos feladatokhoz. Ennek köszönhetően a modellgenerálás és a tanítás folyamatosan, akadálytalanul zajlik, minimalizálva a GPU-k állásidejét.

Az ilyen megoldások nem csupán a hatékonyságot növelik, de a modern RL képességek, például a hosszú kontextusú gondolkodás, a multi-agent együttműködés vagy a finomhangolás új módszerei is csak így tudnak skálázhatóan működni. Ha többet szeretnél megtudni az aszinkron RL-technológiák jelenlegi helyzetéről és trendjeiről, érdemes átnézni ezt a átfogó összefoglalót.