GRPO, DAPO és GSPO: Az RL fejlődése a nyelvi modellekben

A nagy nyelvi modellek (LLM-ek) fejlesztése során a megerősítéses tanulás (Reinforcement Learning, RL) kulcsszerepet játszik abban, hogy a modellek egyre kifinomultabb és relevánsabb válaszokat adjanak. A korábban domináns PPO (Proximal Policy Optimization) módszer azonban számos korlátba ütközött, különösen hosszú szövegek és összetett feladatok esetén. Ezen kihívások miatt születtek meg a GRPO, DAPO és GSPO algoritmusok, melyek célja a hatékonyabb, stabilabb és skálázhatóbb megerősítéses tanulás megvalósítása.

A GRPO újragondolása

A GRPO (Generalized Ratio Policy Optimization) azzal vált ismertté, hogy eltávolította a PPO értékmódellől való függőségét. Ez nagy előrelépés, hiszen a value modellek hiányosságai korlátozták a PPO alkalmazhatóságát, főleg hosszú szövegek esetében. A GRPO lényege a fontossági arány (importance ratio) használata, amely az új és régi politika valószínűségeinek arányát méri. Ez az arány segít abban, hogy az offline gyűjtött adatok alapján is hatékonyan lehessen frissíteni a modellt, így csökkentve a szükséges mintavételek számát és a számítási költségeket.

Ugyanakkor a GRPO-nak megvannak a maga nehézségei. A token szinten alkalmazott fontossági arányok magas varianciát okoznak, ami különösen problémássá válik a MoE (Mixture of Experts) architektúrák esetén, ahol különböző szakértők dinamikusan aktiválódnak. Ez a variancia instabilitást eredményezhet a tanulásban, és nehezíti a konvergenciát.

Miért jött létre a DAPO?

A DAPO (Dynamic Adaptive Policy Optimization) a GRPO továbbfejlesztett változata, amely több finomhangolást is bevezet a hatékonyság és a stabilitás javítása érdekében. Az egyik legfontosabb újítás, hogy a korábbi fix felső és alsó klippelés helyett a DAPO dinamikusan módosítja a felső határt (1 + ϵ_high), miközben az alsó határt (1 – ϵ_low) változatlanul hagyja. Ez lehetővé teszi, hogy a jó tokenek ne legyenek túl korán korlátozva, ami korábban a GRPO esetében előfordult.

Emellett a DAPO bevezeti a dinamikus mintavételezést, amely intelligensen választja ki a mintákat, hogy elkerülje a számítási erőforrások pazarlását olyan példákra, amelyek kevésbé hasznosak a tanulás szempontjából. A token szintű gradiensveszteség újraértelmezése pedig biztosítja, hogy a hosszabb válaszok ne hígítsák el a fontos gradiensjeleket, így a tanulás hatékonyabbá válik.

GSPO: stabilitás a MoE modellekhez

A MoE architektúrák különösen nehéz terepet jelentenek a token szintű optimalizáció szempontjából. Itt lép be a képbe a GSPO (Generalized Sequence Policy Optimization), amely a finomhangolás szintjét a tokenről a szekvencia szintjére emeli. Ezzel a váltással jelentősen csökken a variancia és a strukturális zaj, ami stabilabb és hatékonyabb tanulást eredményez.

A GSPO ráadásul bevezeti a routing replay mechanizmust, amely segít kezelni a különböző szakértők között fellépő dinamikus váltásokat, így elkerülve a GRPO-nál tapasztalt konvergencia problémákat. Az elméleti gradiens analízis is alátámasztja, hogy a GSPO megoldja a GRPO instabilitását, különösen a MoE modellek tanításánál.

Összegzés és kilátások

A GRPO, DAPO és GSPO algoritmusok egymásra épülve jelentős előrelépést hoztak a nagy nyelvi modellek megerősítéses tanulásában. Míg a GRPO eltávolította a value modell függőségét, addig a DAPO a hatékonyságot és a token szintű finomhangolást javította, végül a GSPO a MoE rendszerek sajátos kihívásaira kínált megoldást a szekvencia szintű optimalizációval.

Ha mélyebben érdekel a téma, érdemes elolvasni az ezt a részletes elemzést, amely alaposan bemutatja a módszerek működését és egymásra épülését. Ezek az újítások továbbra is kulcsfontosságúak lesznek a jövő nyelvi modelljeinek fejlesztésében, különösen az egyre komplexebb és hosszabb szövegeket igénylő alkalmazásokban.