-
Hatékonyabb megerősítéses tanulás: 16 nyílt forráskódú könyvtár tanulságai
A mesterséges intelligencia és a gépi tanulás egyik legizgalmasabb területe ma a megerősítéses tanulás (reinforcement learning, RL), amely folyamatosan fejlődik, hogy a nagy modellek és komplex környezetek igényeit is kiszolgálja. A hagyományos, szinkronizált RL-tréning azonban egyre kevésbé hatékony, hiszen a modellgenerálás (inferencia) időigényesebb, mint maga a tanítás, így a drága GPU-k sokszor tétlenül várakoznak. Ez a probléma vezette a kutatókat és fejlesztőket arra, hogy az aszinkron (async) tréningarchitektúrák felé forduljanak, melyekben a generálás és a tanítás külön erőforrásokon, párhuzamosan fut, hogy a teljes rendszer kihasználtsága javuljon. Szinkronból aszinkronba: miért vált kritikus a váltás? A hagyományos RL-tréningek során a modell egy adott batch adaton egyszerre fut át, majd a paramétereket frissítik,…
-
ShopRLVE-GYM: Intelligens e-kereskedelmi asszisztensek új generációja
Az e-kereskedelem rohamos fejlődésével egyre fontosabbá válik, hogy a vásárlói élmény gördülékeny és hatékony legyen. Bár a nagy nyelvi modellek már képesek folyékony beszélgetésekre, a gyakorlati alkalmazásban, például egy digitális vásárlósegéd szerepében, még mindig akadnak korlátok. A ShopRLVE-GYM nevű új kutatási projekt ezt a problémát célozza meg azzal, hogy az automatizált e-kereskedelmi asszisztensek képzését egy új, adaptív és megbízható környezetben valósítja meg. Miért fontos a megerősítéses tanulás az e-kereskedelemben? A hagyományos felügyelt tanulással (supervised fine-tuning) a modelleket példák alapján tanítják meg bizonyos feladatokra, például termékkeresésre vagy egyszerű kérdések megválaszolására. Azonban a valós vásárlói helyzetek gyakran összetettek: több egymást követő kérdésből álló párbeszéd, több szűrőfeltétel, részleges információk, vagy éppen egy rendelés…
-
GRPO, DAPO és GSPO: Az RL fejlődése a nyelvi modellekben
A nagy nyelvi modellek (LLM-ek) fejlesztése során a megerősítéses tanulás (Reinforcement Learning, RL) kulcsszerepet játszik abban, hogy a modellek egyre kifinomultabb és relevánsabb válaszokat adjanak. A korábban domináns PPO (Proximal Policy Optimization) módszer azonban számos korlátba ütközött, különösen hosszú szövegek és összetett feladatok esetén. Ezen kihívások miatt születtek meg a GRPO, DAPO és GSPO algoritmusok, melyek célja a hatékonyabb, stabilabb és skálázhatóbb megerősítéses tanulás megvalósítása. A GRPO újragondolása A GRPO (Generalized Ratio Policy Optimization) azzal vált ismertté, hogy eltávolította a PPO értékmódellől való függőségét. Ez nagy előrelépés, hiszen a value modellek hiányosságai korlátozták a PPO alkalmazhatóságát, főleg hosszú szövegek esetében. A GRPO lényege a fontossági arány (importance ratio) használata, amely…