Mesterséges adatokkal erősített Python-tudás a nagy nyelvi modellekben

A nagy nyelvi modellek (LLM-ek) fejlesztése során nem csupán az adat mennyisége, hanem annak minősége és célzott jellege is kulcsfontosságú. Bár a jelenlegi előképzési adathalmazok hatalmas információtömeget tartalmaznak, gyakran hiányzik belőlük az a koncepcionális fókusz, amely például a programozási képességek vagy a logikai következtetés fejlesztéséhez szükséges. Egy új kutatási megközelítés most ezt a hiányt igyekszik pótolni: egy olyan skálázható, koncepció-alapú szintetikus adatgenerálási folyamatot dolgoztak ki, amely lehetővé teszi a specifikus készségek célzott erősítését. Az első eredményként 15 millió Python programozási feladatból álló mesterséges adatbázist hoztak létre, amely a Nemotron-Pretraining-Code-Concepts névre hallgat, és a Nemotron-Pretraining-Specialized-v1.1 adatcsomag része.

Célzott adatgenerálás a programozási tudás mélyítésére

A fejlesztők egy alaposan felépített, hierarchikus programozási fogalomtaxonómiára építve készítették el ezt az adatbázist, amely több ezer programozási koncepciót rendszerez, az alapvető elemek – mint a rekurzió vagy sztringkezelés – mellett az összetettebb algoritmusokat és adatstruktúrákat is lefedi. Ez a taxonómia lehetővé teszi, hogy a kutatók és fejlesztők kombinálják és szelektálják a fogalmakat, így szabályozhatják a generált feladatok nehézségét, sokszínűségét és tematikus egyensúlyát.

Az adatgenerálás során GPT-OSS 120B modellt használtak, amely a kiválasztott fogalmak alapján kidolgozott utasítások és korlátozások mentén állított elő újabb és újabb programozási problémákat. Minden egyes generált feladatot automatikusan ellenőriztek a Python beépített ast.parse függvényével, így garantálva, hogy a kód működőképes és helyes legyen. A folyamat során például egy feladat, amely a halmazműveleteket, tömbfeldolgozást és számítógépes geometria algoritmusokat ötvözi, olyan komplex kihívást teremt, mint a konvex burkoló területeinek megszámolása pontokból álló részhalmazok esetén.

Hatékonyabb tanulás, jobb eredmények

Az elkészült 15 millió szintetikus programozási feladatból a kutatók 10 milliárd szót (token-t) illesztettek be a Nemotron-Nano-v3 modell előképzési adatállományába, amely összesen 100 milliárd tokenből állt. Ennek eredményeként a modell teljesítménye a HumanEval benchmarkon jelentősen javult: az eddigi 73 pontos eredményt 79 pontra növelte, ami egyértelmű bizonyítéka a koncepció-alapú adatgenerálás hatékonyságának.

Nem csak a pontszámok mutattak javulást, hanem a modell képességei is szélesedtek: jobb lett a különböző programozási fogalmak, például gráfalgoritmusok vagy halmazműveletek kezelése, valamint a speciális esetek és a végrehajtásra vonatkozó következtetések megértése is. Ez a minőségi előrelépés azt mutatja, hogy a célzott, fogalomközpontú adatgenerálás nem csupán mennyiségi, hanem minőségi szinten is hozzájárulhat a modellek fejlődéséhez.

Közösségi hozzáférés és további lehetőségek

A kutatók a szintetikus adatkészletet és a mögötte álló programozási fogalomtaxonómiát is nyílt, engedékeny licenc alatt (CC-BY-4.0) tették elérhetővé. Ez nemcsak a transzparenciát szolgálja, hanem lehetőséget teremt a közösség számára, hogy továbbfejlesszék, testre szabják és újabb területekre is kiterjesszék ezt a megközelítést. Így a koncepció-alapú adatgenerálás nem egy egyszeri kísérlet marad, hanem egy folyamatosan bővíthető eszköztár a nagy nyelvi modellek fejlesztésében.

Ha érdekel a módszer részletes bemutatása és a kódgenerálás folyamata, érdemes elolvasni ezt a részletes összefoglalót, amely mélyebben is bemutatja az alkalmazott technikákat és eredményeket.