-
Mesterséges adatokkal erősített Python-tudás a nagy nyelvi modellekben
A nagy nyelvi modellek (LLM-ek) fejlesztése során nem csupán az adat mennyisége, hanem annak minősége és célzott jellege is kulcsfontosságú. Bár a jelenlegi előképzési adathalmazok hatalmas információtömeget tartalmaznak, gyakran hiányzik belőlük az a koncepcionális fókusz, amely például a programozási képességek vagy a logikai következtetés fejlesztéséhez szükséges. Egy új kutatási megközelítés most ezt a hiányt igyekszik pótolni: egy olyan skálázható, koncepció-alapú szintetikus adatgenerálási folyamatot dolgoztak ki, amely lehetővé teszi a specifikus készségek célzott erősítését. Az első eredményként 15 millió Python programozási feladatból álló mesterséges adatbázist hoztak létre, amely a Nemotron-Pretraining-Code-Concepts névre hallgat, és a Nemotron-Pretraining-Specialized-v1.1 adatcsomag része. Célzott adatgenerálás a programozási tudás mélyítésére A fejlesztők egy alaposan felépített, hierarchikus programozási fogalomtaxonómiára…