Tucano 2: Nyílt forráskódú nyelvi modellek a portugál nyelvért

A mesterséges intelligencia világában az angol nyelv uralkodik, ám a globálisan több száz millióan beszélt portugál nyelv gyakran háttérbe szorul a nyílt forráskódú nyelvi modellek fejlesztése során. Ezt a hiányt igyekszik betölteni a Tucano 2 projekt, amely egy teljesen átlátható, a portugál nyelv sajátosságaira optimalizált nyelvi modellcsaládot hozott létre 0,5 milliárdtól egészen 3,7 milliárd paraméterig. Ebben a cikkben bemutatjuk, hogyan született meg ez a kezdeményezés, milyen kihívásokkal szembesültek a fejlesztők, és miért lehet ez mérföldkő a nyílt nyelvi modellek között.

Miért van szükség portugál specifikus modellekre?

Bár a nagy, többnyelvű modellek, mint például a Qwen3, Gemma 3 vagy Falcon 3 tartalmaznak portugál nyelvű adatokat, ezek nem igazán optimalizáltak a nyelv sajátosságaira. Gyakran csupán az angol nyelvű adatbázisok melléktermékeként kezelik a portugált, ami miatt a portugál nyelvű finomhangolás jelentős javulást hozhat. A meglévő portugál nyelvű modellek többsége ráadásul nem osztja meg sem az adatokat, sem a képzési folyamat részleteit, így más kutatók számára nehéz vagy lehetetlen az előrelépés. A Tucano 2 ezzel szemben nemcsak a modelleket, hanem a teljes fejlesztési környezetet, az adatokat, az értékelő eszközöket és a kódot is nyíltan elérhetővé teszi, támogatva ezzel a közösségi együttműködést és a további fejlesztéseket.

Adatgyűjtés és tisztítás: a GigaVerbo-v2

Egy jól működő nyelvi modell alapja a minőségi adat, ami a portugál esetében különösen nehéz feladat. A Tucano 2 csapata létrehozta a GigaVerbo-v2-t, egy 320 milliárd tokenből álló, gondosan megtisztított portugál nyelvű korpuszt, amelyben 372 millió dokumentum található. Az adatokat egy fejlett minősítő rendszerrel szűrték, amely egy nagy nyelvi modell (Qwen2.5-32B) segítségével 700 ezer dokumentumot értékelt oktatási érték és toxikusság szempontjából. Ezekből kisebb, gyorsabb osztályozókat fejlesztettek ki, amelyek a teljes korpuszt képesek voltak kategorizálni.

Ezen felül létrehozták a GigaVerbo-v2 Synth nevű, 9,3 milliárd tokennyi mesterségesen generált adatkészletet, amely speciális hiányosságokat – például tudományos érvelést vagy kódolási példákat – pótol. Kísérleteik azt mutatták, hogy a modell teljesítménye jelentősen javult, ha az oktatási szempontból értékes és a szintetikus adatok keverékét használják, szemben a tisztítatlan webes szövegekkel.

Speciális tokenizáló a portugál nyelvhez

Mielőtt egy nyelvi modell szöveget dolgoz fel, a szöveget kisebb egységekre, úgynevezett tokenekre kell bontani. A legtöbb létező tokenizáló angol nyelvű szövegekhez készült, ezért a portugál szavakat túl sok darabra bontják, ami megnöveli a számítási költségeket és lassítja a modellt. A Tucano 2 fejlesztői ezért egy saját, portugálra optimalizált tokenizálót készítettek, amely egyensúlyban kezeli a portugál, az angol és a kódnyelvi szövegeket, körülbelül 49 ezer tokenes szókészlettel.

Tesztek során ez a megoldás jelentősen jobb eredményt hozott a tokenek számát és a karakter/token arányt tekintve, mint a Qwen3, Llama 3.2 vagy SmolLM3 tokenizálói, ami akár 30%-os számítási megtakarítást is jelenthet a képzés során. Ez a fejlesztés kulcsfontosságú, ha több száz milliárd token feldolgozásáról van szó.

Két út a kiváló modell felé

A Tucano 2 projekt kétféle megközelítést alkalmazott a modellképzés során: az egyik a modellt nulláról, tiszta adatból építi fel, míg a másik a már létező, nagy teljesítményű modellek folyamatos továbbképzésére épít. Ez a kettős stratégia lehetővé tette, hogy a tucano 2 család különböző paraméterű modelljei kiemelkedő teljesítményt nyújtsanak a portugál nyelvű feladatok széles skáláján, legyen szó egyszerű szövegfeldolgozásról, programozásról vagy komplex érvelésről.

Teljes átláthatóság és közösségi használat

A projekt egyik legfontosabb hozadéka, hogy minden egyes részlet – a nyers adatoktól kezdve a tisztító algoritmusokon és a képzési paramétereken át az értékelő benchmarkokig – nyílt licenc alatt hozzáférhető. Így nemcsak reprodukálhatóak az eredmények, hanem a közösség szabadon fejlesztheti, módosíthatja és új projektek alapjául használhatja a Tucano 2-t. Ha érdekel, hogyan működik pontosan ez a magyar szemmel is izgalmas fejlesztés, ajánlom figyelmedbe a részletes bemutatót, amely még mélyebb betekintést nyújt a projektbe.