LLM alapú hangmodellek: egyszerűség és sokoldalúság a jövő hangjainál

Az utóbbi időben egyre nagyobb figyelmet kapnak a mesterséges intelligencia által vezérelt hanggeneráló rendszerek, amelyek forradalmasítják a szöveg-beszéddé alakítást (TTS) és más hangfeldolgozási feladatokat. A korábbi, komplex és speciális megoldások helyett az újabb fejlesztések, mint például az Orpheus, Spark-TTS vagy Kimi-Audio, egy egyszerűbb, mégis hatékony architektúrára építenek. Ez az új megközelítés két fő komponensből áll: egy neurális kodekből és egy nagy nyelvi modellből (LLM), melyek együtt képesek nemcsak kiváló minőségű beszédet generálni, hanem többféle hangfeldolgozási feladatot is ellátni, például automatikus beszédfelismerést (ASR).

A neurális kodekek szerepe

A neurális kodekek lényege, hogy az analóg vagy digitális hangjelet diszkrét tokenekké alakítsák át, majd szükség esetén vissza is alakítsák azt hanggá. Számos különböző kodek létezik, amelyek eltérő jellemzőkkel bírnak. Fontos szempont például, hogy más-más a tokenek száma másodpercenként – ez befolyásolja a modell sebességét és minőségét. Például az Llasa által fejlesztett XCodec2 50 token/másodperc aránnyal dolgozik, míg az Orpheus Snac kodekje 83 tokennel. Az alacsonyabb token-per-másodperc érték gyorsabb működést tesz lehetővé, bár a minőség vagy a tömörítés mértéke ettől függően változhat.

Szintén eltérnek a kodekek abban, hogy egy- vagy több kódtárat (codebook) használnak, illetve abban, hogy egyetlen átfutás alatt dolgoznak-e vagy iteratív, diffúziós módszert alkalmaznak, amik lényegesen lassabbak ugyan, de bizonyos esetekben jobb hangminőséget eredményezhetnek. Fontos még a mintavételezési frekvencia is: például a Snac 24 kHz-en, míg a Zonos DAC 44,1 kHz-en működik, ami a hang tisztaságát befolyásolja.

A nagy nyelvi modellek hanggenerálásban betöltött új szerepe

Ha a neurális kodekek a hang-adatok elő- és visszakódolásáért felelősek, akkor a nagy nyelvi modellek (LLM-ek) azok, amelyek a szöveget „hangnyelvre” fordítják. Ezek a modellek, melyeket eredetileg szöveges nyelv feldolgozására fejlesztettek ki, most úgy vannak kiterjesztve, hogy az audio tokeneket is tudják kezelni – tulajdonképpen az audio egy újfajta „nyelvként” jelenik meg előttük.

Ez azt jelenti, hogy az LLM-ek szókincsét kibővítik az audio tokenekkel, így képesek szövegből vagy akár referencia hangból (például egy adott beszélő hangmintájából) új hangokat generálni. Ez a megközelítés számos előnnyel jár: nem szükséges bonyolult fonéma-alapú előfeldolgozás, és támogatja a hangklónozást is egyszerűen, csak a megfelelő prefix audió tokeneket és azok szöveges megfeleltetését kell megadni.

Az LLM alapú hangmodellek előnyei

Az egyik legnagyobb előnye ezeknek a megoldásoknak a skálázhatóság. Az LLM-eket már eleve úgy fejlesztik, hogy nagy hatékonysággal tudjanak nagy mennyiségű adatot kezelni, köszönhetően például a kvantizációnak, gyors gyorsítótár-kezelésnek és optimalizált futtató környezeteknek. Így a hanggenerálás és -feldolgozás is gyors és hatékony lehet.

Emellett az LLM alapú rendszerek multimodális képességekkel is rendelkeznek: egyetlen modell képes egyszerre szöveg-beszéd (TTS), beszéd-felismerés (ASR) és akár beszéd-beszéd fordítást is végezni, pusztán a betanító adatok módosításával, anélkül, hogy az architektúrát újra kellene tervezni. Ez a rugalmasság például a Kimi-Audio projektben is jól megfigyelhető.

Nem véletlen tehát, hogy a technológiai közösség egyre lelkesebben fordul az LLM alapú audio megoldások felé, hiszen ezek nemcsak egyszerűbbek, hanem sokoldalúbbak és jövőállóbbak is.

Ha mélyebben érdekelnek a témában rejlő lehetőségek és a legújabb fejlesztések, érdemes elolvasni ezt az átfogó összeállítást is: anchor szöveg.