-
SILMA TTS: Könnyű kétnyelvű beszédszintetizáló modell
Az AI és a természetes nyelvi technológiák világában egyre nagyobb figyelmet kapnak a beszédszintetizáló rendszerek, vagyis a text-to-speech (TTS) modellek. Ezek az eszközök lehetővé teszik, hogy a gép által generált hang természetes módon szólaljon meg, legyen szó akár asszisztensekről, oktatási anyagokról vagy akadálymentesítési megoldásokról. Nemrégiben a SILMA AI bemutatta legújabb fejlesztését, a SILMA TTS v1-et, amely egy könnyű, mindössze 150 millió paraméteres, kétnyelvű modell, amely kiválóan kezeli az arab és az angol nyelvet. Ez a megoldás különösen fontos lépés a kevésbé támogatott nyelvek számára, miközben nyílt forráskódú koncepciójával széles körben elérhetővé teszi a legmodernebb technológiát. Miért volt szükség a SILMA TTS-re? Az arab nyelv világszerte több mint 400 millió beszélővel…
-
Az első nyílt platform az arab beszédszintetizálás értékelésére
Az arab nyelvű szöveg-beszéd átalakítás (TTS) területén a minőség megítélése mindig is nagy kihívást jelentett a nyelv dialektikus sokszínűsége miatt. Egy friss kezdeményezés, az Arabic TTS Arena azonban új irányt mutat, hiszen a sakkozásból ismert Elo-rendszert alkalmazza, hogy közösségi alapon rangsorolja a beszédszintetizáló modelleket. Ez az innovatív megközelítés lehetővé teszi, hogy a felhasználók saját fülükre hagyatkozva döntsenek arról, melyik hangszintézis a legtermészetesebb, legkifejezőbb az arab nyelv különböző változataiban. Hogyan működik az Arabic TTS Arena? A rendszer egyszerű, mégis rendkívül hatékony: a felhasználó beír egy arab nyelvű mondatot, majd két véletlenszerűen kiválasztott TTS-modell által generált hangfelvételt hallgat meg. A modellek identitása rejtve marad, így a szavazás teljesen pártatlan. A hallgatók eldönthetik,…