Mesterséges intelligencia

WAXAL: Nyitott adatbázis afrikai nyelvű beszédfeldolgozáshoz

A hangvezérelt technológiák, mint a virtuális asszisztensek vagy az automatikus átírás, forradalmasították a számítógépes interakciókat. Ugyanakkor ezek az újítások elsősorban a világ legelterjedtebb és legtöbb erőforrással rendelkező nyelveit támogatják, így több százmillió ember – különösen Szaharától délre fekvő Afrikában, ahol több mint 2000 nyelv él – nem tudja anyanyelvén használni ezeket a lehetőségeket. Ezt a jelentős egyenlőtlenséget kívánja kezelni a Google Research több éves munkája nyomán létrejött WAXAL projekt, amely egy nagyszabású, nyílt hozzáférésű beszédadatbázist hozott létre 27 afrikai nyelven.

Mi az a WAXAL?

A WAXAL egy olyan adatgyűjtemény, amely több mint 100 millió anyanyelvi beszélő által használt afrikai nyelvet fed le, és amelyet több mint 26 országban használnak. A 2021-ben indult projekt során afrikai egyetemek és közösségi szervezetek együttműködésével hozták létre a minőségi, nyílt licencű adatokat, amelyek alapot szolgáltatnak fejlett beszédfelismerő (ASR) és szöveg-beszéd átalakító (TTS) rendszerekhez. Első ütemben több mint 1800 óra spontán, természetes beszéd hanganyagát és 565 óra kiváló minőségű stúdiófelvételt tartalmaz az adatbázis.

Két különleges adatbázis egyben: ASR és TTS

A WAXAL két fő részből áll. Az ASR-gyűjteményben a résztvevők nem előre megírt szöveget olvastak fel, hanem képeket és vizuális ingereket kommentáltak anyanyelvükön, így sikerült rögzíteni a természetes beszéd árnyalatait, például a tónusokat vagy az idegen nyelvi váltásokat. Ez a módszer sokkal autentikusabb hanganyagokat eredményezett, mint a hagyományos, szkriptelt felvételek.

A TTS részhez több mint 565 óra kiváló hangminőségű, fonetikailag kiegyensúlyozott felvétel készült, amelyet helyi közösségi tagok stúdiókban rögzítettek. Ezeknek a felvételeknek köszönhetően természetes hangzású, mesterséges beszédet lehet előállítani a támogatott nyelveken.

Az afrikai kutatóközösség szerepe és együttműködés

A WAXAL sikere nagyban köszönhető annak, hogy a projektet afrikai egyetemek és civil szervezetek vezették, Google szakértők támogatásával. Például a Makerere Egyetem kilenc nyelv adatgyűjtésében vett részt, míg a ghánai egyetemek nyolc nyelvhez járultak hozzá. Az etiópiai Digital Umuganda és az Addis Ababa Egyetem pedig több nyelv ASR-adatainak gyűjtését koordinálta. A TTS-felvételeket a Media Trust, Loud n Clear és az African Institute for Mathematical Sciences Senegal közösen készítette.

Fontos szempont, hogy az összegyűjtött adatok tulajdonjoga a helyi partnereké marad, ezzel is biztosítva a közösség érdekeinek védelmét és a nyílt hozzáférést. Ez a mindkét fél számára előnyös együttműködés már most új kutatásokhoz vezetett, például olyan projektekhez, amelyek a beszédkorlátozott felhasználók számára készítenek adatbázisokat, vagy amelyek speciális, alacsony erőforrású környezetekhez igazított technológiákat fejlesztenek.

A WAXAL projekt nem csupán egy adatbázis, hanem egy dinamikusan bővülő platform, amely áthidalhatja a digitális szakadékot Afrika nyelvi sokszínűségében. Ha többet szeretne megtudni erről az innovatív kezdeményezésről, ajánljuk figyelmébe a részletes bemutatót, amelyben mélyebben megismerheti a projekt hátterét és céljait.