Madarak hangján tanul az MI, hogy megfejtse a mélytengeri titkokat

A tengeri élővilág és az óceán mélyének megértése mindig is kihívást jelentett a kutatók számára, hiszen a víz alatti világ vizuális feltérképezése korlátozott lehetőségeket kínál. Ezzel szemben a hangok elemzése új ablakot nyit az ismeretlen felé: az óceán mélyén ugyanis rengeteg különleges és egyelőre megfejtetlen zaj szűrődik fel. Egy izgalmas példája ennek a nemrég azonosított „biotwang” hang, amelyet az Amerikai Nemzeti Óceán- és Légkörkutató Hivatal (NOAA) a ritka Bryde-bálnákhoz kötött. Ez is jól mutatja, hogy a tengeri élőlények kommunikációjának észlelése folyamatosan új kihívásokat és felfedezéseket tartogat.

Hogyan segít az MI a tengeri bioakusztikában?

A Google régóta működik együtt tudósokkal a bálnák megfigyelését és védelmét szolgáló bioakusztikai kutatásokban. Korábbi eredményeik között szerepel például a púpos bálna hangjainak felismerésére alkalmas mesterséges intelligencia modell, és 2024-ben egy több fajra kiterjedő bálnahang-azonosító rendszer bemutatása. Azonban a tengeri környezet hangjainak elemzése annyira összetett, hogy a Google folyamatosan fejleszti azokat a mesterséges intelligencia alapú módszereket, amelyek a hallott mintákból gyorsabban és hatékonyabban képesek tudományos következtetéseket levonni.

2025 augusztusában a Google DeepMind bemutatta a Perch 2.0 nevű bioakusztikai alapmodellt, amelyet elsősorban madarak és más szárazföldi állatok hangjainak felismerésére képeztek ki. Meglepő módon, bár a modell nem kapott víz alatti hangokat a tanulás során, mégis remekül teljesített tengeri környezetben végzett feladatokban is, például bálnák hangjainak osztályozásában. Ez az áttörés új lehetőségeket nyit a tengerbiológia és az MI közös kutatásában.

Az átviteli tanulás és hatékonysága a gyakorlatban

Amikor egy kutató új vagy ritka hangmintákat szeretne felismerni, nem feltétlenül kell az egész modellt a nulláról kifejleszteni. Ehelyett a Perch 2.0-hoz hasonló előre betanított modelleket használva egyszerűbb osztályozókat lehet létrehozni, ami jelentősen csökkenti az idő- és erőforrásigényt. A folyamat során a modell „beágyazásokat” (embeddingeket) generál a hangadatokból, amelyek lényegében tömörített jellemzők. Ezekből egy egyszerűbb algoritmus, például logisztikus regresszió segítségével állítják össze az új osztályozót.

Ez a megközelítés különösen hatékony, ha kevés adat áll rendelkezésre, vagy új fajok, hangminták azonosítása a cél. Így a kutatók gyorsan és rugalmasan válaszolhatnak az óceán hangvilágának változásaira, és könnyebben fedezhetnek fel új jelenségeket.

Valós tesztek és eredmények a mélytengeri hangok világában

A Perch 2.0 modellt különböző tengeri hangadatbázisokon tesztelték, például a NOAA PIPAN, ReefSet és DCLDE gyűjteményeken, amelyek különféle bálnafajok és más tengeri élőlények hangjait tartalmazzák. Ezek az adatbázisok segítettek megmutatni, hogy a madarak hangjaira tanított MI hogyan képes megkülönböztetni például a kardszárnyú delfinek populációit vagy a különféle bálnafajokat. Az értékelés során a modellek teljesítményét az AUC_ROC mutató segítségével mérték, amely az osztályozó képesség pontosságát jelzi.

A kutatók rámutatnak, hogy a Perch 2.0 nem csupán pontosabb és gyorsabb felismerést tesz lehetővé, hanem egyúttal megnyitja az utat az automatizált, nagy léptékű óceáni bioakusztikai kutatások előtt is. Az érdeklődők a Google Colab platformján keresztül egy teljes körű, lépésről lépésre vezető oktatóanyagot is elérhetnek, amely bemutatja, hogyan lehet a Perch 2.0 segítségével személyre szabott bálnahang-azonosítót fejleszteni a NOAA hangadatainak felhasználásával.

Ha többet szeretnél megtudni erről az innovatív megközelítésről, érdemes átnézni a Google kutatási blogjának részletes összefoglalóját, ahol még mélyebben belemerülhetsz az MI és a tengeri bioakusztika izgalmas világába.