Mesterséges intelligencia értékelés: új keretrendszer a zavaros benchmarkok helyett

A mesterséges intelligencia (MI) fejlődése elképesztő ütemben zajlik, ám az értékelés terén egyre több probléma merül fel. A jelenlegi benchmarkok, vagyis a modellek teljesítményét mérő tesztek rendszere egyre inkább telítődik, ami megnehezíti a különbségtételt a legjobb modellek között. Emellett az értékelések forrásai gyakran átláthatatlanok, és az egyes képességek külön-külön mérve nem adják vissza egy adott MI-rendszer teljes komplexitását. Egy friss kutatás ezért egy egységes, 5 tengelyes intelligencia keretrendszert és egy háromszintű megbízhatósági rendszert javasol, amelyek átfogóbb és hitelesebb képet nyújtanak.

Benchmark telítettség és az átláthatóság hiánya

Az elmúlt években a legnépszerűbb tesztek, mint az MMLU, olyan magas szintekre jutottak, hogy a csúcskategóriás modellek teljesítménye szinte megkülönböztethetetlenné vált. Ezért új, nehezebb benchmarkokat vezettek be, ám ezek nem összekapcsolódnak egymással, így egy adott modell „intelligenciájáról” csak töredezett képet kapunk. A probléma súlyosbítja, hogy a legtöbb értékelés a szolgáltató önbevallásán alapul, és nincs független ellenőrzés. Egyes esetekben jelentős eltérések mutatkoztak a valós és a közölt eredmények között, ami rontja a mérési rendszer hitelességét.

Az 5 tengelyes intelligencia keretrendszer és a háromszintű megbízhatósági rendszer

A kutatók egy új, 5 tengelyes keretrendszert dolgoztak ki, amely a mesterséges intelligencia több dimenzióját egyszerre méri, így komplexebb és kiegyensúlyozottabb képet ad. A modell pontszámait pedig egy adatlefedettséget figyelembe vevő formula segítségével súlyozzák, így nem lehet „kiszámolni” egy modellt csak néhány terület kiemelkedő teljesítményével. Az átláthatóság növelése érdekében bevezettek egy háromszintű megbízhatósági rendszert, amely független források által ellenőrzött adatokat jelöl, ezzel is segítve a felhasználókat a valódi teljesítmény objektív megítélésében.

A metakognitív képességek jelentősége

A jelenlegi értékelési rendszerek egy fontos területet hagynak figyelmen kívül: a metakogníciót, vagyis azt, hogy egy MI mennyire képes felismerni saját hibáját és korrigálni azt. Egy új benchmark, a FINAL Bench, kifejezetten ezt a képességet vizsgálja, és az eredmények szerint ez a terület jelentősen elkülöníti egymástól a csúcskategóriás modelleket. Érdekes módon a metakognitív teljesítmény eltérései sokkal nagyobbak, mint a hagyományos tesztekben látott különbségek, ami rámutat, hogy a jövőben ezen képesség fejlesztése kulcsfontosságú lehet az MI-k versenyében.

Multimodális aszimmetriák és nyílt forráskódú megoldások

Az értékelés során különböző multimodális modelleknél (például szöveg és kép együttes értelmezése) is aszimmetriákat találtak, amelyek arra utalnak, hogy egyes modellek erősebben támaszkodnak szöveges vagy vizuális adatokra, és ez befolyásolja a rangsorolásukat az eltérő benchmarkokon. Érdekesség, hogy az egyes nyílt forráskódú modellek már képesek közelíteni a legnagyobb, kereskedelmi rendszerek teljesítményéhez, ráadásul paraméterhatékonyságban is kiemelkedő eredményeket érnek el.

A publikusan elérhető adatok és kódok hozzájárulnak a kutatás átláthatóságához és megismételhetőségéhez, ami különösen fontos az MI fejlődési trendjeinek mélyebb megértéséhez. Ez az új megközelítés egyben a jövőbeni benchmarkok fejlesztésének irányát is kijelöli, amelyben a komplex, több dimenziós és megbízható értékelés válik alapkövetelménnyé.