• Mesterséges intelligencia

    Mesterséges intelligencia értékelés: új keretrendszer a zavaros benchmarkok helyett

    A mesterséges intelligencia (MI) fejlődése elképesztő ütemben zajlik, ám az értékelés terén egyre több probléma merül fel. A jelenlegi benchmarkok, vagyis a modellek teljesítményét mérő tesztek rendszere egyre inkább telítődik, ami megnehezíti a különbségtételt a legjobb modellek között. Emellett az értékelések forrásai gyakran átláthatatlanok, és az egyes képességek külön-külön mérve nem adják vissza egy adott MI-rendszer teljes komplexitását. Egy friss kutatás ezért egy egységes, 5 tengelyes intelligencia keretrendszert és egy háromszintű megbízhatósági rendszert javasol, amelyek átfogóbb és hitelesebb képet nyújtanak. Benchmark telítettség és az átláthatóság hiánya Az elmúlt években a legnépszerűbb tesztek, mint az MMLU, olyan magas szintekre jutottak, hogy a csúcskategóriás modellek teljesítménye szinte megkülönböztethetetlenné vált. Ezért új, nehezebb…