Miért hibáznak az IT-ügynökök? IBM és Berkeley feltárja a titkokat

Az utóbbi években a mesterséges intelligencia és a nagy nyelvi modellek (LLM-ek) egyre nagyobb szerepet kaptak az informatikai automatizálásban. Különösen az IT ügynökök, vagyis az önállóan működő szoftveres asszisztensek, amelyek komplex feladatokat végeznek el, például hibák diagnosztizálását vagy rendszerkarbantartást. Az IBM Research és a Kaliforniai Egyetem Berkeley kutatói közösen vizsgálták, hogy miért hibáznak ezek az ügynökök, és hogyan lehetne ezt a problémát jobban megérteni és kezelni.

A „fekete doboz” probléma az ügynökértékelésben

A szakmai világban megszokott, hogy az automatizált rendszerek teljesítményét egyetlen számjeggyel mérik, például sikeres vagy sikertelen futás alapján. Ez azonban nem árulja el, mi okozza a hibát, vagyis a rendszerek működésének belső problémái rejtve maradnak – ezért nevezik ezt „fekete doboz” problémának. Az IBM és Berkeley kutatói ezért az ITBench nevű ipari benchmarkot és az új MAST elemző eszközt használták, hogy feltárják, pontosan hol és milyen hibák jelentkeznek az ügynökök működése során.

Mit mutattak a vizsgálatok?

A kutatók három különböző ügynökosztályt elemeztek: a Gemini-3-Flash nevű élvonalbeli modellt, valamint a nyílt forráskódú Kimi-K2 és GPT-OSS-120B modelleket. Kiderült, hogy az erősebb, fejlettebb Gemini-3-Flash hibái jellemzően izoláltak, vagyis egy-egy konkrét ponton buknak el, például a feladatellenőrzés során. Ezzel szemben a nyílt modelleknél a hibák egymásra rakódva, láncreakcióként jelentkeznek, ami jelentősen megnehezíti a problémák feltárását és javítását.

Az egyik leggyakoribb és legveszélyesebb hiba a helytelen ellenőrzés (FM-3.3) volt: az ügynökök gyakran „győztesként” deklarálták magukat anélkül, hogy valóban ellenőrizték volna az eredmény helyességét. Ez különösen a Gemini-3-Flash esetében volt jellemző, amely döntő volt ugyan, de túlzottan magabiztos a hibái felett.

Halálos és nem halálos hibák – hogyan különböztessük meg?

A kutatás megkülönböztette a „nem halálos”, vagyis enyhébb és javítható hibákat a „halálos”, a rendszer összeomlásához vezető problémáktól. Például a Kimi-K2 modell gyakran nem ismerte fel, mikor kell befejeznie a feladatot, így előfordult, hogy túl korán leállt vagy végtelen ciklusba került. Ez a fajta hiba a feladat megszakításához vagy elakadásához vezetett.

Az elemzés azt is javasolja, hogy az ilyen ügynökök fejlesztése során külön kell kezelni a hibák típusait, és például a terminációt, vagyis a feladat befejezésének szabályait érdemes a modellből kiszervezni, hogy egy külső logika kontrollálja azt. Ez csökkentheti az ismétlődő ciklusok vagy az idő előtti leállások esélyét.

Az MAST: egy új mérce az ügynökök megbízhatóságának elemzésére

Az IBM és Berkeley kutatói az MAST (Multi-Agent System Failure Taxonomy) rendszert alkalmazták, amely egy újfajta, strukturált elemzési módszer az ügynökrendszerek hibáinak feltérképezésére. Az MAST segítségével a nyers végrehajtási naplókból 14 különböző hibamintát tudnak azonosítani három fő kategóriában: a rendszertervezési hibák, a kommunikációs problémák és a helytelen működésből fakadó bakik.

Ez a megközelítés lehetővé teszi, hogy ne csak azt tudjuk meg, hogy az ügynök hibázott, hanem azt is, hogy pontosan milyen hiba történt, és hol kell beavatkozni a rendszer stabilabbá tétele érdekében. Így a fejlesztők sokkal célzottabban tudnak javításokat eszközölni, és elkerülhetik a vakon történő próbálkozásokat, amelyek gyakran csak újabb hibákhoz vezetnek.

Az IT automatizálásban dolgozó szakemberek számára ma már nem elég csak azt látni, hogy az ügynök „átment” vagy „megbukott” egy teszten. Ennél sokkal értékesebb információ, hogy mi tört el, hol és hogyan érdemes javítani. Ez a szemléletmód segíthet abban, hogy a jövő automatizált informatikai rendszerei megbízhatóbbak, hatékonyabbak és kevésbé hajlamosak legyenek váratlan hibákra.