Mikor működnek igazán az AI ügynök rendszerek? Új kutatási eredmények

Az AI ügynökök, vagyis olyan mesterséges intelligencia rendszerek, amelyek képesek önállóan gondolkodni, tervezni és cselekedni, egyre gyakrabban jelennek meg a mindennapjainkban. Legyen szó kódíró asszisztensekről vagy személyre szabott egészségügyi tanácsadókról, a hagyományos egyszeri kérdés-válasz megoldásokat felváltja a hosszabb, többlépcsős interakció. Ez új kihívásokat jelent a fejlesztők számára, hiszen itt már nem elég a pontosság, hanem az is számít, hogy a rendszer egész folyamata mennyire stabil, hiszen egyetlen hiba láncreakciót indíthat el.

Több ügynök = jobb? Egy gyakori tévhit

Gyakran hallani azt a meggyőződést, hogy minél több AI ügynök dolgozik együtt, annál jobb lesz az eredmény. Számos kutatás is ezt erősítette, például az „More Agents Is All You Need” című tanulmány, amely szerint a nagyméretű nyelvi modellek teljesítménye nő az ügynökök számával. Az együttműködő rendszerek pedig akár az egyéni képességeket is képesek felülmúlni a kollektív gondolkodás révén.

Azonban a legújabb kutatás, amelyben 180 különböző ügynök konfigurációt teszteltek, rávilágított arra, hogy ez az egyszerű „több ügynök jobb” elv korántsem igaz minden esetben. Sőt, bizonyos feladatoknál a túl sok ügynök akár ronthatja is a teljesítményt.

Mitől „ügynökös” egy feladat?

A kutatók először azt vizsgálták, hogy milyen feladatokat nevezhetünk „ügynökösnek”. Egy hagyományos statikus teszt nem képes visszaadni az AI ügynökök valódi működésének komplexitását, hiszen ezek a rendszerek hosszabb, többlépcsős interakciókat folytatnak a környezetükkel. Három fő jellemzőt határoztak meg:

Hosszabb, többlépéses interakciók egy külső környezettel,
Részleges információk alapján történő ismétlődő adatgyűjtés,
Az adott környezet visszacsatolásai alapján történő alkalmazkodó stratégiaváltás.

Ezek alapján öt alapvető ügynök architektúrát teszteltek, köztük egyetlen ügynököt és négy különböző többügynökös rendszert, amelyek független, központosított, decentralizált vagy hibrid koordinációt alkalmaznak. A tesztek között szerepelt például pénzügyi elemzés, webes böngészés, tervezés és eszközhasználat is.

A párhuzamosítás és a „sorrendi büntetés”

Az eredmények azt mutatták, hogy a több ügynökös megoldások hatalmas javulást hozhatnak olyan feladatokban, ahol a munkafolyamat párhuzamosítható. Ilyen például a pénzügyi elemzés, ahol különböző ügynökök egyszerre vizsgálják az árbevételt, a költségeket vagy a piacot – ebben a központosított koordináció akár 81 százalékos előnyt is hozhat egyetlen ügynökhöz képest.

Ugyanakkor a szigorúan sorrendi, egymásra épülő gondolkodást igénylő feladatoknál, mint amilyen a tervezés, a több ügynökös rendszerek teljesítménye drámaian – akár 70 százalékkal – romolhat. Ilyenkor a kommunikációs többletterhelés lassítja és fragmentálja a folyamatot, így kevesebb erőforrás jut magára a feladatra.

Az eszközhasználat és a koordináció összefüggése

A kutatók egy további érdekes jelenséget is felfedeztek: a „tool-coordination trade-off” nevű problémát. Minél több különféle eszközt kell használnia az ügynököknek, annál összetettebb a koordináció, ami a hatékonyság rovására mehet. Például egy kódoló AI, amely több tucat különböző eszközt kezel, könnyen keresztezheti a feladatokat, ha nincs megfelelő kontroll és kommunikációs stratégia.

Ezért fontos, hogy az ügynök rendszerek fejlesztésekor ne csak az ügynökök számát növeljük, hanem figyelembe vegyük a konkrét feladat jellemzőit, a párhuzamosíthatóságot és a kommunikációs költségeket is. Így érhető el a legjobb teljesítmény, és kerülhető el a felesleges erőforrás-pazarlás.

A részletes eredmények és módszertan megtalálható a Google kutatási blogján, ahol a témában további izgalmas összefüggéseket is bemutatnak.