Így gondolkodik egy adatkutató: NVIDIA új AI megoldása tarolt a DABStep-en
Az adatelemzés világa egyre komplexebb kihívásokat támaszt a mesterséges intelligencia rendszereivel szemben. Bár a szöveges információk feldolgozása ma már jól fejlett terület, a strukturált, táblázatos adatok mélyreható elemzése komoly nehézséget jelent a kutató ügynökök számára. Az NVIDIA KGMON (NeMo Agent Toolkit) Data Explorer projektje most azonban egy olyan új megközelítést kínál, amely forradalmasíthatja az adatintenzív kutatást, és első helyezést ért el a DABStep benchmarkon, miközben 30-szor gyorsabb, mint a korábbi legjobb megoldás.
Az NVIDIA KGMON Data Explorer architektúrája
Az NVIDIA fejlesztői egy különleges, autonóm adatelemző ügynököt alkottak, amely képes komplex, több lépéses gondolkodásra, eszközhívásokra és iteratív elemzésre. A rendszer két fő alkalmazási területre fókuszál: nyílt végű exploratív adatfeltárásra (Exploratory Data Analysis, EDA) és szabályalapú, többlépéses táblázatos adatválaszadásra (Tabular Data QA).
Az EDA során a felhasználó egy adatállomány betöltésével kérdéseket vagy utasításokat ad az ügynöknek, amely egy úgynevezett ReAct agent segítségével alakítja át ezeket eszközhívásokra. Ezek az eszközök Jupyter Notebook környezetben futtatnak automatikusan generált kódokat, vizualizációkat készítenek és elemzik azokat. Még az elkészült grafikonokat is egy Vision-Language Model (VLM) elemzi, hogy szöveges értékelést és javaslatokat adjon a vizualizációk továbbfejlesztéséhez. Így az ügynök folyamatosan értelmezni tudja az eredményeket, és egyre pontosabb válaszokat adhat.
Komplex adatkérdések megoldása a DABStep benchmarkon
A DABStep egy speciális tesztkészlet, amely 450 feladatot tartalmaz, elsősorban pénzügyi tranzakciók adataival foglalkozva. Ezek között vannak egyszerűbb, egy adatforrásra épülő feladatok és jóval összetettebb, több lépésből álló problémák, amelyeknél az ügynöknek dokumentációt kell értelmeznie, kódot generálnia (például SQL vagy Pandas nyelven), és több adatforrást összevetve kell választ adnia. A benchmark egyik nagy kihívása, hogy a webes keresés gyakorlatilag nem segíthet, hiszen a kérdések a belső adatstruktúrákra és szabályokra épülnek.
Az NVIDIA csapata egy háromfázisú megközelítést alkalmazott a feladat megoldására. Az első fázisban a tanulási ciklus során általános tudást és speciális eszközöket fejlesztenek ki, amelyeket később újra és újra felhasználhatnak. A második fázis a gyors és hatékony végrehajtás, amikor az ügynök már képes gyorsan reagálni a kérdésekre. A harmadik, felügyelet nélküli offline reflexiós szakaszban az ügynök önállóan elemzi a korábbi válaszokat, és javítja saját működését.
Új paradigma az adatkutatásban
Az NVIDIA KGMON Data Explorer nem csupán egy eszköz, hanem egy újfajta gondolkodásmódot képvisel az adatkutatásban. Azáltal, hogy az elemzés gyors iterációját, automatikus kódgenerálást és vizualizációk készítését egyetlen keretrendszerbe integrálja, jelentősen felgyorsítja és egyszerűsíti a kutatók munkáját. A rendszer képes összetett, több lépésből álló kérdések megválaszolására, miközben fenntartja a rugalmasságot és az átláthatóságot is.
Érdemes mélyebben megismerkedni az NVIDIA megoldásával, amelyről bővebben olvashatunk a hivatalos bemutatóban. A KGMON Data Explorer egyértelműen megmutatja, hogy a mesterséges intelligencia és az automatizált eszközhasználat hogyan képes átalakítani az adatelemzést és a tudományos kutatást a jövőben.