Az új NVIDIA NeMo Retriever: a jövő agentikus keresőrendszere

Az NVIDIA NeMo Retriever csapata új szintre emelte a dokumentumkeresést egy innovatív agentikus kereső pipeline-nal, amely nemcsak a ViDoRe v3 versenyen szerezte meg az első helyet, hanem a komplex gondolkodást igénylő BRIGHT ranglistán is a második helyen végzett. Ez az új megközelítés túllép a hagyományos szemantikai hasonlóságon, és dinamikusan alkalmazkodik a különböző típusú feladatokhoz, így jelentősen megnöveli a keresőmotorok általános használhatóságát és hatékonyságát.

Miért nem elég a szemantikai hasonlóság?

A hagyományos információkeresők többsége a szemantikai hasonlóságra épít, vagyis arra, hogy a lekérdezés és a dokumentumok közötti nyelvi hasonlóságot mérje. Ez a módszer jól működik egyszerűbb, homogén adatbázisok esetén, de a valós üzleti környezetek sokkal összetettebbek. Itt nem elég csupán releváns szavakat találni, hanem szükség van a mélyebb értelem megértésére, komplex összefüggések feltárására, logikai következtetések levonására.

Az NVIDIA megoldása ezt az ellentmondást hidalja át az úgynevezett agentikus kereséssel, amely egy iteratív folyamatban ötvözi a nagy nyelvi modellek (LLM) gondolkodó képességét és a gyors, hatalmas dokumentummennyiséget átfésülő retriever-ek sebességét. Így a rendszer nem egyszerűen keres, hanem folyamatosan tanul, finomhangol és új megközelítéseket próbál ki a lekérdezés megválaszolásához.

Az agentikus kör: hogyan működik a NeMo Retriever?

Az agentikus pipeline az úgynevezett ReACT architektúrán alapul, amely nem egyetlen keresési lépésből áll, hanem egy ciklikus folyamatból. Az LLM „gondolkodik”, megtervezi a keresési stratégiát, majd a megfelelő lekérdezésekkel megkeresi a releváns dokumentumokat. Ezután újraértékeli az eredményeket, újrafogalmazza a kérdéseket, és végül kiválasztja a legfontosabb találatokat.

A rendszer képes összetett, több részből álló kérdéseket kisebb, jól definiált részkérdésekre bontani, így könnyebb és pontosabb találatokat ad. Ha pedig a folyamat során eléri a lépésszám vagy kontextushossz korlátját, egy biztonsági mechanizmus, a Reciprocal Rank Fusion (RRF) veszi át az irányítást, amely a különböző lekérdezések rangsorait kombinálja a végső eredményhez.

Mérnöki újítások a sebességért és skálázhatóságért

Az agentikus megközelítés hatalmas számítási igénnyel jár, és a kísérleti fázisban az eredeti architektúra jelentős lassulást és komplex üzemeltetési problémákat okozott. Az NVIDIA mérnökei ezért áttervezték a rendszert, megszüntetve a különálló szerverkomponenseket, és bevezették a thread-safe singleton retrievert. Ez a megoldás egyetlen folyamatban, párhuzamosan több feladattal is képes biztonságosan dolgozni, így jelentősen megnőtt az erőforrások kihasználtsága és az iterációk sebessége.

Általánosíthatóság és rugalmasság a versenyeken

Az egyik legnagyobb kihívás a keresőrendszerek fejlesztésében, hogy az egyes megoldások sokszor csak speciális feladatokra optimalizáltak, és más területeken gyengén teljesítenek. Az NVIDIA NeMo Retriever azonban olyan architektúrát kínál, amely különböző típusú adathalmazokon is megállja a helyét anélkül, hogy alapvető változtatásokat kellene eszközölni.

Például a BRIGHT leaderboardon, amely elsősorban komplex logikai következtetéseket vár el, a NeMo pipeline a második helyen végzett. Ezzel szemben a ViDoRe v3 verseny, amely vizuálisan gazdag, vállalati dokumentumokra fókuszál, az első helyet hozta el számára. Összehasonlításképpen, egy másik top megoldás, amely a BRIGHT-on jól szerepelt, a ViDoRe v3-on nem tudott felülmúlni egy egyszerű dense retrieval modellt.

Az NVIDIA NeMo Retriever fejlesztése és működésének részleteiről bővebben is olvashatunk a hivatalos blogbejegyzésben, ahol mélyebb technikai magyarázatokat is találunk az agentikus keresés működéséről és mérnöki megoldásairól.