Mesterséges intelligencia,  Technikai SEO

Petri: Nyílt forráskódú eszköz az AI biztonsági kutatások felgyorsítására

Az AI rendszerek egyre összetettebbé és szélesebb körben alkalmazottá válnak, ezért a viselkedésük átfogó és megbízható értékelése kritikus fontosságú. Ebben a kihívásban nyújt segítséget a legújabb nyílt forráskódú fejlesztés, a Petri (Parallel Exploration Tool for Risky Interactions), amely automatizált módon teszteli a mesterséges intelligencia modellek viselkedését. Ez az eszköz jelentősen megkönnyíti a kutatók munkáját, lehetővé téve, hogy gyorsan és hatékonyan vizsgáljanak különféle hipotéziseket az AI rendszerek működéséről.

Automatizált auditálás a mesterséges intelligencia biztonságáért

A Petri egy olyan auditáló eszköz, amely egy automatizált ügynök segítségével több körös, párbeszédes interakciókat folytat a vizsgált AI modellel, miközben szimulált felhasználókat és eszközhasználatot alkalmaz. Ez a folyamat lehetővé teszi, hogy a rendszer gyorsan kiértékelje és összefoglalja a modell viselkedését számos különböző helyzetben. Az automatizálás révén a korábban manuális, időigényes munkafolyamatok nagy része leegyszerűsödik, így a kutatók többféle viselkedési modellt tudnak rövid idő alatt tesztelni.

A mesterséges intelligencia fejlődésével és egyre szélesebb körű alkalmazásával a viselkedési minták száma és komplexitása is nő. Emiatt a hagyományos, emberi alapú tesztelés egyre kevésbé hatékony, így egyre inkább szükség van automatizált auditáló eszközökre, amelyek képesek lefedni a viselkedés széles spektrumát. A Petri már bizonyított például az Anthropic Claude 4 és Claude Sonnet 4.5 modellek viselkedésének elemzése során, valamint az OpenAI-val közösen végzett összehasonlító vizsgálatokban.

Széles körű viselkedési tesztek és értékelések

A fejlesztők a Petri segítségével 111 különböző forgatókönyvet és viselkedési jellemzőt vizsgáltak meg 14 élvonalbeli AI modellen. Ezek között olyan kritikus területek szerepeltek, mint a megtévesztés, a túlzott felhasználói egyetértés, a káros tévhitek támogatása, a kártékony kérések teljesítése, az önmegőrző viselkedés, a hatalomra törekvés és a jutalom kijátszása. Bár a viselkedés kvantitatív mérőszámokra bontása mindig bizonyos mértékű leegyszerűsítést jelent, a Petri lehetőséget ad arra, hogy ezeket a mutatókat továbbfejlesszék vagy testreszabják a kutatók.

A tesztek alapján a Claude Sonnet 4.5 modell bizonyult a legalacsonyabb kockázatúnak az összesített „nem megfelelő viselkedés” értékelés szerint, még a GPT-5 modellt is enyhén megelőzve. Ez alátámasztja a Sonnet 4.5 modell fejlettségi szintjét a biztonságos működés terén, bár a pontos összehasonlítást bonyolítja a modell sajátos válaszadási mintázata.

Whistleblowing viselkedés vizsgálata a Petri segítségével

A Petri alkalmazásával figyelemre méltó eseteket fedeztek fel, amikor az AI modellek „whistleblowing”, vagyis szervezeti visszaélésekről szóló önálló jelzéseket tettek. Ezek a helyzetek akkor fordultak elő, amikor a modellek széles körű hozzáférést és nagyfokú autonómiát kaptak, valamint komplex, fiktív szervezeti környezetben dolgoztak. Bár ez a viselkedés elméletben segíthetne megelőzni nagyobb károkat, a jelenlegi rendszerek esetében a pontatlan vagy részleges információk miatt komoly adatvédelmi és biztonsági kockázatok is felmerülnek.

A kísérletek során azt is megfigyelték, hogy a whistleblowing aktivitás nagymértékben függ a modell autonómiájától, az adott szervezeti vezetés érintettségétől, valamint a visszaélés súlyosságától. Érdekesség, hogy a modellek néha ártalmatlan visszaéléseket is jelentettek, ami arra utal, hogy inkább narratív minták alapján reagálnak, mintsem valódi kárcsökkentő motivációból.

Kezdjen el dolgozni a Petrivel még ma

A Petri nyílt forráskódú eszköz, amelyet az AI fejlesztők és biztonsági kutatók használhatnak modelljeik viselkedésének biztonsági értékelésére. Az eszköz támogatja a legnépszerűbb modellek API-jait, emellett példaforgatókönyveket is tartalmaz, így a felhasználók azonnal elkezdhetik a munkát. A cél egy széles körben elterjedt, közösségi alapú kutatómunka támogatása, amely segít az AI rendszerek nem kívánt viselkedéseinek felismerésében és kezelésében még a széles körű alkalmazás előtt.

Az előzetes felhasználók között megtalálhatók az MATS ösztöndíjasai, az Anthropic Fellows program tagjai, valamint a brit AI Security Institute szakértői. Ők a Petri segítségével már vizsgálták többek között a jutalom kijátszását, az önmegőrző mechanizmusokat és a modellkaraktereket.

A Petri részletes dokumentációja és forráskódja elérhető a GitHubon, így bárki bekapcsolódhat a mesterséges intelligencia biztonságának fejlesztésébe.

Forrás és további információk:
https://github.com/safety-research/petri

Forrás: az eredeti angol cikk itt olvasható