Fejlődő biztonság: Anthropic új felelősségteljes AI-szabályzata

Az Anthropic nemrégiben bemutatta a felelősségteljes skálázás (Responsible Scaling Policy, RSP) harmadik verzióját, amely egy önkéntes irányelv az AI-katasztrófák elkerülésére. A több mint két éve működő szabályzat célja, hogy lépést tartson az egyre gyorsabban fejlődő mesterséges intelligencia képességeivel, és hatékony válaszokat adjon az újonnan felmerülő kockázatokra.

Miért volt szükség az RSP-re?

Az eredeti RSP 2023 szeptemberében született meg, amikor a nagyméretű nyelvi modellek még elsősorban chatfelületek voltak. Azóta azonban ezek az AI-rendszerek jelentősen fejlődtek: képesek böngészni az interneten, programkódot írni és futtatni, valamint önálló, összetett lépéseket végrehajtani. Ezzel párhuzamosan új veszélyek is megjelentek, amelyek kezelése túlmutat a korábbi szabályozási kereteken.

Az RSP erre a gyorsan változó környezetre adott válaszként az ún. feltételes elkötelezettségek elvén alapul: ha az AI egy bizonyos képességszint fölé lép – például biológiai tudományok terén, ami veszélyes fegyverek előállításához vezethet –, akkor ennek megfelelően szigorúbb biztonsági intézkedéseket kell bevezetni.

Az AI Biztonsági Szintek rendszere

Az RSP különböző „AI Safety Level” (ASL) fokozatokkal dolgozik, amelyek mindegyikéhez egyre komolyabb biztonsági követelmények tartoznak. Az ASL-2 és ASL-3 esetében már pontosan definiálták a szükséges védekezési mechanizmusokat, míg a későbbi szinteket – például ASL-4 és az azt követőek – még csak vázlatosan határozták meg. Ez a megközelítés lehetővé teszi, hogy az irányelv rugalmasan alkalmazkodjon a jövőben várható, még fejlettebb AI-képességekhez.

Mit tanult az Anthropic az elmúlt években?

Két és fél év tapasztalata alapján az Anthropic arra jutott, hogy az RSP több fontos célját sikerült elérni. Egyrészt a szabályzat valóban ösztönözte a vállalatot arra, hogy fejlettebb biztonsági megoldásokat dolgozzon ki. Például az ASL-3 szinthez kapcsolódóan olyan kifinomult szűrőket fejlesztettek, amelyek képesek felismerni és blokkolni a veszélyes tartalmakat, különös tekintettel a biológiai vagy kémiai fegyverekkel kapcsolatos fenyegetésekre.

Másrészt az RSP mintapéldaként szolgált más AI-fejlesztő cégek számára is. Néhány hónappal a szabályzat bejelentése után az OpenAI és a Google DeepMind hasonló biztonsági keretrendszereket vezetett be, és több vállalat is alkalmaz biológiai fegyverekkel kapcsolatos tartalomszűrőket. Ez a „verseny a csúcsra” elv, amely az innováció és a biztonság együttes fejlesztését célozza, szépen kirajzolódik az iparágban.

Az együttműködés és a jövő kihívásai

Az Anthropic eredetileg abban bízott, hogy az RSP képes lesz elősegíteni a szélesebb körű iparági és kormányzati együttműködést is, különösen az olyan magasabb képességű AI-rendszerek esetében, amelyeknél az egyoldalú biztonsági intézkedések már nem elegendőek. Bár ezen a téren még nincs teljes konszenzus, az irányelv nyílt és átlátható működést követel meg, ezzel is támogatva a globális párbeszédet.

Az új RSP verzió további fejlesztéseket tartalmaz az átláthatóság és a felelősségvállalás terén, amelyek segítenek abban, hogy az AI-fejlesztők és a szabályozók jobban megértsék és kezeljék a technológia gyors előrehaladásával járó kockázatokat. A részletek és az aktuális szabályzat teljes szövege elérhető az Anthropic oldalán.