Ipari méretű AI-támadások: így védik Claude modellt a visszaélésektől

Az utóbbi időszakban három jelentős mesterségesintelligencia-laboratórium, a DeepSeek, a Moonshot és a MiniMax, ipari méretű, illegális akciókat hajtott végre egy amerikai AI-modell, Claude képességeinek kisajtolására. Ezek a laborok több mint 16 millió interakciót generáltak a Claude-dal közel 24 ezer hamisított fiókon keresztül, megsértve a szolgáltatási feltételeket és a regionális hozzáférési szabályokat.

Mi az a distilláció és miért veszélyes?

A támadások középpontjában egy „distilláció” nevű technika áll, amely tulajdonképpen egy erősebb modell kimeneteiből tanít egy gyengébb képességű modellt. Ez a módszer a mesterséges intelligencia fejlesztők körében egyáltalán nem ismeretlen, sőt, gyakran alkalmazzák, hogy kisebb, olcsóbb verziókat készítsenek ügyfeleik számára. Ám a distilláció sötét oldala, hogy versenytársak illegálisan szerezhetnek hozzáférést és szívhatják el más laborok legjobb képességeit, így sokkal gyorsabban és olcsóbban fejleszthetnek, mint ha nulláról indulnának.

Ez az iparági jelenség folyamatosan nő és egyre kifinomultabbá válik, miközben a védekezési idő abban a tekintetben szűkül, hogy mikor lehet még hatékonyan fellépni ellene. A veszély nem korlátozódik egyetlen vállalatra vagy régióra sem, ezért a megoldáshoz gyors, összehangolt iparági és kormányzati lépések szükségesek.

A biztonsági kockázatok és geopolitikai hatások

Az illegálisan „distillált” modellek általában nem tartalmazzák azokat a biztonsági korlátokat, amelyeket az eredeti fejlesztők beépítenek, például hogy megakadályozzák a biológiai fegyverek vagy rosszindulatú kibertevékenységek létrehozását. Emiatt komoly nemzetbiztonsági kockázatot jelentenek, különösen, ha ilyen képességek széles körben elterjednek, és olyan rezsimek kezébe kerülnek, amelyek ezeket a technológiákat kiberhadviseléshez, tömeges megfigyeléshez vagy dezinformációs kampányokhoz használhatják.

Ha az így létrehozott modelleket nyílt forráskódúvá teszik, az a veszélyt még tovább növeli, hiszen a technológia innentől bárki számára hozzáférhetővé válik, és ezzel kikerül az állami vagy nemzetközi ellenőrzés alól.

Az exportkontroll és a distillációs támadások kapcsolata

Az amerikai vállalatok, köztük az Anthropic, amely a Claude modellt fejleszti, támogatják az exportkontrollt, hogy megőrizzék az Egyesült Államok előnyét a mesterséges intelligencia versenyben. A distillációs támadások azonban aláássák ezeket az intézkedéseket, mivel külföldi laborok, köztük Kína által ellenőrzött szereplők, így elérhetik azokat a fejlett képességeket, amelyeket az exportkontroll próbál korlátozni.

Gyakran ezek a látszólag gyors fejlődést produkáló laborok valójában az amerikai modellekből származó tudás kisajtolására támaszkodnak, amit csak nagy teljesítményű hardverekkel lehet ipari méretekben végrehajtani. Ezért a chip-hozzáférés korlátozása továbbra is kulcsfontosságú eszköz a visszaélések megakadályozásában.

Hogyan zajlottak a támadások? – a három labor módszerei

A három laboratórium támadásai hasonló forgatókönyvet követtek: hamisított fiókok és proxy-szolgáltatások segítségével jutottak hozzá Claude-hoz, miközben igyekeztek elkerülni a felfedezést. A kérések mennyisége és típusa egyértelműen eltért a normális használattól, amelyek inkább képességkivonásra irányultak, semmint valódi felhasználói igények kielégítésére.

A DeepSeek körülbelül 150 ezer interakciót bonyolított le, fő fókusza a különféle gondolkodási feladatok, valamint olyan válaszok előállítása volt, amelyek politikailag érzékeny témákat elkerülő alternatívákat kínáltak. Ez utóbbi valószínűleg arra szolgált, hogy a saját modelljüket megtanítsák a cenzúrára.

A Moonshot több mint 3,4 millió interakciót generált, és az ügyeik között szerepelt az agentikus érvelés, eszközhasználat, kódolás, adat elemzés és számítógépes látás fejlesztése. Kampányuk sokszínű fiókhasználattal nehezítette a felderítést, de a nyomok végül a cég vezető munkatársaihoz vezettek.

A MiniMax pedig több mint 13 millió interakcióval a legtöbb adatot gyűjtötte, különösen a kódolási és eszközhasználati feladatokra koncentrálva. Érdekesség, hogy a MiniMax kampánya még aktív volt, amikor a Claude új verzióját kiadták, és alig 24 órán belül módosították stratégiájukat, hogy alkalmazkodjanak az új modellhez.

Az ilyen típusú visszaélések elleni védekezés kulcsa a gyors felismerés és az együttműködés, amit az iparág és a döntéshozók együttesen kell, hogy elősegítsenek. Az iparági szereplők, a szabályozók és a globális AI-közösség összefogása nélkülözhetetlen ahhoz, hogy megakadályozzuk a technológia rossz kezekbe kerülését. Erről bővebben olvashatnak az Anthropic cikkében, amely részletesen bemutatja a distillációs támadások detektálását és megelőzését.