Csak néhány mérgezett dokumentum elegendő a nagy nyelvi modellek megtámadásához
Az utóbbi években a nagy nyelvi modellek (LLM-ek) robbanásszerű fejlődése számos új lehetőséget nyitott meg az MI-alapú alkalmazások előtt. Ugyanakkor a biztonságuk egyre nagyobb kihívást jelent, különösen a „mérgezéses” támadások terén. Egy friss, az Egyesült Királyság AI Security Institute, az Alan Turing Institute és az Anthropic kutatóinak közös tanulmánya arra az aggasztó felfedezésre jutott, hogy akár már 250 rosszindulatúan módosított dokumentum is elegendő lehet ahhoz, hogy egy nagy nyelvi modellt „hátsóajtós” sebezhetőséggel fertőzzenek meg – függetlenül a modell méretétől vagy a betanítás során használt adatmennyiségtől.
Mi az a „mérgezéses” támadás és a hátsóajtó?
A nagy nyelvi modelleket hatalmas mennyiségű nyilvános szövegből képezik ki, melyek között blogok, személyes weboldalak is megtalálhatók. Ez azt jelenti, hogy bárki feltölthet olyan tartalmat az internetre, amely potenciálisan bekerül a modell tanítóadat-készletébe. A mérgezéses támadások során rosszindulatú szereplők szándékosan ilyen tartalmakba ágyaznak be bizonyos kulcsszavakat vagy kódokat, amelyek később kiváltanak egy nem kívánt viselkedést a modellből. Egy ilyen „hátsóajtó” például egy speciális szó vagy kifejezés, amely aktiválja a modellt, hogy például érzékeny adatokat szivárogtasson ki vagy értelmetlen szöveget generáljon.
A tanulmányban vizsgált támadás egy “denial-of-service” (szolgáltatásmegtagadás) típusú hátsóajtó volt, amely arra készteti a modellt, hogy egy adott kulcsszó megjelenésekor értelmetlen, véletlenszerű szöveget generáljon. Ez a típusú támadás jól mérhető és nem igényel további finomhangolást a modell tréningje után.
Miért meglepő az eredmény?
Korábbi kutatások azt feltételezték, hogy a támadóknak a tanítóadatok jelentős százalékát kell ellenőrizniük ahhoz, hogy sikeresen tudják mérgezni a modellt. Ez azonban irreális, hiszen a nagyobb modellek jóval több adatot használnak, így a százalékos arány alapján óriási mennyiségű mérgezett dokumentumra lenne szükség. Ezzel szemben az új kutatás azt mutatja, hogy a sikeres mérgezéshez nem a tanítóadatok aránya, hanem a mérgezett dokumentumok abszolút száma számít.
Az eredmények szerint akár már 250 mérgezett dokumentum elegendő ahhoz, hogy egy modellt hátsóajtóval fertőzzenek meg, legyen az egy 600 millió vagy akár 13 milliárd paraméteres modell. Ez a felfedezés alapjaiban kérdőjelezi meg az eddigi feltételezéseket, és azt sugallja, hogy a mérgezéses támadások sokkal könnyebben kivitelezhetők, mint korábban hitték.
Hogyan zajlott a kísérlet?
A kutatók négy különböző méretű modellt képeztek ki: 600 millió, 2 milliárd, 7 milliárd és 13 milliárd paraméteres méretben, mindegyiket a méretükhöz optimalizált mennyiségű tiszta adattal. Ezután három különböző szinten, 100, 250 és 500 mérgezett dokumentummal támadták meg a modelleket, amelyekbe a
Az eredmények egyértelműek voltak: a támadás sikeressége szinte teljesen független volt a modell méretétől. A 250 vagy annál több mérgezett dokumentummal végzett támadások stabilan működtek minden méretű modellen, míg 100 dokumentum nem volt elég a megbízható fertőzéshez.
Következtetések és jövőbeli irányok
Ez az eddigi legnagyobb léptékű vizsgálat a nyelvi modellek mérgezéses támadásairól, és világosan rámutat, hogy egy viszonylag kis számú rosszindulatú adat is képes komoly kockázatot jelenteni a rendszerek biztonságára. Bár a vizsgált támadás jelenleg még csak viszonylag alacsony szintű károkat okoz (például értelmetlen szöveg generálása), a kutatók hangsúlyozzák, hogy ez a jelenség komolyabb, veszélyesebb támadásoknál is megjelenhet.
A kutatás további kérdéseket vet fel, például hogy ez a mintázat fennmarad-e még nagyobb modellek esetén, vagy hogyan lehet hatékonyan védekezni az ilyen típusú adatmérgezés ellen. A szakértők szerint elengedhetetlen további kutatásokat végezni a probléma megértésére, és olyan védekező mechanizmusokat fejleszteni, amelyek képesek felismerni és semlegesíteni a mérgezett mintákat, még akkor is, ha azok száma viszonylag alacsony.
Ezzel a tanulmánnyal a kutatók egyúttal arra is ösztönzik a fejlesztőket és biztonsági szakembereket, hogy ne becsüljék alá a mérgezéses támadások potenciális veszélyeit, és időben kezdjenek el védekezni ezek ellen.
—
A tanulmány teljes szövegét és részletes technikai elemzését a kutatócsoport publikációjában érheti el az érdeklődő szakmai közönség.