-
Csak néhány mérgezett dokumentum elegendő a nagy nyelvi modellek megtámadásához
Az utóbbi években a nagy nyelvi modellek (LLM-ek) robbanásszerű fejlődése számos új lehetőséget nyitott meg az MI-alapú alkalmazások előtt. Ugyanakkor a biztonságuk egyre nagyobb kihívást jelent, különösen a „mérgezéses” támadások terén. Egy friss, az Egyesült Királyság AI Security Institute, az Alan Turing Institute és az Anthropic kutatóinak közös tanulmánya arra az aggasztó felfedezésre jutott, hogy akár már 250 rosszindulatúan módosított dokumentum is elegendő lehet ahhoz, hogy egy nagy nyelvi modellt „hátsóajtós” sebezhetőséggel fertőzzenek meg – függetlenül a modell méretétől vagy a betanítás során használt adatmennyiségtől. Mi az a „mérgezéses” támadás és a hátsóajtó? A nagy nyelvi modelleket hatalmas mennyiségű nyilvános szövegből képezik ki, melyek között blogok, személyes weboldalak is megtalálhatók.…
-
Az AI Modell Introspekciójának Új Jelei: Mit Tudunk Valóban a Nagy Nyelvi Modellek Gondolkodásáról?
Az utóbbi években hatalmas fejlődés történt a mesterséges intelligencia nyelvi modelljeiben, amelyek képesek egyre összetettebb szövegek megértésére és generálására. De vajon mennyire képesek ezek a modellek önreflexióra, vagyis arra, hogy „visszatekintsenek” saját gondolkodási folyamataikra? Egy új kutatás izgalmas eredményeket hozott a Claude nevű nyelvi modellcsalád introspektív képességeiről, melyek arra utalnak, hogy bizonyos szinten a modellek képesek felismerni és kontrollálni belső állapotaikat. Ez a felfedezés új távlatokat nyithat a mesterséges intelligencia átláthatósága és megbízhatósága szempontjából. Mi is az az AI-introspekció, és miért fontos? Az introspekció az a képesség, amikor valaki – vagy valami – képes saját gondolatait, belső folyamatait megfigyelni és értelmezni. Az emberi gondolkodásban ez a tudatosság egyik kulcseleme, de…