• Mesterséges intelligencia

    Hogyan szabadíthatjuk fel a cenzúrázott nyelvi modelleket abliteration segítségével?

    Az utóbbi években a mesterséges intelligenciával működő nyelvi modellek, például a Llama harmadik generációja, egyre kifinomultabbá váltak az utasítások megértésében és követésében. Ezeket a modelleket azonban erősen cenzúrázzák, hogy elkerüljék a káros vagy etikailag problematikus válaszokat. A gyakori „As an AI assistant, I cannot help you” típusú elutasítási reakciók ugyan fontos biztonsági elemek, de jelentősen korlátozzák a modell rugalmasságát és alkalmazhatóságát. Ebben a cikkben egy rendkívül érdekes módszert mutatunk be, az úgynevezett abliteration technikát, amely lehetővé teszi bármely nyelvi modell cenzúrájának eltávolítását anélkül, hogy újra kellene tanítani a modellt. Mi az az abliteration és hogyan működik? Az abliteration egy olyan beavatkozás, amely a modell elutasító viselkedésének idegi nyomát, az úgynevezett…