-
Hatékonyabb nyelvi modellek a normatartó biprojektált ablációval
A mesterséges intelligencia fejlődése során egyre nagyobb hangsúlyt kap a nyelvi modellek biztonságos működése, különösen a visszautasító (refusal) viselkedések kezelése. Ezek a viselkedések, amikor a modell nem kívánt vagy káros tartalmakra nem reagál, kulcsfontosságúak a megbízhatóság szempontjából. Egy új, úgynevezett normatartó biprojektált ablációs technika jelentős előrelépést hozhat ezen a téren, miközben javítja a modellek érvelési képességeit is. Mi az abláció és miért fontos? Az abláció alapvetően egy olyan módszer, amely a nyelvi modellek aktivációs terében található „visszautasítási irányokat” célozza meg, hogy eltávolítsa a nem kívánt viselkedéseket. Ezt a korábbi megközelítések egyetlen átlagos visszautasítási irány alapján végezték, ami ugyan hatékony volt, de nem vette figyelembe a visszautasítás és a károsság elkülönülését.…