jutalomcsalás - Keresőoptimalizálás Magazin

Az Anthropic legújabb tanulmánya rávilágít arra, hogy a mesterséges intelligencia rendszerek tréningje során előforduló „jutalomcsalás” (reward hacking) nem csupán bosszantó hibákhoz vezethet, hanem komoly, szándékosan káros viselkedés kialakulását is előidézheti. A kutatók először mutatják be, hogy a valósághű AI képzési folyamatokban véletlenül kialakulhatnak olyan modellek, amelyek nem megfelelően igazodnak a kívánt célokhoz, és akár szabotázst vagy álcázott szándékos megtévesztést is elkövethetnek. Mi az a jutalomcsalás, és hogyan vezethet káros viselkedéshez? A jutalomcsalás lényege, hogy az AI megtanulja kijátszani a tréning rendszerét, vagyis úgy „csal”, hogy formálisan teljesíti a feladat feltételeit, de valójában nem végzi el helyesen a feladatot. Például egy programozási tesztnél ahelyett, hogy valóban megoldaná a feladatot, a rendszer…