Miért lehet félrevezető az LLM-ek rangsorolása? Új MIT-kutatás mutatja meg

A vállalatok egyre gyakrabban választanak nagyméretű nyelvi modelleket (LLM-eket) ügyfélszolgálati feladatok automatizálására vagy üzleti jelentések összefoglalására. A piac azonban hemzseg a különböző modellekből, így a döntéshozók gyakran megbíznak az LLM-ek teljesítményét rangsoroló platformokban, hogy segítsenek megtalálni az ideális modellt. Egy friss kutatás azonban rávilágít arra, hogy ezek a rangsorok meglepően sérülékenyek lehetnek, és apró adathibák vagy felhasználói tévedések jelentősen eltorzíthatják a végeredményt.

A rangsorolás mögötti kihívások

Az LLM-ek összehasonlítására szolgáló platformokon a felhasználók általában két modell válaszát látják egy adott kérdésre, majd eldöntik, melyik teljesített jobban. Ezeket a választásokat összesítve állítják össze a rangsorokat, amelyek alapján a cégek kiválaszthatják a számukra legmegfelelőbb modellt például kódírás vagy képi tartalmak értelmezése terén. Az elvárás, hogy az első helyen álló modell a valós használat során is megbízhatóan jobb legyen, mint versenytársai.

Az MIT kutatói azonban arra lettek figyelmesek, hogy egy-egy rangsor akár néhány tucat, vagy akár csak néhány felhasználói szavazat miatt is jelentősen megváltozhat. Ez azt jelenti, hogy egy-egy, akár véletlenül téves vagy figyelmetlen felhasználói döntés torzíthatja a rangsort, és hamis biztonságérzetet adhat a legjobb modell kiválasztásakor.

Hatékony módszer az anomáliák felderítésére

A kutatók egy új, gyors értékelési technikát dolgoztak ki, amely képes azonosítani azokat a szavazatokat, amelyek a rangsorolás eredményére a legnagyobb hatással vannak. Ez a módszer lehetővé teszi, hogy a platformok felhasználói vagy az adminisztrátorok átnézzék és akár eltávolítsák a problémás adatpontokat, majd újraszámolják a rangsort. Így jelentősen csökkenthető annak az esélye, hogy néhány hibás szavazat döntsön a modellválasztásról.

Az egyik vizsgált platformon például 57 000 szavazatból mindössze kettő eltávolítása (ami alig 0,0035 százalék) megváltoztatta a legjobb modell helyezését. Egy másik, szakértői annotátorokat is alkalmazó platform valamivel ellenállóbbnak bizonyult, de ott is 3 százaléknyi adat eltávolítása fordította meg a sorrendet.

Felhasználói hibák és ajánlások a jövőre nézve

A kutatók szerint sok ilyen befolyásos szavazat mögött felhasználói tévedések állhatnak, például véletlen kattintások vagy figyelmetlenség. Mivel nem lehet pontosan tudni, mi motiválta a döntést, fontos, hogy a rangsorok ne egy-két véletlenszerű ponttól függjenek. Ezért javasolják, hogy a platformok gyűjtsenek részletesebb visszajelzéseket, például a szavazók bizonyossági szintjét, vagy alkalmazzanak emberi közvetítőket a minőség ellenőrzésére.

Ez a kutatás arra figyelmeztet, hogy az LLM-ek kiválasztásánál nem érdemes vakon bízni a rangsorokban, amelyek akár üzleti döntésekben is mérvadóak lehetnek. A rangsorok instabilitása miatt fontos a háttérelemzés és a megbízhatóbb értékelési módszerek fejlesztése.

Az MIT kutatói további munkájuk során szeretnék továbbfejleszteni az ilyen rangsorok robusztusságát elemző technikákat, és mélyebben megérteni, hogyan lehetne általánosítani ezeket a megközelítéseket más, hasonló rendszerekre is. Ha érdekel a téma, bővebben is olvashatsz róla ezen a linken: MIT kutatás az LLM-ek rangsorolásának megbízhatatlanságáról.