-
Miért lehet félrevezető az LLM-ek rangsorolása? Új MIT-kutatás mutatja meg
A vállalatok egyre gyakrabban választanak nagyméretű nyelvi modelleket (LLM-eket) ügyfélszolgálati feladatok automatizálására vagy üzleti jelentések összefoglalására. A piac azonban hemzseg a különböző modellekből, így a döntéshozók gyakran megbíznak az LLM-ek teljesítményét rangsoroló platformokban, hogy segítsenek megtalálni az ideális modellt. Egy friss kutatás azonban rávilágít arra, hogy ezek a rangsorok meglepően sérülékenyek lehetnek, és apró adathibák vagy felhasználói tévedések jelentősen eltorzíthatják a végeredményt. A rangsorolás mögötti kihívások Az LLM-ek összehasonlítására szolgáló platformokon a felhasználók általában két modell válaszát látják egy adott kérdésre, majd eldöntik, melyik teljesített jobban. Ezeket a választásokat összesítve állítják össze a rangsorokat, amelyek alapján a cégek kiválaszthatják a számukra legmegfelelőbb modellt például kódírás vagy képi tartalmak értelmezése terén.…