Új módszerrel érthetőbbé és pontosabbá válik az MI döntéseinek magyarázata

A mesterséges intelligencia rendszerek egyre inkább beépülnek életünk különböző területeibe, legyen szó akár orvosi diagnosztikáról, akár más kritikus döntéstámogatásról. Fontos azonban, hogy ezek az algoritmusok ne csak jó eredményeket produkáljanak, hanem képesek legyenek világosan megindokolni, hogyan jutottak egy adott következtetésre. Ez különösen fontos olyan esetekben, ahol az emberi szakértőknek meg kell bíznia az MI által szolgáltatott információban. Egy friss MIT kutatás most egy innovatív megközelítéssel lépett elő, amely nemcsak pontosabbá teszi a képfeldolgozó mesterséges intelligenciákat, hanem érthetőbb magyarázatokat is ad a döntéseik mögött.

Mi az a koncepciós „torlódás” modell?

A koncepciós torlódás (concept bottleneck) modell egy olyan technika, amely közbenső lépésként bevezet egy emberi szemmel is átlátható fogalmi réteget az MI döntéshozatali folyamatába. Ez azt jelenti, hogy a mesterséges intelligencia először megpróbálja azonosítani az adott képen megjelenő fogalmakat – például egy orvosi kép esetében olyan jellegzetességeket, mint a „barnás foltok csoportosulása” vagy a „színbeli változatosság” –, majd ezek alapján hozza meg a végső diagnózist vagy előrejelzést. Így a szakértők számára könnyebb követni, hogy a gép milyen jelekre alapozta a döntését.

Ennek a módszernek az a hátránya azonban, hogy a fogalmakat általában előre definiálják emberek vagy nagy nyelvi modellek, így előfordulhat, hogy ezek nem pontosan illeszkednek az adott feladathoz, vagy nem tartalmaznak elegendő részletet. Ráadásul az is előfordulhat, hogy a modell titokban olyan, előre meg nem határozott információkat használ fel, amelyekről a felhasználók nem tudnak – ezt hívják információszivárgásnak.

Az MIT új megközelítése: a tanult fogalmak automatikus kivonása

Antonio De Santis és kutatótársai az MIT számítástechnikai laboratóriumában egy olyan megoldást fejlesztettek ki, amely nem előre definiált fogalmakra támaszkodik, hanem a már meglévő, a modell által a tanítás során elsajátított fogalmakat emeli ki és alakítja át érthető szöveges leírásokká. Így a mesterséges intelligencia nem idegen, hanem saját magától tanult fogalmakkal dolgozik, ami javítja a pontosságot és az átláthatóságot.

A folyamat két speciális gépi tanulási modellt használ: egy sparse autoencoder nevű hálózat kiválasztja a legrelevánsabb jellemzőket, majd egy multimodális nagy nyelvi modell (LLM) szöveges formába önti ezeket és hozzárendeli a képekhez. Ez az annotált adathalmaz szolgál alapul egy koncepciós torlódás modullal, amelyet aztán beépítenek a célmodellbe. Az így kialakított rendszer kizárólag az általa kivont fogalmak alapján hoz döntést, ezzel megelőzve a nem kívánt információszivárgást.

Hatékonyság és érthetőség kéz a kézben

A kutatók olyan feladatokon tesztelték új módszerüket, mint a madárfajok azonosítása vagy bőrbetegségek felismerése orvosi képeken. Az eredmények azt mutatták, hogy az új eljárás nemcsak pontosabb, mint a jelenlegi legjobb koncepciós torlódás modellek, hanem világosabb, tömörebb magyarázatokat is ad a döntések mögött. Emellett a kivont fogalmak jobban illeszkedtek az adott képekhez, így a szakemberek könnyebben megérthették, mi alapján született a döntés.

Ugyanakkor a kutatócsoport elismeri, hogy még mindig van egy bizonyos kompromisszum az értelmezhetőség és a pontosság között, és hogy a teljesen „fekete dobozos”, értelmezhetetlen modellek néha még mindig jobban teljesítenek a tisztán magyarázható rendszereknél. A jövőben ezért tervezik továbbfejleszteni módszerüket, például több koncepciós modult alkalmazva az információszivárgás minimalizálására, illetve nagyobb nyelvi modellek bevonásával a képzett adathalmaz bővítésére.

Ez az új irány nemcsak a mesterséges intelligencia átláthatóságát növeli, hanem hidat ver a szimbólum-alapú AI és a tudásgráfok között is, ami hosszú távon hozzájárulhat a megbízhatóbb, emberközelibb MI rendszerek kialakításához. A részletes kutatási eredményekről itt olvashat bővebben: anchor szöveg.