Forradalmi AI-módszer a komplex vizuális tervezésben

Az MIT kutatói egy új, mesterséges intelligencián alapuló megközelítést fejlesztettek ki, amely jelentősen hatékonyabbá teszi a hosszú távú vizuális feladatok, például robotok navigációjának tervezését. Az általuk kidolgozott rendszer kétszer jobb eredményeket ért el a jelenleg használt módszerekhez képest, miközben képes új, korábban nem látott problémák kezelésére is.

Új út a vizuális tervezésben

A hagyományos tervező algoritmusok általában a formális nyelvekre épülnek, amelyek segítségével pontos, lépésenkénti terveket készíthetünk bonyolult feladatok megoldására. Ezek a rendszerek azonban nem tudnak közvetlenül képi információkat feldolgozni, így a vizuális alapú problémák megoldása gyakran nehézkes. Ezzel szemben a nagy látás-nyelv modellek (vision-language models, VLM-ek) képesek képeket és szövegeket is értelmezni, de a térbeli kapcsolatok és a hosszú távú következtetések terén még korlátozottak.

Az MIT kutatóinak új rendszere, a VLM-guided formal planning (VLMFP) ezt a két megközelítést ötvözi. Egy kisebb, SimVLM nevű modell először leírja az adott képen látható helyzetet, és szimulációban végigpróbálja a lehetséges lépéseket. Ezután a GenVLM nevű nagyobb modell ezt a leírást átülteti egy speciális programozási nyelvre, a Planning Domain Definition Language-re (PDDL), amelyet a hagyományos tervező szoftverek értenek.

Képekből megbízható tervek

A rendszer két PDDL fájlt generál: az egyik a környezet és a lehetséges akciók szabályait tartalmazza, a másik pedig az adott feladat kezdeti állapotát és célját írja le. Így a formális tervező szoftver pontos, lépésről lépésre követhető tervet készít, amely a célt eléri. A GenVLM folyamatosan összehasonlítja a tervező eredményeit a szimulációval, és finomítja a fájlokat, hogy az akciók pontosan szimulálják a végső cél elérését.

Ez a kétlépcsős megközelítés nemcsak hatékonyabb, de rugalmasabb is, hiszen a rendszer képes új, korábban nem látott helyzetekre is reagálni. Az MIT kutatói szerint ez a rugalmasság kulcsfontosságú lehet a valós környezetekben, ahol a körülmények hirtelen változhatnak.

Széleskörű alkalmazási lehetőségek

A VLMFP keretrendszer különösen jól teljesített különböző 2D és 3D feladatokban, például többrobotos együttműködésben vagy robotikai összeszerelési feladatokban. A tesztek során a módszer átlagosan 70%-os sikerességi arányt ért el, míg a korábbi legjobb megközelítések csak körülbelül 30%-ot tudtak produkálni.

Az egyik nagy előny, hogy a PDDL domain fájlja ugyanaz marad az adott környezetben, így a rendszer jól tud általánosítani és új helyzetekben is helytállni. A kutatók a jövőben szeretnék tovább fejleszteni a modellt, hogy még összetettebb szituációkat is kezelni tudjon, és csökkentsék a mesterséges intelligencia által előidézett torzításokat, úgynevezett „hallucinációkat”.

Ez az innovatív megoldás egy fontos mérföldkő a vizuális alapú tervezés területén, amely hozzájárulhat ahhoz, hogy a generatív AI modellek egyre komplexebb, valós környezetekben is használható intelligens ügynökként működjenek. További részletek és a kutatók által bemutatott módszer megismerése érdekében érdemes elolvasni az eredeti cikket.