NEO-unify: Az új generációs natív multimodális mesterséges intelligencia

Az elmúlt években a multimodális mesterséges intelligencia (AI) egyik legnagyobb kihívása az volt, hogyan lehet egyszerre hatékonyan feldolgozni és összekapcsolni a vizuális és szöveges információkat. A hagyományos megközelítésekben külön modulokat használtak a képek és a szövegek kezelésére, például látásfeldolgozó kódereket (VE) és generatív variációs autoenkódereket (VAE), amelyek gyakran kompromisszumokra kényszerítették a modell teljesítményét. Most azonban a SenseTime és a NTU közös fejlesztése, a NEO-unify egy teljesen új paradigma felé nyit utat, amely natív módon, end-to-end tanulással dolgozik, és elhagyja a korábbi előfeldolgozó rétegeket.

Mi az a NEO-unify?

A NEO-unify egy forradalmian új multimodális AI modell, amely nem használ sem látásfeldolgozó kódereket, sem variációs autoenkódereket. Ehelyett közvetlenül, közel veszteségmentes formában dolgozza fel a pixeleket és a szavakat, egyetlen egységes modellként. A kulcs a natív Mixture-of-Transformer (MoT) architektúra, amely egyszerre képes megérteni és generálni is tartalmat, így megszüntetve a hagyományos moduláris rendszerek közötti feszültséget.

Ez a megközelítés lehetővé teszi, hogy a modell a saját maga által alakított reprezentációs térben tanuljon, anélkül, hogy előre betanított kóderekre vagy skálázási törvények korlátaira támaszkodna. Ennek köszönhetően a NEO-unify nemcsak hatékonyabb, de lényegesen rugalmasabb is a különböző adatok és feladatok kezelésében.

Az új modell előnyei és teljesítménye

Az egyik legfontosabb felismerés, hogy az encoder-mentes dizájn megőrzi mind a szemantikai, mind a pixel szintű információkat, ami korábban nehezen volt megvalósítható. A NEO-unify egyik változata, a 2 milliárd paraméteres modell, a MS COCO 2017 képadatbázison 31,56 PSNR és 0,85 SSIM értékeket ért el, ami közel áll a Flux VAE 32,65 és 0,91 mutatóihoz, mindezt előre betanított kóderek nélkül.

Ez azt jelenti, hogy a modell képes megőrizni a képek finom részleteit, miközben megérti a mögöttes tartalmat. Ráadásul, még egy rögzített megértési ággal is jelentős képmanipulációs képességeket mutat, és jobb token-hatékonysággal dolgozik a nyilvánosan elérhető képszerkesztő adathalmazokon.

Hatékonyabb adatfelhasználás és jövőbeli lehetőségek

A NEO-unify nem csupán egy új modell, hanem egy új gondolkodásmód kezdete a multimodális mesterséges intelligenciában. A fejlesztők webméretű előtanítással, majd középtávú és felügyelt finomhangolással érnek el egyensúlyt a megértés és a generálás között, miközben minimális konfliktust tapasztalnak a MoT architektúrán belül.

Ez a megközelítés lényegesen jobb adat-skálázási hatékonyságot eredményez, mint a korábbi modellek, például a Bagel, és megalapozza azt a jövőt, ahol a különböző modalitások nem különálló rendszerek között kommunikálnak, hanem egyetlen, integrált intelligens rendszerként működnek. Aki mélyebben érdeklődik a téma iránt, annak ajánljuk ezt a részletes ismertetőt, amely további technikai részleteket is tartalmaz.

Az olyan fejlesztések, mint a NEO-unify, azt sugallják, hogy hamarosan elérkezhet az az idő, amikor az AI nem csak összekapcsolja a különböző adatforrásokat, hanem egy egységes, átfogó gondolkodásmódot valósít meg eredeti, multimodális formában.