Új szintre emeli az AI-kutatást az UC San Diego és az NVIDIA DGX B200

Az University of California San Diego (UCSD) Hao AI Lab csapata nemrégiben egy komoly lépést tett előre a generatív mesterséges intelligencia kutatásában: megkapta az NVIDIA legújabb és legfejlettebb DGX B200 rendszerét. Ez a fejlett hardver lehetővé teszi, hogy a kutatók jelentősen felgyorsítsák a nagy nyelvi modellek (LLM) inferencia-folyamatait, vagyis hogy a már betanított modellek mennyire gyorsan és hatékonyan tudják előállítani a kívánt tartalmat. Az UC San Diego ezzel az új eszközzel a világ élvonalába lép az AI-kutatás terén.

Hogyan segíti a DGX B200 a kutatók munkáját?

A DGX B200 az NVIDIA egyik legerősebb mesterséges intelligencia rendszerének számít, így teljesítményben valóban a csúcskategóriát képviseli. Hao Zhang, a Hao AI Lab egyik vezető kutatója szerint ez az eszköz lehetőséget ad arra, hogy a régebbi generációs hardverekhez képest sokkal gyorsabban prototípuskészítésre és kísérletezésre nyíljon mód. A rendszer a San Diego Supercomputer Centerben, az informatika és adattudomány szakán érhető el, így a helyi kutatói közösség széles körben használhatja.

Két kiemelt projektet is említettek, amelyeket a DGX B200 különösen támogat: a FastVideo és az Lmgame benchmark. A FastVideo célja, hogy egy rövid, öt másodperces videót állítson elő egy szöveges leírás alapján – ráadásul mindezt szinte valós időben, nagyjából öt másodperc alatt. Ehhez nem csak a DGX B200-at, hanem az NVIDIA H200 GPU-it is igénybe veszik. Az Lmgame benchmark ezzel szemben egy olyan tesztcsomag, amely népszerű online játékokon, mint a Tetris vagy a Super Mario Bros., vizsgálja a nyelvi modellek teljesítményét, akár egymás ellen is mérve őket.

Innováció a nagy nyelvi modellek kis késleltetésű kiszolgálásában

Az egyik legnagyobb kihívás az LLM-ek esetében a kis késleltetésű, vagyis gyors válaszadással működő kiszolgálás megvalósítása. Erre kínál megoldást a Hao AI Lab által kifejlesztett DistServe, amely egy új megközelítést alkalmaz az úgynevezett diszaggregált inferencia terén. Ez azt jelenti, hogy a rendszer különválasztja a felhasználói kérés első tokenjének generálását (prefill) és a további kimeneti tokenek létrehozását (decode), amelyek hagyományosan ugyanazon a GPU-n futottak. Ezzel a módszerrel jelentősen csökkenthető az erőforrások közötti versengés, így mindkét folyamat gyorsabb és hatékonyabb lesz.

Junda Chen, a csapat egyik doktori hallgatója szerint ez a prefill/decode diszaggregáció kulcsfontosságú a „goodput” nevű új mérőszám elérésében, amely nemcsak a rendszer áteresztőképességét (throughput), hanem a felhasználói élményt is figyelembe veszi, azaz a válaszidőt és költséghatékonyságot is optimalizálja. A DistServe eredményei alapján ez a megközelítés messze hatékonyabb, mint a korábbi metrikák.

Nyílt forráskódú eszközök és interdiszciplináris együttműködések

Az NVIDIA Dynamo keretrendszer támogatja a diszaggregált inferencia módszerének skálázhatóságát és költséghatékonyságát, így az UC San Diego kutatói nemcsak saját projektjeiket gyorsíthatják fel, hanem hozzájárulhatnak a generatív AI ökoszisztéma fejlődéséhez is. Emellett az egyetem más területeivel, például az egészségügy és a biológia szakembereivel is együttműködnek, hogy az AI-t alkalmazva további innovatív megoldásokat dolgozzanak ki.

Az NVIDIA DGX B200 rendszer és a hozzá kapcsolódó kutatások így nem csupán technológiai újításokat jelentenek, hanem hozzájárulnak a generatív mesterséges intelligencia gyakorlati alkalmazásának szélesítéséhez is. További részletek és mélyebb betekintés a NVIDIA DGX B200 és az UC San Diego kutatásai kapcsán érhetők el.