Kétszer gyorsabb AI-inferencia a Character.ai-nál az AMD és DigitalOcean segítségével

A mesterséges intelligencia által vezérelt alkalmazásoknál az alacsony késleltetés és a magas feldolgozási kapacitás kulcsfontosságú. A Character.ai, amely világszerte mintegy 20 millió felhasználóval büszkélkedhet, ezért lépett partnerségre az AMD-vel és a DigitalOcean-nal, hogy jelentősen javítsák a GPU-alapú inferencia teljesítményét és csökkentsék az üzemeltetési költségeket. A közös munka eredményeként a csapatok képesek voltak megduplázni a termelési inferencia áteresztőképességet, miközben megtartották a szigorú késleltetési feltételeket.

Az együttműködés háttere és céljai

A Character.ai többféle modellt használ, köztük a Qwen és a Mistral modelleket, hogy kiszolgálja felhasználóit. A projekt fókuszában a Qwen3-235B Instruct FP8 modell állt, amelyet a DigitalOcean AMD Instinct™ MI300X és MI325X GPU platformján futtattak. A cél az volt, hogy egy nyolc GPU-ból álló MI325X szerveren akár kétszeresére növeljék a lekérdezések számát más, nem optimalizált infrastruktúrákhoz képest, miközben a p90-es késleltetési mutatók – az első token generálásának és a folyamatos válaszadás ideje – szigorú korlátok között maradnak.

Ez a közös fejlesztés nemcsak technológiai áttörést hozott, hanem egy olyan hosszú távú együttműködést is, amely több éves, nyolc számjegyű éves GPU-infrastruktúra szerződéshez vezetett a DigitalOcean és a Character.ai között.

Műszaki innovációk és optimalizációk

A siker kulcsa a mély technikai együttműködés volt, amely során a három csapat együttesen dolgozott a GPU munkaterhelések optimalizálásán. A fejlesztések között szerepelt a platform szintű finomhangolás, például a Mixture-of-Experts (MoE) modellekhez alkalmazott párhuzamosítási stratégiák, az FP8 lebegőpontos számítási útvonalak hatékony kihasználása, valamint az AITER könyvtár használata az AMD ROCm ökoszisztémában.

Ezek mellett a csapatok optimalizálták a GPU-k elosztását a klaszteren belül úgy, hogy figyelembe vették a topológiai sajátosságokat, valamint a DigitalOcean Kubernetes (DOKS) segítségével egy gyártásra kész, megbízható orchestrációs rendszert építettek ki. Ennek köszönhetően a Character.ai képes volt skálázni a lekérdezéseket előre tervezhető módon, anélkül hogy nőtt volna az üzemeltetés komplexitása.

Speciális technológiák és eszközök

Az optimalizáció során kulcsszerepet játszottak olyan technológiák, mint a Tensor Parallelism (TP) és az Expert Parallelism (EP). A Tensor Parallelism lehetővé teszi, hogy a modell rétegeit több GPU között osszák meg, így párhuzamosan futtathatók a számítások, míg az Expert Parallelism a MoE modellekben az egyes „szakértő” komponensek elosztásával javítja a memóriahatékonyságot.

Az AITER (AI Tensor Engine for ROCm) egy AMD által fejlesztett, nyílt forráskódú könyvtár, amely nagy teljesítményű AI operátorokat biztosít az AMD Instinct GPU-khoz, és jelentősen gyorsítja a gépi tanulási feladatok futtatását. Az AITER integrációja a vLLM keretrendszerrel, amelyet a Character.ai is használ, lehetővé tette a Qwen3-235B modell zökkenőmentes futtatását a DigitalOcean infrastruktúráján.

Mit jelent mindez a gyakorlatban?

A fejlesztések eredményeként a Character.ai rendszere kétszer olyan gyors lett a lekérdezések feldolgozásában, miközben a válaszadási idő alacsony maradt, ami kritikus a felhasználói élmény szempontjából. Ez a teljesítményjavulás lehetővé teszi, hogy a platform még nagyobb terhelést kezeljen költséghatékonyan, miközben megőrzi a magas színvonalú interaktivitást.

Ha mélyebben érdekel, hogyan sikerült az AMD és a DigitalOcean szakértőinek összefogásával elérni ezt az áttörést, ajánlom figyelmedbe az eredeti mély technikai elemzést, amely részletesen bemutatja az alkalmazott megoldásokat és fejlesztési lépéseket.