AI költségek drasztikus csökkenése az NVIDIA Blackwell platformmal

Az elmúlt időszakban az AI-technológiák egyre mélyebben hatolnak be mindennapjainkba, legyen szó egészségügyről, játékokról vagy ügyfélszolgálatról. Mindezek az intelligens rendszerek egy alapvető egységen, az úgynevezett tokeneken alapulnak, amelyek feldolgozása viszont jelentős költségekkel jár. A nagy kérdés az, hogyan lehet fenntarthatóan növelni a tokenek számát anélkül, hogy az árak az egekbe szöknének? A válasz a hatékonyabb tokenomika, vagyis a tokenenkénti költség jelentős csökkentése.

Az infrastruktúra szerepe a tokenköltségek csökkentésében

A tokenköltségek mérséklésének egyik kulcsa az infrastruktúra fejlesztése. Egyszerű hasonlattal élve, mintha egy nagy sebességű nyomdagép tízszer több oldalt tudna előállítani ugyanakkora plusz ráfordítással, az oldalankénti költség jelentősen csökkenne. Ugyanez igaz az AI rendszerekre: az új generációs hardverek és szoftverek együttese, mint az NVIDIA Blackwell platform, lehetővé teszi, hogy a tokenek számát a költségek növekedése nélkül, vagy akár azok csökkenése mellett emeljék.

Ez a fejlődés nem elméleti, hanem kézzelfogható eredményeket hoz a gyakorlatban is. Számos vezető AI inferencia szolgáltató, például a Baseten, DeepInfra, Fireworks AI és Together AI, már az NVIDIA Blackwell platformjára váltott, amely a korábbi NVIDIA Hopperhez képest akár tízszeres költségcsökkenést eredményez tokenenként.

Egészségügy: a Baseten és Sully.ai példája

Az egészségügyben az orvosok idejének nagy részét gyakran az adminisztratív feladatok, például az orvosi kódolás és dokumentáció veszi el. A Sully.ai „AI alkalmazottakat” fejleszt ezekhez a monoton, időigényes munkákhoz, így az orvosok több időt tölthetnek a betegekkel. Korábban a cég zárt, saját fejlesztésű modellekkel dolgozott, amelyek azonban három fő problémát okoztak: bizonytalan válaszidőket, gyorsan növekvő költségeket és korlátozott kontrollt a modellek minősége felett.

Ezeket a nehézségeket a Baseten nyílt forráskódú modelleinek használatával és az NVIDIA Blackwell platformra való áttéréssel sikerült leküzdeni. Az optimalizált inferencia keretrendszer révén a Sully.ai költségei 90%-kal csökkentek, miközben a válaszidők 65%-kal javultak kritikus folyamatokban, például az orvosi jegyzetek előállításánál. Ennek köszönhetően már több mint 30 millió percnyi idő szabadult fel az orvosok számára, amit korábban adatbevitellel töltöttek.

Játékvilág: DeepInfra és Latitude együttműködése

A Latitude az AI-alapú játékok élményét új szintre emeli az AI Dungeon és a hamarosan érkező Voyage platformjaival, ahol a játékosok szabadon alakíthatják történeteiket. Minden játékos interakció egy új inferencia kérést generál, ami gyorsan növeli a költségeket, miközben a válaszidőknek villámgyorsnak kell maradniuk, hogy a játékélmény zavartalan legyen.

A DeepInfra NVIDIA Blackwell alapú inferencia platformja lehetővé tette, hogy a Latitude nagy nyelvi modelleket hatékonyan futtasson. Egy komplex, szakértők megosztásán alapuló (MoE) modell esetében a tokenenkénti költséget 20 centről 5 centre tudták csökkenteni, vagyis négyszeres megtakarítást értek el, miközben a pontosság megmaradt. Ez a költséghatékonyság tette lehetővé, hogy a Latitude gyors és megbízható válaszokat nyújtson játékosainak anélkül, hogy a költségek megugranának.

Agentikus csevegés és ügyfélszolgálat

A Fireworks AI és a Sentient Labs közösen dolgozik azon, hogy az összetett, több ügynököt bevonó AI rendszerek is gazdaságosan működjenek. A Sentient Chat alkalmazásuk több tucat specializált AI ügynököt integrál, ami hatalmas számítási kapacitást igényel. Az NVIDIA Blackwell támogatásával elért 25-50%-os költségcsökkenés lehetővé tette számukra, hogy egyetlen nap alatt 1,8 millió várólistás felhasználót szolgáljanak ki, és egy héten belül több mint 5,6 millió lekérdezést kezeljenek alacsony késleltetéssel.

Az ügyfélszolgálati szektorban a Together AI és a Decagon hasonlóan jelentős költségcsökkenést ért el, akár hatszoros költségmegtakarítással, így a hangalapú ügyfélszolgálati rendszerek is hatékonyabbá és élvezetesebbé válhatnak a felhasználók számára.

Az AI fejlődésének kulcsa tehát nem csupán az intelligens modellek fejlesztése, hanem az is, hogy ezek a modellek gazdaságosan és skálázhatóan működjenek. Erről bővebben is olvashat az NVIDIA hivatalos blogján, ahol részletesen bemutatják, hogyan teszi lehetővé az új platform a tokenenkénti költségek radikális csökkenését.