-
Az AlphaFold forradalma: hogyan változtatja meg az AI a fehérje-kutatást?
2024 októberében a kémiai Nobel-díjat először ítélték oda elsősorban mesterséges intelligencia kutatóknak: Demis Hassabis és John Jumper, a Google DeepMind szakemberei kapták meg az elismerést az AlphaFold fejlesztéséért. Ez a mélytanuló rendszer megoldotta azt a több évtizedes biológiai rejtélyt, amit fehérjék hajtogatási problémájaként ismerünk. Az AlphaFold sikere nem csupán a tudományos közösséget rázta meg, hanem az egész gyógyszerkutatás, az enzimgyártás és a génterápia területét is radikálisan átalakítja. Az AI és a biológia találkozása A fehérjék az élet alapvető építőkövei, melyeket 20 különböző aminosav „betű” alkot. Egy-egy fehérje akár több száz aminosavból is állhat, és a funkciója attól függ, hogy ezek a láncok miként hajlanak össze háromdimenziós formává. Bár a DNS-ben…
-
GRPO, DAPO és GSPO: Az RL fejlődése a nyelvi modellekben
A nagy nyelvi modellek (LLM-ek) fejlesztése során a megerősítéses tanulás (Reinforcement Learning, RL) kulcsszerepet játszik abban, hogy a modellek egyre kifinomultabb és relevánsabb válaszokat adjanak. A korábban domináns PPO (Proximal Policy Optimization) módszer azonban számos korlátba ütközött, különösen hosszú szövegek és összetett feladatok esetén. Ezen kihívások miatt születtek meg a GRPO, DAPO és GSPO algoritmusok, melyek célja a hatékonyabb, stabilabb és skálázhatóbb megerősítéses tanulás megvalósítása. A GRPO újragondolása A GRPO (Generalized Ratio Policy Optimization) azzal vált ismertté, hogy eltávolította a PPO értékmódellől való függőségét. Ez nagy előrelépés, hiszen a value modellek hiányosságai korlátozták a PPO alkalmazhatóságát, főleg hosszú szövegek esetében. A GRPO lényege a fontossági arány (importance ratio) használata, amely…
-
Az első nyílt platform az arab beszédszintetizálás értékelésére
Az arab nyelvű szöveg-beszéd átalakítás (TTS) területén a minőség megítélése mindig is nagy kihívást jelentett a nyelv dialektikus sokszínűsége miatt. Egy friss kezdeményezés, az Arabic TTS Arena azonban új irányt mutat, hiszen a sakkozásból ismert Elo-rendszert alkalmazza, hogy közösségi alapon rangsorolja a beszédszintetizáló modelleket. Ez az innovatív megközelítés lehetővé teszi, hogy a felhasználók saját fülükre hagyatkozva döntsenek arról, melyik hangszintézis a legtermészetesebb, legkifejezőbb az arab nyelv különböző változataiban. Hogyan működik az Arabic TTS Arena? A rendszer egyszerű, mégis rendkívül hatékony: a felhasználó beír egy arab nyelvű mondatot, majd két véletlenszerűen kiválasztott TTS-modell által generált hangfelvételt hallgat meg. A modellek identitása rejtve marad, így a szavazás teljesen pártatlan. A hallgatók eldönthetik,…
-
KV caching: a Transformer modellek gyorsabb szöveggenerálása
Az utóbbi években a Transformer alapú nyelvi modellek, mint a GPT, forradalmasították a mesterséges intelligencia világát, különösen a természetes nyelv feldolgozásában. Ugyanakkor ezek a modellek gyakran nagyon erőforrás-igényesek, különösen a szöveggenerálás során, amikor minden egyes új szó előállításához az összes korábbi lépést újra kell számolni. Ezt a problémát oldja meg a KV caching, vagyis a kulcs-érték gyorsítótárazás, amely hatékonyabbá teszi a modell működését azáltal, hogy nem ismétli meg fölöslegesen az előző számításokat. Mi az a KV caching és miért fontos? Amikor egy Transformer alapú modell új szöveget generál, minden egyes új token előállításakor újraszámolja a figyelem (attention) mechanizmus köztes értékeit, azaz a kulcsokat (key) és értékeket (value). Ez a folyamat…
-
Így gondolkodik egy adatkutató: NVIDIA új AI megoldása tarolt a DABStep-en
Az adatelemzés világa egyre komplexebb kihívásokat támaszt a mesterséges intelligencia rendszereivel szemben. Bár a szöveges információk feldolgozása ma már jól fejlett terület, a strukturált, táblázatos adatok mélyreható elemzése komoly nehézséget jelent a kutató ügynökök számára. Az NVIDIA KGMON (NeMo Agent Toolkit) Data Explorer projektje most azonban egy olyan új megközelítést kínál, amely forradalmasíthatja az adatintenzív kutatást, és első helyezést ért el a DABStep benchmarkon, miközben 30-szor gyorsabb, mint a korábbi legjobb megoldás. Az NVIDIA KGMON Data Explorer architektúrája Az NVIDIA fejlesztői egy különleges, autonóm adatelemző ügynököt alkottak, amely képes komplex, több lépéses gondolkodásra, eszközhívásokra és iteratív elemzésre. A rendszer két fő alkalmazási területre fókuszál: nyílt végű exploratív adatfeltárásra (Exploratory Data…
-
Mesterséges intelligencia értékelés: új keretrendszer a zavaros benchmarkok helyett
A mesterséges intelligencia (MI) fejlődése elképesztő ütemben zajlik, ám az értékelés terén egyre több probléma merül fel. A jelenlegi benchmarkok, vagyis a modellek teljesítményét mérő tesztek rendszere egyre inkább telítődik, ami megnehezíti a különbségtételt a legjobb modellek között. Emellett az értékelések forrásai gyakran átláthatatlanok, és az egyes képességek külön-külön mérve nem adják vissza egy adott MI-rendszer teljes komplexitását. Egy friss kutatás ezért egy egységes, 5 tengelyes intelligencia keretrendszert és egy háromszintű megbízhatósági rendszert javasol, amelyek átfogóbb és hitelesebb képet nyújtanak. Benchmark telítettség és az átláthatóság hiánya Az elmúlt években a legnépszerűbb tesztek, mint az MMLU, olyan magas szintekre jutottak, hogy a csúcskategóriás modellek teljesítménye szinte megkülönböztethetetlenné vált. Ezért új, nehezebb…
-
Hogyan szabadíthatjuk fel a cenzúrázott nyelvi modelleket abliteration segítségével?
Az utóbbi években a mesterséges intelligenciával működő nyelvi modellek, például a Llama harmadik generációja, egyre kifinomultabbá váltak az utasítások megértésében és követésében. Ezeket a modelleket azonban erősen cenzúrázzák, hogy elkerüljék a káros vagy etikailag problematikus válaszokat. A gyakori „As an AI assistant, I cannot help you” típusú elutasítási reakciók ugyan fontos biztonsági elemek, de jelentősen korlátozzák a modell rugalmasságát és alkalmazhatóságát. Ebben a cikkben egy rendkívül érdekes módszert mutatunk be, az úgynevezett abliteration technikát, amely lehetővé teszi bármely nyelvi modell cenzúrájának eltávolítását anélkül, hogy újra kellene tanítani a modellt. Mi az az abliteration és hogyan működik? Az abliteration egy olyan beavatkozás, amely a modell elutasító viselkedésének idegi nyomát, az úgynevezett…
-
MARL: Új middleware csökkenti az LLM-ek tévedéseit finomhangolás nélkül
A mesterséges intelligencia nyelvi modellek (LLM-ek) rohamos fejlődése ellenére továbbra is jelentős kihívást jelent a „hallucináció”, azaz a téves vagy kitalált válaszok előállítása. A MARL nevű új runtime middleware azonban egy merőben újszerű megoldást kínál erre a problémára – anélkül, hogy magukat a modelleket finomhangolni kellene. Ez a szoftverréteg azonnal alkalmazható bármilyen OpenAI API-kompatibilis LLM-re, legyen az GPT-5.4, Claude, Gemini vagy akár a nyílt forráskódú Llama. Mi áll a MARL mögött? A metakognitív szakadék áthidalása A MARL fejlesztői az úgynevezett „metakognitív szakadékra” (MA-ER Gap) fókuszáltak, amely arra a képességre utal, hogy a mesterséges intelligencia felismerje saját hibáit és képes legyen azokat javítani. Bár a mai legfejlettebb LLM-ek már elképesztő pontossággal…
-
Így hódította meg az NVIDIA AI-Q a DeepResearch ranglistákat
Az NVIDIA AI-Q mélytanuló kutatóügynöke nemrégiben az első helyet szerezte meg mindkét DeepResearch Bench I és II ranglistán, amelyek a legfontosabb mércéknek számítanak a kutatóügynökök teljesítményének értékelésében. Ez a siker nem csupán egyéni győzelem: jól mutatja, hogy egy nyílt, konfigurálható és fejlesztőbarát rendszer képes a mesterséges intelligencia kutatás élvonalába kerülni. Az AI-Q egy olyan újítás, amely megmutatja, hogy a vállalati és webes adatokat feldolgozó, jól idézhető, átlátható válaszokat adó AI-ügynökök jövője ma már elérhető közelségben van. Miért fontos a két benchmark együttes megnyerése? A DeepResearch Bench I és II két különböző, de egymást kiegészítő szempont alapján értékeli a kutatóügynököket. Az első benchmark a jelentések minőségét vizsgálja, kiemelve a részletességet, az…
-
NEO-unify: Az új generációs natív multimodális mesterséges intelligencia
Az elmúlt években a multimodális mesterséges intelligencia (AI) egyik legnagyobb kihívása az volt, hogyan lehet egyszerre hatékonyan feldolgozni és összekapcsolni a vizuális és szöveges információkat. A hagyományos megközelítésekben külön modulokat használtak a képek és a szövegek kezelésére, például látásfeldolgozó kódereket (VE) és generatív variációs autoenkódereket (VAE), amelyek gyakran kompromisszumokra kényszerítették a modell teljesítményét. Most azonban a SenseTime és a NTU közös fejlesztése, a NEO-unify egy teljesen új paradigma felé nyit utat, amely natív módon, end-to-end tanulással dolgozik, és elhagyja a korábbi előfeldolgozó rétegeket. Mi az a NEO-unify? A NEO-unify egy forradalmian új multimodális AI modell, amely nem használ sem látásfeldolgozó kódereket, sem variációs autoenkódereket. Ehelyett közvetlenül, közel veszteségmentes formában dolgozza…