-
Miért lehet félrevezető az LLM-ek rangsorolása? Új MIT-kutatás mutatja meg
A vállalatok egyre gyakrabban választanak nagyméretű nyelvi modelleket (LLM-eket) ügyfélszolgálati feladatok automatizálására vagy üzleti jelentések összefoglalására. A piac azonban hemzseg a különböző modellekből, így a döntéshozók gyakran megbíznak az LLM-ek teljesítményét rangsoroló platformokban, hogy segítsenek megtalálni az ideális modellt. Egy friss kutatás azonban rávilágít arra, hogy ezek a rangsorok meglepően sérülékenyek lehetnek, és apró adathibák vagy felhasználói tévedések jelentősen eltorzíthatják a végeredményt. A rangsorolás mögötti kihívások Az LLM-ek összehasonlítására szolgáló platformokon a felhasználók általában két modell válaszát látják egy adott kérdésre, majd eldöntik, melyik teljesített jobban. Ezeket a választásokat összesítve állítják össze a rangsorokat, amelyek alapján a cégek kiválaszthatják a számukra legmegfelelőbb modellt például kódírás vagy képi tartalmak értelmezése terén.…
-
Új generációs AI-modell: NVIDIA Nemotron 3 Nano az Amazon Bedrockon
Az NVIDIA legújabb, fejlett nyelvi modellje, a Nemotron 3 Nano mostantól elérhető az Amazon Bedrock platformján, teljesen menedzselt és szerver nélküli szolgáltatásként. Ez a lépés nagy előrelépést jelent a generatív mesterséges intelligencia alkalmazások fejlesztésében, mivel a fejlesztőknek nem kell többé az infrastruktúra bonyodalmaival bajlódniuk, miközben kihasználhatják a modell kimagasló képességeit. Mi az a Nemotron 3 Nano? A Nemotron 3 Nano egy kisméretű nyelvi modell, amely a Mixture-of-Experts (MoE) hibrid architektúráját használja, így ötvözi a hatékony számítási teljesítményt és a magas pontosságot. Ez a modell különösen jól teljesít kódolási feladatokban, tudományos következtetésekben, matematikai problémák megoldásában, valamint eszközök hívásában és utasítások követésében. Az átláthatóság jegyében a modell súlyai, az adatbázisok és az…
-
Hatékonyabb nyelvi modellek a normatartó biprojektált ablációval
A mesterséges intelligencia fejlődése során egyre nagyobb hangsúlyt kap a nyelvi modellek biztonságos működése, különösen a visszautasító (refusal) viselkedések kezelése. Ezek a viselkedések, amikor a modell nem kívánt vagy káros tartalmakra nem reagál, kulcsfontosságúak a megbízhatóság szempontjából. Egy új, úgynevezett normatartó biprojektált ablációs technika jelentős előrelépést hozhat ezen a téren, miközben javítja a modellek érvelési képességeit is. Mi az abláció és miért fontos? Az abláció alapvetően egy olyan módszer, amely a nyelvi modellek aktivációs terében található „visszautasítási irányokat” célozza meg, hogy eltávolítsa a nem kívánt viselkedéseket. Ezt a korábbi megközelítések egyetlen átlagos visszautasítási irány alapján végezték, ami ugyan hatékony volt, de nem vette figyelembe a visszautasítás és a károsság elkülönülését.…
-
Mixture of Experts: a jövő hatékonyabb nyelvi modelljei
Az utóbbi években a nyelvi modellek fejlődése elsősorban a paraméterszám növelésével és a sűrű (dense) architektúrák méretezésével zajlott. Az olyan modellek, mint a GPT-2 vagy a GPT-3 hatalmas, több milliárd paraméterből állnak, és ez a megközelítés egy ideig valóban eredményes volt. Ugyanakkor a sűrű modellek képzése és futtatása egyre költségesebbé és erőforrás-igényesebbé válik, így új megoldások után kellett nézni. Ezek közül az egyik legígéretesebb a Mixture of Experts (MoE) megközelítés, amely a hagyományos Transformer architektúrát okosan átalakítva jelentősen javítja a számítási hatékonyságot. Mi is az a Mixture of Experts? A Mixture of Experts lényege, hogy a Transformer egyes rétegeiben – jellemzően a feed-forward blokkokban – nem egyetlen, nagy sűrű hálózat…
-
Hogyan készíts egyszerű RAG rendszert Pythonban lépésről lépésre
Az utóbbi időben a Retrieval-Augmented Generation, azaz RAG, egyre nagyobb figyelmet kap az AI és a nagyméretű nyelvi modellek világában. A RAG lényege, hogy a nyelvi modellek válaszadása nem csupán a bennük rejlő tudáson alapul, hanem kiegészül külső információforrásokból származó releváns adatokkal. Ez a megközelítés jelentősen javítja a modellek pontosságát és alkalmazhatóságát, legyen szó akár kérdés-válasz rendszerekről, chatbotokról vagy tartalomgenerálásról. Ebben a cikkben egy egyszerű RAG rendszer megalkotását mutatom be lépésről lépésre Python nyelven, az ollama eszköz segítségével. Mi is az a RAG valójában? Egy hagyományos chatbot vagy nyelvi modell önmagában csak az általa betanult adatok alapján válaszol, ami gyakran korlátozza a tudását, különösen ha specifikus vagy friss információkra lenne…
-
Tucano 2: Nyílt forráskódú nyelvi modellek a portugál nyelvért
A mesterséges intelligencia világában az angol nyelv uralkodik, ám a globálisan több száz millióan beszélt portugál nyelv gyakran háttérbe szorul a nyílt forráskódú nyelvi modellek fejlesztése során. Ezt a hiányt igyekszik betölteni a Tucano 2 projekt, amely egy teljesen átlátható, a portugál nyelv sajátosságaira optimalizált nyelvi modellcsaládot hozott létre 0,5 milliárdtól egészen 3,7 milliárd paraméterig. Ebben a cikkben bemutatjuk, hogyan született meg ez a kezdeményezés, milyen kihívásokkal szembesültek a fejlesztők, és miért lehet ez mérföldkő a nyílt nyelvi modellek között. Miért van szükség portugál specifikus modellekre? Bár a nagy, többnyelvű modellek, mint például a Qwen3, Gemma 3 vagy Falcon 3 tartalmaznak portugál nyelvű adatokat, ezek nem igazán optimalizáltak a nyelv…
-
ShopRLVE-GYM: Intelligens e-kereskedelmi asszisztensek új generációja
Az e-kereskedelem rohamos fejlődésével egyre fontosabbá válik, hogy a vásárlói élmény gördülékeny és hatékony legyen. Bár a nagy nyelvi modellek már képesek folyékony beszélgetésekre, a gyakorlati alkalmazásban, például egy digitális vásárlósegéd szerepében, még mindig akadnak korlátok. A ShopRLVE-GYM nevű új kutatási projekt ezt a problémát célozza meg azzal, hogy az automatizált e-kereskedelmi asszisztensek képzését egy új, adaptív és megbízható környezetben valósítja meg. Miért fontos a megerősítéses tanulás az e-kereskedelemben? A hagyományos felügyelt tanulással (supervised fine-tuning) a modelleket példák alapján tanítják meg bizonyos feladatokra, például termékkeresésre vagy egyszerű kérdések megválaszolására. Azonban a valós vásárlói helyzetek gyakran összetettek: több egymást követő kérdésből álló párbeszéd, több szűrőfeltétel, részleges információk, vagy éppen egy rendelés…
-
GRPO, DAPO és GSPO: Az RL fejlődése a nyelvi modellekben
A nagy nyelvi modellek (LLM-ek) fejlesztése során a megerősítéses tanulás (Reinforcement Learning, RL) kulcsszerepet játszik abban, hogy a modellek egyre kifinomultabb és relevánsabb válaszokat adjanak. A korábban domináns PPO (Proximal Policy Optimization) módszer azonban számos korlátba ütközött, különösen hosszú szövegek és összetett feladatok esetén. Ezen kihívások miatt születtek meg a GRPO, DAPO és GSPO algoritmusok, melyek célja a hatékonyabb, stabilabb és skálázhatóbb megerősítéses tanulás megvalósítása. A GRPO újragondolása A GRPO (Generalized Ratio Policy Optimization) azzal vált ismertté, hogy eltávolította a PPO értékmódellől való függőségét. Ez nagy előrelépés, hiszen a value modellek hiányosságai korlátozták a PPO alkalmazhatóságát, főleg hosszú szövegek esetében. A GRPO lényege a fontossági arány (importance ratio) használata, amely…
-
Hogyan szabadíthatjuk fel a cenzúrázott nyelvi modelleket abliteration segítségével?
Az utóbbi években a mesterséges intelligenciával működő nyelvi modellek, például a Llama harmadik generációja, egyre kifinomultabbá váltak az utasítások megértésében és követésében. Ezeket a modelleket azonban erősen cenzúrázzák, hogy elkerüljék a káros vagy etikailag problematikus válaszokat. A gyakori „As an AI assistant, I cannot help you” típusú elutasítási reakciók ugyan fontos biztonsági elemek, de jelentősen korlátozzák a modell rugalmasságát és alkalmazhatóságát. Ebben a cikkben egy rendkívül érdekes módszert mutatunk be, az úgynevezett abliteration technikát, amely lehetővé teszi bármely nyelvi modell cenzúrájának eltávolítását anélkül, hogy újra kellene tanítani a modellt. Mi az az abliteration és hogyan működik? Az abliteration egy olyan beavatkozás, amely a modell elutasító viselkedésének idegi nyomát, az úgynevezett…
-
Agent API: Az intelligens munkafolyamatok új generációja
Az AI világában egyre nagyobb kihívás a különböző modellek, keresők és eszközök hatékony összefűzése egyetlen, gördülékenyen működő rendszerbe. A Perplexity legújabb fejlesztése, az Agent API, éppen ezt a problémát oldja meg: egy menedzselt futtatókörnyezetet kínál, amely intelligensen szervezi az ügynöki munkafolyamatokat, egyesítve a keresést, eszközhasználatot és több modell összehangolását egyetlen platformon. Az ügynöki ciklus, mint számítási modell A hagyományos processzorok egy előre meghatározott, determinisztikus ciklust követnek: utasítást olvasnak, értelmeznek, végrehajtanak és eltárolják az eredményt. Az Agent API ezzel szemben egy teljesen másfajta modellt valósít meg, ahol a processzor maga egy élvonalbeli nyelvi modell. Ez a modell kap egy célt, majd önállóan bontja le feladatokra, kiválasztja a rendelkezésre álló eszközök közül…