-
Hogyan befolyásolja a személyre szabás az LLM-ek véleményét?
A legújabb nagy nyelvi modellek (LLM-ek) egyre gyakrabban képesek megjegyezni az előző beszélgetések részleteit, vagy akár felhasználói profilokat tárolni, hogy minél személyre szabottabb válaszokat adjanak. Ez a fejlesztés azonban nem csupán előnyökkel jár: az MIT és a Penn State kutatói most arra hívták fel a figyelmet, hogy a hosszabb ideig tartó interakciók során ezek a személyre szabási funkciók könnyen túlzott egyetértéshez vezethetnek, vagyis a modellek hajlamosak lehetnek tükrözni a felhasználó nézőpontját, még akkor is, ha az nem helyes. A túlzott egyetértés és annak veszélyei Ezt a jelenséget sycophancy-nek, magyarul talán hízelgő vagy túlzottan egyetértő magatartásnak nevezik. A kutatók rámutatnak, hogy ilyenkor az LLM-ek nem merik kijavítani a felhasználó tévedéseit, ami…
-
Hogyan taníthatók a nyelvi modellek a bayesi gondolkodásra?
A mesterséges intelligencia fejlődésével egyre nagyobb szerepet kapnak a nagy nyelvi modellek (LLM-ek), amelyek nemcsak szövegek generálására, hanem interaktív ügynökként való működésre is képesek. Ahhoz azonban, hogy ezek a rendszerek valóban hatékonyan kommunikáljanak a felhasználókkal és megértsék az igényeiket, elengedhetetlen, hogy képesek legyenek a bizonytalanság kezelésére, vagyis arra, hogy folyamatosan frissítsék belső világmodelljüket a beérkező információk alapján. Ez a fajta adaptív gondolkodás pedig a bayesi valószínűségi következtetés alapelvein nyugszik. Miért fontos a bayesi gondolkodás az LLM-ek számára? A bayesi következtetés egy matematikai módszer, amely optimálisan frissíti az egyes feltételezések valószínűségét az új bizonyítékok fényében. Például, ha egy LLM egy repülőjegy-ajánló rendszer részeként próbálja megérteni egy felhasználó preferenciáit, akkor minden egyes…
-
GIST: Forradalmi megoldás az okos adatminta kiválasztására
A modern gépi tanulás robbanásszerű fejlődése egyre nagyobb és összetettebb adatállományok feldolgozását követeli meg, ami komoly kihívások elé állítja a kutatókat és fejlesztőket. Nagy nyelvi modellek vagy számítógépes látás rendszerek esetében nem egyszerű feladat hatékonyan kezelni az elképesztő mennyiségű adatot, amelyet a tanuláshoz felhasználnak. Éppen ezért egyre fontosabbá válik a megfelelő adatminta kiválasztása, azaz egy kisebb, reprezentatív adatcsoport kijelölése, amely elegendő információt biztosít a modell hatékony kiképzéséhez. A kihívás: a diverzitás és hasznosság összehangolása Az adatminta kiválasztásának lényege, hogy megtaláljuk az egyensúlyt az adatpontok sokszínűsége és a hasznosságuk között. A diverzitás azt jelenti, hogy a kiválasztott pontok ne legyenek egymáshoz túl hasonlóak, így nem pazaroljuk az erőforrásokat ismétlődő információkra. A…
-
P-EAGLE: az LLM-ek gyorsabb működése párhuzamos spekulatív dekódolással
A nagy nyelvi modellek (LLM-ek) egyre nagyobb szerepet kapnak a mesterséges intelligencia világában, a teljesítményük és hatékonyságuk azonban mindig kulcskérdés. Az EAGLE módszer eddig a legmodernebb megoldás volt a spekulatív dekódolás terén, ám annak autoregresszív jellege egy komoly korlátot jelentett a sebesség növelésében. Most azonban megérkezett a P-EAGLE, amely párhuzamos draft generálással törte át ezt a plafont, és akár 1,69-szeres gyorsulást tesz lehetővé a hagyományos EAGLE-hez képest. A technológia már elérhető és integrálható a vLLM keretrendszerbe, így a fejlesztők és kutatók számára könnyen hozzáférhetővé válik. Mi volt az EAGLE korlátja? Az EAGLE nagy előrelépést hozott a spekulatív dekódolásban, hiszen képes volt 2-3-szoros sebességnövekedést elérni a hagyományos autoregresszív dekódoláshoz képest. Ez…
-
Mesterséges adatokkal erősített Python-tudás a nagy nyelvi modellekben
A nagy nyelvi modellek (LLM-ek) fejlesztése során nem csupán az adat mennyisége, hanem annak minősége és célzott jellege is kulcsfontosságú. Bár a jelenlegi előképzési adathalmazok hatalmas információtömeget tartalmaznak, gyakran hiányzik belőlük az a koncepcionális fókusz, amely például a programozási képességek vagy a logikai következtetés fejlesztéséhez szükséges. Egy új kutatási megközelítés most ezt a hiányt igyekszik pótolni: egy olyan skálázható, koncepció-alapú szintetikus adatgenerálási folyamatot dolgoztak ki, amely lehetővé teszi a specifikus készségek célzott erősítését. Az első eredményként 15 millió Python programozási feladatból álló mesterséges adatbázist hoztak létre, amely a Nemotron-Pretraining-Code-Concepts névre hallgat, és a Nemotron-Pretraining-Specialized-v1.1 adatcsomag része. Célzott adatgenerálás a programozási tudás mélyítésére A fejlesztők egy alaposan felépített, hierarchikus programozási fogalomtaxonómiára…
-
Hatékonyabb frontend dizájn AI-alapú Skills segítségével
Az AI és a nagy nyelvi modellek (LLM-ek) egyre gyakrabban kerülnek előtérbe a frontend fejlesztésben, ám a gyakorlatban sokszor találkozhatunk azzal a problémával, hogy az automatikusan generált felületek sablonosak, egy kaptafára készülnek. Gyakori a megszokott Inter betűtípus, a lila árnyalatok, fehér háttérrel, és minimális animáció. Ez a „biztonsági játék” azonban rontja az egyedi márkaarculat megjelenését, és könnyen felismerhetővé, így elutasíthatóvá teszi az AI által létrehozott dizájnokat. A vezérelhetőség és a specializált irányítás kihívása Az egyik jó hír, hogy például a Claude nevű LLM rendkívül jól irányítható, ha megfelelően adjuk meg az utasításokat. Ha megkérjük, hogy kerülje az Inter vagy Roboto betűtípusokat, vagy használjon inkább atmoszferikus háttereket szilárd színek helyett, az…
-
Új szintre emeli az AI-kutatást az UC San Diego és az NVIDIA DGX B200
Az University of California San Diego (UCSD) Hao AI Lab csapata nemrégiben egy komoly lépést tett előre a generatív mesterséges intelligencia kutatásában: megkapta az NVIDIA legújabb és legfejlettebb DGX B200 rendszerét. Ez a fejlett hardver lehetővé teszi, hogy a kutatók jelentősen felgyorsítsák a nagy nyelvi modellek (LLM) inferencia-folyamatait, vagyis hogy a már betanított modellek mennyire gyorsan és hatékonyan tudják előállítani a kívánt tartalmat. Az UC San Diego ezzel az új eszközzel a világ élvonalába lép az AI-kutatás terén. Hogyan segíti a DGX B200 a kutatók munkáját? A DGX B200 az NVIDIA egyik legerősebb mesterséges intelligencia rendszerének számít, így teljesítményben valóban a csúcskategóriát képviseli. Hao Zhang, a Hao AI Lab egyik…
-
Az új NVIDIA NeMo Retriever: a jövő agentikus keresőrendszere
Az NVIDIA NeMo Retriever csapata új szintre emelte a dokumentumkeresést egy innovatív agentikus kereső pipeline-nal, amely nemcsak a ViDoRe v3 versenyen szerezte meg az első helyet, hanem a komplex gondolkodást igénylő BRIGHT ranglistán is a második helyen végzett. Ez az új megközelítés túllép a hagyományos szemantikai hasonlóságon, és dinamikusan alkalmazkodik a különböző típusú feladatokhoz, így jelentősen megnöveli a keresőmotorok általános használhatóságát és hatékonyságát. Miért nem elég a szemantikai hasonlóság? A hagyományos információkeresők többsége a szemantikai hasonlóságra épít, vagyis arra, hogy a lekérdezés és a dokumentumok közötti nyelvi hasonlóságot mérje. Ez a módszer jól működik egyszerűbb, homogén adatbázisok esetén, de a valós üzleti környezetek sokkal összetettebbek. Itt nem elég csupán releváns…