-
Mixture of Experts: a jövő hatékonyabb nyelvi modelljei
Az utóbbi években a nyelvi modellek fejlődése elsősorban a paraméterszám növelésével és a sűrű (dense) architektúrák méretezésével zajlott. Az olyan modellek, mint a GPT-2 vagy a GPT-3 hatalmas, több milliárd paraméterből állnak, és ez a megközelítés egy ideig valóban eredményes volt. Ugyanakkor a sűrű modellek képzése és futtatása egyre költségesebbé és erőforrás-igényesebbé válik, így új megoldások után kellett nézni. Ezek közül az egyik legígéretesebb a Mixture of Experts (MoE) megközelítés, amely a hagyományos Transformer architektúrát okosan átalakítva jelentősen javítja a számítási hatékonyságot. Mi is az a Mixture of Experts? A Mixture of Experts lényege, hogy a Transformer egyes rétegeiben – jellemzően a feed-forward blokkokban – nem egyetlen, nagy sűrű hálózat…
-
KV caching: a Transformer modellek gyorsabb szöveggenerálása
Az utóbbi években a Transformer alapú nyelvi modellek, mint a GPT, forradalmasították a mesterséges intelligencia világát, különösen a természetes nyelv feldolgozásában. Ugyanakkor ezek a modellek gyakran nagyon erőforrás-igényesek, különösen a szöveggenerálás során, amikor minden egyes új szó előállításához az összes korábbi lépést újra kell számolni. Ezt a problémát oldja meg a KV caching, vagyis a kulcs-érték gyorsítótárazás, amely hatékonyabbá teszi a modell működését azáltal, hogy nem ismétli meg fölöslegesen az előző számításokat. Mi az a KV caching és miért fontos? Amikor egy Transformer alapú modell új szöveget generál, minden egyes új token előállításakor újraszámolja a figyelem (attention) mechanizmus köztes értékeit, azaz a kulcsokat (key) és értékeket (value). Ez a folyamat…