• Mesterséges intelligencia

    Új generációs AI-modell: NVIDIA Nemotron 3 Nano az Amazon Bedrockon

    Az NVIDIA legújabb, fejlett nyelvi modellje, a Nemotron 3 Nano mostantól elérhető az Amazon Bedrock platformján, teljesen menedzselt és szerver nélküli szolgáltatásként. Ez a lépés nagy előrelépést jelent a generatív mesterséges intelligencia alkalmazások fejlesztésében, mivel a fejlesztőknek nem kell többé az infrastruktúra bonyodalmaival bajlódniuk, miközben kihasználhatják a modell kimagasló képességeit. Mi az a Nemotron 3 Nano? A Nemotron 3 Nano egy kisméretű nyelvi modell, amely a Mixture-of-Experts (MoE) hibrid architektúráját használja, így ötvözi a hatékony számítási teljesítményt és a magas pontosságot. Ez a modell különösen jól teljesít kódolási feladatokban, tudományos következtetésekben, matematikai problémák megoldásában, valamint eszközök hívásában és utasítások követésében. Az átláthatóság jegyében a modell súlyai, az adatbázisok és az…

  • Mesterséges intelligencia

    Bemutatkozik a Mistral Small 4: az új nyitott AI csúcsteljesítmény

    A Mistral csapata bemutatta legújabb fejlesztését, a Mistral Small 4-et, amely egyetlen modellben egyesíti a korábbi zászlóshajóik legjobb tulajdonságait. Ez az innovatív hibrid AI képes egyszerre kezelni a gyors válaszokat, a mély komplex gondolkodást és a multimodális feladatokat, vagyis egyszerre érti a szöveget és a képeket is. A Mistral Small 4 nyílt forráskódú, Apache 2.0 licenc alatt érhető el, így bárki számára testreszabható és elérhető, ami tovább erősíti a nyílt és együttműködésen alapuló mesterséges intelligencia fejlesztések iránti elkötelezettséget. Az összetett képességek új mércéje A Mistral Small 4 egy igazi univerzális AI-modell, amely egyszerre alkalmas általános beszélgetésekre, bonyolult kódolási feladatokra, ügynöki működésre és komolyabb érvelésre is. Az architektúrája lehetővé teszi, hogy…

  • Mesterséges intelligencia

    Mixture of Experts: a jövő hatékonyabb nyelvi modelljei

    Az utóbbi években a nyelvi modellek fejlődése elsősorban a paraméterszám növelésével és a sűrű (dense) architektúrák méretezésével zajlott. Az olyan modellek, mint a GPT-2 vagy a GPT-3 hatalmas, több milliárd paraméterből állnak, és ez a megközelítés egy ideig valóban eredményes volt. Ugyanakkor a sűrű modellek képzése és futtatása egyre költségesebbé és erőforrás-igényesebbé válik, így új megoldások után kellett nézni. Ezek közül az egyik legígéretesebb a Mixture of Experts (MoE) megközelítés, amely a hagyományos Transformer architektúrát okosan átalakítva jelentősen javítja a számítási hatékonyságot. Mi is az a Mixture of Experts? A Mixture of Experts lényege, hogy a Transformer egyes rétegeiben – jellemzően a feed-forward blokkokban – nem egyetlen, nagy sűrű hálózat…