-
Megnyílt az út a szövegből képre modellek nyílt forrású fejlesztése felé
Új mérföldkőhöz érkezett a mesterséges intelligencia egyik legizgalmasabb területe, a szövegből képet generáló modellek világában. A PhotoRoom csapata nemrégiben megosztotta nyílt forráskódú text-to-image modelljét, a PRX-et, amely egy újabb bizonyíték arra, hogy az AI fejlesztése egyre inkább közösségi alapokon nyugszik. Ez a lépés nem csak a technológia iránt érdeklődők számára jelent izgalmas lehetőséget, hanem a szakmai kutatók és fejlesztők számára is, akik mélyebben szeretnének beleásni a szövegből képet alkotó rendszerek működésébe. PRX: nem csak egy új modell, hanem egy komplett fejlesztési folyamat A PRX nem csupán egy újabb neurális hálózat a sok közül, hanem egy olyan projekt, amely a teljes fejlesztési folyamatot – az ötleteléstől a finomhangolásig – nyilvánossá teszi.…
-
Tucano 2: Nyílt forráskódú nyelvi modellek a portugál nyelvért
A mesterséges intelligencia világában az angol nyelv uralkodik, ám a globálisan több száz millióan beszélt portugál nyelv gyakran háttérbe szorul a nyílt forráskódú nyelvi modellek fejlesztése során. Ezt a hiányt igyekszik betölteni a Tucano 2 projekt, amely egy teljesen átlátható, a portugál nyelv sajátosságaira optimalizált nyelvi modellcsaládot hozott létre 0,5 milliárdtól egészen 3,7 milliárd paraméterig. Ebben a cikkben bemutatjuk, hogyan született meg ez a kezdeményezés, milyen kihívásokkal szembesültek a fejlesztők, és miért lehet ez mérföldkő a nyílt nyelvi modellek között. Miért van szükség portugál specifikus modellekre? Bár a nagy, többnyelvű modellek, mint például a Qwen3, Gemma 3 vagy Falcon 3 tartalmaznak portugál nyelvű adatokat, ezek nem igazán optimalizáltak a nyelv…
-
OpenMed: Nyílt forráskódú orvosi AI forradalom fél év után
Az OpenMed projekt alig fél éve indult, mégis komoly hullámokat kelt az orvosi mesterséges intelligencia világában. Egy tapasztalt fejlesztő és kutató egy ebédszünetben kezdte el, hogy megmutassa: a klinikai AI nem kell, hogy drága, zárt rendszerek mögé rejtőzzön. A nyílt forráskódú megoldások lehetőségei már most olyan szintre értek, hogy bátran versenyezhetnek a kereskedelmi termékekkel, és egyre több kutató, fejlesztő, valamint egészségügyi szakember fedezi fel őket. Az OpenMed útja és alapjai 2025 júliusában, több mint húsz évnyi tapasztalat után az OpenMed megalkotója elindított egy nyílt forráskódú projektet, amely több mint 380 orvosi nyelvi modellből áll. Ezek a modellek különféle klinikai szövegek elemzésére képesek, legyen szó gyógyszerészeti vagy kémiai entitások felismeréséről. Ami…
-
Az első nyílt platform az arab beszédszintetizálás értékelésére
Az arab nyelvű szöveg-beszéd átalakítás (TTS) területén a minőség megítélése mindig is nagy kihívást jelentett a nyelv dialektikus sokszínűsége miatt. Egy friss kezdeményezés, az Arabic TTS Arena azonban új irányt mutat, hiszen a sakkozásból ismert Elo-rendszert alkalmazza, hogy közösségi alapon rangsorolja a beszédszintetizáló modelleket. Ez az innovatív megközelítés lehetővé teszi, hogy a felhasználók saját fülükre hagyatkozva döntsenek arról, melyik hangszintézis a legtermészetesebb, legkifejezőbb az arab nyelv különböző változataiban. Hogyan működik az Arabic TTS Arena? A rendszer egyszerű, mégis rendkívül hatékony: a felhasználó beír egy arab nyelvű mondatot, majd két véletlenszerűen kiválasztott TTS-modell által generált hangfelvételt hallgat meg. A modellek identitása rejtve marad, így a szavazás teljesen pártatlan. A hallgatók eldönthetik,…