-
Megnyílt az út a szövegből képre modellek nyílt forrású fejlesztése felé
Új mérföldkőhöz érkezett a mesterséges intelligencia egyik legizgalmasabb területe, a szövegből képet generáló modellek világában. A PhotoRoom csapata nemrégiben megosztotta nyílt forráskódú text-to-image modelljét, a PRX-et, amely egy újabb bizonyíték arra, hogy az AI fejlesztése egyre inkább közösségi alapokon nyugszik. Ez a lépés nem csak a technológia iránt érdeklődők számára jelent izgalmas lehetőséget, hanem a szakmai kutatók és fejlesztők számára is, akik mélyebben szeretnének beleásni a szövegből képet alkotó rendszerek működésébe. PRX: nem csak egy új modell, hanem egy komplett fejlesztési folyamat A PRX nem csupán egy újabb neurális hálózat a sok közül, hanem egy olyan projekt, amely a teljes fejlesztési folyamatot – az ötleteléstől a finomhangolásig – nyilvánossá teszi.…
-
OpenMed: Nyílt forráskódú orvosi AI forradalom fél év után
Az OpenMed projekt alig fél éve indult, mégis komoly hullámokat kelt az orvosi mesterséges intelligencia világában. Egy tapasztalt fejlesztő és kutató egy ebédszünetben kezdte el, hogy megmutassa: a klinikai AI nem kell, hogy drága, zárt rendszerek mögé rejtőzzön. A nyílt forráskódú megoldások lehetőségei már most olyan szintre értek, hogy bátran versenyezhetnek a kereskedelmi termékekkel, és egyre több kutató, fejlesztő, valamint egészségügyi szakember fedezi fel őket. Az OpenMed útja és alapjai 2025 júliusában, több mint húsz évnyi tapasztalat után az OpenMed megalkotója elindított egy nyílt forráskódú projektet, amely több mint 380 orvosi nyelvi modellből áll. Ezek a modellek különféle klinikai szövegek elemzésére képesek, legyen szó gyógyszerészeti vagy kémiai entitások felismeréséről. Ami…
-
Az első nyílt platform az arab beszédszintetizálás értékelésére
Az arab nyelvű szöveg-beszéd átalakítás (TTS) területén a minőség megítélése mindig is nagy kihívást jelentett a nyelv dialektikus sokszínűsége miatt. Egy friss kezdeményezés, az Arabic TTS Arena azonban új irányt mutat, hiszen a sakkozásból ismert Elo-rendszert alkalmazza, hogy közösségi alapon rangsorolja a beszédszintetizáló modelleket. Ez az innovatív megközelítés lehetővé teszi, hogy a felhasználók saját fülükre hagyatkozva döntsenek arról, melyik hangszintézis a legtermészetesebb, legkifejezőbb az arab nyelv különböző változataiban. Hogyan működik az Arabic TTS Arena? A rendszer egyszerű, mégis rendkívül hatékony: a felhasználó beír egy arab nyelvű mondatot, majd két véletlenszerűen kiválasztott TTS-modell által generált hangfelvételt hallgat meg. A modellek identitása rejtve marad, így a szavazás teljesen pártatlan. A hallgatók eldönthetik,…