• Mesterséges intelligencia

    Slonk: Hatékony GPU-klaszter-kezelés Kubernetes és SLURM kombinációjával

    A mesterséges intelligencia és gépi tanulás kutatásában a gyors és megbízható számítási erőforrások kezelése kulcsfontosságú. A Character.ai mérnökei ezért fejlesztették ki a Slonk nevű rendszert, amely a jól ismert SLURM ütemezőt ötvözi a Kubernetes rugalmasságával. Ez a megoldás nem csupán belső használatra készült, a fejlesztők most egy nyílt forráskódú kiadással is megosztják a technológia alapjait, hogy más kutatók és fejlesztők is hasznára váljon. Két világ találkozása: HPC és Kubernetes Amikor a Character.ai csapata bővíteni kezdte a GPU-alapú tanítóinfrastruktúráját, hamar szembesültek egy ismert problémával: a kutatók a hagyományos, megbízható SLURM rendszerhez ragaszkodtak, amely fair sorokat és komplex ütemezési lehetőségeket kínál, míg az üzemeltetésért felelős csapat a Kubernetes által nyújtott automatizálást, skálázást…