Hatékonyabb skill-fejlesztés: tesztelj, mérj és finomíts Claude képességeit

Az AI-alapú munkafolyamatokban egyre nagyobb szerephez jutnak az úgynevezett „skill”-ek, vagyis speciális képességek, amelyekkel a modellek egyedi feladatokat képesek elvégezni. A Claude.ai most új eszközöket kínál a skill-creator funkció továbbfejlesztésére, amelyek segítségével nemcsak létrehozhatjuk, de folyamatosan tesztelhetjük, mérhetjük és finomhangolhatjuk is ezeket a készségeket. Ez a megoldás különösen hasznos azok számára, akik nem programozók, hanem inkább szakértők a saját területükön, és szeretnék biztosítani, hogy a skill-ek mindig a legjobb formájukat hozzák a modellek fejlődése mellett is.

Kétféle skill – kétféle megközelítés

A skill-ek alapvetően két kategóriába sorolhatók. Az első típus a képességnövelő skill-ek, amelyek olyan funkciókat valósítanak meg, amit az alapmodell vagy nem tud, vagy csak következetlenül tud elvégezni. Például a dokumentumkészítés során alkalmazott technikák, amelyek jobb eredményt hoznak, mintha pusztán a promptokat adnánk meg. A másik kategória az úgynevezett preferenciákat kódoló skill-ek, amelyek már meglévő funkciókat szerveznek egy adott munkafolyamat szerint. Ilyen lehet például egy NDA-ellenőrzést végző skill, amely a csapat által meghatározott szempontok alapján halad végig az ellenőrzésen.

Fontos tudni, hogy az első típusú skill-ek idővel elveszíthetik létjogosultságukat, ahogy a modellek alapvető képességei fejlődnek, míg a második típus értéke inkább a folyamatok pontos követésében rejlik. Ezért a tesztelés, vagyis az evals használata elengedhetetlen, hogy biztosak legyünk abban, hogy a skill valóban azt csinálja, amit elvárunk tőle.

Evalokkal a folyamatos fejlődésért

Az eval funkciók segítségével könnyedén írhatók olyan tesztek, amelyek ellenőrzik, hogy egy adott prompt esetén Claude tényleg a kívánt módon reagál-e. Ha valaki már írt szoftverteszteket, számára ez ismerős lesz: megadunk teszt-promptokat, leírjuk, mit várunk el, és a skill-creator visszajelzi, hogy megfelel-e a skill az elvárásoknak.

Például a PDF-kezelő skill korábban nehezen boldogult nem kitölthető űrlapokkal, mert a szöveget pontos koordinátákra kellett helyezni, mezők nélkül. Az eval segítségével elkülönítették a problémát, majd javítást vezettek be, amely szövegpozicionálást a kinyert szövegkoordinátákhoz kötötte.

Az evalok két legfontosabb szerepe, hogy időben észrevegyük, ha egy skill romló teljesítményt mutat, illetve hogy felismerjük, ha az alapmodell annyit fejlődött, hogy a skill már nem szükséges. Ez utóbbi nem azt jelenti, hogy a skill hibás, csupán azt, hogy a modell beépítette azt a funkciót, amit a skill korábban külön kellett hozzáadni.

Gyorsabb és pontosabb tesztelés több ügynökkel

A skill-creator új multi-agent támogatása lehetővé teszi, hogy az evalokat párhuzamosan futtassuk, így a tesztek nem lassítják egymást, és az értékelések tiszta, elkülönített környezetben zajlanak. Ez az innováció biztosítja, hogy ne keveredjenek az információk a különböző tesztek között, és a mérések – például az idő vagy a token-felhasználás – pontosan nyomon követhetők legyenek.

Ezen felül bevezettek összehasonlító ügynököket is, amelyek lehetővé teszik A/B tesztek elvégzését: például két skillverzió vagy skill és skill nélküli verzió összevetését. Ezek az ügynökök anélkül értékelik a válaszokat, hogy tudnák, melyik melyik, így objektív képet kapunk arról, hogy a változtatások valóban javítottak-e a teljesítményen.

Megfelelő skill-aktiválás a kulcs

A skill-creator új eszköze abban is segít, hogy a skill-ek akkor és ott aktiválódjanak, ahol valóban szükség van rájuk. Ahogy egyre több skill épül fel, egyre fontosabb, hogy a leírásuk pontos legyen: ha túl általános, akkor túl sokszor aktiválódik, ha túl szűk, akkor nem indul el egyáltalán. A rendszer elemzi a skill-leírást, összeveti példapromptekkel, és javaslatokat tesz a description finomhangolására, így csökkennek a téves riasztások és a kihagyott lehetőségek.

Ez a módszer már bizonyított: hatból öt nyilvános dokumentumkészítő skill esetében javult a triggerelés hatékonysága.

A jövő útja: a skill mint specifikáció

Ahogy a modellek egyre intelligensebbé válnak, elképzelhető, hogy a skill-ek és a specifikációk közötti határvonal elmosódik. Jelenleg egy SKILL.md fájl részletes utasításokat tartalmaz arról, hogy Claude-nak mit kell tennie, de a fejlesztések iránya az, hogy előbb-utóbb elég lesz a skill célját természetes nyelven megfogalmazni, a modell pedig magától értelmezi és hajtja végre a feladatot.

Az újonnan bevezetett eval keretrendszer ebbe az irányba mutat, hiszen már most a „mit” leírására fókuszál, amely hosszú távon akár maga a skill is lehet.

Az összes újítás elérhető a Claude.ai és a Cowork platformokon, a Claude Code felhasználók pedig telepíthetik a bővítményt vagy letölthetik a GitHub-ról. Ha szeretne mélyebben belemerülni a témába, érdemes megnézni az eredeti bejegyzést, ahol részletesen bemutatják az új funkciókat és használati lehetőségeket.