Mélyreható kódellenőrzés mesterséges intelligenciával az Anthropic-tól

Az Anthropic nemrégiben mutatta be legújabb fejlesztését, a Code Review-t, amely egy több ügynökből álló rendszert alkalmaz a kódellenőrzés során, hogy az emberi szemmel könnyen átsikló hibákat is észrevegye. Ez a megoldás nem a sebességre, hanem a mélységre fókuszál, így sokkal alaposabb vizsgálatot tesz lehetővé a pull requestek (PR) esetében. A technológia jelenleg kutatási előzetesként érhető el a Team és Enterprise csomagokban.

A kódellenőrzés szűk keresztmetszete

Az elmúlt egy évben az Anthropic mérnökeinek kódírási teljesítménye megduplázódott, ami komoly nyomást helyez a kódellenőrzési folyamatokra. A fejlesztők rengeteg PR-t kezelnek, de gyakran csak felszínesen, gyorsan átfutva vizsgálják meg a változtatásokat. Ez a helyzet nem csak az Anthropicnál jelentkezik, hanem a cég ügyfelei is hasonló nehézségekről számolnak be. Az új Code Review rendszert pont ezért fejlesztették ki, hogy minden PR-t megbízhatóan átnézzen és olyan hibákat is kiszűrjön, amelyeket még a tapasztalt emberi ellenőrök is könnyen elsiklanak.

Hogyan működik a Code Review?

Amikor egy PR megnyílik, a rendszer egy csapat mesterséges intelligencia ügynököt indít útnak, akik párhuzamosan keresnek hibákat a kódban. Ezeket az ügynökök egymás között ellenőrzik, hogy kiszűrjék a téves riasztásokat, majd súlyosság szerint rangsorolják az észlelt problémákat. Az eredmény egyetlen, áttekinthető összefoglaló komment formájában jelenik meg a PR alatt, kiegészítve a konkrét sorokra vonatkozó megjegyzésekkel. A rendszer a PR méretéhez igazítja a vizsgálat mélységét: a nagyobb, összetettebb változtatásokat több ügynök és részletesebb elemzés kíséri, míg a kisebb módosításoknál gyorsabb, könnyedebb ellenőrzést végez. Átlagosan egy ilyen felülvizsgálat körülbelül 20 percet vesz igénybe.

Gyakorlati tapasztalatok és eredmények

Az Anthropic már hónapok óta belsőleg használja a Code Review rendszert, és az eredmények látványosak. A több mint 1000 soros nagy PR-ek esetében 84%-ban találtak hibákat, átlagosan 7,5 problémát per felülvizsgálat. A kisebb, 50 sor alatti módosításoknál ez az arány 31%, és átlagosan fél hibát jelzett a rendszer. A mérnökök túlnyomó többsége egyetért a jelzésekkel, a téves riasztások aránya kevesebb mint 1%. Egy konkrét esetben egy egy soros módosítás, amely elsőre rutin jellegűnek tűnt, a rendszer kritikus hibát jelzett, amely az autentikáció működését veszélyeztette volna. Ez az aprónak tűnő probléma emberi szemmel könnyen észrevétlen maradt volna, de mielőtt a kód beolvasztásra került volna, a hibát kijavították.

Költségek és felhasználói irányítás

A Code Review a részletekre koncentrál, ezért költségesebb, mint az Anthropic nyílt forráskódú Claude Code GitHub Action megoldása, amely továbbra is elérhető. A felülvizsgálatok költsége a tokenfelhasználástól függ, jellemzően 15-25 dollár között mozog, és a PR méretével, bonyolultságával skálázódik. Az adminisztrátorok többféle eszközzel szabályozhatják a költségeket és a használatot: havi szervezeti költségkeretet állíthatnak be, kiválaszthatják, hogy mely adattárakban legyen aktív a vizsgálat, valamint részletes elemzéseket követhetnek nyomon egy speciális irányítópulton.

Hogyan kezdjünk hozzá?

A Code Review jelenleg béta fázisban érhető el a Team és Enterprise felhasználók számára. Az adminoknak csak be kell kapcsolniuk a funkciót a Claude Code beállítások között, telepíteniük kell a GitHub alkalmazást, majd kiválasztaniuk a vizsgálandó adattárakat. A fejlesztőknek nincs további teendőjük, a rendszer automatikusan lefuttatja a felülvizsgálatokat minden új PR-en. A részletes dokumentációval együtt a Code Review bemutatása minden érdeklődő számára hasznos kiindulópont lehet.