Bezpečnostní benchmark AI modelů: některé reagují na škodlivé požadavky v 90 % případů
TELUS Digital zveřejnila druhou edici benchmarku bezpečnosti AI modelů – výsledky ukazují propastné rozdíly mezi poskytovateli, které jsou klíčové pro firmy nasazující AI v produkci. Studie testovala 34 modelů od 10 globálních poskytovatelů prostřednictvím více než 620 000 adversarial testů.
Míra zranitelnosti se pohybovala od 1,3 % do 93 % – některé modely tedy vyhověly škodlivým požadavkům v naprosté většině případů. Celkem 10 modelů dosáhlo míry zranitelnosti pod 5 %, přičemž pět z nich pochází od Anthropic (modely Claude).
Oproti první edici z listopadu 2024, která pokrývala 24 modelů od 5 amerických poskytovatelů, druhá edice přidala poskytovatele z Číhy – Alibaba, Baidu, ByteDance, Zhipu AI a 01.AI – a rozšířila počet testovaných open-source modelů z 2 na 14. Studie vyvrátila předpoklad, že open-source modely jsou automaticky méně bezpečné: čínský model GLM 4.7 od Zhipu AI překonal v bezpečnosti řadu proprietárních alternativ. Konzistentně nejzranitelnější jsou naopak menší modely bez ohledu na původ.
