nyhet
Forskarvarning: AI-agenters prestandamått kan manipuleras och mäter fel saker
Forskare har tagit fram ett automatiserat granskningssystem som avslöjar allvarliga brister i hur AI-agenters prestanda mäts – och visar att dagens benchmark-system riskerar att dölja verkliga säkerhets- och tillförlitlighetsproblem.
Vad har hänt
Bristerna är inte enbart akademiska. När företag och myndigheter fattar beslut om att driftsätta AI-agenter baserat på benchmark-resultat, riskerar de att köpa in system vars verkliga beteende i produktionsmiljö avviker markant från vad mätningarna visar. Särskilt allvarligt är att säkerhetsrelaterade egenskaper – exempelvis hur en agent hanterar tvetydiga instruktioner eller motstridiga mål – ofta är just de egenskaper som nuvarande benchmarks underpresterar på att fånga. I ett EU-sammanhang är detta relevant för tillämpningen av AI-förordningen, som ställer krav på tillförlitlig utvärdering av högrisksystem. Forskarnas automatiserade granskningsverktyg är tänkt att kunna integreras i befintliga utvärderingspipelines och ge en mer objektiv bild av var ett systems verkliga svagheter ligger – innan det driftsätts, inte efter.