nyhet
Ny studie: RLHF döljer politisk slagsida i AI-modeller – tar inte bort den
Den träningsmetod som används för att göra stora språkmodeller säkra och neutrala – RLHF – tar inte bort underliggande politisk slagsida, utan maskerar den enbart. Det visar en ny studie publicerad på arXiv den 9 juni 2026.
Vad har hänt
Fynden väcker principiella frågor för aktörer som EU-kommissionen och nationella tillsynsmyndigheter, som i EU:s AI-förordning (AI Act) ställer krav på transparens och icke-diskriminering i högrisksystem. Om RLHF – industristandarden för säkerhetsjustering – bara skapar en fasad av neutralitet, underminerar det de garantier som modellbyggare som OpenAI, Anthropic och Google DeepMind kommunicerar till marknaden.
För användare och organisationer som förlitar sig på AI-modeller i beslutstöd, nyhetssammanfattning eller rådgivning innebär det en reell risk: modellen kan ge intryck av att vara opartisk, medan dess inbyggda strukturer systematiskt lutar åt ett håll.
Studien understryker behovet av djupare utvärderingsmetoder – inte bara analys av textoutput, utan granskning av modellernas interna representationer. Det är ett område där europeiska forskningsinstitutioner och standardiseringsorgan som ENISA och EU:s AI Office sannolikt kommer behöva sätta nya riktlinjer.