Nyhet

Ny studie: RLHF döljer politisk slagsida i AI-modeller – tar inte bort den

✍ tolvers.se-redaktionen Publicerad: 9 juni 2026 ⏱ 2 min läsning

Den träningsmetod som används för att göra stora språkmodeller säkra och neutrala – RLHF – tar inte bort underliggande politisk slagsida, utan maskerar den enbart. Det visar en ny studie publicerad på arXiv den 9 juni 2026.

Vad har hänt

Fynden väcker principiella frågor för aktörer som EU-kommissionen och nationella tillsynsmyndigheter, som i EU:s AI-förordning (AI Act) ställer krav på transparens och icke-diskriminering i högrisksystem. Om RLHF – industristandarden för säkerhetsjustering – bara skapar en fasad av neutralitet, underminerar det de garantier som modellbyggare som OpenAI, Anthropic och Google DeepMind kommunicerar till marknaden.

För användare och organisationer som förlitar sig på AI-modeller i beslutstöd, nyhetssammanfattning eller rådgivning innebär det en reell risk: modellen kan ge intryck av att vara opartisk, medan dess inbyggda strukturer systematiskt lutar åt ett håll.

Studien understryker behovet av djupare utvärderingsmetoder – inte bara analys av textoutput, utan granskning av modellernas interna representationer. Det är ett område där europeiska forskningsinstitutioner och standardiseringsorgan som ENISA och EU:s AI Office sannolikt kommer behöva sätta nya riktlinjer.

Källor och vidare läsning

The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model – arXiv

Ny studie: RLHF döljer politisk slagsida i AI-modeller – tar inte bort den

Vad har hänt

Källor och vidare läsning

Läs mer på tolvers.se