tolvers.se

nyhet

Ny forskning kopplar stora språkmodellers kapacitetstak till Shannons klassiska informationsteori

25 maj 2026 · 2 min läsning

En ny studie publicerad på arXiv den 25 maj 2026 visar att stora språkmodellers (LLM) kapacitetstak och skalningslagar kan förstås genom Claude Shannons klassiska informationsteori från 1948. Forskarna modellerar träningsprocessen som en brusig kommunikationskanal och härleder därigenom teoretiska gränser för vad en modell kan lära sig.

Vad har hänt

I studien 'LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws' (arXiv:2605.23901) behandlar forskarna en stor språkmodell som en informationskanal där träningsdata utgör ingångssignal och modellens vikter representerar den kodade utgångssignalen. Brus i processen — exempelvis datakvalitet, regularisering och optimeringsstokasticitet — begränsar hur mycket information som faktiskt kan överföras och lagras i modellen. Genom att tillämpa Shannons kanalkapacitetsteorem visar studien att det finns ett väldefinierat tak för hur mycket nyttig information en modell kan absorbera, oavsett hur stor den görs. Forskarna demonstrerar att de empiriska skalningslagar som observerats av bland andra OpenAI och DeepMind — där förlust minskar som en potenslag med ökad modellstorlek och datamängd — naturligt framkommer ur den informationsteoretiska ramen utan ad hoc-antaganden.

Vad det betyder

Resultaten ger AI-forskningen ett teoretiskt grundat verktyg för att förutsäga när ytterligare skalning av en modell ger marginell avkastning. Om träningsdatas brusnivå är hög sätts kapacitetstaket lågt, vilket innebär att en större modell inte automatiskt presterar bättre — en insikt med direkta ekonomiska konsekvenser för de aktörer som investerar miljarder i modellträning.

Studien föreslår också nya mätvärden baserade på ömsesidig information för att kvantifiera effektiv modellkapacitet, vilket kan komplettera dagens praxis där parametrar och FLOP används som proxy. För tillsynsorgan och standardiseringsorgan — exempelvis EU-kommissionen i sitt arbete med AI-förordningens tekniska specifikationer — kan ett informationsteoretiskt ramverk underlätta objektiva kapacitetsbedömningar av AI-system. Forskarna öppnar även dörren för att optimera datakvalitet snarare än datamängd som primär hävstång för bättre modeller.

Källor och vidare läsning

← Till startsidan