tolvers.se

guide

Kör LLM lokalt gratis med TensorSharp – kom igång på 30 minuter

17 juni 2026 · 2 min läsning

Trött på att betala månadsavgifter för att köra AI-modeller i molnet – eller orolig för vad som händer med dina data när de lämnar din dator? TensorSharp är en öppen källkods-inferensmotor som låter dig köra stora språkmodeller direkt på din egen hårdvara, helt utan prenumerationer eller molnanrop. Med rätt setup är du igång på under 30 minuter.

Vad är TensorSharp och varför är det intressant 2026?

TensorSharp är ett open source-projekt som fungerar som en lokal inferensmotor för LLM:er – det vill säga den mjukvarumotorn som tar emot din fråga, bearbetar den genom modellen och returnerar ett svar. Till skillnad från API-baserade tjänster som OpenAI eller Anthropic sker hela beräkningskedjan på din egna maskin. Det innebär att känslig information, exempelvis kunddata, affärsdokument eller personuppgifter, aldrig lämnar din lokala miljö – något som är direkt relevant för organisationer som lyder under IMY:s riktlinjer kring personuppgiftsbehandling eller EU:s dataskyddsförordning GDPR. Under 2026 har intresset för självhostad AI ökat markant i Sverige, delvis drivet av PTS rapport om molntjänstberoenden och den ökade medvetenheten kring datasuveränitet. TensorSharp stödjer flera populära modellformat och kan köras på både CPU och GPU, vilket gör det tillgängligt även för den som inte har ett toppmodernt grafikkort.

Hårdvara och förberedelser – vad behöver du egentligen?

Det korta svaret är: mindre än du tror. För att köra en 7-miljardersparameters-modell, till exempel en kvantiserad version av Mistral 7B eller Llama 3.1 8B, räcker det med 8 GB RAM och en relativt modern CPU. Har du ett dedikerat grafikkort med minst 6 GB VRAM, exempelvis ett NVIDIA RTX 3060 eller AMD RX 6700, kan du ladda av beräkningarna dit och få betydligt snabbare svarstider – ofta under en sekund per token vid 4-bitars kvantisering. Operativsystemmässigt fungerar TensorSharp på Windows, Linux och macOS. Innan du börjar bör du installera .NET 8 SDK, som är projektets körtidsmiljö, samt ladda ned en kvantiserad modell i GGUF-format från exempelvis Hugging Face. Se till att du har minst 10–15 GB ledigt diskutrymme för modellfilerna. Det är också en god idé att kontrollera att dina drivrutiner är uppdaterade om du planerar GPU-acceleration via CUDA eller ROCm.

Steg-för-steg: installera och konfigurera TensorSharp

Börja med att klona TensorSharp-repot från GitHub med kommandot 'git clone https://github.com/zhongkaifu/TensorSharp'. Navigera sedan in i projektmappen och kör 'dotnet build -c Release' för att kompilera projektet – det tar vanligtvis ett par minuter. När bygget är klart placerar du din nedladdade GGUF-modell i en lämplig mapp och pekar konfigurationsfilen mot den sökvägen. TensorSharp exponerar sedan ett lokalt REST-API på port 5000 som är kompatibelt med OpenAI:s API-standard, vilket innebär att du kan ansluta existerande verktyg, skript eller gränssnitt som är byggda för OpenAI utan att ändra en enda rad kod. Vill du testa direkt i terminalen kan du skicka en enkel curl-förfrågan till 'http://localhost:5000/v1/chat/completions' med ett JSON-body innehållande din prompt. En vanlig fallgrop är att glömma att sätta rätt kontextlängd i konfigurationen – för de flesta användningsfall räcker 4096 tokens, men modeller som stödjer längre kontext kan konfigureras upp till 32 768 tokens beroende på tillgängligt minne.

Slutsats

TensorSharp är ett seriöst alternativ för dig som vill ta kontroll över din AI-infrastruktur utan att vara beroende av externa molntjänster eller löpande licensavgifter. Installationsprocessen är förvånansvärt smidig för ett open source-projekt, och det OpenAI-kompatibla API:et gör integrationen med befintliga verktyg nästan friktionsfri. I en tid då dataintegritet och GDPR-efterlevnad allt oftare hamnar i centrum för svenska verksamheter – något som bland annat lyfts av IMY och EU-kommissionen – erbjuder lokal inferens en praktisk väg framåt. Är du nyfiken på nästa steg rekommenderar vi att du utforskar finjustering med LoRA-adaptrar eller sätter upp ett enkelt webbgränssnitt via Open WebUI för att ge kollegor tillgång till din lokala modell utan att de behöver röra en terminal.

Källor och vidare läsning

← Till startsidan · Sårbarheter · Hotbevakning · RSS