AI-blog | Guides & værktøjer fra førende AI-konsulenter | Consile

Hvad er DeepSeek V4?

Skrevet af Martin Mensbo Christiansen | 26-04-2026 18:20:00

Den 24. april 2026 lancerede kinesiske DeepSeek en preview af V4-Pro og V4-Flash som open-weight-modeller under MIT-licens. Det interessante er ikke at endnu en kinesisk lab matcher Vesten, men at de gør det til omkring en sjettedel af prisen for tilsvarende kapacitet hos OpenAI og Anthropic, og at de gør det med en arkitektur der reducerer KV-cachen til 10 procent af forgængerens.

Vi har gennemgået den tekniske rapport, sammenlignet benchmarks med Claude Opus 4.7 og GPT-5.5, og vurderet de juridiske og geopolitiske implikationer for danske B2B-virksomheder. Konklusionen er nuanceret: V4 er en ægte prisrevolution på et afgrænset segment, men det er hvor og hvordan modellen køres, der afgør om den giver mening for dig.

 

En ny prisreference for frontier-adjacent AI

DeepSeek V4 lanceres som en preview af to Mixture-of-Experts-modeller. V4-Pro har 1.6 billioner totale parametre fordelt på 384 routede eksperter plus 1 delt ekspert, hvor 6 eksperter aktiveres per token. Det giver 49 milliarder aktiverede parametre. V4-Flash er den mindre variant med 284 milliarder totale parametre og 13 milliarder aktiverede per token. Begge er trænet på henholdsvis 33T og 32T tokens og leverer native 1 million tokens kontekstvindue. V4-Pro er den største open-weights-model nogensinde udgivet.

Den vigtigste praktiske nyhed er prisen. V4-Pro koster ifølge DeepSeeks egen prisliste 1.74 USD per million input-tokens og 3.48 USD per million output-tokens. Sammenligner du med Claude Opus 4.7 til 5/25 USD og GPT-5.5 til 5/30 USD, lander V4-Pro på cirka en sjettedel af omkostningen. V4-Flash til 0.14/0.28 USD er omkring 89 gange billigere end Opus 4.7 på output. VentureBeats analyse bekræfter pris-til-kapabilitet-forholdet, og DeepSeek følger op med en tidsbegrænset 75 procents rabat på V4-Pro indtil 5. maj 2026.

Licensen er standard MIT, en af de mest tilladelige open source-licenser. Kommerciel brug, modifikation og redistribuering er tilladt uden royalties, uden field-of-use-restriktioner og uden responsible-AI-addendum. Det giver danske virksomheder fuld juridisk frihed til både at køre og finetune modellen kommercielt, hvilket adskiller den fra fx Llama-licensen. I bredere kontekst føjer V4 sig til en allerede stærk open source-bølge sammen med GLM-5.1 og Gemma 4, der gør 2026 til open weights' reelle gennembrudsperiode.

I forhold til V3.2 fra december 2025 er hovedforskellene tre: arkitekturen (V3.2 brugte Multi-head Latent Attention med dense full attention; V4 introducerer den hybride CSA+HCA), skalaen (V4-Pro er 2.4 gange større end V3.2's 671B), og post-training (V4 har tre eksplicitte reasoning-modes: Non-Think, Think High, Think Max). I forhold til R1 fra januar 2025 er V4 en samlet model snarere end en specialiseret reasoner: det vurderes bredt at R2 ikke længere kommer som separat model, fordi V4 med Think Max effektivt overtager R-rollen. Endpointet deepseek-reasoner retireres 24. juli 2026 og redirigeres til V4-Flash thinking.

 

 

 

 

 

Arkitekturen der gør prisen mulig

Det centrale problem ved 1 million tokens kontekst er at standard transformer-attention skalerer kvadratisk. Hver ny token skal sammenlignes med alle tidligere tokens, og ved 1M tokens er det ikke længere økonomisk håndterligt. V4 løser det med en hybrid attention-arkitektur, der interleaves to forskellige mekanismer lag for lag, plus en altid-tilstedeværende sliding window-branch på 128 lokale tokens. Det er ikke en helt ny opfindelse, men en pragmatisk syntese af idéer, der har været i forskningsmiljøet et stykke tid, og som DeepSeek har fået til at virke i produktionsskala.

Den første mekanisme, Compressed Sparse Attention, komprimerer KV-entries med faktor 4:1 ved hjælp af learned token-level pooling og udvælger derefter top-k mest relevante blokke via en såkaldt Lightning Indexer (V4-Pro bruger top-1.024, V4-Flash top-512). Den anden, Heavily Compressed Attention, samler hver 128 tokens til én komprimeret entry og kører dense attention oven på det. Hver mekanisme dækker det andet hul: sparse giver præcision, dense giver bredt overblik. Tilsammen reducerer de KV-cachen til omkring 10 procent og inference-FLOPs til omkring 27 procent af forgængerens. Simon Willisons analyse verificerer disse tal ved gennemgang af den tekniske rapport.

LLM'en er native FP4+FP8 mixed precision, ikke FP16. MoE expert-vægte gemmes i FP4 (specifikt MXFP4 med UE8M0 scale factors for Blackwell), alle øvrige parametre i FP8. Det er aggressivt: FP4 bruges som faktiske vægte ved inference, ikke kun simuleret. Resultatet er reduceret memory traffic, lavere latency og samme peak FLOPs som FP8 på Hopper-hardware med teoretisk en tredjedel ekstra effektivitet på Blackwell. Det er denne kombination af arkitektoniske kompressioner og aggressiv kvantisering der gør lavprisen mulig. NVIDIA rapporterer over 150 tokens per sekund per bruger på GB200 NVL72 native FP4 out-of-the-box.

DeepSeek har desuden eksplicit optimeret V4 til agentiske kodningsworkflows. Det 1M tokens kontekstvindue tillader at holde fulde agent-traces (system instructions, tool outputs, retrieval-kontekst, kode, logs, multi-step reasoning) i ét prompt uden retrieval-reranking. Modellen bevarer reasoning-traces på tværs af user turns ved tool calls, hvilket V3.2 ikke gjorde, og det stabiliserer multi-turn agent-loops betydeligt. Modellen er trænet via reinforcement learning mod faktiske tool-miljøer, og API'et understøtter både OpenAI ChatCompletions og Anthropics protokol native, hvilket gør integration i eksisterende agent-frameworks som Claude Code, OpenClaw og OpenCode enkel.

 

Benchmarks: hvor V4 vinder, og hvor den taber

På kompetitiv kodning og olympiade-matematik er V4 i toppen. LiveCodeBench på 93.5 slår både Claude Opus 4.6 og Gemini 3.1 Pro. Codeforces-rating på 3.206 placerer V4-Pro som 23. blandt menneskelige konkurrenter og er det højeste rapporterede tal på tværs af de modeller, der er testet i samme suite. Putnam-2025 leverer V4-Flash en perfekt 120/120, hvilket er på højde med specialiserede formal-math-systemer. På GDPval-AA Elo med 1.554 er den den bedste open-weight-model på praktisk arbejdsperformance, foran Kimi K2.6 og GLM-5.1.

For long-context-anvendelser er V4 best-in-class blandt open weights. På OpenAI MRCR-1M scorer V4-Pro 83.5, hvilket slår Gemini 3.1 Pro men taber til Claude Opus 4.6 og 4.7 (76 til 92.9). DeepSeek erkender selv et loft i den tekniske rapport: MRCR-recall falder fra 94 procent ved 128K til 82 procent ved 512K og 66 procent ved 1M. Anthropic og OpenAI rapporterer mindre falde-mønstre på samme test, hvilket tyder på at closed-source-laboratorierne stadig har den bedste long-context-fidelity. For en gennemgang af hvordan disse benchmarks hænger sammen i praksis, har vi tidligere skrevet om model-sammenligning på tværs af leverandører.

Hvor V4 taber materielt, er på real-world software engineering, agentisk tool-orkestrering og multimodalitet. På SWE-bench Pro lander V4-Pro på 55.4 mod Opus 4.7's 64.3, en forskel på cirka 9 point der er materiel når man bygger produktions-koderedskaber. På Terminal-Bench 2.0 er V4-Pro 15 point bag GPT-5.5. På HLE uden tools er gabet 9 point. MCP Atlas, der måler struktureret tool-orkestrering, favoriserer Opus 4.7 med 79.1 mod V4-Pro's 73.6. Vigtigst af alt er V4 text-only ved preview: ingen vision, ingen audio, ingen video. Top-diskussionen på V4-Pros Hugging Face-side er endda titlet "I'm very disappointed in this release" netop pga. dette. Artificial Analysis placerer V4-Pro på Intelligence Index 52, mod GPT-5.5 på 60 og Opus 4.7 på 57.

For dansk B2B er der en ekstra reservation: V4 har ingen offentliggjorte Nordic-benchmarks, og DeepSeeks træningsmix prioriterer ikke dansk. Praktisk betyder det at modellen producerer stivere, mere bogstaveligt oversat dansk med lejlighedsvise engelske kode-skift på tekniske termer. Til kundevendt content er Opus 4.7 og GPT-5.5 stadig de rigtige valg, og hvis I har behov for dækning af dansk grammatik specifikt, har vi tidligere beskrevet vores egen lokale dansk-retskrivnings-AI som et eksempel på hvordan man kan kombinere modeller til dansksproget output. Hallucinationsraten er også værd at notere: Artificial Analysis rapporterer 94 procent for Pro og 96 procent for Flash på Omniscience-testen, hvilket betyder at modellen næsten altid svarer selvom den er usikker. Det kræver stærk RAG-grounding og output-validering for at være produktionsklar i regulerede sammenhænge.

 

Hardwarekrav og fire veje til deployment

V4 ships native i FP4+FP8 mixed precision. Der findes ingen FP16-vægte distribueret af DeepSeek, og der er ingen praktisk grund til at upcaste. V4-Pro fylder 865 GB i sin native FP4+FP8-form og kræver realistisk 8x H200 141GB, 8x B200 eller 16x H100 80GB med tensor-parallelism. Det er server-hardware, og det er ikke billigt. V4-Pro bliver først økonomisk meningsfuld over 200 millioner tokens dagligt, hvilket er ud over de fleste danske SMB'ers reelle behov.

V4-Flash er den mere realistiske kandidat for de fleste B2B-use cases. Native FP4+FP8 fylder cirka 158 til 160 GB og kører på 1x H200 141GB (tæt, med offload), 2x H100 80GB eller 2x A100 80GB. Hvad angår Mac-deployment, er der en vigtig nøgtern besked: V4-Flash kan ikke køre brugbart på en Mac Studio M4 Max med 64GB unified memory. Den mindste tilgængelige MLX 4-bit quant er 151 GB, og selv om kun 13 milliarder parametre aktiveres per token, skal alle eksperter være resident i hukommelsen, fordi routing afgøres ved runtime. Realistisk Mac-deployment kræver Mac Studio M3 Ultra med 192GB eller 256GB. Hvis du har et Mac-baseret setup, har vi tidligere skrevet om hvordan man kører Nemotron 3 Nano lokalt på Mac som et alternativ, og om Ollama plus MLX til lokale agent-workloads.

Inference-engine-status pr. 26. april 2026 er, at vLLM 0.9 og SGLang er day-zero produktionsklare, mens upstream llama.cpp endnu ikke har support pga. den nye attention-arkitektur. Ollama Cloud har både v4-pro:cloud og v4-flash:cloud live, men lokal Ollama er ikke understøttet endnu. MLX-LM 0.31.3+ understøtter Flash 4-bit. AWS Bedrock, Azure og GCP Vertex har endnu ikke V4. Together AI, DeepInfra, Novita, OpenRouter og NVIDIAs build.nvidia.com har V4 live i hostet form.

For EU-baserede virksomheder er der fire reelle deployment-veje. Vej A er DeepSeeks egen API, hvilket har høj risikoprofil og kun er acceptabel for ikke-personlig, ikke-fortrolig, low-stakes eksperimentering med syntetiske data. Vej B er EU-baserede inference-providers (Nebius i Holland, Scaleway i Frankrig, OVHcloud, IONOS, STACKIT), der giver medium-lav risikoprofil hvis EU-headquartered med EU-only datacentre, korrekt DPA og no-retention. Vej C er self-hosting af LLM'en på EU GPU-cloud, der giver laveste data-risiko og fuld GDPR-kontrol. Vej D er on-premise eller dedikeret rack, hvilket er højeste kontrol og typisk anbefales til regulerede CRM-data i sundhed, finans og offentlig sektor. Vej C med V4-Flash er for de fleste danske SMB'er den rette indgangsvinkel.

 

Skal danske virksomheder være bekymrede over kinesisk oprindelse

Risikoen ved DeepSeek V4 i et dansk perspektiv er ikke binær. Den afhænger fundamentalt af hvor og hvordan modellen køres, og det er den vigtigste skelnen i hele diskussionen. Den hostede API på api.deepseek.com og den self-hostede MIT-licenserede vægt har dramatisk forskellige risikoprofiler, og den gengivelse af den distinktion er det vigtigste i hele denne overvejelse.

Den hostede service er problematisk. DeepSeeks privatlivspolitik fastslår at persondata lagres på servere i Kina og at virksomheden vil efterleve anmodninger fra kinesiske myndigheder under PIPL og National Intelligence Law fra 2017, der forpligter indenlandske virksomheder til at assistere kinesisk efterretningstjeneste på anmodning. EDPB's studie fra 2021 om tredjelandes regeringers adgang til data flagger Kina som havende "massiv og indiskriminerende" risiko.

Italiens Garante har på dette grundlag forbudt deepseek.com-tjenesten i EU, og Statens IT i Danmark har blokeret DeepSeek på cirka 45.000 arbejdsstationer. Datatilsynet planlægger ikke en selvstændig undersøgelse, men afventer EDPB-processen i taskforce-regi. Konsekvens: at sende persondata til den hostede API er reelt umuligt at gøre GDPR-konformt.

Onprem ændrer billedet markant. MIT-licensen tillader fuld kommerciel brug af LLM'en uden begrænsninger, og når modellen kører på EU-infrastruktur, sker der ingen overførsel til tredjeland ved inference. Kapitel V GDPR bliver dermed irrelevant. Hvad der derimod ikke forsvinder, er at EU AI Act-håndhævelsen starter 2. august 2026, og at DeepSeek ikke har skrevet under på EU's Code of Practice for GPAI-modeller. Det adskiller dem fra Anthropic, Google, Microsoft, OpenAI, xAI og Mistral, der alle har skrevet under. Bygger I et high-risk AI-system på V4, lægger den manglende provider-dokumentation byrden hos jer som deployer. Hvis I vil dykke dybere i selve regelsettet, har vi gennemgået EU AI Omnibus-lempelserne for hvordan reglerne falder ud i praksis.

En anden reel bekymring er indlejret censur og bias. ArXiv-studiet "R1dacted" og Promptfoos evaluering på 1.156 prompts fandt at omkring 13 procent af CCP-følsomme prompts udløser type-1-censur (skabelon-positiv) i V3, og at mønstrene overlever i lokale deployments. Interessant nok var V3 base-modellen og R1-Zero stort set ucensurerede; censuren tilføjes i fine-tuning, ikke pre-training. Selv efter de-censur-fine-tuning viste Enkrypt AI at cirka 91 procent af svarene stadig hælder pro-Kina på Kina-specifikke emner. For typiske CRM- og marketingopgaver er det stort set irrelevant. For journalistik, geopolitisk analyse eller global content moderation er det materielt og bør indgå i model-valget. Sat ind i en bredere governance-ramme er det værd at huske, at kun 26 procent af danske virksomheder har et fast ansvar for AI internt, hvilket gør model-valg-byrden endnu større.

 

Hvor V4 giver mening i en dansk B2B-pipeline

For de fleste danske virksomheder er det rigtige spørgsmål ikke "skal vi bruge DeepSeek V4 eller Claude Opus 4.7", men "hvor i vores AI-pipeline giver V4 mening, og hvor giver de andre mening". En hybrid pipeline er typisk det rigtige svar. V4-Flash bliver triage-laget for høj-volumen klassifikation, ekstraktion og routing. V4-Pro bliver kode- og long-context-laget for dyb analyse. Opus 4.7 eller GPT-5.5 polerer det endelige dansksprogede kundeoutput. Den månedlige besparelse mod en single-vendor pipeline kan være 70 til 90 procent på de workloads, hvor V4 er den rigtige model.

Konkret for CRM-automation er V4-Flash en stærk kandidat til ticket-triage, intent-klassifikation og field-ekstraktion fra kundekommunikation. Roughly 35 gange billigere end Sonnet 4.6, og 90 procents nøjagtighed slår 95 procent ved 35x prisen for de fleste routing-cases. Lad MCP-tools kalde HubSpot, Salesforce eller Microsoft Dynamics, lad V4-Pro komponere første danske udkast, og polér slutoutput med Opus 4.7 eller human review. For content-pipelines bruger I V4-Flash til research, ekstraktion fra danske kilder og strukturering. Lad ikke V4 skrive den endelige danske marketingtekst, det polerede dansk leveres af Opus eller GPT-5.5.

For dokument-analyse er V4-Pros 1M-kontekst en ægte unlock: hele ISO-standardpakker, KMD- eller Netcompany-teknisk dokumentation, eller store SAP-customization-manualer kan ingestes i ét prompt. Par med en dansk-tunet embedding-model til retrieval, lad V4 lave reasoning. For højesteretsdomme eller årsrapporter: V4 til parsing og strukturering, Opus til dansk juridisk drafting. Kode-review og refactoring er måske den stærkeste fit. Kode er overvejende engelsk-keyworded, og V4-Pro med 1M-kontekst kan ingestere et helt NetSuite-, Dynamics- eller e-conomic-integration-repo plus change-ticket og lave end-to-end review. Forvent 5 til 10 gange omkostningsreduktion mod Opus 4.7 på dette workload alene.

Det vigtigste arkitekturvalg er ikke modelvalget, men at I bevarer en abstraktionsslag (LiteLLM, OpenRouter eller egen wrapper), der lader jer udskifte modeller per task uden at omskrive applikationen. Det er den enkelt mest værdifulde beslutning I kan tage netop nu, fordi pris- og kapacitetslandskabet skifter månedligt. Som vi tidligere har beskrevet i indlægget om 12 AI-modeller på 7 dage, er det enkelte modelvalg blevet mindre vigtigt end den arkitektur, der gør dig i stand til at skifte når tingene flytter sig.

 

Anbefaling til danske B2B-virksomheder

For ikke-følsomme workloads som intern kode-assistent, dokument-summarisering og marketing-research kan V4-Flash bruges via en EU-baseret inference-provider eller via OpenRouter med syntetiske data. Den månedlige besparelse mod en Opus- eller GPT-5.5-baseret pipeline kan være 70 til 90 procent. For CRM-features med EU-kundedata bør I self-hoste V4-Flash på EU GPU-cloud (Scaleway, OVHcloud, Nebius, IONOS, Hetzner GPU), eller vælge en EU-baseret managed provider med eksplicit DPA og no-retention. Brug aldrig api.deepseek.com til kundedata. Dokumentér valget i en DPIA der citerer Garante-afgørelsen og EDPB's februar 2025-taskforce-statement.

For high-risk AI Act-use cases (HR, kreditscoring, kritisk infrastruktur) anbefaler vi at undgå V4 medmindre I har kapacitet til at bygge fuld GPAI-deployer-dokumentation selv. En EU-oprindelig model som Mistral, der netop satser massivt på europæisk AI-infrastruktur, er sandsynligvis den lavere-friktion-vej, selv hvis den er dyrere per token. For den danske offentlige sektor er default-svaret "nej" indtil Datatilsynet udsteder eksplicit vejledning, hvilket spejler Statens IT's egen præcedens på de 45.000 blokerede arbejdsstationer.

Konkret hardware-anbefaling for kunder, der overvejer self-hosting: V4-Flash på 2x H100 80GB eller 1x H200 141GB hos en EU-provider giver et brugbart privacy-bevarende setup omkring 8.000 til 15.000 EUR per måned, afhængigt af forbrug. V4-Pro kræver 8x H200 og er først økonomisk meningsfuld over 200 millioner tokens dagligt. For de fleste Consile-kunder er EU-managed inference på V4-Flash den rette indgangsvinkel, kombineret med Opus 4.7 eller GPT-5.5 til de 10 til 20 procent af workloadet hvor det betyder noget.

Den dybere strategiske pointe er, at det moat lukkede modeller har, nu er reduceret til fire akser: multimodalitet, absolut frontier-reasoning, safety-økosystem og vestlig sproglig polering. Det er stadig substantielle akser, men prisaksen er væk, og den var historisk den mest værdifulde for B2B. Anthropics premium-strategi og OpenAIs pricing-power står begge under reelt tryk, hvilket DeepSeek V4 nu gør operationelt for danske B2B'ere. For konsulenthuse som vores betyder det, at modelvalg ikke længere er et single-vendor-spørgsmål. Det er en porteføljebeslutning, der skal revurderes kvartalsvist, og DeepSeek V4 er fra og med uge 17, 2026 en seriøs kandidat på en pænt afgrænset delmængde af workloadet. Vil I drøfte en konkret arkitektur for jeres setup, så tag fat i os.