Blog
Kontakt os

On-Device AI (Lokal AI)

On-Device AI er AI-modeller der koerer direkte paa brugerens hardware, uden at data sendes til en cloud-server. Det kan vaere en smartphone med en dedikeret Neural Processing Unit (NPU), en baerbar med en Qualcomm Snapdragon X2-chip, eller en industriel sensor paa en fabriksgulv. Kernen er den samme: inferens sker lokalt, og data forlader aldrig enheden.

Forestil dig en saelger i felten der aabner en kunde-app paa sin telefon. Appen analyserer et billede af kundens produktopsaetning, sammenligner med kataloget, og foreeslaar relevante tilbehoersdele. Alt sker paa under et sekund, uden netvaerksforbindelse, og uden at kundens billeder uploades til en ekstern server. Det er On-Device AI i praksis.

For danske virksomheder er On-Device AI saerligt relevant af tre grunde: GDPR-compliance bliver enklere naar persondata aldrig forlader enheden, latenstiden forsvinder fordi der ikke er nogen cloud-rundtur, og driftsomkostningerne falder fordi inferens flytter fra betalte API-kald til hardware du allerede ejer. I 2025 blev der solgt hundredvis af millioner enheder med AI-acceleratorer, og i 2026 er 40 TOPS NPU-ydeevne blevet standardkravet for en AI-PC.

Læsetid 8 minOpdateret maj 2026

Saadan fungerer On-Device AI teknisk

1. NPU: Den dedikerede AI-processor. Moderne enheder har en Neural Processing Unit (NPU) ved siden af CPU og GPU. En NPU er specialdesignet til de matrixoperationer der driver neurale netvaerk. Qualcomms Snapdragon X2-platform leverer 75-85 TOPS (Tera Operations Per Second) dedikeret AI-ydeevne. Intels Core Ultra Series 3 (Panther Lake) naar 50 TOPS. AMDs Ryzen AI 300-serien ligger paa 50-75 TOPS. Apples M-serie chips kombinerer NPU med en unified memory-arkitektur der giver modellen adgang til al tilgaengelig RAM uden kopiering mellem processor-pools.

2. Forskellen paa cloud-inferens og lokal inferens. Ved cloud-inferens sender din enhed data til en server, serveren koerer modellen, og svaret sendes retur. Hvert trin tilfojer latens: typisk 200-500 ms for en simpel foresporgsel, mere hvis netvaerket er langsomt. Ved lokal inferens sker hele beregningen paa chippen i din haand eller paa dit skrivebord. Resultatet er der paa millisekunder, ikke hundredvis af millisekunder.

3. Modelstoerrelse og kvantisering. Store sprogmodeller som GPT-4 har hundredvis af milliarder parametre og kraever server-grade hardware. On-Device AI bruger i stedet kompakte modeller. Metas Llama 3.2 findes i 1B- og 3B-parameterversioner specifikt til on-device brug. Googles Gemma 3 gaar helt ned til 270 millioner parametre. Microsofts Phi-4 mini er 3,8 milliarder parametre. Disse modeller er designet fra bunden til at koere paa enheder med 8-16 GB RAM. Kvantisering komprimerer yderligere ved at reducere praecisionen af vaegttallene fra 32-bit til 4-bit, hvilket typisk halverer hukommelsesforbruget med minimalt tab af kvalitet.

4. Runtime-frameworks. Modellen alene er ikke nok. Der skal et runtime-framework til at oversaette modeloperationer til den specifikke hardware. De vigtigste i 2026 er ExecuTorch (Metas PyTorch-native framework med 50 KB base footprint og 12+ hardware-backends), ONNX Runtime (Microsofts framework-agnostiske motor der koerer paa alle platforme via det universelle ONNX-format), TensorFlow Lite/LiteRT (Googles optimerede runtime til mobile enheder), og Core ML (Apples proprietaere framework der udnytter Apples hardware fuldt ud). Valget afhaenger af din modelkilde og maalhardware.

5. Hybrid-arkitektur: lokal og cloud sammen. I praksis koerer de fleste enterprise-loesninger en hybridmodel. Hurtige, privatlivsfoelesomme opgaver som tekstfuldfoering, billedgenkendelse og stemmekommandoer koerer lokalt. Tunge opgaver som generering af lange dokumenter eller analyse af store datasaet sendes til cloud AI. Apple Intelligence bruger praecis denne tilgang: simple Siri-forespoorgsler behandles af on-device-modellen, mens komplekse opgaver sendes til Apples Private Cloud Compute, der koerer paa Apple Silicon-servere med krypterede sessioner.

6. Hukommelsesarkitektur er flaskehalsen. Den stoerste tekniske udfordring for On-Device AI er ikke regnekraft, men hukommelsesbandbredde. En 7B-parametermodel kvantiseret til 4-bit kraever cirka 3,5 GB RAM bare til vaegttallene. Under inferens skal disse vaegtstal streames gennem processoren i hoej hastighed. Det er derfor unified memory-arkitekturer (som Apples) har en fordel: de undgaar at kopiere data mellem CPU- og GPU-hukommelse. Det er ogsaa derfor de fleste smartphones i 2026 leveres med minimum 12 GB RAM.

7. Energiforbrug og termisk styring. En NPU der koerer paa 10-15 watt kan levere inferens der ville kraeve 200-400 watt paa en GPU-server. Det er en stoerrelsesordens forskel i energieffektivitet. For virksomheder med tusindvis af enheder i felten betyder det at AI-funktioner kan koere hele arbejdsdagen uden at taere batteriet. Til gengaeld skal termisk throttling haandteres: vedvarende inferens paa en telefon kan reducere NPU-ydeevnen med 20-30% efter faa minutters belastning.

8. Sikkerhedsmodellen. Naar modellen koerer lokalt, er angrebsfladen anderledes end ved cloud AI. Der er ingen API-nogle at laekke og ingen netvaerkstrafik at opsnappe. Til gengaeld kan modellen potentielt reverse-engineeres fra enheden, og jailbreaking af on-device modeller er lettere fordi brugeren har fysisk adgang. Producenter som Apple og Samsung bruger hardware-enklaver (Secure Enclave, Knox) til at beskytte modelvaegtene.

Vi hjaelper danske virksomheder med at vurdere, planlaegge og implementere On-Device AI-loesninger der balancerer privatliv, ydeevne og omkostninger. Kontakt os for en konkret vurdering af, hvor lokal AI kan erstatte eller supplere jeres nuvaerende cloud-AI-setup.

Konkrete erhvervsanvendelser af On-Device AI

Realtids-sprogoversaettelse uden netvaerk. Paa en Samsung Galaxy S26 med Galaxy AI kan en saelger paa en international messe tale dansk ind i telefonen og faa live oversaettelse til tysk, japansk eller spansk direkte paa enheden. Oversaettelsen sker paa under 300 ms, ogsaa uden Wi-Fi. For danske eksportvirksomheder der opererer paa messer i Hannover eller Tokyo er det en konkret produktivitetsgevinst.

Dokumentanalyse med fuld GDPR-compliance. En juridisk afdeling kan bruge en AI-PC med Snapdragon X2 til at analysere kontrakter lokalt. Modellen identificerer risikoparagraffer, sammenligner med standardvilkaar og flagger afvigelser. Fordi dokumenterne aldrig forlader maskinen, er der ingen databehandleraftale noedvendig med en cloud-udbyder, og GDPR-kravene til dataminimering er opfyldt per definition.

Kvalitetskontrol i produktion. Et dansk produktionsselskab kan montere kameraer med Edge AI-processorer paa produktionslinjen. Billedgenkendelsesmodellen koerer lokalt paa kameraets indbyggede NPU og registrerer defekter i realtid. Latensen er under 10 ms per billede, hvilket muliggoer inspektion ved fuld produktionshastighed. Alternativet med cloud-analyse ville kraeve stabil baandbredde og tilfoeje 100-500 ms forsinkelse per billede.

Intelligent kundeservice paa enheden. En Conversational AI-assistent der koerer lokalt paa en tablet i en butik kan besvare produktspoergsmaal uden netvaerksafhaengighed. Modellen er traenet paa virksomhedens produktkatalog og kan haandtere 80-90% af typiske kundeforespoorgsler offline. Naar forbindelsen er tilgaengelig, synkroniserer den med cloud-backenden for at opdatere priser og lagerstatus.

Stemmeanalyse i callcentre (lokal foerstebehandling). AI-modellen paa agentens PC analyserer kundens stemmetone og ordvalg i realtid og foreeslaar svar, eskalering eller rabattilbud. Fordi analysen sker lokalt, undgaar virksomheden at streame kundens stemmedata til en ekstern server, hvilket forenkler compliance med optagelsesregler og GDPR.

AI-drevet energistyring i bygninger. Sensorer med indbyggede AI-chips kan optimere varme, koeling og belysning baseret paa lokale moenstrdata uden at sende bygningsdata til skyen. Et kontorbyggeri med 500 sensorer der hver koerer inferens lokalt kan reducere energiforbruget med 15-25% sammenlignet med regelbaseret styring, ifoelge brancheestimaterne fra 2025.

Sikkerhedsovervaagning med privacy by design. Kameraer med on-device AI kan detektere uautoriseret adgang, braend eller vandskade uden at optage eller transmittere videomateriale. Modellen analyserer frames lokalt og sender kun alarmer, ikke billeder. Det loeser det klassiske dilemma mellem sikkerhedsbehovet og medarbejdernes privatlivskrav.

Konkurrentlandskab: hvem leverer On-Device AI i 2026

Apple (Apple Intelligence + Apple Silicon)
Apples tilgang er den mest integrerede. Hele stakken er proprietaer: chippen (M4, A19 Pro), frameworket (Core ML), og modellerne er optimeret specifikt til Apples hardware. Styrken er energieffektivitet og den taette integration med iOS/macOS. Svagheden er lukketheden: du kan kun koere Apples egne modeller eller modeller konverteret til Core ML-format. En MacBook Air M4 med 16 GB RAM starter ved cirka 10.000 DKK og koerer 7B-modeller flydende.

Qualcomm (Snapdragon X2 + AI Engine)
Qualcomm dominerer Windows-laptops og Android-smartphones. Snapdragon X2 Elite leverer op til 85 TOPS og koerer i Lenovo ThinkPad T14s Gen 6 (fra cirka 10.500 DKK), Microsoft Surface Pro 12 (fra cirka 14.500 DKK) og Samsung Galaxy-serien. Qualcomms AI Engine understotter ONNX Runtime, ExecuTorch og TensorFlow Lite, hvilket giver stoerre modelfleksibilitet end Apples loekkede oekosystem. Svagheden er hoejere stroemforbrug end Apples chips ved vedvarende inferens.

Intel (Core Ultra Series 3 / Panther Lake)
Intels NPU naar 50 TOPS i Panther Lake-generationen og opfylder Microsofts 40 TOPS-krav til Copilot+ PC-klassificering. Intel har den bredeste OEM-distribution: Dell, HP, Lenovo og ASUS bruger alle Intel-chips i deres enterprise-serier. Svagheden er at Intels NPU historisk har vaeret mindre energieffektiv end Qualcomms og Apples, selvom gabet indsnævres. Enterprise-laptops med Panther Lake starter fra cirka 9.000 DKK.

AMD (Ryzen AI 300 / Ryzen AI Max)
AMD positionerer sig med 50-75 TOPS i Ryzen AI Max-serien, primaert til kreative workstations og udviklermaskiner. Styrken er den integrerede Radeon-GPU der kan bruges til inferens sammen med NPU'en, hvilket giver mere fleksibilitet til stoerre modeller. Svagheden er smallere OEM-distribution end Intel og Qualcomm i enterprise-segmentet.

Samsung (Galaxy AI + Exynos/Qualcomm)
Samsung satser paa skala. Maalet er 800 millioner AI-drevne enheder inden udgangen af 2026, inklusiv smartphones, tablets, wearables og hvidevarer. Galaxy AI bruger en hybrid-tilgang: simple opgaver koerer lokalt paa Snapdragon 8 Elite Gen 2 eller Exynos 2600 (med NPU der er seks gange hurtigere end forgaengeren), mens avanceret generativt indhold bruger Samsungs cloud. Styrken er demokratisering: Galaxy AI er tilgaengeligt paa mellemklassemodeller som A56 og A36, ikke kun flagskibe.

Google (Tensor G5 + Gemini Nano)
Googles Tensor-chip er designet specifikt til Googles egne ML-modeller. Tensor G5 koerer Gemini Nano hurtigere end konkurrenterne trods lavere teoretisk TOPS-raating, fordi chippen er optimeret til praecis de modeller Google bruger. Det er en fordel hvis du er i Googles oekosystem, men en begraensning hvis du vil koere egne modeller. Pixel 10 Pro med Tensor G5 koster cirka 7.500 DKK.

Hvor On-Device AI er unik som koncept. On-Device AI er ikke et produkt fra en enkelt leverandoer, men et paradigme. Fordelen er leverandoeruafhaengighed: du kan vaelge mellem Apples, Qualcomms, Intels eller AMDs hardware og kombinere med open-source frameworks og modeller. Ulempen sammenlignet med cloud AI er modelstoerrelsesbegraensningen. De bedste on-device modeller i 2026 er 1B-7B parametre, hvor cloud-modeller naar 1.000+ milliarder. Det betyder at komplekse opsummerings-, programmerings- og analyseopgaver stadig kraever cloud-kapacitet.

Ofte stillede spoergsmaal om On-Device AI

Hvad er forskellen paa On-Device AI og Edge AI?

On-Device AI er en delmangde af Edge AI. Edge AI daekker al AI-behandling der sker taet paa datakilden, inklusiv lokale servere, gateways og edge-datacentre. On-Device AI er specifikt inferens paa selve slutbrugerens enhed: smartphone, laptop eller sensor. En lokal server i et fabriksskab er Edge AI men ikke On-Device AI. En NPU i din telefon er begge dele.

Kan On-Device AI erstatte cloud-baserede AI-loesninger som ChatGPT eller Claude?

Til simple, gentagne opgaver ja. En 3B-parametermodel paa en moderne smartphone kan haandtere tekstfuldfoering, opsummering af korte dokumenter, billedklassificering og basale spoergsmaal-svar-flows. Til komplekse opgaver som dyb analyse, avanceret kodegenerering eller kreativt indhold paa tvaers af sprog er cloud-modeller med 400B+ parametre stadig maerkbart bedre. De fleste virksomheder bruger en hybrid-tilgang.

Hvad koster det at komme i gang med On-Device AI i en virksomhed?

Hardware-investeringen er den primaere omkostning. En AI-klar laptop med 40+ TOPS NPU koster 9.000-18.000 DKK. Modellerne (Llama 3.2, Gemma 3, Phi-4 mini) og frameworks (ExecuTorch, ONNX Runtime) er gratis og open-source. For 50 medarbejdere er budgettet typisk 450.000-900.000 DKK for hardware, med nul loebende inferens-omkostninger. Sammenlign med cloud-AI der kan koste 50-200 DKK per medarbejder per maaned for API-adgang.

Er On-Device AI sikkert nok til at haandtere fortrolige virksomhedsdata?

Sikkerhedsmodellen er anderledes end cloud. Data forlader aldrig enheden, hvilket eliminerer risikoen for netvaerksangreb og cloud-brud. Til gengaeld har brugeren fysisk adgang til enheden, hvilket goer jailbreaking muligt. Producenter som Apple og Samsung bruger hardware-enklaver (Secure Enclave, Knox) til at beskytte modelvaegtene. For de fleste erhvervsscenarier er den lokale sikkerhedsmodel mindst lige saa staerk som cloud, forudsat at enheden er korrekt administreret via MDM.

Hvordan paavirker EU AI Act brugen af On-Device AI?

EU AI Act traeder fuldt i kraft 2. august 2026. On-Device AI har en compliance-fordel fordi data ikke forlader enheden, hvilket forenkler kravene til datahåndtering og overfoersler. Hoejrisiko-systemer (rekruttering, kreditvurdering) skal stadig dokumentere risikostyring uanset koerselssted. Men for standard-anvendelser eliminerer lokal koersel mange af de compliance-udfordringer der foelger med cloud-baseret AI, saerligt kravet om databehandleraftaler og overfoersel til tredjelande.

Hvilke AI-modeller kan koere paa en standard kontorbærbar i 2026?

En laptop med 16 GB RAM og 40+ TOPS NPU kan koere modeller op til cirka 7 milliarder parametre kvantiseret til 4-bit. Det inkluderer Metas Llama 3.2 3B, Googles Gemma 3 (op til 4B), Microsofts Phi-4 mini (3,8B) og Hugging Faces SmolLM2 (op til 1,7B). Med 32 GB RAM kan du koere 13B-modeller. Kvaliteten af disse modeller er tilstraekkelig til de fleste kontorprocesser: opsummering, kladder, oversaettelse og basale analyser.

Hvordan opdaterer man en On-Device AI-model?

Modeller opdateres typisk via OS-opdateringer (Apple Intelligence, Samsung Galaxy AI) eller via app-opdateringer for tredjepartsmodeller. Enterprise-IT kan ogsaa distribuere nye modeller via MDM-loesninger. En 3B-model fylder cirka 1,5-2 GB komprimeret, saa opdateringer er haandterbare over standard erhvervsnetvaerk. Ulempen sammenlignet med cloud er at alle enheder skal opdateres individuelt, hvilket kan tage timer til dage for en stor flåde.