Gemma 4 fra Google I/O 2026: Open-weight er voksne nu

Skrevet af Martin Mensbo Christiansen | 20-05-2026 19:10:39

Google DeepMind fremlagde i denne uge en samlet pakke for Gemma 4-familien, der hæver baren for, hvad du kan bygge med åbne modeller. En model på 2 milliarder parametre matcher nu sidste års 27B-model, licensen er skiftet til Apache 2.0, og demoerne viste, at 31B-modellen klarer kompleks reasoning på Cloud Run uden problemer.

Hvis du har overvejet, om open-weight modeller er klar til seriøs produktionsbrug, er svaret efter Google I/O 2026 et tydeligt ja. Denne artikel er en grundig gennemgang af alt det vigtige fra den dedikerede Gemma-session. Hvis du ikke selv nåede at følge den, får du hele substansen her.

Hvad er Gemma egentlig

Gemma er Google DeepMinds åbne modelfamilie. Projektet startede i 2024 ud fra et enkelt princip: hvordan bygger man en model, som du kan køre overalt og fuldt tilpasse til dit eget behov. Det gav to grundlæggende krav. Modellen skulle være rimelig størrelse, så den faktisk kunne køre på lokal hardware. Og vægtene skulle være åbne, så du kunne finetune den i den retning, du har brug for.

Den underliggende filosofi er enkel og bliver gentaget hele vejen gennem sessionen: højest mulig effektivitet per watt. Målet er flest brugbare svar per ressource, du bruger på at køre modellen, uanset om den er stor eller lille.

Med Gemma 3 i 2024 strakte familien sig fra 1B-modeller til IoT-enheder op til 27B på en consumer-GPU. Med Gemma 4 fortsætter samme tilgang, men spændvidden og evnerne er løftet markant.

De fire størrelser i Gemma 4-familien

Gemma 4 kommer i fire størrelser, og hver er målrettet et bestemt hardware-tier. Hver størrelse er et reelt arkitektonisk valg, ikke et marketingsegment.

Gemma 4 E2B på 2 milliarder parametre er bygget til edge. Den kører på IoT-enheder, mindre embedded systemer og lavtydende telefoner. Den bruger en ny teknik, der hedder per-layer embedding, som er udviklet specifikt til at presse effektivitet ud af små modeller.

Gemma 4 E4B på 4 milliarder parametre er sweet spot for mid-range telefoner og laptops i den lavere ende. Det er den størrelse, der kan køre lokalt på de fleste arbejdsmaskiner uden problemer.

Gemma 4 26B MoE er en mixture-of-experts model med 26 milliarder parametre totalt, men kun 4 milliarder aktiverede per token. Det er den variant, der giver bedst runtime-effektivitet, og det er den, du vælger, hvis du skal serve mange requests med lav latency.

Gemma 4 31B er en dense model på 31 milliarder parametre. Den er nemmere at finetune end MoE-varianten og giver højest intelligens per parameter. Det er den variant, du vælger, hvis du skal tilpasse modellen til en specifik vertical eller branche.

Denne split mellem dense og MoE betyder noget i praksis. Dense finetuner bedre. MoE serverer bedre. Hvis du både skal levere en tilpasset model til en kunde og samtidig drive den i produktion, har du nu to klare valg, afhængigt af hvor du er i livscyklussen.

Hvad er nyt i Gemma 4

Fem ændringer skiller sig ud sammenlignet med Gemma 3.

Kontekstvinduet er udvidet markant

Hvor Gemma 3 toppede ved 32.000 tokens, går Gemma 4 op til 128.000 tokens på de små modeller og 256.000 tokens på 26B og 31B. Det er ikke i toppen sammenlignet med kommercielle modeller som Claude eller Gemini, men det er rigeligt til de fleste agentiske workflows, dokumentanalyse og lange samtaler.

Reasoning og function calling er nu standard

Alle Gemma 4-modeller har indbygget reasoning-mode (det Google kalder "thinking") og function calling. Det betyder, du kan bruge dem direkte i agentiske pipelines uden særlige tricks eller workarounds. For virksomheder, der har investeret i MCP-baserede infrastrukturer eller agent-frameworks som ADK, er det et stort skridt fremad. Du kan nu reelt skifte mellem en kommerciel API og en lokal Gemma-model uden at omskrive hele orkestreringen.

Apache 2.0-licensen er måske den vigtigste nyhed

Google har skrottet den custom Gemma-licens og er gået over til standard Apache 2.0. Det er en lille ændring teknisk set, men en stor ændring forretningsmæssigt. Apache 2.0 er en af de mest brugte open source-licenser i verden. Juridiske afdelinger kender den. Compliance-teams behøver ikke at lave en specialvurdering. Det fjerner en stor friktion ved produktionsbrug i regulerede brancher og hos større virksomheder.

For danske virksomheder, der skal håndtere GDPR, EU AI Act og krav om datasuverænitet, fjerner det her en stor barriere. Du kan nu deploye Gemma 4 internt, finetune den på dine egne data og bruge den kommercielt uden licensbekymringer.

Multimodale evner fra bunden

Gemma 4 håndterer billeder, lyd og tekst som førsteklasses input. Vision-delen kan nu håndtere variable aspect ratios uden problemer, så du kan smide alt fra kvadratiske produktbilleder til lange skærmbilleder i modellen og forvente fornuftige resultater. Objektgenkendelse med bounding boxes er bygget ind, hvilket er nødvendigt for IoT og robotik. Og multimodal oversættelse fra billede er bygget op fra bunden.

Lydforståelsen er fuldstændig omarbejdet

De små Gemma 4-modeller har fået en helt ny audio-stack. Det betyder bedre transskription, bedre oversættelse og stærkere flersproget håndtering. Det er præcis det, du har brug for, hvis du vil bygge stemmeassistenter eller dikteringsfunktioner, der fungerer offline.

Performance der overrasker

Det mest opsigtsvækkende tal fra hele sessionen er dette: Gemma 4 E2B på 2 milliarder parametre matcher eller overgår sidste års Gemma 3 27B-model på de fleste benchmarks. Det er en kompressionsfaktor på omkring 13 gange på et enkelt år.

Implikationerne er ret seriøse. Modellen, der for et år siden krævede en kraftig GPU, kan nu køre på en mobiltelefon. Olivier fra Gemma-teamet udtrykte håb om, at de næste år kan levere 31B-kapaciteter i lommen. Det lyder ambitiøst, men kurven peger den vej.

Flersprogethed der rammer dansk

På EuroEval, en uafhængig benchmark for europæiske sprog, ligger Gemma 4 31B mellem nummer 1 og 5 på næsten alle europæiske sprog, inklusive dansk, og det er på tværs af både open source- og closed source-modeller. På japansk er Gemma 4 tæt på GPT-5.4 niveau. På koreansk og sydøstasiatiske sprog leverer modellen stærkt.

For danske virksomheder betyder det, at Gemma 4 nu er en seriøs kandidat til indholdsproduktion, klassifikation, kundesupport og andre tekstopgaver på dansk. Det har historisk været en svaghed ved open-weight modeller, men det har Gemma-teamet adresseret direkte.

FoodTruck Bench og agentisk reasoning

Google viste resultater fra FoodTruck Bench, en benchmark, der måler både reasoning og function calling i samme test. Her konkurrerer Gemma 4 31B med DeepSeek v4 Pro (en model med over en billion parametre) og flere closed-source topmodeller. 31B-modellen kommer altså på højde med modeller, der er over 30 gange større.

MTP drafter giver gratis hastighed

Sammen med Gemma 4 har Google frigivet en MTP drafter (multi-token prediction), der muliggør speculative decoding. Det giver op til tre gange hurtigere decode-hastighed. Hvis du allerede kører Gemma i produktion, er det her en næsten gratis performance-opgradering.

Hvor og hvordan du deployer

Gus, en af produktcheferne for Gemma, gennemgik fire deploymentstrategier på Google Cloud, ordnet fra simpelt til avanceret. Det er værd at forstå forskellen, fordi prismodellerne er fundamentalt forskellige.

Cloud Run er det nemmeste valg

To linjer kode, og du har et endpoint kørende. Når der ikke er trafik, skalerer det til nul. Når der er spikes, kan det skalere op til 100 GPU'er. Cold start tager nogle få sekunder. Det er det rigtige valg, hvis du vil teste Gemma uden at binde dig til faste endpointomkostninger, eller hvis du har en applikation med ujævn trafik.

Gemini Enterprise Agent Platform (tidligere Vertex)

Her har du to varianter. Model Garden er one-click deployment, hvor du selv vælger GPU (H100, RTX 6000 osv.) og betaler for endpointet. Det giver dig kontrol over hardware, men du betaler for, at infrastrukturen er online, uanset om du bruger den. Model as a Service er serverless 26B, hvor du betaler per token. Det fjerner endpointomkostningen, men giver mindre kontrol over latency.

Forskellen i prismodel er vigtig at internalisere. Cloud Run og Model Garden betyder, du betaler for infrastruktur. Serverless betyder, du betaler per token, hvilket ligner kommerciel API-brug.

GKE er full control

Google Kubernetes Engine giver dig adgang til hver eneste knap. Du kan vælge GPU eller TPU. Du kan tweake alle parametre. Google leverer recipes med prækonfigurerede optimale indstillinger, men hvis du har skala, der retfærdiggør den operationelle overhead, har du her muligheden for at presse maksimal ydelse ud af din infrastruktur.

Den lokale mulighed er stadig stærkest for mange

Hele pointen med open-weight er, at du kan køre modellerne hvor som helst. Gemma 4 er understøttet ud af kassen i de fleste populære lokale runtimes, herunder Ollama, LM Studio, Llama.cpp og LightRT. For brancher med strenge datakrav er det her stadig den mest interessante mulighed.

Demoer der viser hvad der reelt er muligt

En stor del af sessionen var dedikeret til konkrete demoer. De er værd at gennemgå én for én, fordi de viser, hvad du faktisk kan bygge med Gemma 4 i dag.

Bike rental optimization med ADK og BigQuery

Den første demo var en agent-pipeline bygget på Agent Development Kit (ADK) med Gemma 4 31B på Cloud Run og en BigQuery MCP-server. Prompten var enkel: "Hjælp mig optimere indtjeningen fra denne bike rental service". Databasen var ikke noget, modellen kendte på forhånd.

Det interessante var, hvordan modellen arbejdede. Den begyndte med at undersøge databasen, lavede en plan, kørte queries, opdagede, at en join havde forkert type, fixede fejlen selv og fortsatte. Tre minutters autonomt arbejde uden brugerinput. Til sidst leverede den de ti bedste lokationer, hvor man burde tilføje flere cykler.

Det er præcis det reasoning- og tool-use-mønster, du har brug for, hvis du vil bygge agenter til kundecases. Modellen planlægger, fejler, fikser og fortsætter uden at give op.

AI Venture og vibe coding

AI Venture er et open source retro dungeon crawler-spil bygget specifikt til at lære vibe coding. Stacken er Angular plus Phaser JS plus Gemma 4 via enten Transformers.js i browseren eller Ollama lokalt. Spillet renderer brugergenereret HTML, CSS og JavaScript i en iframe for at validere koden, før den indlejres i selve spillet. En NPC-robot trigger autonome thinking loops med tool calls til Phaser-motoren.

Det er et eksempel på, at Gemma 4 kan håndtere kode-generering, validering og integration mod en eksisterende kodebase i realtid.

Parallelle agenter på en enkelt laptop

Den næste demo viste 15 parallelle agenter, der genererede SVG-illustrationer af en Gemma-maskot. Alle på den samme laptop via Llama.cpp. Pointen var throughput. Når du har færre parallelle agenter, er du begrænset af token rate. Når du kører flere parallelt, får du højere samlet throughput.

En lignende demo med otte agenter genererede kode i Rust, JavaScript og Python. Modellerne genkendte, hvor der fandtes SDKs til opgaven, og brugte dem, og hvor der ikke gjorde, byggede de bare direkte HTTP-kald med JSON. Setupet var et OpenAI-kompatibelt endpoint på localhost, hvilket gør det trivielt at flytte arbejdsbyrder fra cloud til lokal.

For virksomheder, der vil eksperimentere med agent-systemer uden at betale for cloud-tokens, er det her et stærkt argument. Du kan have din egen lille hær af agenter kørende på en MacBook.

Mobile via Google AI Edge Gallery

På en Pixel 10 Pro demonstrerede teamet en lang række on-device skills. En voice memo blev routet til en mood tracker. Et billede af bøger blev konverteret til en JSON-schema. Et billede af planter gav arrangementsforslag. En voice memo med en to-do-liste blev transskriberet lokalt. Og en offline objektgenkendelse identificerede et lille legetøj uden internet.

Hele stacken kørte on-device. Det er bevis på, at brugbar multimodal AI nu kan leve på en mobil uden cloud-afhængighed. For brancher med feltmedarbejdere, dårlig forbindelse eller datakrav, er det vigtigt.

Streaming conversation med sub-sekund latency

En af de mest imponerende demoer var en samtale med Gemma 4 med latency under et sekund, fra brugeren stoppede med at tale, til modellen begyndte at svare. Voice activity detection muliggjorde, at brugeren kunne afbryde modellen midt i en sætning, og modellen håndterede det elegant.

Teknikken bag er, at lyden chunkes og streames, mens den optages, modellen begynder at processe første del af outputtet, og text-to-speech kører som en separat parallel proces. Det er præcis den stack, du vil have, hvis du skal bygge talebaserede assistenter til kunder.

Ritchie Mini, en robot der spiller skak

Hugging Face og Pollen Robotics havde bygget Ritchie Mini, en lille robot powered af Gemma 4 via Transformers.js. Den så et skakbræt, forklarede, hvordan en springer flytter sig, og tabte spillet, fordi den ikke havde hænder til at flytte sine egne brikker. Det var lige dele teknisk demonstration og en charmerende illustration af, at lokal multimodal AI nu kan se, høre og reagere i realtid.

Personlig assistent på telefon og briller

Olivier viste off-device assistance med fuld systemniveau tool-calling. Brugscaser inkluderede identifikation af et advarselsskilt om pumaer i en nationalpark, beregning af afledede funktioner under en campingtur (x² + 7x + 10 giver 2x + 7), kalenderopslag om en gruppevandring og objektgenkendelse, der korrekt identificerede en hund fremfor en puma. Alt offline. Alt på telefonen.

Tilgængelighedsassistent for løbere

Den mest meningsfulde demo var Gemma Running Agent. Synshandicappede løbere får audio cues om træningsudstyr i venstre side, vejen frem, venstresving, der nærmer sig. "Stay in that lane. Perfect. Great run." Det viser, at lokal multimodal AI kan gøre konkret forskel for mennesker, der har brug for hjælp til at orientere sig i verden.

Duck Gemma og Coral Board

For de, der vil bygge fysiske agenter, er der to interessante eksempler. Duck Gemma er små robotænder bygget af Antoine Pironen, hvor den ene kører Gemma 4 E2B på en Raspberry Pi 5 og den anden på en Jetson Orin Nano. Stacken er Parakeet til speech-to-text, Gemma 4 til inferens og Kokoro til text-to-speech.

Coral Board er en dedikeret NPU på 1 TOPS, der kan køre Gemma 3 270M til oversættelse og Function Gemma til at konvertere voice- eller text-input til handlinger. Det åbner et helt nyt segment for embedded AI i wearables, hvor pris og strømforbrug er kritiske.

Gemmaverse, fællesskabet bygger videre

Den sidste del af sessionen handlede om community-økosystemet omkring Gemma. Tallene er imponerende. Over 500 millioner downloads (Gus medgav, at tallet sandsynligvis er undervurderet) og over 100.000 varianter af modellen, hvor folk i fællesskabet har finetunet Gemma til specifikke sprog, områder eller adfærd.

Highlights blandt varianterne:

MedGemma 1.5 er Google's egen healthcare-fokuserede variant af Gemma 3. Den kan besvare spørgsmål specifikt om sundhedsdata og er allerede tilgængelig til brug.

Cell-to-sentence Gemma 3 27B er en variant, der hjælper med at finde nye kræftbehandlinger. Vigtigt at understrege: behandlingerne testes klinisk allerede. Det er ikke teori.

Crane AI Labs har finetunet Gemma til markant bedre Swahili, hvilket åbner AI for millioner af brugere.

Gaia er en portugisisk variant, der leverer markant bedre kvalitet på sproget.

ePermit er en variant, der bruges af Ukraines regering til at gøre offentlige processer hurtigere.

Pointen er, at finetuning leverer reelle resultater i drift. Gus nævnte specifikt, at 100 til 1.000 eksempler er nok til at justere en model til at svare i en bestemt tone. Det er en lavthængende frugt for enhver virksomhed, der vil have AI, der lyder som dem selv.

Hvad det betyder for danske virksomheder

Lad mig samle op på, hvad alt det her reelt betyder, hvis du sidder i en dansk B2B-virksomhed og prøver at finde ud af, om Gemma 4 er noget for dig.

Apache 2.0 åbner regulerede brancher

Hvis du er i bank, forsikring, sundhed, energi eller offentlig sektor, har licensbarrierer historisk gjort open-weight modeller besværlige at bruge produktivt. Den friktion er væk nu. Apache 2.0 er allerede godkendt af stort set alle compliance-teams.

Datasuverænitet er reelt løst

Du kan deploye Gemma 4 internt på din egen hardware eller hos en europæisk cloud-leverandør, finetune den på dine egne data og holde alt inden for dine grænser. Det rammer både GDPR og kommende EU AI Act-krav.

Flersprogethed gør det relevant for danske use cases

EuroEval-tallene viser, at Gemma 4 31B håndterer dansk på højde med de bedste modeller på markedet. Du behøver ikke at sende dansk indhold til amerikanske API'er for at få ordentlig kvalitet.

Edge deployment åbner nye produkter

Gemma 4 E2B på en mobil eller en lille embedded enhed åbner produktkategorier, du ikke har kunnet adressere før. Feltmedarbejdere uden internet. Industrielle miljøer med strenge datakrav. Wearables og IoT. Alt det er nu inden for rækkevidde med en 2-4B model, der leverer brugbare svar.

Agentic AI uden cloud lock-in

Den indbyggede function calling og reasoning kombineret med MCP-økosystemet betyder, at du kan bygge agenter med Gemma 4 som backend uden at være låst til en bestemt cloud-leverandør. Det giver forhandlingskraft og fleksibilitet.

Total Cost of Ownership ændrer sig

Når du kan køre en model lokalt, der matcher kommercielle alternativer, ændrer regnestykket sig fundamentalt. Du betaler ikke per token. Du betaler for infrastrukturen, og den infrastruktur kan tjene mange brugscases. For virksomheder med høj inferensvolumen er det her ofte en betydelig besparelse.

Konklusion

Google I/O 2026 markerede et skift i, hvordan vi skal tænke på open-weight AI. Gemma 4 er en produktklar modelfamilie med konkurrencedygtige benchmarks, en almindelig licens, et bredt deployment-økosystem og et aktivt community, der bygger varianter til branchespecifikke behov.

Hvis du allerede arbejder med AI i din virksomhed, bør Gemma 4 være en del af din evalueringsproces fremover. Ikke nødvendigvis som erstatning for kommercielle modeller, men som en supplerende mulighed, der kan dække use cases, hvor cloud-baseret AI ikke er det rette svar.

Hvis du endnu ikke er i gang, er Gemma 4 et godt sted at starte. Du kan teste lokalt uden at oprette betalingsaftaler. Du kan finetune på dine egne data uden licensbekymringer. Og du har et tydeligt valg mellem fire modelstørrelser, afhængigt af hvor du skal deploye.

Open-weight AI er klar til produktion. Hvilken use case bygger du først?

Se hele indlægget