AI-blog | Guides & værktøjer fra førende AI-konsulenter | Consile

Gemini 3.5 Flash: 4x hurtigere til halv pris

Skrevet af Martin Mensbo Christiansen | 20-05-2026 08:00:00

Google har netop lanceret Gemini 3.5 Flash på I/O 2026. Modellen matcher de bedste AI-modeller på markedet på næsten alle benchmarks, men den er fire gange hurtigere og koster under halvdelen. For virksomheder, der allerede bruger AI-API'er i stor skala, er det en besked, der er svær at ignorere.

Modellen er tilgængelig fra i dag på tværs af Googles produkter og API'er. Gemini 3.5 Pro følger inden næste måned.

 

Benchmark-resultater på niveau med de bedste

Gemini 3.5 Flash tilhører Googles Gemini 3-familie, som blev lanceret tidligere i år og er blevet deres mest udbredte modelserie. Flash er den første model i en ny serie, der kombinerer frontier-niveau intelligens med agentiske kapabiliteter.

Sammenlignet med Gemini 3.1 Pro scorer Flash bedre på tværs af næsten alle benchmarks. Google fremhævede særligt to ting under keynoten: for det første et markant fremskridt inden for kodning, for det andet et ekstraordinært spring på GDP Val, et benchmark, der måler AI-modellers evne til at løse økonomisk værdifulde opgaver i den virkelige verden.

Når man sammenligner med konkurrenterne, placerer Flash sig på niveau med de bedste frontier-modeller fra OpenAI og Anthropic. Men det er på hastighed, at modellen skiller sig ud. Googles egne tal viser, at Flash leverer fire gange flere output-tokens per sekund end sammenlignelige modeller. Under en live-demo på scenen genererede en kommende Flash-variant næsten 1.500 tokens per sekund, kørende på Googles nye TPU 8i-chip.

 

 

 

Prisen halveret, og det mærkes i stor skala

Hastighed er én ting. Pris er en anden. Sundar Pichai understregede under keynoten, at mange virksomheder allerede har opbrugt deres årlige tokenbudgetter, og det er kun maj. Googles regnestykke er konkret: de største virksomheder på Google Cloud processerer omkring én billion tokens om dagen. Hvis de flyttede 80 procent af deres workloads fra andre frontier-modeller til Gemini 3.5 Flash, ville de spare over én milliard dollars om året.

Det er en besparelse, der kan frigøre budget til nye AI-initiativer i stedet for at gå til ren compute. For danske virksomheder, der bygger med AI-API'er, er signalet klart: prisen per token falder hurtigt, og det åbner for use cases, der tidligere var for dyre at køre i produktion.

 

Tre billioner tokens om dagen internt hos Google

Googles eget forbrug siger meget om modellens modenhed. I marts processerede Google internt en halv billion tokens om dagen til deres udviklere. Det tal har fordoblet sig hver uge siden da, og de er nu oppe på over tre billioner tokens om dagen, drevet af Gemini 3.5 Flash.

Den skala er ikke bare et imponerende tal. Den skaber en feedback-loop: jo flere tokens der processeres, jo mere data får Google til at forbedre modellen. Det er den samme mekanisme, som har gjort Googles søgemaskine bedre over tid, nu overført til AI-modeller.

Google bruger Flash internt sammen med Antigravity, deres agent-first udviklingsplatform. Kombinationen har ifølge Google gjort softwareudvikling markant hurtigere. Under en demo viste Varun Mohan, hvordan 93 subagenter brugte Flash til at bygge et funktionelt operativsystem fra bunden på 12 timer, til under 1.000 dollars i API-credits.

 

TPU 8i: den hardware, der driver hastigheden

Bag Gemini 3.5 Flashs hastighed ligger ny hardware. Google annoncerede TPU 8i, en chip designet specifikt til inference. Fokus har været på at reducere latency i hvert eneste led, fordi Google ved fra 27 års arbejde med søgning, at hastighed er afgørende for brugeroplevelsen.

Under en live-demo genererede Flash næsten 1.500 tokens per sekund på TPU 8i. Begge nye chips, TPU 8 til træning og TPU 8i til inference, leverer op til dobbelt så god performance per watt som forgængerne, hvilket også adresserer de stigende energiomkostninger ved AI-workloads.

For virksomheder, der bruger Googles cloud-infrastruktur, betyder det hurtigere svar til slutbrugere og lavere driftsomkostninger. For resten af markedet sætter det et benchmark for, hvad der er muligt med specialiseret AI-hardware.

 

Gemini 3.5 Pro følger inden næste måned

Flash er den første model i Gemini 3.5-serien, men den er ikke den eneste. Google bekræftede, at Gemini 3.5 Pro allerede bruges internt og viser store forbedringer. Pichai bad udviklere om at give Google en måned mere, før Pro bliver tilgængelig eksternt.

Pro forventes at tilbyde dybere ræsonnering og bedre performance på komplekse, flertrinsopgaver, mens Flash forbliver det hurtige, billige valg til størstedelen af daglige workloads. Strategien minder om, hvad vi ser fra andre AI-laboratorier: en hurtig, billig model til volumen og en tungere model til de opgaver, der kræver mere tænketid.

 

Hvad det betyder for din virksomhed

For de fleste virksomheder er AI-modellernes kapabiliteter ikke flaskehalsen. Det er prisen. Gemini 3.5 Flash adresserer netop det.

Hvis du i dag bruger AI-API'er fra OpenAI, Anthropic eller Google, er Flash værd at teste som alternativ til dyrere modeller. Fire gange hurtigere outputhastighed gør realtidsapplikationer mere realistiske. Halv pris gør det muligt at køre workloads, der tidligere blev droppet af budgethensyn.

De virksomheder, der allokerer AI-budgetter nu, bør tage Flashs prispunkt med i planlægningen. Prisfaldet på inference er en trend, der kun accelererer, og de use cases, der var for dyre i 2025, kan være profitable i dag.