Gemini 3.5 Flash

Gemini 3.5 Flash er Googles nyeste AI-model, lanceret 19. maj 2026 på Google I/O. Den er den første i en ny serie modeller der kombinerer frontier-niveau intelligens med agentiske kapabiliteter, altsammen til under halvdelen af prisen på sammenlignelige modeller. Kort sagt: den er lige så klog som de dyreste modeller på markedet, men fire gange hurtigere og markant billigere.

For at sætte hastigheden i perspektiv: på Google I/O demonstrerede Sundar Pichai en prompt der bad modellen om at bygge et Chrome dino-spil. Responsen blev genereret i realtid med næsten 1.500 tokens per sekund. Det tog længere at skrive prompten end at få et fungerende spil tilbage.

For danske virksomheder der bruger AI i produktion er Gemini 3.5 Flash relevant af to grunde. For det første er den optimeret til agentisk brug, altidå AI der selv kan planlægge, bruge værktøjer og udføre fler-trins opgaver. For det andet er prisen ($1,50 per million input-tokens) så lav at man kan skalere agentiske workflows uden at sprænge budgettet. Google estimerer at virksomheder der skifter 80% af deres workloads til Flash kan spare over 1 milliard dollars årligt.

Læsetid 7 minOpdateret juli 2026

Teknisk arkitektur: hvorfor Flash er anderledes end tidligere Gemini-modeller

Gemini 3.5 Flash er ikke bare en hurtigere version af Gemini 3.1 Pro. Den er bygget fra bunden med fokus på det Google kalder 'frontier intelligence with action', en model der både kan tænke dybt og handle hurtigt via værktøjer og sub-agenter.

Dynamic thinking. Modellen har 'dynamic thinking' aktiveret som standard. Det betyder at den automatisk vurderer hvor meget ræsonnering en opgave kræver og allokerer compute derefter. En simpel faktøjdslagning får minimal thinking-tid. En kompleks kodningsopgave får fuld chain-of-thought-ræsonnering. Det er teknisk set en form for adaptive compute allocation, hvor modellen selv styrer trade-off mellem hastighed og dybde.

Kontekstvindue på 1 million tokens. Gemini 3.5 Flash kan behandle op til 1.048.576 input-tokens og generere op til 65.536 output-tokens. Til sammenligning har Claude Sonnet 4.6 et kontekstvindue på 200.000 tokens, og GPT-5.5 ligger på 128.000. Det gør Flash velegnet til opgaver der kræver store mængder kontekst, f.eks. analyse af hele kodebasereller lange juridiske dokumenter.

Multimodal input. Modellen accepterer tekst, billeder, video, lyd og PDF som input, men genererer kun tekst som output. Det adskiller den fra Gemini Omni, der også kan generere video og billeder. Flash er bygget til at forstå og ræsonnere over multimodalt indhold, ikke til at generere det.

Co-optimeret med Antigravity. Et centralt teknisk punkt er at Gemini 3.5 Flash er co-optimeret med Googles agentiske udviklingsplatform Antigravity. Det betyder at modellen er specifikt trænet til at fungere godt i agentiske workflows med sub-agenter, hooks og asynkron task management. Google bruger selv kombinationen internt og processor nu over 3 billioner tokens dagligt for deres udviklere, op fra 500 milliarder i marts 2026.

Kører på TPU 8i Trillium. Flash kører på Googles nye TPU 8i inferens-chips, designet specifikt til hurtig model-serving. Det er denne hardware der muliggør de 284 tokens per sekund via API'et, og op til 1.500 tokens per sekund i optimerede setups. Kombinationen af model-arkitektur og dedikeret inferens-hardware er det der giver Flash dens hastighedsfordel.

Agentisk decoding. Google har specifikt optimeret Flash til 'agent decoding', det der sker når en AI-model ikke bare genererer tekst men også kalder værktøjer, evaluerer resultater og planlægger næste skridt. I Antigravity er Flash optimeret til at være 12 gange hurtigere end andre frontier-modeller i agentiske loops. Det er kritisk fordi agentiske workflows ofte kræver 10-100x flere tokens end en simpel prompt-response.

Vil du forstå hvordan Gemini 3.5 Flash og andre frontier-modeller passer ind i din virksomheds AI-strategi? Vi hjælper danske B2B-virksomheder med at vælge de rigtige modeller til de rigtige opgaver og bygger agentiske løsninger der skalerer.

Benchmarks og kapabiliteter: hvad Flash konkret kan

Google har offentliggjort omfattende benchmark-data der sammenligner Flash med både egne og konkurrenters modeller. Her er de vigtigste resultater med kontekst:

Agentisk kodning (Terminal-bench 2.1): 76,2%
Flash scorer 76,2% på Terminal-bench, en benchmark der måler evnen til at løse kodningsopgaver via en terminal. Til sammenligning: Claude Opus 4.7 scorer 66,1% og GPT-5.5 scorer 78,2%. Flash er altid altså tæt på den bedste model, men til en brøkdel af prisen.

MCP Atlas (multi-step workflows): 83,6%
På MCP Atlas, der måler evnen til at udføre fler-trins workflows via MCP (Model Context Protocol), scorer Flash højest af alle testede modeller. Claude Opus 4.7 ligger på 79,1%, GPT-5.5 på 75,3%. Det viser at Flash er særligt stærk i agentiske scenarier hvor modellen skal koordinere flere værktøjer.

Multimodal forståelse (MMMU-Pro): 83,6%
Flash fører også på MMMU-Pro, en benchmark for multimodal ræsonnering. Claude Opus 4.7 scorer 75,2%, GPT-5.5 scorer 81,2%. Kombinationen af stærk multimodal forståelse og hastighed gør Flash velegnet til batch-processering af dokumenter, billeder og video.

GDPval (økonomisk værdifuldt arbejde): 1656 Elo
GDPval er en benchmark der måler AI's evne til at udføre reelt økonomisk værdifulde opgaver. Flash scorer 1656 Elo. Claude Opus 4.7 ligger på 1753 og GPT-5.5 på 1769. Flash er altså ikke den absolutte bedste på denne metric, men er stadig konkurrencedygtig, og forskellen skal ses i lyset af at Flash koster en brøkdel.

Praktisk OS-bygning: under $1.000
På Google I/O demonstrerede Google at Antigravity med Gemini 3.5 Flash byggede et fungerende operativsystem fra bunden. Sub-agenter skrev al koden, fra scheduler til hukommelsesstyring til filsystem, på under 12 timer. Samlet API-forbrug: under $1.000. Demonstrationen var umulig med Gemini 3.1 Pro på grund af både pris og hastighed.

Hvor Flash taber. Flash er ikke den bedste på alle benchmarks. På SWE-Bench Pro (kompleks agentisk kodning) scorer Claude Opus 4.7 64,3% mod Flash's 55,1%. På ARC-AGI-2 (abstrakt ræsonnering) scorer GPT-5.5 84,6% mod Flash's 72,1%. Og på Humanity's Last Exam scorer Claude Opus 4.7 46,9% mod Flash's 40,2%. Flash er altså ikke den bedste overalt, men den tilbyder den bedste kombination af intelligens, hastighed og pris.

Gemini 3.5 Flash vs. konkurrenterne: priser, hastighed og styrker

AI-modelmarkedet i maj 2026 er det mest konkurrenceprægede nogensinde. Her er hvordan Flash placerer sig:

Claude Sonnet 4.6 (Anthropic)
Claude Sonnet 4.6 koster $3,00 input / $15,00 output per million tokens. Det er dobbelt så dyrt som Flash på input og 67% dyrere på output. Sonnet er stærk på skrivekvalitet og instruktionsfølgning, men langsommere. Til batch-processing tilbyder Anthropic 50% rabat ($1,50/$7,50), hvilket bringer prisen tættere på Flash. Kontekstvinduet er 200K tokens mod Flash's 1M.

Claude Opus 4.7 (Anthropic)
Opus 4.7 er Anthropics flagskibsmodel og fører på flere vigtige benchmarks: SWE-Bench Pro (64,3%), Humanity's Last Exam (46,9%), og GDPval (1753 Elo). Prisen er $15,00 input / $75,00 output, altså 10x dyrere end Flash på input. Opus er det rigtige valg når kvalitet er vigtigere end hastighed og pris. Til daglig produktion er Flash markant mere økonomisk.

GPT-5.5 (OpenAI)
GPT-5.5 er OpenAIs nyeste flagskib fra april 2026. Den scorer højest på Terminal-bench (78,2%), ARC-AGI-2 (84,6%) og GDPval (1769 Elo). GPT-5.5 er den stærkeste generalist på markedet, men hastigheden er markant lavere end Flash, og prisen er højere. GPT-5.5 er bedst til opgaver der kræver absolut topkvalitet uden tidspres.

Gemini 3.1 Pro (Google)
Googles egen 3.1 Pro var indtil nu deres flagskibsmodel. Flash overgår den på næsten alle benchmarks, mens den koster 40% mindre ($1,50/$9,00 vs. $2,50/$15,00). Den eneste metric hvor Pro stadig fører er MRCR v2 long-context (84,9% vs. 77,3% ved 128K tokens). For de fleste use cases er der ingen grund til at vælge Pro over Flash længere.

Hvor Flash vinder entydigt. På forholdet intelligens-per-dollar-per-sekund er Flash i en kategori for sig selv. Ingen anden frontier-model tilbyder samme kombination af benchmark-scores, hastighed (4x hurtigere) og pris (under halvdelen). For virksomheder der kører agentiske workflows med mange API-kald er Flash det oplagte standardvalg.

Ofte stillede spørgsmål om Gemini 3.5 Flash

Hvad er forskellen mellem Gemini 3.5 Flash og Gemini 3.1 Pro?

Flash overgår Pro på næsten alle benchmarks, er 4x hurtigere og 40% billigere. Pro scorer kun bedre på long-context retrieval (84,9% vs. 77,3% ved 128K tokens). For de fleste use cases er Flash det bedre valg i både kvalitet og økonomi.

Hvad koster Gemini 3.5 Flash via API?

$1,50 per million input-tokens og $9,00 per million output-tokens. Cached input koster $0,15 per million. Til sammenligning koster Claude Sonnet 4.6 $3,00/$15,00 og GPT-5.5 ligger i samme prisleje. Flash er den billigste frontier-model på markedet.

Er Flash bedre end Claude Opus 4.7?

Det afhænger af opgaven. Opus 4.7 scorer højere på SWE-Bench Pro (64,3% vs. 55,1%), GDPval (1753 vs. 1656 Elo) og Humanity's Last Exam (46,9% vs. 40,2%). Flash vinder på MCP Atlas (83,6% vs. 79,1%) og multimodal forståelse (MMMU-Pro 83,6% vs. 75,2%). Flash er 4x hurtigere og 10x billigere end Opus.

Kan Flash generere billeder eller video?

Nej. Flash accepterer billeder, video, lyd og PDF som input, men genererer kun tekst. Til billede- og videogenerering skal du bruge Gemini Omni, Nano Banana (billeder) eller Veo 3.1 (video).

Hvad er 'dynamic thinking' i Flash?

Dynamic thinking er en funktion der automatisk vurderer hvor meget ræsonnering en opgave kræver. Simple opgaver får hurtige svar. Komplekse opgaver får fuld chain-of-thought. Det giver den bedste balance mellem hastighed og kvalitet uden at du skal konfigurere noget.

Hvornår kommer Gemini 3.5 Pro?

Google har bekræftet at 3.5 Pro er i intern brug og forventes tilgængelig i juni 2026. Pro vil sandsynligvis score højere end Flash på ræsonnerings- og kodningsbenchmarks, men til en højere pris og lavere hastighed.

Er Flash relevant for danske virksomheder?

Ja. Flash understøtter dansk i tekstgenerering og forståelse. Den lave pris og høje hastighed gør den velegnet til produktion, f.eks. kundeservice-chatbots, dokumentanalyse, agentisk automatisering og dataudtrækning. Kontekstvinduet på 1 million tokens er særligt værdifuldt for danske virksomheder der arbejder med store dokumentsamlinger.