Blog
Kontakt os

TPU 8i (Zebrafish)

TPU 8i er Googles ottende generation Tensor Processing Unit, specialdesignet til AI-inferens. Chippen blev annonceret ved Google I/O 2026 sammen med sin søsterchip TPU 8t til træning. Opsplitningen i to separate chips markerer en ny strategi, hvor Google erkender, at træning og inferens stiller fundamentalt forskellige krav til hardware. TPU 8i, med kodenavnet Zebrafish, er designet i samarbejde med MediaTek og optimeret til de hurtige, lavlatenssvar, som AI-agenter kræver. Med 288 GB HBM3e-hukommelse, 10,1 petaflops FP4-compute og tredoblet on-chip SRAM på 384 MB er chippen bygget til at afvikle store sprogmodeller med den hastighed, som realtidsapplikationer kræver. Google demonstrerede næsten 1.500 tokens per sekund på en kommende Flash-model. For danske virksomheder, der bygger AI-løsninger på Google Cloud eller evaluerer infrastrukturvalg, repræsenterer TPU 8i en væsentlig udvikling i pris-ydeevne-forholdet for AI-inferens.
Læsetid 10 minOpdateret maj 2026

Sådan fungerer TPU 8i teknisk

TPU 8i repræsenterer et fundamentalt arkitekturskifte i Googles chipstrategi. Hvor tidligere TPU-generationer var generelle acceleratorer, der håndterede både træning og inferens, er 8. generation opdelt i to specialiserede chips. TPU 8t (kodenavn Broadbill) er designet til træning med fokus på computekapacitet og skalerbarhed på tværs af store klynger. TPU 8i (kodenavn Zebrafish) er designet til inferens med fokus på latens, gennemstrømning og energieffektivitet. Denne specialisering gør det muligt at optimere hver chip til sit specifikke workload i stedet for at acceptere kompromiser.

Hardwaremæssigt består TPU 8i af en enkelt compute-die, en I/O-die og seks stakke HBM3e-hukommelse. Det er en enklere konfiguration end TPU 8t, der har to compute-dies, og denne simplicitet er bevidst. En enklere chiparkitektur reducerer produktionsomkostningerne med 20 til 30 procent sammenlignet med træningsvarianten, hvilket direkte påvirker den pris per inference-token, som cloud-kunder betaler. Begge chips fremstilles på TSMCs 2-nanometer procesnode, den mest avancerede chiplitografi, der er kommercielt tilgængelig.

De 288 GB HBM3e-hukommelse med 8,6 TB/s båndbredde er dimensioneret til at holde store modeller helt i chiphukommelsen. Når en LLM kører inferens, skal modellens vægte og den løbende kontekst (KV-cache) være tilgængelige med minimal forsinkelse. Jo mere hukommelse der er tilgængelig, jo større modeller og jo længere kontekstvinduer kan chippen håndtere uden at flytte data ud til langsommere lagring. 8,6 TB/s båndbredde sikrer, at data kan strømme til compute-enhederne uden flaskehalse.

Den tredoblede on-chip SRAM på 384 MB er en af de mest markante forbedringer. SRAM er den hurtigste type hukommelse på chippen, og den bruges til at opbevare KV-cache, som er den kontekstuelle hukommelse, modellen bygger op under en samtale eller et svar. Med tre gange mere SRAM kan TPU 8i holde en større del af KV-cachen på selve chippen, hvilket reducerer ventetiden for compute-kernerne under langkontekst-dekodning. For applikationer som chain-of-thought-ræsonnering og lange samtaler med AI-agenter er dette en direkte ydelsesfordel.

Collectives Acceleration Engine (CAE) er en ny specialiseret hardwarekomponent i TPU 8i, der aggregerer resultater på tværs af compute-kerner med næsten nul latens. Under autogressiv dekodning, hvor modellen genererer ét token ad gangen, kræver hvert trin en synkronisering på tværs af alle kerner. CAE accelererer denne synkronisering med en faktor 5 sammenlignet med software-baserede collectives. For Mixture-of-Experts (MoE) modeller, der kun aktiverer en del af modellens parametre per token, er denne acceleration særligt værdifuld, fordi MoE-inferens kræver hyppig kommunikation mellem de aktive eksperter.

Boardfly-topologien er en ny netværkstopologi, der forbinder TPU 8i-chips med dobbelt interchip-båndbredde på 19,2 Tb/s. Boardfly reducerer netværksdiameteren med cirka 56 procent sammenlignet med den foregående generation. I praksis betyder det, at data bevæger sig hurtigere mellem chips i en klynge, hvilket er afgørende for distribueret inferens, hvor en stor model er delt på tværs af flere chips. For MoE-modeller og ræsonneringsworkloads, der kræver all-to-all-kommunikation, er den reducerede netværkslatens en direkte ydelsesforbedring.

Energieffektivitet er et centralt designkriterie for TPU 8i. Google angiver op til to gange bedre ydeevne per watt sammenlignet med den foregående generation Ironwood. I et datacenter med tusindvis af chips oversættes denne forbedring til væsentlige besparelser på strøm og køling. Det er også relevant for Googles bæredygtighedsmål, da AI-inferens i stigende grad tegner sig for en voksende andel af datacentrenes energiforbrug. Den forbedrede energieffektivitet er et direkte resultat af specialiseringen, fordi chipdesignet kan optimeres til inferens uden at medbringe den ekstra compute-kapacitet, som træning kræver.

TPU 8i er planlagt til levering i slutningen af 2027 og vil være tilgængelig eksklusivt via Google Cloud som en managed service. Google estimerer samlede TPU-leverancer på 4,3 millioner chips i 2026, stigende til 10 millioner i 2027 og mere end 35 millioner i 2028. Denne massive opskalering er nødvendig for at imødekomme den eksponentielle vækst i AI-inferens, der drives af agentic AI-applikationer, som kræver løbende compute til overvågning, ræsonnering og handling.

Vil du vurdere, om TPU-baseret infrastruktur er den rigtige løsning for din AI-workload? Consile hjælper danske virksomheder med at evaluere AI-infrastrukturvalg og optimere pris-ydeevne for inferens og træning. Kontakt os for en uforpligtende samtale.

Centrale funktioner og ydeevne

Tokengenereringshastighed er den mest direkte måling af inferensydeevne for sprogmodeller. Google demonstrerede næsten 1.500 tokens per sekund på en kommende Flash-model kørende på TPU 8i. For at sætte det i kontekst genererer den gennemsnitlige AI-chatbot mellem 30 og 100 tokens per sekund. 1.500 tokens per sekund betyder, at et komplet svar på flere hundrede ord kan genereres på under et sekund. For agentic AI-applikationer, hvor hastighed er kritisk, fordi agenter skal reagere i realtid, er denne hastighed en enabler for nye brugsscenarier.

FP4-compute på 10,1 petaflops er det rå beregningsmål for TPU 8i. FP4 (4-bit floating point) er et lavpræcisionsformat, der er optimalt til inferens, hvor modellernes vægte kan kvantiseres til 4 bit uden væsentligt kvalitetstab. Ved at bruge FP4 i stedet for FP16 eller FP32 kan chippen udføre fire til otte gange flere beregninger med den samme hardware, hvilket direkte reducerer omkostningen per token. Denne tilgang er konsistent med industriens generelle bevægelse mod lavere præcision i inferens for at forbedre pris-ydeevne.

KV-cache-kapacitet er en funktion af den tredoblede SRAM. Under inferens bygger en sprogmodel en KV-cache, der gemmer repræsentationer af alle tidligere tokens i samtalen. For lange kontekstvinduer, som Geminis 1 million token-kontekst, kan KV-cachen blive meget stor. Med 384 MB SRAM kan TPU 8i holde en større del af denne cache på chippen, hvilket eliminerer de dyre hukommelsesadgange, der ellers ville sløve genereringen. Det er særligt relevant for RAG-systemer og langkontekst-applikationer.

Distribueret inferens-effektivitet med Boardfly-topologien gør det muligt at køre store modeller på tværs af mange chips med minimal kommunikationsoverhead. For modeller som Gemini, der bruger MoE-arkitektur med hundredvis af eksperter, skal tokens routeres til de rigtige eksperter på tværs af chips. Boardflys reducerede netværksdiameter og dobbelte båndbredde minimerer den tid, der går til denne routing. Det øger den effektive udnyttelse af chipkapaciteten og reducerer spildtid.

Pris-ydeevne-forbedring er måske det mest forretningsrelevante aspekt. Uafhængige benchmarks fra SemiAnalysis angiver, at Ironwood-generationen (7. generation) allerede leverer en totalomkostning på 0,18 dollar per million tokens for Gemini 3.5-inferens, sammenlignet med 0,31 dollar per million tokens på sammenlignelige NVIDIA B200-konfigurationer. Det er en 42 procent TCO-fordel. Analytikere estimerer, at TPU 8i vil levere yderligere 25 til 35 procent forbedring oven i dette. For virksomheder, der kører store inferens-workloads, kan denne prisforskel være afgørende for rentabiliteten.

Bæredygtighed og energieffektivitet er en direkte konsekvens af specialiseringen. Med to gange bedre ydeevne per watt kan Google levere den samme inferenskapacitet med halvdelen af strømforbruget. I en verden, hvor AI-datacentre i stigende grad er under pres for at reducere deres energiaftryk, er dette et konkret bidrag. For virksomheder med ESG-mål er valget af inferensplatform også et bæredygtighedsvalg.

Cloud-tilgængelighed som managed service betyder, at virksomheder ikke behøver at investere i hardware eller datacenterkapacitet. TPU 8i tilgås via Google Cloud med on-demand eller reserveret kapacitet. Det sænker barrieren for at udnytte specialiseret inferenshardware, især for mindre virksomheder og startups, der ikke har kapital til at købe dedikeret hardware. Googles aktuelle cloud-priser for TPU v6e ligger på cirka 4,20 til 4,50 dollar per chip-time.

For agentic AI-applikationer er TPU 8i designet til at eliminere de små ineffektiviteter, der multipliceres, når hundredvis eller tusindvis af agenter kører parallelt. Hver millisekunds latens, der spares per token, oversættes til væsentlige besparelser, når det skaleres til millioner af samtidige brugere. Googles egne tjenester som Search, Gemini og Information Agents er de første storanvendere af TPU 8i, hvilket giver chippen en produktionsverificering, som fuldstændig nye chipplatforme sjelden har.

Konkurrenter og alternativer til TPU 8i

Markedet for AI-inferenshardware er intenst konkurrencepræget, med NVIDIA som den dominerende aktør og en voksende gruppe af udfordrere. TPU 8i positionerer sig som et specialiseret alternativ, der er optimeret til Googles egne modeller og cloud-tjenester, men der er flere relevante alternativer for virksomheder, der vurderer deres inferensinfrastruktur.

NVIDIA B200 (Blackwell) er den mest direkte konkurrent i den generelle AI-accelerator-kategori. B200 tilbyder 192 GB HBM3e med 8 TB/s båndbredde og understøtter både træning og inferens. NVIDIA-platformens styrke er det massive softwareøkosystem omkring CUDA, der gør det muligt at køre næsten enhver AI-model uden tilpasning. B200 fås via alle store cloud-udbydere og som on-premise-hardware. Priserne varierer, men on-demand cloud-priser for A100 og H100 ligger typisk mellem 2 og 4 dollar per GPU-time. Styrken er den universelle kompatibilitet og det brede softwareøkosystem. Begrænsningen er, at NVIDIA-chips ikke er specialiseret til inferens og derfor ikke matcher TPU 8is pris-ydeevne for specifikke inferens-workloads.

NVIDIA H200 er en inferensoptimeret variant af Hopper-arkitekturen med 141 GB HBM3e og fokus på stor kontekst-LLM-inferens. H200 er bredt tilgængelig via cloud-udbydere og tilbyder en god balance mellem pris og ydeevne for inferens-workloads. Den er billigere end B200, men har lavere peak-compute. For virksomheder, der allerede har investeret i NVIDIA-økosystemet, er H200 et naturligt valg til inferens.

AMD Instinct MI300X er AMDs bud på en high-end AI-accelerator med 192 GB HBM3 og 5,3 TB/s båndbredde. MI300X er overbevisende, når rå HBM-kapacitet per GPU reducerer sharding-kompleksiteten og forbedrer den reelle gennemstrømning for store modeller. AMD-chips understøttes af ROCm-softwarestakken, der er kompatibel med mange populære AI-frameworks. Prisen er typisk 20 til 30 procent lavere end tilsvarende NVIDIA-hardware. AMD har annonceret MI400-serien til slutningen af 2026 med 432 GB HBM4 og 19,6 TB/s båndbredde, hvilket vil intensivere konkurrencen yderligere.

AWS Trainium2 og Inferentia2 er Amazons egne AI-chips, der er tilgængelige eksklusivt via AWS. Inferentia2 er specifikt designet til inferens og tilbyder en konkurrencedygtig pris-ydeevne for modeller, der er optimeret til Amazons Neuron SDK. Prisen for Inferentia2 starter ved cirka 0,76 dollar per time. Styrken er den tætte integration med AWS-økosystemet og den konkurrencedygtige pris. Begrænsningen er, at det kræver model-tilpasning til Amazons softwarestak og ikke understøtter alle modeller out-of-the-box.

Intel Gaudi 3 er Intels AI-accelerator, der tilbydes via flere cloud-udbydere og som on-premise-hardware. Gaudi 3 fokuserer på pris-ydeevne og tilbyder en åben softwaremodel baseret på PyTorch uden CUDA-afhængighed. Intel positionerer Gaudi som et alternativ for virksomheder, der ønsker at undgå vendor lock-in. Styrken er den åbne tilgang og den konkurrencedygtige pris for mainstream-workloads. Begrænsningen er, at ydeevnen ikke matcher top-end NVIDIA eller TPU for de mest krævende modeller.

For danske virksomheder er chipvalget sjældent et direkte hardwarevalg, men snarere et cloud-platform-valg. Vælger du Google Cloud, får du adgang til TPU 8i med dens inferensoptimerede ydeevne. Vælger du AWS, får du Inferentia og Trainium. Vælger du Azure eller en multi-cloud-strategi, er NVIDIA det sikre valg med bred kompatibilitet. Den vigtigste beslutning er, om din AI-workload kan drage fordel af TPU 8is specialiserede inferensarkitektur, og om du er villig til at binde dig til Google Cloud for at opnå de bedste pris-ydeevne-fordele.

Ofte stillede spørgsmål om TPU 8i