Gemini Omni: Googles AI skaber video fra tekst og billeder

Skrevet af Martin Mensbo Christiansen | 22-05-2026 08:00:00

Google annoncerede Gemini Omni på I/O 2026. Modellen kombinerer Geminis sproglige intelligens med generative mediemodeller som Veo, Nano Banana og Genie. Resultatet er en model, der kan skabe og redigere video, billeder og interaktive simuleringer fra tekst, billeder eller andre videoer.

Demis Hassabis kaldte det et skridt mod AI, der simulerer virkeligheden i stedet for kun at forudsige tekst. Den første model i Omni-familien, Gemini Omni Flash, er tilgængelig fra i dag i Googles produkter.

Fra tekst-forudsigelse til verdenssimulering

Gemini Omni er Googles første forsøg på at samle sprog, billede og video i én model med forståelse for den fysiske verden. Hvor tidligere modeller genererede video ud fra statistiske mønstre i træningsdata, demonstrerer Omni ifølge Google en mere grundlæggende forståelse af fysiske koncepter som tyngdekraft og kinetisk energi.

Under keynoten viste Demis Hassabis en demo, hvor Omni genererede en claymation-video, der forklarede proteinfolding. Modellen producerede korrekte repræsentationer af aminosyrekæder, alpha-helikser og beta-sheets i tredimensionelle strukturer. Det er et eksempel på, hvad Google kalder world models: AI, der forstår og simulerer verden frem for kun at producere tekst.

Google har bygget Gemini som multimodal model fra starten. Det var en sværere vej end at træne separate modeller til tekst, billede og video, men Hassabis argumenterede for, at fundamentet nu betaler sig. Omni er resultatet af den strategi.

Videoredigering med naturligt sprog

Den mest håndgribelige funktion i Omni er videoredigering via samtale. I stedet for at navigere i en tidslinje med klip og effekter, beskriver du, hvad du vil ændre, og Omni udfører det.

Under Gemini-præsentationen viste Josh Woodward en bruger ved navn Sasha, der arbejdede på en musikvideo. Hun delte råt videomateriale og referencebilleder med Omni, bad om at ændre stil og skifte kameravinkel til et 360-graders perspektiv. Omni transformerede videoen, mens den bevarede den originale performance og kropslige bevægelser.

Det er et afgørende punkt. Omni forstår ifølge Google fysikken i bevægelse. Den tilføjer effekter og ændrer omgivelser uden at ødelægge det, der allerede er i billedet. Hassabis demonstrerede det også med en selfie-video, hvor brugeren ændrede omgivelser og tilføjede elementer, mens scenen automatisk tilpassede sig de nye instruktioner.

Google Flow og kreativ produktion i skala

Omni er også integreret i Google Flow, Googles kreative produktionsværktøj. Sidste år kunne Flow kun håndtere én prompt ad gangen. Med den nye agentfunktionalitet kan Flow tage flere handlinger simultant.

Under en demo startede en bruger med ét enkelt billede og bad agenten om at finde de bedste kameravinkler. Agenten analyserede billedet, genererede de mest overbevisende vinkler og producerede 16 unikke videoer fra det ene billede. Agenten kunne også lave redigeringer på tværs af scener, som at ændre alle scener fra tidlig morgen til sen aften.

Flow har også fået et nyt værktøjssystem kaldet Flow Tools, hvor brugere kan kode deres egne kreative værktøjer direkte i platformen. Det minder om pluginsystemer i traditionel videoredigering, men drevet af Gemini og Antigravity i stedet for manuel programmering.

Google Flow Music, en parallel funktion til lyd, blev også opdateret. En bruger demonstrerede, hvordan et pianoriff optaget i Flow Music blev transformeret til en komplet R&B-demo med vokal, som bandet derefter kunne bruge som udgangspunkt for indspilning.

Omni Flash og Omni Pro

Google lancerer Omni som en familie af modeller. Den første, Gemini Omni Flash, er tilgængelig fra i dag i Gemini-appen for Google AI Plus, Pro og Ultra-abonnenter. Den er også tilgængelig i Google Flow.

Hassabis nævnte, at Omni Pro er undervejs og vil tilbyde dybere kapabiliteter. Han bad udviklere om at holde øje med den, men gav ingen specifik dato.

Omni starter med video, men Google understreger, at målet er en model, der kan generere enhver type output fra enhver type input. Det er en ambitiøs vision, og Omni Flash er det første konkrete skridt.

Hvad det signalerer

Gemini Omni er Googles klareste signal om, at de ser generativ AI som mere end tekstgenerering. Begrebet world models, AI der forstår og simulerer den fysiske verden, er et centralt tema i løbet mod AGI. Hassabis sagde direkte, at AGI er få år væk, og at world models er en nødvendig byggesten.

For virksomheder og kreative professionelle er den umiddelbare relevans videoproduktion. Omni gør det muligt at skabe og redigere video med naturligt sprog, uden specialiseret software eller teknisk ekspertise. Det sænker barrieren for videoproduktion markant.

Begrænsningen i dag er, at Omni er bundet til Googles egne platforme. Der er ingen åben API annonceret endnu, og kvaliteten af de genererede videoer vil først blive testet af brugere i stor skala de kommende uger. Vi følger op, når de første uafhængige evalueringer er tilgængelige.

Se hele indlægget