43% af danske topledere forventer, at AI reducerer antallet af juniorstillinger i deres...
En world model opbygger en intern repræsentation af den fysiske verden og kan forudsige, hvad der sker næst. Forstå teknologien og dens erhvervspotentiale.


En world model lærer ved at observere store mængder video, sensordata og simulationsdata. Ud fra disse observationer opbygger modellen en latent repræsentation af miljøet: en komprimeret, intern forståelse af, hvordan ting ser ud, bevæger sig og interagerer. Det afgørende er, at modellen ikke bare genkender objekter, men forstår kausalitet: at en bold, der skubbes fra et bord, vil falde ned.
Teknisk set består en world model typisk af tre komponenter. En perceptionskomponent, der omsætter rå sensordata til en intern tilstandsrepræsentation. En transitionsmodel, der forudsiger den næste tilstand givet den nuværende tilstand og en handling. Og en decoder, der kan oversætte den interne repræsentation tilbage til noget observerbart, fx en video eller et 3D-miljø.
Forskellen fra en foundation model som GPT eller Claude er grundlæggende. Sprogmodeller arbejder med tokens og statistiske mønstre i tekst. World models arbejder med rumlige og temporale relationer i den fysiske verden. De to tilgange er komplementære: sprogmodeller er stærke til viden, ræsonnement og kommunikation, mens world models er stærke til simulation, planlægning og kontrol.
NVIDIA lancerede i januar 2025 Cosmos-platformen med en suite af world foundation models, der gør det lettere at bygge digital twins og generere syntetiske træningsdata til robotter og autonome systemer. Google DeepMind har med Genie 3 vist, hvordan world models kan generere interaktive 3D-verdener fra tekst og billeder.
For virksomheder er world models mest relevante inden for tre områder: produktion og robotteknologi, supply chain og logistik, samt produktudvikling og simulation.
Inden for produktion bruger virksomheder world models til at træne robotter i simulerede miljøer, før de sættes i drift i den virkelige verden. Det reducerer risikoen ved dyre fejl og forkorter tiden fra prototype til produktion markant. En robot, der er trænet via en world model, kan håndtere situationer, den aldrig fysisk har oplevet, fordi modellen har simuleret tusindvis af scenarier.
I supply chain og logistik kan world models forudsige konsekvenserne af ændringer i realtid. Hvad sker der med leveringstider, kapacitet og omkostninger, hvis vi ændrer en produktionsparameter? Modellen simulerer udfaldet, før beslutningen træffes. Det er prædiktiv analyse taget til næste niveau: fra statistisk gæt til kausal simulation.
Inden for produktudvikling og arkitektur muliggør world models hurtig iteration. World Labs' Marble-model kan generere fotorealistiske 3D-verdener fra en tekstbeskrivelse, hvilket åbner for hurtigere konceptudvikling inden for gaming, film, design og ingeniørarbejde.
Den strategiske implikation for ledere i produktion, sundhed, robotteknologi og logistik er klar: den næste bølge af AI handler mindre om chatgrænseflader og mere om forudsigelse, planlægning og kontrol i fysiske miljøer.
En world model er ikke det samme som en generativ AI-model, selvom der er overlap. Generativ AI skaber indhold (tekst, billeder, video) baseret på mønstre i træningsdata. En world model derimod simulerer dynamikken i et miljø og kan forudsige konsekvenser af handlinger. Nogle systemer kombinerer begge tilgange, fx når en world model genererer video for at visualisere en forudsigelse, men formålet er fundamentalt anderledes.
En world model er heller ikke en digital twin, selvom de to koncepter er beslægtede. En digital twin er en specifik digital kopi af et fysisk aktiv (en maskine, en bygning, en produktionslinje). En world model er den underliggende AI-teknologi, der kan drive en digital twin, men den kan også bruges langt bredere: til at træne robotter, generere syntetiske data eller simulere helt nye miljøer, der ikke eksisterer endnu.
Det er også vigtigt at understrege, at world models stadig er en teknologi under hurtig udvikling. Modellerne er beregningsmæssigt tunge, kræver enorme mængder træningsdata, og deres evne til at generalisere på tværs af vidt forskellige miljøer er endnu ikke på niveau med, hvad sprogmodeller har opnået inden for tekst.
Deep Learning: Det matematiske fundament bag world models, baseret på dybe neurale netværk, der lærer hierarkiske repræsentationer af data.
Foundation Model: Store, generelle AI-modeller, der kan tilpasses specifikke opgaver. World models kan betragtes som foundation models for den fysiske verden.
Digital Twin: En digital kopi af et fysisk aktiv, der ofte drives af en underliggende world model til simulation og forudsigelse.
Generativ AI: AI, der skaber nyt indhold. World models kan generere video og 3D-miljøer, men med fokus på fysisk korrekthed frem for kreativt output.
Physical AI: AI-systemer designet til at interagere med den fysiske verden, fx robotter og autonome køretøjer, hvor world models er en kernekomponent.
Inference: Processen, hvor en AI-model producerer output. World models kræver typisk mere beregningskraft ved inference end sprogmodeller, da de simulerer komplekse miljøer.