GDP Val (AI-benchmark)

GDPval er et AI-benchmark udviklet af OpenAI, der maaler hvor godt sprogmodeller loeser reelle erhvervsopgaver. Benchmarket daekker 44 erhverv fordelt paa de ni stoerste sektorer i den amerikanske oekonomi og indeholder 1.320 opgaver designet af fagfolk med gennemsnitligt 14 aars erfaring. Hvor aeldre benchmarks som MMLU og HumanEval tester isolerede faerdigheder, simulerer GDPval det komplette arbejdsprodukt: juridiske notater, ingenioeregninger, kundeservicedialoger, sygeplejejournaler og finansielle analyser.

Konkret fungerer det saadan: en AI-model modtager en opgave med referencefiler og kontekst, producerer et leverbart resultat, og derefter sammenligner en blindet fagekspert modellens output med en menneskelig eksperts output uden at vide, hvilket der er hvilket. Forestil dig, at du giver en AI-model en opgave om at skrive et juridisk brev baseret paa en konkret sag med bilag. Eksperten bedoemmer brevet side om side med et menneskeskrevet brev og angiver, hvilket der er bedst.

For danske virksomheder, der evaluerer LLM'er til konkrete arbejdsprocesser, giver GDPval et mere relevant sammenligningsgrundlag end traditionelle benchmarks. Naar en model scorer hoejt paa GDPval inden for eksempelvis finans eller detailhandel, siger det noget direkte om, hvordan modellen klarer opgaver, der minder om dem, dine medarbejdere udforer dagligt.

Læsetid 7 minOpdateret maj 2026

Saadan fungerer GDPval teknisk

1. Opgavedesign baseret paa reelt arbejde. Hver af de 1.320 opgaver er konstrueret ud fra et faktisk arbejdsprodukt skabt af en erfaren fagperson. OpenAI samarbejdede med eksperter fra ni sektorer: finans og forsikring, professionelle tjenester, sundhed, offentlig administration, detailhandel, informationsteknologi, fremstilling, uddannelse og ejendom. Opgaverne kraever, at modellen producerer komplette leverancer: dokumenter, praesentationer, diagrammer, regneark og multimedieindhold. Det er ikke multiple-choice; det er fuldstaendige arbejdsprodukter.

2. Blindet parvis evaluering som primaer metrik. Fordi automatisk bedoemmelse af komplekse leverancer er upaalideligt, bruger GDPval menneskebaseret evaluering som primaer metrik. En fagsekspert modtager opgavebeskrivelsen og to unavngivne leverancer: modellens output og ekspertens output. Eksperten rangerer dem uden at vide, hvilket der er AI-genereret. Denne tilgang eliminerer den bias, der opstaar, naar bedoemmeren ved, at den ene besvarelse kommer fra en maskine.

3. Gold subset med 220 opgaver og automatisk grading. For at goere benchmarket tilgaengeligt har OpenAI frigivet et aabent gold subset paa 220 opgaver (fem per erhverv) via Hugging Face. Sammen med datasaettet stiller de en eksperimentel automatisk grading-tjeneste til raadighed paa evals.openai.com, saa forskere og virksomheder kan koere evalueringer uden at hyre manuelle bedoemmere. Den automatiske grader er dog mindre palidelig end den menneskebaserede evaluering og boer bruges som supplement, ikke erstatning.

4. Sektorbaseret scoring i stedet for enkeltscore. I modsaetning til benchmarks som MMLU, der giver en samlet procentscore, rapporterer GDPval resultater per sektor og erhverv. Det betyder, at en model kan score hoejt paa finansopgaver men lavt paa sundhedsopgaver. For en dansk virksomhed, der overvejer at implementere AI i sin juridiske afdeling, er det langt mere brugbart end en gennemsnitsscore paa tvaers af alle domainer.

5. Iterativ opgavestruktur kontra one-shot evaluering. En vigtig teknisk begraensning er, at GDPval i sin nuvaerende version evaluerer modeller i en one-shot-kontekst. Modellen faar opgaven, producerer et resultat, og det er det. Virkeligheden er anderledes: de fleste vidensarbejdere itererer, stiller opfoelgende spoergsmaal og forbedrer deres output over tid. OpenAI har annonceret, at fremtidige versioner vil inkludere interaktive workflows, der bedre afspejler reel arbejdspraksis.

6. Forskellen paa GDPval og traditionelle benchmarks. SWE-Bench maaler, om en model kan loese GitHub-issues med fungerende kode. MMLU tester faktuel viden i multiple-choice-format. GPQA Diamond tester dyb faglig raesonnering. GDPval derimod maaler, om en model kan producere et komplet leverbart arbejdsprodukt paa ekspertniveau. Det er forskellen paa at besvare et spoergsmaal korrekt og at skrive en hel rapport, der ville bestaa kvalitetskontrol hos en erfaren kollega.

7. Automatisk vs. menneskelig evaluering: paalidelighed. OpenAIs egne analyser viser, at den automatiske grader korrelerer rimeligt med menneskelige bedoemmelser paa simple opgaver, men afviger paa komplekse, kreative eller kontekstafhaengige leverancer. For virksomheder, der vil bruge GDPval internt til at evaluere modeller, anbefales det at koere den automatiske grader som foerste filter og derefter lade fagfolk vurdere de mest relevante opgaver manuelt.

8. Infrastrukturkrav og reproducerbarhed. Hele gold subset'et er tilgaengeligt paa Hugging Face under datasaetnavnet openai/gdpval. Opgaverne inkluderer referencefiler i forskellige formater (PDF, XLSX, PPTX, billeder), hvilket kraever, at den model, der evalueres, kan haandtere multimodalt input. Modeller uden dokumentforstaaelse eller billedgenkendelse vil automatisk score lavt paa en stor del af opgaverne, uanset deres sproglige kapacitet.

Vil du vide, hvilken AI-model der passer bedst til jeres konkrete arbejdsopgaver? Vi hjaelper med at evaluere modeller mod jeres egne workflows og opbygge en evalueringsproces, der gaar ud over generiske benchmarks. Kontakt os for en uforpligtende snak om AI-evaluering tilpasset jeres virksomhed.

Hvad GDPval konkret maaler og hvad det betyder for din virksomhed

Juridiske leverancer (Legal Services)
GDPval inkluderer opgaver som udarbejdelse af kontraktudkast, juridiske notater og compliance-vurderinger. En model, der scorer hoejt her, kan potentielt haandtere foerste udkast af standardkontrakter, due diligence-resuméer og regulatoriske opsummeringer. For en dansk advokatvirksomhed med 20 jurister kan det betyde, at de mest rutinepraegede skrivebordsopgaver reduceres med 30-50% i tidsforbruget.

Finansiel analyse (Finance & Insurance)
Opgaverne daekker finansielle modeller, risikovurderinger og investeringsnotater. I GDPval-resultater fra 2026 scorer frontier-modeller som Claude Opus 4.1 og GPT-5 taet paa ekspertniveau paa standardiserede finansopgaver. En dansk kapitalforvalter eller revisor kan bruge GDPval-scores til at vurdere, om en given model er moden nok til at assistere med kvartalsvise rapporter eller portefoelje-analyser.

Sundhed og pleje (Healthcare)
Sygeplejejournaler, behandlingsplaner og klinisk dokumentation indgaar i benchmarket. Resultater viser stoerre variation her end i andre sektorer, fordi sundhedsopgaver kraever praecis fagterminologi og kontekstforstaaelse. For danske sundhedsorganisationer, der overvejer AI til journalfoering eller triagering, giver GDPval-scores paa sundhedsdomaenet et mere realistisk billede end en generel LLM-score.

Detailhandel og kundeservice (Retail & Wholesale)
Opgaverne omfatter kundeservice-svar, produktbeskrivelser og salgsanalyser. Claude Opus 4.1 presterer saerligt godt i denne kategori ifoeige de seneste evalueringer. Danske e-commerce-virksomheder, der overvejer at automatisere dele af deres kundeservice med en Conversational AI-loesning, kan bruge GDPval-data til at vaelge den rette model.

IT og softwareudvikling (Information Technology)
Ud over ren kodegenerering, som SWE-Bench allerede maaler, tester GDPval IT-opgaver som systemdokumentation, arkitekturbeslutninger og tekniske specifikationer. Det er opgaver, hvor en Copilot skal producere skriftlige leverancer, ikke kun kode. For danske IT-virksomheder giver det et supplement til SWE-Bench ved at daekke den skriftlige del af udviklingsarbejdet.

Offentlig administration (Government)
Politikanalyser, borgerhenvendelser og regulatoriske dokumenter indgaar i GDPval. Frontier-modeller scorer overraskende hoejt paa offentlige forvaltningsopgaver, hvilket kan have betydning for danske kommuner og styrelser, der overvejer AI-stottet sagsbehandling. Dog er opgaverne baseret paa amerikansk lovgivning, saa direkte overfoersel til dansk forvaltningspraksis kraever tilpasning.

Uddannelse (Education)
Laeseplaner, evalueringsrubrikker og undervisningsmateriale er en del af benchmark'et. For danske uddannelsesinstitutioner, der afsoejer mulighederne for AI-stoettet indholdsproduktion, giver GDPval-resultater en indikation af, hvilke modeller der bedst formaar at skabe paedagogisk indhold med korrekt faglig dybde.

Alternativer til GDPval og hvordan de adskiller sig

MMLU (Massive Multitask Language Understanding)
MMLU var i aarevis det mest citerede LLM-benchmark. Det tester viden paa tvaers af 57 fagomraader i multiple-choice-format. Problemet i 2026 er, at frontier-modeller scorer over 90%, hvilket goer det naesten umuligt at skelne mellem topmodeller. MMLU maaler desuden kun faktuel genkaldelse, ikke evnen til at producere et komplet arbejdsprodukt. GDPval adresserer netop den svaghed ved at kraeve fulde leverancer i stedet for korte svar. MMLU er gratis og aabent tilgaengeligt.

SWE-Bench Verified
SWE-Bench tester, om en model kan loese reelle GitHub-issues med fungerende kode. Det er det vigtigste benchmark for softwareudvikling specifikt, og frontier-modeller naar nu 70-80% paa Verified-versionen. Hvor GDPval daekker 44 erhverv bredt, er SWE-Bench dybt fokuseret paa kodning. Virksomheder, der primaert evaluerer AI til softwareudvikling, faar mere relevant data fra SWE-Bench; virksomheder, der evaluerer AI til bredere vidensarbejde, faar mere fra GDPval. SWE-Bench er open source.

GPQA Diamond
GPQA Diamond er et raesonnerings-benchmark med ekstremt svaere spoergsmaal inden for fysik, kemi og biologi. Det er i 2026 det mest diskriminerende benchmark paa frontier-niveau, fordi selv topmodeller scorer under 95%. GPQA maaler dog kun videnskabelig raesonnering, ikke erhvervsmaessig opgaveloeseevne. GDPval og GPQA supplerer hinanden: GPQA viser, hvor dybt en model kan raesonnere, GDPval viser, hvad modellen kan levere i praksis.

Chatbot Arena (LMSYS)
Chatbot Arena bruger crowdsourcede, blindede sammenligninger mellem modellers svar til at generere Elo-ratings. Styrkerne er diversiteten i spoergsmaal og den loebende opdatering. Svaghederne er, at bedoemmerne er anonyme brugere (ikke fageksperter), og at opgaverne sjaldent repraesenterer komplekst vidensarbejde. GDPval bruger ogsaa blindede sammenligninger, men med fageksperter og erhvervsrelevante opgaver. Chatbot Arena er gratis at foelge; GDPval-datasaettet er aabent, men menneskelig evaluering koster.

Humanity's Last Exam
Et nyere benchmark med ekstremt svaere spoergsmaal indsendt af forskere paa tvaers af fagomraader. Maalet er at identificere graenserne for AI-kapabilitet. Det er akademisk fokuseret og tester ikke erhvervsmaessig leveranceevne. GDPval er mere praktisk og erhvervsrettet, mens Humanity's Last Exam er mere forskningsorienteret.

Hvor GDPval er unik, og hvor det kommer til kort. GDPvals styrke er dens direkte kobling til oekonomisk vaerdi: opgaverne repraesenterer reelt arbejde, der bidrager til BNP. Ingen anden benchmark giver saa direkte en indikation af, hvornaar AI-modeller kan erstatte eller augmentere vidensarbejde inden for specifikke erhverv. Svagheden er det amerikanske fokus (opgaverne er baseret paa amerikansk lovgivning, forretningspraksis og GDP-sektoropdeling), one-shot-formatet, og at OpenAI selv har udviklet benchmarket, hvilket rejser spoergsmaal om neutralitet.

Ofte stillede spoergsmaal om GDPval

Hvad er forskellen paa GDPval og MMLU?

MMLU tester faktuel viden i multiple-choice-format paa tvaers af 57 fagomraader. Frontier-modeller scorer over 90%, saa det skelner ikke laengere mellem topmodeller. GDPval kraever derimod, at modellen producerer komplette arbejdsprodukter som rapporter, praesentationer og analyser, bedoemt af fageksperter med gennemsnitligt 14 aars erfaring. GDPval maaler altsaa leveranceevne, ikke blot videngenkaldelse.

Er GDPval gratis at bruge?

Gold subset'et med 220 opgaver er gratis tilgaengeligt paa Hugging Face under openai/gdpval. OpenAI tilbyder ogsaa en eksperimentel automatisk grading-service paa evals.openai.com. Den fulde menneskelige evaluering med 1.320 opgaver og fageksperter er dog ressourcekraevende og ikke offentligt tilgaengelig. Vil du koere fuld evaluering med egne eksperter, skal du regne med over 100.000 kr. for 220 opgaver.

Kan GDPval bruges til at evaluere AI-modeller til danske erhverv?

GDPval er baseret paa amerikanske sektordefinitioner og engelsksprogede opgaver. For danske virksomheder fungerer det som en sterk indikator, men ikke en direkte forudsigelse. En model, der scorer hoejt paa engelsksprogede finansopgaver, vil sandsynligvis ogsaa klare danske finansopgaver godt, men dansk lovgivning, sproglige nuancer og branchespecifikke praksisser er ikke daekket. EU AI Act anbefaler desuden evaluering i den faktiske deployeringskontekst.

Hvilke AI-modeller scorer hoejest paa GDPval i 2026?

De seneste evalueringer viser, at Claude Opus 4.1 og GPT-5 ligger i top. Claude Opus 4.1 producerer leverancer, der bedoemmes som lige saa gode eller bedre end ekspertens i naesten halvdelen af opgaverne. Frontier-modellernes performance paa GDPval er omtrent fordoblet fra GPT-4o (foraar 2024) til GPT-5 (sommer 2025), og tendensen fortsaetter.

Hvad er begraensningerne ved GDPval?

De tre vigtigste begraensninger er: One-shot-formatet, der ikke tillader iteration eller opfoelgende spoergsmaal, som reelt vidensarbejde kraever. Det amerikanske fokus, der ikke daekker europaeiske lovgivningsrammer eller brancher som dansk shipping og landbrug. Og det faktum, at OpenAI selv har designet benchmarket, hvilket rejser spoergsmaal om neutralitet, selvom uafhaengige organisationer har bekraeftet de overordnede resultater.

Hvordan kan min virksomhed bruge GDPval-resultater i praksis?

Start med at identificere, hvilke sektorer i GDPval der ligger taettest paa jeres kerneforretning. Sammenlign frontier-modellernes sektorspecifikke scores og vaelg den model, der performer bedst paa jeres domaine. Brug gold subset'et til at koere egne tests med den automatiske grader. Supplér med interne evalueringer paa danske opgaver for at verificere, at resultaterne holder i jeres kontekst. Consile kan hjaelpe med at designe en evalueringsproces tilpasset jeres specifikke behov.