Skip to content
AI Ordbog / GRPO (Group Relative Policy Optimization)

GRPO (Group Relative Policy Optimization)

GRPO (Group Relative Policy Optimization) er metoden bag DeepSeek-R1 og moderne reasoning-modeller. Forstå hvordan GRPO træner AI billigere og bedre.

GRPO (Group Relative Policy Optimization)
Frame 4
Frame 3
Frame 2
Frame 1
Frame 5
GRPO (Group Relative Policy Optimization)
AI ORDBOG

Hvordan virker GRPO?

GRPO bygger på en simpel, men effektiv idé: I stedet for at evaluere hvert AI-svar isoleret, genererer modellen en gruppe af svar til det samme spørgsmål. Hvert svar vurderes med en belønningsfunktion, og modellen lærer ved at sammenligne svarene med gennemsnittet i gruppen. Svar, der er bedre end gennemsnittet, forstærkes, mens dårligere svar nedprioriteres.

Det afgørende er, hvad GRPO fjerner fra processen. Traditionel reinforcement learning med LLM'er kræver typisk en separat kritiker-model (value model), der vurderer kvaliteten af hvert svar. Denne model er ofte lige så stor som selve sprogmodellen og kræver betydelig beregningskraft. GRPO eliminerer dette behov helt ved at bruge gruppens gennemsnitlige belønning som baseline.

GRPO anvender desuden verificerbare belønninger (RLVR). Det betyder, at belønningen ikke kommer fra en subjektiv vurdering, men fra objektive kriterier: Er matematikopgaven løst korrekt? Kompilerer koden? Matcher svaret et faktuelt facit? Denne tilgang giver stabil, konsistent feedback uden behov for menneskelig annotering.

Resultatet er en træningsproces, der bruger cirka 50 % mindre hukommelse og beregningskraft end sammenlignelige metoder som PPO, samtidig med at den leverer stærkere resultater på opgaver, der kræver ræsonnering og trinvis problemløsning.

GRPO i erhvervslivet

GRPO har direkte betydning for virksomheder, der ønsker at tilpasse AI-modeller til deres specifikke behov. Med GRPO kan en organisation fine-tune en foundation model til komplekse opgaver med langt færre træningseksempler end tidligere. Nyere forskning viser, at blot 100 træningseksempler kan være tilstrækkeligt til at opnå markante forbedringer.

Inden for finans og compliance kan GRPO træne modeller til at ræsonnere sig frem til korrekte svar på regulatoriske spørgsmål, hvor svaret kan verificeres mod lovtekst. I softwareudvikling kan metoden forbedre kodegenereringsmodeller, hvor compileren fungerer som automatisk verifikator. I kundeservice kan GRPO optimere modeller til at følge strukturerede processer, hvor hvert trin kan valideres.

Den økonomiske fordel er konkret. Hvor traditionel RLHF-træning kræver dyr menneskelig annotering og flere separate modeller, reducerer GRPO både den tekniske kompleksitet og de direkte omkostninger. Studier viser omkostningsreduktioner fra 800 USD til 8 USD for sammenlignelige resultater ved brug af Training-Free GRPO-varianter.

For danske virksomheder, der overvejer at bygge eller tilpasse egne AI-løsninger, gør GRPO det realistisk at opnå høj kvalitet uden de budgetter, der tidligere var forbeholdt tech-giganter. Det demokratiserer adgangen til avanceret AI-træning.

Hvad GRPO ikke er

GRPO er ikke en erstatning for al AI-træning. Metoden er designet til opgaver med verificerbare svar, altså situationer hvor man objektivt kan afgøre, om et svar er korrekt. For opgaver der kræver subjektiv vurdering, som kreativ skrivning eller nuanceret rådgivning, er metoder som DPO eller RLHF med menneskelig feedback stadig relevante.

GRPO er heller ikke en selvstændig træningsmetode fra bunden. Det er en post-training teknik, der forbedrer en allerede trænnet model. Modellen skal først gennemgå pre-training og typisk supervised fine-tuning, før GRPO kan anvendes som det sidste skridt til at styrke ræsonnering og opgaveløsning.

Det er også vigtigt at skelne GRPO fra bredere begreber som reinforcement learning generelt. GRPO er en specifik algoritme inden for RL-landskabet, optimeret til sprogmodeller. Den erstatter ikke andre RL-teknikker, men tilbyder en mere effektiv tilgang til det specifikke problem at forbedre LLM-ræsonnering.

Relaterede termer

DPO (Direct Preference Optimization): En alternativ metode til GRPO, der optimerer direkte på præferencedata uden en separat belønningsmodel. Enklere, men uden GRPOs gruppe-baserede sammenligning.

Fine-tuning: Den overordnede proces med at tilpasse en forudtrænet model til specifikke opgaver. GRPO er en form for reinforcement fine-tuning.

Foundation Model: Den store, forudtrænede model, som GRPO anvendes ovenpå for at forbedre ræsonnering og opgaveløsning.

LLM (Large Language Model): De store sprogmodeller, som GRPO er designet til at forbedre, herunder modeller som DeepSeek-R1 og lignende reasoning-modeller.

Reasoning Model: AI-modeller der kan tænke trinvist over problemer, før de svarer. GRPO er den primære træningsmetode bag denne type modeller.

Test-Time Compute: Konceptet om at bruge mere beregningskraft ved inference-tidspunktet, som reasoning-modeller trænet med GRPO udnytter til at generere bedre svar.