Meta lukkede i april 2026 døren til open source-æraen. Med lanceringen af Muse Spark den 8. april...
Post-training er fasen efter præ-træning, hvor AI-modeller gøres nyttige, sikre og tilpassede. Forstå RLHF, DPO og GRPO, og hvad det betyder for din virksomhed.


Post-training består typisk af flere trin, der tilsammen former modellens adfærd. Det første trin er Supervised Fine-Tuning (SFT), hvor modellen trænes på kuraterede eksempler af gode instruktion-svar-par. Her lærer modellen at følge instruktioner, svare i den rette tone og strukturere sine svar hensigtsmæssigt.
Det næste trin er præferenceoptimering, hvor modellen lærer at skelne mellem gode og dårlige svar. Den mest kendte metode er RLHF (Reinforcement Learning from Human Feedback), hvor mennesker vurderer modellens svar, og en belønningsmodel trænes til at guide yderligere optimering. En nyere og enklere tilgang er DPO (Direct Preference Optimization), der springer belønningsmodellen over og optimerer direkte på præferencedata.
I 2025-2026 er feltet rykket videre med metoder som GRPO (Group Relative Policy Optimization) og RLVR (Reinforcement Learning with Verifiable Rewards). RLVR er særligt interessant, fordi belønningssignalet kommer fra automatisk verifikation i stedet for menneskelig vurdering. DeepSeek-R1 demonstrerede, at ren RLVR kan producere emergente ræsonneringsevner i modeller.
Den moderne post-training-stak er modulær: SFT til instruktionsfølgning, præferenceoptimering til alignment, og RL med verificerbare belønninger til ræsonnering. Det er ikke længere ét trin, men en hel pipeline af specialiserede teknikker.
For virksomheder er post-training relevant på to niveauer. Det første er strategisk: når I vælger en foundation model, vælger I også den post-training, der ligger bag. To modeller med samme præ-træningsdata kan opføre sig fundamentalt forskelligt afhængigt af, hvordan de er post-trænet. Det påvirker kvaliteten af jeres AI-løsninger direkte.
Det andet niveau er operationelt. Virksomheder, der bygger egne AI-løsninger, anvender post-training til at tilpasse modeller til deres specifikke domæne. Et advokatfirma kan post-træne en model til at formulere sig med juridisk præcision. En kundeserviceafdeling kan post-træne til at håndtere reklamationer med empati og konsistens. Forskellen mellem en generisk chatbot og en, der føles som en specialist, ligger i post-training.
Post-training er også centralt for AI governance. Det er i post-training-fasen, at sikkerhedsforanstaltninger, etiske retningslinjer og compliancekrav implementeres. Modeller lærer at afvise upassende forespørgsler, undgå bias og operere inden for de rammer, virksomheden definerer.
Investeringen i post-training betaler sig i form af højere brugertilfredshed, færre fejl og en AI-løsning, der rent faktisk kan sættes i produktion uden konstant menneskelig overvågning.
Post-training forveksles ofte med fine-tuning, men der er en vigtig nuance. I AI-branchen refererer post-training til den optimering, som modeludvikleren udfører efter præ-træning for at gøre modellen generelt brugbar og sikker. Fine-tuning refererer typisk til den tilpasning, som slutbrugeren eller virksomheden foretager for at specialisere modellen til et specifikt domæne eller opgave.
Post-training er heller ikke det samme som prompt engineering. Prompt engineering ændrer, hvordan du kommunikerer med modellen, mens post-training ændrer selve modellens vægte og adfærd. Post-training skaber permanent ændring i modellen; prompts er midlertidige instruktioner.
Det er også værd at bemærke, at post-training ikke kompenserer for dårlig præ-træning. Hvis en models grundlæggende sprogforståelse eller verdensmodel er mangelfuld, kan post-training forbedre adfærden, men ikke reparere fundamentale huller i viden.
Fine-tuning: Tilpasning af en præ-trænet model til et specifikt domæne eller opgave, typisk udført af slutbrugeren.
DPO (Direct Preference Optimization): En post-training-metode, der optimerer modellen direkte på præferencedata uden en separat belønningsmodel.
RLHF (Reinforcement Learning from Human Feedback): Den klassiske metode til alignment, hvor menneskelig feedback guider modellens optimering.
Foundation Model: Den basismodel, der gennemgår post-training for at blive klar til brug.
LLM (Large Language Model): Den type AI-model, der oftest gennemgår post-training.
Guardrails: Sikkerhedsmekanismer, der ofte implementeres som del af post-training-processen.
Constitutional AI: En post-training-tilgang fra Anthropic, hvor modellen trænes ud fra et sæt principper i stedet for udelukkende menneskelig feedback.
Meta lukkede i april 2026 døren til open source-æraen. Med lanceringen af Muse Spark den 8. april...
Anthropic har netop annonceret Project Glasswing, et samarbejde med AWS, Apple, Google, Microsoft,...
I marts 2026 blev kunstig intelligens for første gang den mest citerede årsag til fyringsrunder i...