Catastrophic Forgetting (Katastrofal glemsel)
Catastrophic forgetting, på dansk katastrofal glemsel, er et fænomen hvor neurale netværk mister tidligere tillært viden, når de trænes på nye opgaver. Modellen opdaterer sine vægte for at løse den nye opgave, og i processen overskriver den de parametre, der indeholdt den gamle viden. Resultatet er en model, der kan det nye, men har glemt det gamle.
For virksomheder, der investerer i fine-tuning af LLM'er, er catastrophic forgetting en konkret risiko. En sprogmodel, der finjusteres til juridisk dokumentanalyse, kan pludselig blive markant dårligere til generel ræsonnering. Det stiller krav til, hvordan man tilrettelægger træning, vælger data og validerer modellens samlede kompetencer.
Fænomenet blev første gang beskrevet af McCloskey og Cohen i 1989, men det er blevet langt mere relevant med fremkomsten af store sprogmodeller, der koster millioner at træne fra bunden.
Hvordan opstår Catastrophic Forgetting?
Et neuralt netværk lagrer sin viden i millioner (eller milliarder) af vægte. Når netværket trænes på en opgave, justeres disse vægte for at minimere fejl på netop den opgave. Problemet opstår, når netværket efterfølgende trænes på en ny opgave: de samme vægte justeres igen, og den justering kan ødelægge den præcise konfiguration, der repræsenterede den gamle viden.
Det svarer til at skrive i en notesbog med begrænset plads. Når de nye noter fylder, bliver de gamle overskrevet. I modsætning til menneskelig hukommelse, hvor ny læring typisk styrker eller supplerer eksisterende viden, erstatter netværkets opdateringer ofte den gamle viden direkte.
I praksis er problemet størst, når den nye træningsdata er markant anderledes end den oprindelige. Hvis en foundation model trænet på bred tekst finjusteres udelukkende på medicinske artikler, kan den miste evnen til at føre almindelig samtale eller forstå hverdagssprog.
Omfanget af glemsel afhænger af flere faktorer: hvor mange vægte der opdateres, hvor stor forskellen er mellem gammel og ny opgave, og hvor aggressivt modellen trænes. Små, forsigtige opdateringer giver mindre glemsel, men også langsommere læring af det nye.
Consile rådgiver om fine-tuning, RAG og modelstrategi. Kontakt os for at sikre, at jeres AI-modeller lærer nyt uden at glemme det vigtige.
Catastrophic Forgetting i erhvervslivet
For virksomheder, der bygger AI-løsninger, er catastrophic forgetting ikke et abstrakt forskningsproblem. Det er en praktisk udfordring, der påvirker økonomi, kvalitet og governance. Når en finjusteret model pludselig håndterer generelle forespørgsler dårligere, påvirker det brugeroplevelsen og tilliden til systemet.
Mange organisationer opdager problemet, når de vil tilpasse en generel sprogmodel til deres domæne. En kundeservicemodel, der finjusteres på interne FAQ-dokumenter, kan miste evnen til at håndtere forespørgsler, der falder uden for det nye træningssæt. Det tvinger virksomheder til at vedligeholde flere specialiserede modeller i stedet for én fleksibel model, hvilket øger infrastrukturomkostninger og kompleksitet.
Konsekvenserne rækker ud over teknisk performance. I regulerede brancher som finans og sundhed kan en model, der uventet mister kompetencer, skabe compliance-risici. Hvis en model til AI Risk Management pludselig glemmer regler, den tidligere fulgte, kan det have reelle forretningsmæssige konsekvenser.
Løsningen for de fleste virksomheder er proaktiv: inkluder et repræsentativt udsnit af generelle opgaver i fine-tuning-datasættet, test for regression på eksisterende kompetencer efter hver træningsrunde, og overvej teknikker som LoRA eller Elastic Weight Consolidation, der begrænser omfanget af vægtændringer.
Hvad Catastrophic Forgetting ikke er
Catastrophic forgetting er ikke det samme som model drift. Model drift sker, når en models performance gradvist falder, fordi de data, den møder i produktion, ændrer sig over tid. Catastrophic forgetting sker derimod under selve træningen og er ofte abrupt: modellen mister viden øjeblikkeligt, ikke gradvist.
Det er heller ikke et tegn på, at modellen er dårlig eller defekt. Catastrophic forgetting er en iboende egenskab ved den måde, neurale netværk lærer på. Det gælder alle netværkstyper, fra simple feed-forward-netværk til de mest avancerede deep learning-arkitekturer.
Endelig skal det ikke forveksles med underfitting, hvor en model aldrig har lært en opgave ordentligt. Ved catastrophic forgetting har modellen demonstreret mestring af opgaven, men mister den efterfølgende.
Relaterede termer
Fine-tuning tilpasser en AI-model til et specifikt domæne. Lær hvornår fine-tuning er det rigtige valg fremfor RAG.
Deep Learning er avanceret Machine Learning baseret på neurale netværk. Forstå teknologien bag billed-, tale- og tekstgenkendelse.
En Foundation Model er en stor, pretrænet AI-model som GPT eller Claude. Forstå hvad de er, og hvordan virksomheder bruger dem.
Model drift er den gradvise forringelse af en AI-models præcision over tid. Forstå årsager, typer og hvordan din virksomhed opdager og håndterer drift.
Knowledge distillation overfører viden fra store AI-modeller til mindre, hurtigere versioner. Forstå teknikken og dens værdi for virksomheder.
Continual Learning er AI-systemers evne til at lære nyt uden at glemme det gamle. Forstå teknikken, forretningsværdien og sammenhængen med catastrophic forgetting.
Ofte stillede spørgsmål om Catastrophic Forgetting
Kan man helt undgå catastrophic forgetting?+
Ikke fuldstændigt, men risikoen kan reduceres markant. Teknikker som Elastic Weight Consolidation, LoRA og omhyggeligt datasætdesign gør det muligt at finjustere modeller uden væsentligt tab af eksisterende viden. Consile hjælper virksomheder med at vælge den rette tilgang til deres specifikke fine-tuning-behov.
Er RAG et alternativ til fine-tuning for at undgå catastrophic forgetting?+
Ja, i mange tilfælde. RAG giver modellen adgang til ekstern viden uden at ændre dens vægte, og dermed undgås catastrophic forgetting helt. For opgaver, der kræver domænespecifik adfærd snarere end domænespecifik viden, er fine-tuning dog stadig nødvendigt.
Hvordan tester man for catastrophic forgetting efter fine-tuning?+
Ved at evaluere den finjusterede model på de samme benchmarks, den blev testet på før fine-tuning. Hvis performance falder på generelle opgaver, er der sket catastrophic forgetting. Systematisk regression testing bør være en del af enhver fine-tuning-pipeline.