Skip to content
AI Ordbog / Mechanistic Interpretability (Mekanistisk fortolkelighed)

Mechanistic Interpretability (Mekanistisk fortolkelighed)

Mechanistic interpretability handler om at forstå, hvordan AI-modeller tænker indefra. Lær hvad det betyder for sikkerhed, compliance og tillid til AI.

Mechanistic Interpretability (Mekanistisk fortolkelighed)
Frame 4
Frame 3
Frame 2
Frame 1
Frame 5
Mechanistic Interpretability (Mekanistisk fortolkelighed)
AI ORDBOG

Hvordan virker Mechanistic Interpretability?

Kernen i mechanistic interpretability er reverse engineering af neurale netværk. Forskere undersøger de individuelle neuroner og forbindelser i en model for at kortlægge, hvilke koncepter de repræsenterer, og hvordan de samarbejder om at producere et output.

En central teknik er sparse autoencoders (SAE). Problemet med neurale netværk er, at en enkelt neuron ofte reagerer på mange forskellige koncepter samtidig, et fænomen kaldet polysemantik. Sparse autoencoders løser dette ved at dekomponere aktiveringerne til mere rene funktioner, hvor hver funktion svarer til ét begreb. Anthropic har med denne metode identificeret næsten 15.000 tolkbare funktioner i en enkelt model, hvor 70 % af dem tydeligt repræsenterer specifikke koncepter som arabisk skrift eller DNA-mønstre.

En anden tilgang er circuit analysis, hvor forskere sporer den præcise sti, en model tager fra prompt til svar. Det svarer til at kortlægge de elektriske kredsløb i en chip: man finder ud af, hvilke komponenter der er involveret i en bestemt type beslutning.

Resultatet er ikke blot akademisk. Anthropic brugte mechanistic interpretability i sikkerhedsvurderingen af Claude Sonnet 4.5, før modellen blev frigivet. Forskere undersøgte interne funktioner for farlige kapaciteter, vildledende tendenser og uønskede mål. Det var første gang, fortolkelighedsforskning blev integreret direkte i en produktionsbeslutning.

Mechanistic Interpretability i erhvervslivet

For virksomheder, der anvender AI i kritiske processer, åbner mechanistic interpretability en række muligheder. Den mest oplagte er compliance. EU AI Act stiller krav om gennemsigtighed og dokumentation af højrisiko AI-systemer. Mechanistic interpretability giver en konkret metode til at demonstrere, at man forstår, hvad ens model gør, og hvorfor.

Inden for fraud detection og risikostyring kan teknikken afsløre, om en model baserer sine beslutninger på legitime signaler eller utilsigtede mønstre. OpenAI arbejder eksempelvis på en AI-løgndetektor, der bruger modellens interne repræsentationer til at identificere, hvornår et system er vildledende.

I regulerede brancher som finans, sundhed og forsikring er evnen til at forklare en AI-beslutning ikke blot ønskelig, den er lovpåkrævet. Mechanistic interpretability supplerer Explainable AI (XAI) ved at gå dybere end output-baserede forklaringer og vise, hvad der faktisk sker inde i modellen.

Feltet er i hastig overgang fra forskning til produktion. Virksomheder som Anthropic og Google DeepMind investerer massivt, og værktøjer til model-inspektion bliver stadig mere tilgængelige for tekniske teams uden dyb forskningsbaggrund.

Hvad Mechanistic Interpretability ikke er

Mechanistic interpretability er ikke det samme som Explainable AI (XAI), selvom de to felter er beslægtede. XAI fokuserer typisk på at forklare en models output i forståelige termer, for eksempel ved at fremhæve, hvilke inputfaktorer der vejede tungest. Mechanistic interpretability går et niveau dybere og undersøger de interne mekanismer, der producerede svaret.

Det er heller ikke en færdig løsning til AI-sikkerhed. Feltet er stadig ungt, og selv de mest avancerede teknikker dækker kun dele af en models adfærd. Fundamentale begreber som hvad en feature præcist er mangler stadig stringente definitioner, og mange fortolkeligheds-forespørgsler er beregningsmæssigt svære at besvare. Det betyder ikke, at teknikken er ubrugelig, men at den bør ses som ét redskab i en bredere AI Governance-strategi.

Endelig er mechanistic interpretability ikke en erstatning for grundig test og evaluering. Den giver indsigt i, hvordan en model kan opføre sig, men garanterer ikke, at alle problematiske mønstre bliver opdaget.

Relaterede termer

Explainable AI (XAI): Bredere felt der fokuserer på at gøre AI-beslutninger forståelige for mennesker, typisk via output-forklaringer.

AI Governance: Rammer og politikker for ansvarlig styring af AI i organisationer, hvor fortolkelighed spiller en central rolle.

Foundation Model: De store basismodeller som GPT og Claude, der er det primære objekt for mechanistic interpretability-forskning.

Deep Learning: Den type neurale netværk, som mechanistic interpretability forsøger at reverse engineere.

Constitutional AI: Anthropics tilgang til at træne AI-modeller med indbyggede sikkerhedsprincipper, som fortolkelighedsforskning hjælper med at verificere.

EU AI Act: Europæisk regulering, der stiller krav om gennemsigtighed, som mechanistic interpretability kan hjælpe med at opfylde.

Guardrails: Sikkerhedsmekanismer i AI-systemer, som fortolkelighed kan hjælpe med at designe og validere.