Hvad er RAG?
RAG, eller Retrieval-Augmented Generation, er en teknik, der giver en AI-sprogmodel adgang til ekstern viden, inden den svarer. I stedet for kun at trække på det, modellen lærte under træningen, henter RAG relevant information fra en vidensbase i realtid og bruger den som kontekst, når svaret dannes.
Resultatet er en AI, der kan svare præcist på spørgsmål om jeres egne dokumenter, produkter, politikker og processer, uden at I skal træne en ny model fra bunden.
RAG er i dag den mest udbredte måde at gøre en LLM brugbar på virksomhedens egen viden. Resten af siden gennemgår, hvordan det virker, hvornår det giver mening, og hvad det ikke er.
Hvordan virker RAG i praksis?
Et RAG-system arbejder i tre trin, hver gang nogen stiller et spørgsmål: hentning, kontekstualisering og generering. Selve ideen blev beskrevet i 2020 af Patrick Lewis og hans kollegaer hos Facebook AI Research i artiklen "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks". Deres pointe var, at en sprogmodels interne hukommelse kan kombineres med en ekstern vidensbase, så svaret bygger på begge dele.
I hentningstrinnet omsættes spørgsmålet til en embedding, altså en talrepræsentation, der sammenlignes med dokumenterne i en vector database som Pinecone, Weaviate, Qdrant eller pgvector. Inden da er dokumenterne delt op i mindre stykker gennem chunking, typisk på 200 til 800 tokens med et lille overlap, så et afsnit ikke bliver klippet midt over. Valget af embeddingmodel påvirker kvaliteten direkte. OpenAI text-embedding-3-large koster 0,13 dollar per million tokens og bruger 3072 dimensioner, mens Cohere embed-v4 ligger på 0,10 dollar per million tokens og har separate tilstande til indeksering og søgning.
De fleste produktionssystemer nøjes ikke med ren vektorsøgning. De kombinerer den med klassisk nøgleordssøgning, kaldet hybrid search, og lægger et rerankingtrin ovenpå. En typisk opskrift henter de 50 mest lovende stykker, lader en reranker som Cohere Rerank skære ned til de 5 bedste og sender kun dem videre. I 2026 regnes hybrid search, reranking og løbende måling ikke længere som ekstra, men som standard, fordi de tilsammen løfter svarkvaliteten mærkbart.
I kontekstualiseringstrinnet sendes de udvalgte uddrag sammen med spørgsmålet ind til sprogmodellen som kontekst. Uanset om der er tale om en LLM som GPT, Claude eller Gemini eller en open source-model som Llama eller Mistral, danner modellen nu et svar, der er forankret i de hentede data og ikke i tilfældig viden fra træningen. Fordi systemet ved, hvilke afsnit svaret bygger på, kan det vise kilden, og det er ofte forskellen på et svar, en medarbejder tør stole på, og et, der skal dobbelttjekkes manuelt.
Et konkret eksempel: en medarbejder spørger den interne assistent, hvad afskrivningspolitikken for firmabiler er. Systemet finder afsnittet i regnskabspolitikken, også selvom den blev opdateret for tre måneder siden, og svarer med henvisning til netop det dokument. Kvaliteten afhænger af hentningen. Er dokumenterne dårligt opdelt, eller er vidensbasen rodet, henter systemet det forkerte, og så hjælper selv den dygtigste model ikke. Godt RAG handler derfor lige så meget om data som om model.
Vi er specialiseret i enterprise RAG-arkitektur og AI-agenter, fra datagrundlag og retrieval til drift. Kontakt os for en uforpligtende snak om, hvad RAG kan gøre for jer.
Hvornår giver RAG mening?
RAG er den rigtige tilgang, når svaret afhænger af viden, der ændrer sig over tid, som priser, politikker, kontrakter og produktdata. Det giver også mening, når I vil holde AI'ens svar inden for jeres egne data, når I har brug for sporbarhed til hvert svar, og når I vil holde hallucinationer nede ved at tvinge modellen til at svare ud fra kendte dokumenter.
I praksis dukker de samme mønstre op på tværs af afdelinger. Kundeservice lader en assistent svare ud fra produktdokumentation og tidligere sager. Salg slår op i et produktkatalog med tusindvis af varenumre i stedet for at lede i regneark. HR lægger personalehåndbog og overenskomst ind, så medarbejderne selv finder svaret. Jura og compliance søger i kontrakter og finder den rigtige klausul på sekunder, og økonomi henter svar fra regnskabspolitik og bogføringsregler. Fælles for dem er, at viden findes i forvejen, men er svær at finde frem i farten.
Et tilbagevendende spørgsmål er, om RAG stadig er nødvendigt, nu hvor flere af de førende modeller, blandt andre Gemini 2.5 Pro og Claude Sonnet 4.6, kan rumme en million tokens eller mere i kontekstvinduet. Svaret er ja for de fleste virksomheder. Det er for dyrt og for langsomt at sende hele dokumentsamlingen med ved hvert spørgsmål, og lange kontekstvinduer giver hverken sporbarhed eller adgangsstyring. Tommelfingerreglen i 2026 er at bruge langt kontekstvindue til samtalehistorik, RAG til præcision og kildehenvisning, og fine-tuning, når det er stil, tone eller fast adfærd, der skal ændres. I mange løsninger kombineres de.
En RAG-løsning kræver mere, end mange regner med. En simpel prototype kan bygges på få uger. Et produktionssystem med adgangsstyring, skalering, overvågning og integration til jeres kildesystemer tager typisk to til fire måneder. Den største variabel er ikke modellen, men hvor rene og velstrukturerede jeres data er i forvejen. De fleste projekter bruger mere tid på at rydde op i dokumenter og rettigheder end på selve AI-delen.
Hvad RAG ikke er
RAG er ikke det samme som at give en AI fri adgang til internettet. Systemet arbejder kun med den vidensbase, I selv definerer og vedligeholder. Det er heller ikke det samme som fine-tuning. Hvor fine-tuning ændrer modellens viden permanent og kræver dataindsamling og træning, er RAG et lag oven på modellen, der kan opdateres løbende uden at træne om.
RAG er heller ikke bare at uploade en PDF til ChatGPT. Det er let at lave en demo, der virker på ti dokumenter, men et system, der skal svare pålideligt på tværs af tusindvis af filer, kræver gennemtænkt chunking, en embeddingmodel, en vector database, reranking, adgangsstyring og løbende måling. Et udtryk, der går igen i 2026, er, at naiv RAG er død, mens gennemarbejdet RAG har det godt. Forskellen ligger i hentningen og i, hvor systematisk man tester. Nyere systemer går skridtet videre med agentisk RAG, hvor en AI-agent selv vurderer, om de hentede afsnit er gode nok, og henter igen, hvis ikke.
RAG fjerner ikke hallucinationer helt. Den reducerer dem markant, når systemet er bygget til at svare ud fra kendte dokumenter, men et svagt hentningstrin kan stadig give forkerte svar med selvsikker tone. Derfor hører kildehenvisninger, test og menneskeligt tilsyn med, især når svarene bruges til beslutninger.
Endelig er RAG ikke fritaget for sikkerhed og regler. Adgangsstyring er afgørende: en bruger må kun kunne hente svar fra de dokumenter, vedkommende i forvejen har lov til at se, ellers lækker systemet viden på tværs af organisationen. Skal personoplysninger indgå, skal vidensbasen leve op til GDPR, og EU-hosting eller self-hosting gør det lettere at dokumentere. Oven i kommer EU AI Act, hvor de generelle gennemsigtighedskrav gælder fra 2. august 2026. Derfor står og falder en RAG-løsning ofte med adgangsstyringen og kvaliteten af datagrundlaget.
Relaterede termer
En LLM (large language model) er en stor sprogmodel som GPT, Claude og Gemini. Lær hvordan LLM'er virker, hvad de bruges til, og hvad de koster.
AI-hallucinationer er, når en model lyder sikker men tager fejl. Forstå hvorfor det sker, hvor det er farligst, og hvordan du reducerer risikoen.
Fine-tuning træner en eksisterende AI-model videre på jeres egne data. Forstå hvordan det virker, og hvornår det slår RAG og prompt engineering.
Hvad en vector database er, hvordan den virker (embeddings, HNSW/IVF), hvornår du faktisk har brug for en, og hvordan de førende valg adskiller sig.
Embeddings omdanner tekst, billeder og data til vektorer, som AI kan forstå og sammenligne. Lær hvordan embeddings driver søgning, RAG og anbefalinger.
En AI-agent kan planlægge og udføre handlinger, ikke kun svare. Forstå byggeklodserne, brugen, og hvordan en agent adskiller sig fra en chatbot.
Ofte stillede spørgsmål om RAG
Hvad er forskellen på RAG og fine-tuning?+
Fine-tuning ændrer modellens viden permanent og kræver dataindsamling og træning. RAG er et dynamisk lag, der henter information i realtid uden at røre modellen. RAG er typisk hurtigere, billigere og lettere at holde opdateret.
Kan RAG bruges med hvilken som helst LLM?+
Ja. RAG er et arkitekturmønster, ikke en bestemt model. Det kan bygges med GPT, Claude, Gemini eller open source-modeller som Llama og Mistral.
Er RAG foreneligt med GDPR?+
RAG kan bygges GDPR-forsvarligt, forudsat at vidensbasen kun rummer data, I har ret til at behandle, og at systemet hostes i overensstemmelse med jeres databehandleraftale. Self-hosting eller EU-hosting gør det lettere at dokumentere.
Hvad koster det at bygge et RAG-system?+
En simpel prototype kan bygges på få uger. Et fuldt produktionssystem med sikkerhed, skalering og integration tager typisk to til fire måneder. Den største variabel er, hvor rene og velstrukturerede jeres data er i forvejen.
Betyder RAG altid retrieval-augmented generation?+
I en AI-sammenhæng ja. Ordet rag har andre betydninger på dansk og engelsk, blandt andet ragtime-musik, en klud eller et sladderblad, men når der tales om kunstig intelligens, står RAG for retrieval-augmented generation, altså en sprogmodel, der henter ekstern viden, før den svarer.
Hvad er forskellen på RAG og en vector database?+
En vector database er en komponent i et RAG-system, ikke det samme. Databasen gemmer og søger i embeddings, mens RAG er hele mønstret, der også omfatter chunking, hentning, reranking og den sprogmodel, der danner svaret.
Er RAG stadig nødvendigt med store kontekstvinduer?+
For de fleste virksomheder ja. Selvom modeller som Gemini 2.5 Pro og Claude Sonnet 4.6 kan rumme en million tokens, er det dyrt og langsomt at sende hele dokumentsamlingen med hver gang, og det giver hverken kildehenvisning eller adgangsstyring. Langt kontekstvindue og RAG bruges ofte sammen.
Hvad kræver et RAG-system af vores data?+
At dokumenterne kan læses maskinelt, er nogenlunde opdaterede, og at det er styret, hvem der må se hvad. Den største opgave i de fleste projekter er at rydde op i dokumenter og rettigheder, ikke at vælge model. Rene data giver bedre hentning, og bedre hentning giver bedre svar.