Skip to content
AI Ordbog / Chunking

Chunking

Chunking opdeler dokumenter i meningsfulde bidder, så AI-systemer kan søge og svare præcist. Lær hvordan chunking styrker RAG og enterprise AI.

Chunking
Frame 4
Frame 3
Frame 2
Frame 1
Frame 5
Chunking
AI ORDBOG

Hvordan virker chunking?

Chunking tager et dokument og opdeler det i mindre segmenter, typisk mellem 250 og 512 tokens pr. chunk. Hvert segment bliver derefter konverteret til en matematisk repræsentation (en embedding), som gemmes i en vector database. Når en bruger stiller et spørgsmål, sammenligner systemet spørgsmålets embedding med alle chunk-embeddings og henter de mest relevante bidder.

Den simpleste metode er fixed-size chunking, hvor teksten opdeles i blokke af en fast størrelse med et vist overlap mellem blokkene. Overlapbet sikrer, at information, der falder på grænsen mellem to chunks, ikke går tabt. En typisk opsætning er 512 tokens med 50-100 tokens overlap.

Semantisk chunking er en mere avanceret tilgang, der opdeler teksten baseret på betydningsskift snarere end fast længde. Her analyserer en embeddings-model teksten og placerer snittet, hvor emnet skifter. Resultatet er chunks, der hver repræsenterer én sammenhængende idé, hvilket kan forbedre søgepræcisionen med op til 9% ifølge benchmarks.

Recursive character splitting kombinerer de to tilgange: den forsøger først at opdele ved naturlige grænser (afsnit, sætninger), og falder kun tilbage til fast størrelse, hvis segmenterne stadig er for store. Det er i dag standardmetoden i de fleste RAG-frameworks.

Valget af chunk-størrelse er en afvejning. For små chunks mister kontekst, og svar kan kræve information fra flere chunks. For store chunks udvander embeddingens præcision, fordi mange emner blandes i samme vektor. Den rette størrelse afhænger af dokumenttypen og brugsscenariet.

Chunking i virksomhedens AI-projekter

Chunking er ikke et akademisk koncept. Det er en praktisk designbeslutning, der direkte påvirker, om en virksomheds AI-system leverer værdi. I enterprise-sammenhænge er chunking relevant i flere scenarier.

Interne vidensbaser er det mest udbredte use case. Når en virksomhed bygger et AI-system, der kan besvare spørgsmål om interne politikker, kontrakter eller produktdokumentation, er chunking det, der afgør, om systemet finder den præcise paragraf med svaret eller returnerer irrelevant information fra et 200-siders dokument.

Kundesupport og selvbetjening afhænger af, at AI-systemet kan hente den korrekte løsning fra en ofte omfattende supportdatabase. God chunking betyder, at en kunde får det specifikke svar på sit problem, ikke en generisk henvisning til en hel artikel.

Compliance og juridisk analyse er et voksende område, hvor virksomheder bruger AI til at gennemsøge kontrakter, regulativer og interne retningslinjer. Her er chunking-strategien særligt kritisk, fordi juridisk sprog ofte kræver kontekst fra flere afsnit for at give mening, og for aggressive chunking kan føre til misforståede klausuler.

Ifølge branchedata har 51% af enterprise-virksomheder adopteret RAG-baserede løsninger, og markedet forventes at nå 9,86 milliarder dollars i 2030. Chunking er en af de designbeslutninger, der afgør, om disse investeringer giver afkast.

Hvad chunking ikke er

Chunking forveksles ofte med selve søgningen eller med embeddings. Chunking er ikke søgning. Det er forarbejdningen, der sker, før noget kan søges. Et dokument, der ikke er chunket korrekt, vil give dårlige søgeresultater uanset hvor god søgealgoritmen er. Tilsvarende er chunking ikke det samme som embeddings: chunking opdeler teksten, embeddings konverterer de opdelte bidder til vektorer.

Det er heller ikke en one-size-fits-all-løsning. En chunking-strategi, der fungerer glimrende for korte FAQ-dokumenter, kan fejle på lange juridiske kontrakter. Virksomheder, der behandler chunking som en standardindstilling og ikke tilpasser den til deres dokumenttyper, oplever typisk lavere kvalitet i deres AI-systemer.

Endelig er chunking ikke en engangsbeslutning. Efterhånden som en virksomheds dokumentbase vokser og ændrer sig, bør chunking-strategien evalueres og justeres. Det er en løbende del af at vedligeholde et RAG-system i produktion.

Relaterede termer

RAG (Retrieval-Augmented Generation): Arkitekturen, hvor chunking indgår som et centralt trin. RAG henter relevante chunks og bruger dem som kontekst for sprogmodellens svar.

Embeddings: Den matematiske repræsentation, som hver chunk konverteres til, så den kan sammenlignes med andre tekster via vektorsøgning.

Vector Database: Databasetypen, der gemmer og søger i chunk-embeddings baseret på semantisk lighed.

Semantic Search: Søgeteknikken, der bruger embeddings til at finde betydningsmæssigt relevante chunks frem for blot ordmatch.

Context Window: Den maksimale tekstmængde, en sprogmodel kan behandle ad gangen. Chunking sikrer, at de vigtigste bidder passer inden for dette vindue.

Token/Tokenization: Den enhed, chunk-størrelse typisk måles i. Tokenization er processen, der opdeler tekst i tokens, mens chunking opdeler dokumenter i meningsfulde segmenter.