Hvad er Tokens?

AI ORDBOG

Hvordan virker tokenization?

Moderne AI-modeller bruger en teknik kaldet subword tokenization. I stedet for at opdele tekst i hele ord eller enkelte bogstaver, finder algoritmen et mellemlag: hyppige ord bevares som hele tokens, mens sjældnere ord brydes ned i genkendelige dele. Ordet "tokenization" kan for eksempel blive til to tokens "token" og "ization" mens "AI" typisk er ét token.

Den mest udbredte metode hedder Byte-Pair Encoding (BPE). Den starter med individuelle tegn og fusionerer iterativt de mest hyppige par, indtil den når et foruddefineret ordforråd. Resultatet er en tokenizer, der balancerer mellem effektivitet og fleksibilitet: den kan håndtere ethvert sprog og enhver tekst, selv stavefejl og specialtegn.

Hvert token får tildelt et unikt numerisk ID. Det er disse tal, ikke bogstaver som modellen faktisk arbejder med. Når en foundation model som GPT-4 eller Claude genererer et svar, forudsiger den det næste token-ID baseret på alle foregående tokens i samtalen.

Et praktisk tommelfingerregel: ét token svarer til cirka fire tegn på engelsk eller omtrent tre fjerdedele af et ord. En dansk tekst på 100 ord fylder typisk 130-150 tokens, da danske sammensatte ord ofte kræver flere tokens end tilsvarende engelske udtryk.

Hvorfor tokens er afgørende for virksomheder

Tokens er AI's valuta. Næsten alle kommercielle AI-tjenester afregner pr. token, og prismodellen skelner typisk mellem input-tokens (det du sender til modellen) og output-tokens (det modellen genererer). Output-tokens koster som regel tre til fem gange mere end input-tokens, fordi de kræver mere beregningskraft at producere.

For virksomheder, der bygger AI-løsninger, har denne prisstruktur direkte konsekvenser for budgettering. Et proof of concept, der koster 500 kroner i tokens pr. måned, kan skalere til flere millioner, når løsningen rulles ud til hundredvis af brugere. At forstå tokenøkonomi er derfor ikke et teknisk detalje, det er en forudsætning for at bygge en holdbar AI roadmap.

Tokens påvirker også hastighed. Jo flere tokens en forespørgsel indeholder, jo længere tid tager det at behandle den. Det er grunden til, at lange systemprompts og omfattende kontekst kan gøre AI-applikationer mærkbart langsommere. Optimering af token-forbrug handler derfor ikke kun om pris, men også om brugeroplevelse.

Endelig er tokens forbundet med kvalitet. Hver model har et context window, en øvre grænse for, hvor mange tokens den kan arbejde med ad gangen. Overstiger man det vindue, mister modellen kontekst og leverer dårligere svar. At vide, hvor mange tokens en opgave kræver, er afgørende for at vælge den rette model og arkitektur.

Hvad tokenization ikke er

Tokenization i AI-sammenhæng handler udelukkende om at opdele tekst i beregningsenheder for sprogmodeller. Det bør ikke forveksles med tokenization inden for fintech og blockchain, hvor begrebet refererer til at omdanne aktiver (ejendom, værdipapirer, kunstværker) til digitale tokens på en blockchain. De to koncepter deler navn, men intet andet.

En anden misforståelse er, at ét token altid svarer til ét ord. Det gør det ikke. Korte, hyppige ord kan være ét token, men længere eller sjældnere ord splittes i flere. Og modsat kan korte sekvenser som "AI" eller tegnsætning som "..." udgøre separate tokens. Tokengrænser følger statistik, ikke grammatik.

Det er også værd at understrege, at tokenization ikke er det samme som embeddings. Tokenization opdeler tekst i stykker, mens embeddings omsætter de stykker til matematiske vektorer, der fanger betydning. Tokenization er trin ét; embeddings er trin to.

Relaterede termer

LLM (Large Language Model): Den type AI-model, der bruger tokens som grundlæggende enhed for at forstå og generere sprog.

Context Window: Den øvre grænse for, hvor mange tokens en model kan behandle i én samlet forespørgsel.

Embeddings: Matematiske repræsentationer af tokens, der fanger semantisk betydning og muliggør søgning og sammenligning.

Foundation Model: Store, generelle modeller trænet på massive mængder tokeniseret data, der danner grundlag for specifikke AI-løsninger.

Prompt Engineering: Disciplinen der handler om at formulere instruktioner effektivt, hvor token-effektivitet spiller en central rolle.

Inference: Processen, hvor en trænet model genererer output token for token baseret på input.

Illustration af AI-agenter og automatisering i enterprise-virksomheder

Google Cloud har netop lanceret Gemini Enterprise Agent Platform og introduceret begrebet Agentic...

GPT-5.5 og GPT-5.5-Cyber lanceres af OpenAI som modsvar til Anthropics Claude Mythos

OpenAI har på under en uge lanceret to modeller, der ændrer balancen i AI-kapløbet. GPT-5.5 kom 23....

EU AI Act compliance deadlines illustration

EU-trilogen om AI Act Omnibus kollapsede 28. april efter 12 timers forhandlinger uden en politisk...

AI-implementering

Compliance og Governance

AI til Marketing og Salg

AI ROI Beregner

AI Nyheder

AI Ordbog

AI Skills

Hvad er Tokens?

AI ORDBOG

Hvordan virker tokenization?

Hvorfor tokens er afgørende for virksomheder

Hvad tokenization ikke er

Relaterede termer

Google Cloud satser på agenter: Agentic Enterprise forandrer AI

GPT-5.5-Cyber: OpenAI's modsvar til Claude Mythos

EU AI Act Omnibus kollapsede: Alle deadlines står ved magt