Metas forretnings-AI faciliterer nu over 10 millioner samtaler om ugen via WhatsApp og Messenger....
Docling er IBMs open-source toolkit til at konvertere PDF, DOCX og andre formater til struktureret, AI-klar data. Forstå hvad det er, og hvornår det giver mening.


Docling tager et dokument i næsten ethvert format og omdanner det til en struktureret repræsentation kaldet DoclingDocument. Processen foregår i flere trin: Først analyseres dokumentets layout for at identificere overskrifter, brødtekst, tabeller, figurer, kodeblokke og matematiske formler. Derefter bevares læserækkefølgen, så indholdet kommer ud i den rækkefølge, et menneske ville læse det.
For PDF-filer bruger Docling en kombination af layout-analyse (baseret på DocLayNet-modellen) og tabelgenkendelse (TableFormer). Scannede dokumenter håndteres via OCR med EasyOCR eller Tesseract. I februar 2026 lancerede IBM desuden Granite-Docling-258M, en vision-language model der kan forstå et helt dokument i ét enkelt inferenstrin.
Output fra Docling kan eksporteres som Markdown, JSON eller direkte ind i frameworks som LangChain og LlamaIndex. JSON-formatet bevarer metadata som sidetal og bounding boxes, hvilket er værdifuldt for grounding i enterprise-løsninger.
Docling understøtter også batchkonvertering, så virksomheder kan processere tusindvis af dokumenter i én kørsel. Det gør det muligt at opbygge store knowledge bases fra eksisterende dokumentsamlinger uden manuel indsats.
Den mest udbredte anvendelse af Docling er som første led i en RAG-pipeline. Virksomheder konverterer deres interne dokumentation, kontrakter, politikker og manualer til struktureret data, som derefter chunkes og indekseres i en vector database. Når medarbejdere stiller spørgsmål til en AI-assistent, henter systemet de relevante dokumentstykker og genererer præcise svar med kildehenvisning.
Juridiske afdelinger bruger Docling til at processere kontrakter og compliance-dokumenter, så AI-systemer kan besvare spørgsmål om specifikke klausuler uden at juristen skal lede manuelt. Finanssektoren anvender det til at analysere årsrapporter, risk assessments og bankdokumentation i stor skala.
En anden væsentlig anvendelse er forberedelse af data til fine-tuning af AI-modeller. Når virksomheder vil tilpasse en sprogmodel til deres domæne, er kvaliteten af træningsdata afgørende. Docling sikrer, at dokumenter konverteres korrekt, herunder tabeller og strukturerede data, som ofte går tabt i simplere konverteringsværktøjer.
Red Hat har integreret Docling i RHEL AI, så enterprise-kunder kan indlæse deres private data direkte i InstructLab til syntetisk datagenerering og modeloptimering. Det viser, hvordan dokumentindtag er ved at blive en standardkomponent i enterprise AI-infrastruktur.
Docling er ikke en komplet AI-løsning i sig selv. Det er et dokumentforberedelses-værktøj, der forbereder data til brug i AI-systemer. Docling genererer ikke svar, analyserer ikke indhold semantisk og træffer ikke beslutninger. Det er det første trin i en pipeline, ikke det sidste.
Docling er heller ikke en erstatning for specialiserede IDP-platforme (Intelligent Document Processing) med avanceret formularudfyldning, håndskriftsgenkendelse eller workflow-automatisering. Doclings styrke er struktureret konvertering til AI-formål, ikke end-to-end dokumenthåndtering med forretningsregler og godkendelsesflow.
Det er også vigtigt at forstå, at Doclings output kun er så godt som inputdokumentets kvalitet. Dårligt scannede PDF-filer, dokumenter med komplekse overlappende layouts eller billeder med tekst i lav opløsning kan stadig give udfordringer, selvom OCR-funktionaliteten hjælper betydeligt.
RAG (Retrieval-Augmented Generation): Arkitektur der kombinerer søgning i dokumenter med AI-generering af svar. Docling forbereder dokumenterne til RAG-pipelinen.
Chunking: Processen med at opdele dokumenter i mindre bidder, der kan indekseres og søges. Docling leverer det strukturerede output, der gør intelligent chunking mulig.
Embeddings: Numeriske repræsentationer af tekst, der bruges til semantisk søgning. Doclings output konverteres typisk til embeddings som næste trin i pipelinen.
Data Pipeline: Den samlede infrastruktur for at flytte og transformere data. Docling er en central komponent i AI-fokuserede data pipelines.
Knowledge Base: En struktureret videnssamling, som AI-systemer kan trække på. Docling bruges til at opbygge knowledge bases fra ustrukturerede dokumenter.
Inference: Processen hvor en AI-model genererer output. Docling forbereder data inden inference, ikke under.
Metas forretnings-AI faciliterer nu over 10 millioner samtaler om ugen via WhatsApp og Messenger....
Google Cloud har netop lanceret Gemini Enterprise Agent Platform og introduceret begrebet Agentic...
OpenAI har på under en uge lanceret to modeller, der ændrer balancen i AI-kapløbet. GPT-5.5 kom 23....