De fleste AI-sprogværktøjer taler 100 sprog nogenlunde. Vi ville bygge et, der taler ét sprog...
En data pipeline flytter, transformerer og leverer data til AI-systemer og analyser. Forstå opbygningen, forretningsværdien og de typiske faldgruber.


En data pipeline består typisk af tre faser: udtræk (extract), transformation (transform) og indlæsning (load). I den klassiske ETL-tilgang transformeres data, før den lander i målsystemet. I den nyere ELT-tilgang indlæses rå data først og transformeres bagefter, hvilket giver større fleksibilitet.
Udtræk handler om at hente data fra kildesystemer. Det kan være CRM-platforme, ERP-systemer, webtjenester, IoT-sensorer eller tredjepartsintegrationer via API. Kvaliteten af pipelinen afhænger af, om den kan håndtere forskellige dataformater og kilder pålideligt.
Transformation er der, hvor data renses, beriges og struktureres. Duplikater fjernes, formater standardiseres, og manglende værdier håndteres. For AI-projekter inkluderer denne fase ofte feature engineering, hvor rå data omdannes til de variable, som en machine learning-model faktisk kan bruge.
Indlæsning er leveringen til målsystemet. Det kan ske som batchprocesser med faste intervaller eller som realtidsstreaming, hvor data flyder kontinuerligt. Valget afhænger af forretningsbehovet: en daglig rapport kræver batch, mens svindeldetektering kræver realtid.
Moderne data pipelines inkluderer også orkestrering, monitorering og fejlhåndtering. Værktøjer som Apache Airflow, dbt og Prefect bruges til at styre, hvornår og hvordan hvert trin eksekveres, og til at slå alarm, når noget fejler.
For virksomheder er data pipelines det fundament, der gør det muligt at træffe datadrevne beslutninger. Uden dem forbliver data i siloer, og AI-projekter strander allerede i dataforberedelsen.
I marketing og salg driver data pipelines alt fra leadscoring til personaliserede kampagner. Data fra CRM, website-adfærd, e-mail-interaktioner og sociale medier samles og beriges, så AI-modeller kan forudsige kundeadfærd og anbefale næste bedste handling. Det kræver pipelines, der kører pålideligt og leverer frisk data.
I finans og compliance bruges pipelines til at konsolidere transaktionsdata fra flere systemer, detektere anomalier i realtid og generere regulatoriske rapporter. Fejl i pipelinen kan betyde forsinkede rapporter eller oversete risici.
I supply chain og produktion leverer pipelines data fra IoT-sensorer, lagersystemer og leverandørplatforme til modeller, der forudsiger efterspørgsel, optimerer ruter eller identificerer kvalitetsproblemer, før de eskalerer.
Fælles for alle scenarier er, at pipelinens pålidelighed direkte påvirker forretningsresultatet. Gartner estimerer, at 60 procent af AI-projekter ikke opnår den forventede værdi, primært fordi data ikke er klar, ren eller tilgængelig til tiden. En robust data pipeline er den mest effektive investering mod den risiko.
En data pipeline er ikke det samme som en database. Databasen er destinationen; pipelinen er rejsen derhen. Det er heller ikke synonymt med ETL, selvom ETL er en type data pipeline. Moderne pipelines kan være realtidsstrømmende, hændelsesdrevne eller hybride og behøver ikke nødvendigvis at transformere data overhovedet.
Data pipelines er heller ikke et engangsprojekt. En almindelig fejl er at bygge en pipeline som en afsluttet leverance og derefter glemme den. Pipelines kræver løbende vedligeholdelse, fordi kildesystemer ændrer sig, dataformater opdateres, og forretningskrav udvikler sig. Uden aktiv monitorering og vedligeholdelse opstår det, der i branchen kaldes model drift og data drift, hvor data gradvist afviger fra det, modellen forventer.
Det er også vigtigt at forstå, at en data pipeline ikke automatisk sikrer datakvalitet. Pipelinen transporterer og transformerer data, men hvis kildedataen er dårlig, bliver resultatet det også. Kvalitetssikring skal bygges ind som et eksplicit trin med validering, kontrol og guardrails.
RAG (Retrieval-Augmented Generation): En arkitektur, der kombinerer informationssøgning med tekstgenerering. Data pipelines leverer de dokumenter og data, som RAG-systemer søger i.
Feature Store: Et centralt repository til de features, der bruges i machine learning-modeller. Feature stores bygger på data pipelines til at holde features opdaterede.
Embeddings: Numeriske repræsentationer af data, der bruges i vektorsøgning og AI-modeller. En data pipeline producerer ofte de rå data, der konverteres til embeddings.
Machine Learning (ML): Den bredere disciplin, hvor data pipelines leverer trænings- og inferensdata til modeller.
Model Monitoring: Overvågning af en AI-models præstation over tid. Data pipelines leverer de metrikker og prædiktioner, der monitoreres.
Vector Database: Specialiserede databaser til lagring af embeddings. Data pipelines fylder og opdaterer disse databaser.