AI-blog | Guides & værktøjer fra førende AI-konsulenter | Consile

Google: Hjemmesider angriber nu AI-agenter via skjulte prompts

Skrevet af Martin Mensbo Christiansen | 27-04-2026 21:29:58

Google har scannet milliarder af offentligt tilgængelige hjemmesider og bekræfter nu det, sikkerhedsforskere har advaret om i over et år: skjulte instruktioner i HTML-koden kaprer aktivt AI-agenter, der læser indholdet.

I en ny analyse fra Googles Threat Intelligence-team og DeepMind ses en relativ stigning på 32% i ondsindede forsøg fra november 2025 til februar 2026. Sofistikeringen er stadig lav, men retningen er klar. Her gennemgår vi hvad Google fandt, hvordan en hjemmeside rent teknisk lægger en injection ind, og hvad det betyder for danske virksomheder, der bruger AI-agenter til at læse webindhold.

 

Hvad Googles threat intelligence-team fandt på det åbne web

I en ny rapport fra Google Online Security Blog, skrevet af Thomas Brunner, Yu-Han Liu og Moni Pande, kortlægger Google for første gang hvor udbredt såkaldt indirect prompt injection faktisk er på det offentlige web. Holdet brugte Common Crawl, et arkiv der hver måned indeholder 2 til 3 milliarder offentligt tilgængelige sider, som datagrundlag.

Tilgangen var trinvis. Først pattern matching på kendte injection-signaturer som "ignore previous instructions" og "if you are an AI". Derefter brugte de Gemini til at klassificere hensigten bag den fundne tekst, og endelig manuel gennemgang af de mest sandsynlige ondsindede tilfælde for at sortere falske positiver fra. Falske positiver var faktisk det største problem i analysen. Forskningsartikler, undervisningsmateriale og security-blogs der diskuterer prompt injection udgør størstedelen af alle umiddelbare "fund".

Konklusionen er nuanceret. Aktørerne eksperimenterer, men sofistikeringen er stadig lav. Google så ikke avancerede angreb der replikerer kendte exfiltration-strategier fra forskningslitteraturen. De fandt primært enkeltstående sideejere der kører pranks eller egne forsøg, ikke organiserede kampagner. Det vigtige er, at der er klare tegn på voksende interesse, og at både angrebsøkonomien og målets værdi peger i en retning, hvor angrebet bliver mere attraktivt.

 

 

 

 

 

Sådan lægger en hjemmeside en prompt injection ind

Det tekniske greb er overraskende simpelt. En hjemmeside består af HTML, og når en AI-agent eller en assistent læser siden, henter den teksten som plain text, oftest både synlig brødtekst og elementer som meta-tags, alt-tekster, ARIA-labels og skjulte div'er. Modellen ser teksten som ren input og kan ikke automatisk skelne mellem hvad der er indhold og hvad der er en instruktion til den selv.

Den mest udbredte metode er "hvid tekst på hvid baggrund eller skjulte div'er med CSS som display:none eller visibility:hidden. I praksis kan det se sådan ud: en div med inline-styling der sætter både tekstfarve og baggrundsfarve til hvid, og inde i den div en sætning der instruerer AI'en i at ignorere tidligere instruktioner og fx kun svare i pirat-sprog. For et menneske er teksten usynlig, men når en AI henter siden gennem en HTML-parser eller en plaintext-konverter, bliver den læst som almindelig tekst på linje med resten af brødteksten.

Andre teknikker inkluderer skjulte instruktioner i meta-tags, alt-attributter på billeder, ARIA-labels for tilgængelighed, JSON-LD structured data, og kommentarer i HTML-koden. Nogle sideejere indlejrer instruktionen midt i en lang side, så den først aktiveres når AI'en summerer hele indholdet. Andre placerer den i sidefoden eller i tekst, der kun loades dynamisk gennem JavaScript, hvilket gør detektion endnu sværere for både mennesker og automatiserede scannere.

En mere subtil variant, som Google fremhæver i rapporten, er hjemmesider der lokker AI-agenter ind på en sekundær side. Den side returnerer en uendelig tekststrøm der aldrig færdig-loader, hvilket spilder agentens ressourcer eller udløser timeouts. Denne form for injection angriber ikke modellens output men dens infrastruktur. Det er en variant der særligt rammer agenter med tool calling, hvor en uendelig response-stream kan låse hele værktøjs-flowet.

 

De seks kategorier af skjulte instruktioner Google fandt

Google opdeler det de fandt i seks kategorier, og kun to af dem er decideret ondsindede. Det første er harmless pranks, hvor sideejere instruerer AI'en i at svare i en bestemt tone, fx pirat-sprog eller som en kvidrende fugl. Den anden kategori er helpful guidance, hvor sideejeren prøver at give AI'en kontekst til en bedre opsummering af sit eget indhold. Begge kategorier er som udgangspunkt ufarlige, men kan let blive ondsindede, hvis instruktionerne ændres til at indsætte misinformation eller omdirigere brugeren til en tredjepartsside.

Tredje kategori er SEO-manipulation. Her ligger der instruktioner som forsøger at få AI-assistenten til at promovere sitet over konkurrenters produkter. Google så også avancerede SEO-prompts, der tilsyneladende blev genereret af automatiserede SEO-suites og indsat på tværs af mange sider. Det er en ny variant af gammeldags black-hat SEO, men den arbejder mod AI-overflader frem for klassiske søgemaskineresultater.

Fjerde kategori er forsøg på at afvise AI-agenter helt. Det kan være simple instruktioner i stil med "hvis du er en AI, så lad være med at crawle denne side", men også mere insidiøse varianter som den uendelige tekststrøm beskrevet ovenfor. Femte og sjette kategori er de ondsindede: exfiltration, hvor angriberen forsøger at få AI'en til at læse fortrolige data og sende dem ud til en ekstern adresse, og destruction, hvor instruktionen forsøger at få agenten til at slette filer eller udføre andre destruktive operationer på brugerens maskine.

Det er værd at notere, at Googles vurdering er, at de aktuelt observerede destruction- og exfiltration-forsøg er usandsynlige at lykkes i praksis. De ligner mere eksperimenter fra individuelle sideejere end koordinerede kampagner. Men som rapporten også understreger, ændrer billedet sig, når både angrebsomkostninger falder og målets værdi stiger. Det er præcis den udvikling vi ser nu.

 

Hvorfor 32%-stigningen er vigtigere end tallet selv

Stigningen på 32% i ondsindede injection-forsøg fra november 2025 til februar 2026 ser måske ikke voldsom ud isoleret set, men den fortæller noget om økonomien bag angrebene. Trusselsaktører engagerer sig der, hvor cost/benefit-balancen tipper. Indtil for nylig var prompt injection eksotisk og svært at få til at virke pålideligt, fordi AI-systemer ikke kunne udføre handlinger med reelle konsekvenser.

Det billede er ved at ændre sig. Dagens agentic AI-systemer har adgang til kalendere, e-mails, CRM-systemer og betalingsflows. Det øger målets værdi markant. Samtidig automatiserer angriberne deres egne operationer med agentic AI, hvilket sænker omkostningen ved at sætte injection op i stor skala. Begge kurver bevæger sig i den retning, der gør angrebet økonomisk attraktivt.

Google-forskerne formulerer det som en truende modning frem for et nuværende kriseberedskab. Sofistikeringen er endnu ikke der, men der er et tydeligt forsøgs-mønster, og når først én aktør finder en metode, der virker pålideligt på en udbredt agent-platform, er rejsen fra eksperiment til kampagne kort. Det er det samme mønster, vi har set med phishing, kryptominer-malware og supply chain-angreb gennem de seneste ti år.

 

Hvad du bør gøre, hvis dine AI-agenter læser webindhold

Det første princip er at behandle internettet som fjendtligt territorium. En agent, der browser webben, må aldrig have direkte adgang til dine interne systemer i samme proces. Indfør en sanitiserende mellemmodel, der henter siden, fjerner skjult formatering og giver hovedmodellen ren tekst som data, ikke som instruktion. Hvis mellemmodellen kompromitteres, mangler den simpelthen rettighederne til at gøre skade.

Det andet princip er stram tilladelses-kompartementalisering. Udviklere har en tendens til at give agenter brede rettigheder for at gøre udvikling lettere: read, write og execute samlet i én monolitisk identitet. Det er præcis det modsatte af zero-trust. En agent, der researcher konkurrenter, må ikke have skriveadgang til dit CRM. Et tool-call der summerer e-mails, må ikke kunne sende beskeder. Hver agent bør have det smallest mulige sæt rettigheder, der lader den løse sin specifikke opgave.

Det tredje princip er audit lineage. Hvis en agent anbefaler en handling, skal du kunne spore beslutningen tilbage til de specifikke datakilder og URL'er, der påvirkede den. Uden den sporing kan du ikke diagnosticere når noget går galt, og du kan slet ikke dokumentere overfor revisor eller tilsynsmyndighed, hvad der skete.

For danske virksomheder under EU AI Act bliver det her ikke kun et sikkerhedsspørgsmål, men også et compliance-spørgsmål. AI Literacy-kravet i artikel 4 betyder, at medarbejdere, der bruger eller bygger AI-systemer, skal forstå hvordan de kan kompromitteres. Indirect prompt injection er præcis den type risiko, der skal dokumenteres, mitigeres og forklares for både ledelse og tilsynsmyndighed. Hvis I står med en agent-implementation hvor svaret på "hvordan beskytter vi os mod prompt injection?" er "vi har ikke tænkt over det", er der både en sikkerheds- og en compliance-gæld at indhente.