Blog
Kontakt os
AI

Ny GLM-5.2 AI model fra Kina og hvad kan den?

Z.ai åbnede for GLM-5.2 den 17. juni, og overskrifterne kaldte den verdens stærkeste åbne AI-model. Det passer faktisk. Spørgsmålet er bare, om du kan bruge den til noget. Den korte version: GLM-5.2 er en åben model bygget til kodning, der …

Z.ai åbnede for GLM-5.2 den 17. juni, og overskrifterne kaldte den verdens stærkeste åbne AI-model. Det passer faktisk. Spørgsmålet er bare, om du kan bruge den til noget.

Den korte version: GLM-5.2 er en åben model bygget til kodning, der nærmer sig de lukkede frontier-modeller på flere benchmarks. Den lange version handler om 744 milliarder parametre, et hardwarekrav de færreste taler ærligt om, og et Kina-spørgsmål du bør tage stilling til, før du sender data afsted. Her er gennemgangen uden hype.

 

Hvad er GLM-5.2, og hvorfor taler alle om den

GLM-5.2 kommer fra Z.ai, der tidligere hed Zhipu AI og udspringer af Tsinghua-universitetet i Beijing. Modellen rullede først ud til betalende kodekunder den 13. juni, og fire dage senere lagde Z.ai modellen åbent op på Hugging Face under en MIT-licens. Ingen regionale låse, ingen begrænsninger på kommerciel brug. Det er så åbent, som en model bliver.

Det usædvanlige er, at GLM-5.2 er bygget kode-først og agent-først. Den er ikke en chatbot, der også kan kode, men en model skabt til at kode, hvor samtale nærmest er en sidegevinst. Det placerer den i samme kategori som de nyeste agentiske AI-modeller, hvor lange, selvkørende opgaver er hele pointen.

Og så er der tallet, alle nævner: 51 på Artificial Analysis' Intelligence Index v4.1. Det er den højeste score, nogen åben model har fået til dato, foran kinesiske konkurrenter som DeepSeek V4 Pro og MiniMax-M3, der begge ligger på 44. Det er ægte, og det er uafhængigt målt. Men en høj score på et samlet indeks fortæller dig ikke, om du kan køre modellen, eller om benchmarktallene holder i virkeligheden. Det graver vi ned i nu.

 

Kan jeg køre GLM-5.2 på min egen computer?

Kun hvis du har mindst 245 GB samlet hukommelse. En 2-bit udgave kræver omkring 256 GB unified memory (Mac Studio Ultra) eller en workstation med 256 GB RAM. En typisk laptop eller en 64 GB Mac kan slet ikke loade modellen.

Er GLM-5.2 bedre end Claude Opus 4.8?

Ikke på rå kode. På SWE-bench Pro scorer GLM-5.2 62,1 mod 69,2 for Opus 4.8. Den er stærkest som den bedste åbne model og matcher de lukkede på enkelte benchmarks, men der er stadig et målbart gab på de tungeste kodeopgaver.

Er det sikkert at bruge for danske virksomheder?

Det afhænger af, hvordan du bruger den. Kører du via Z.ai's cloud-API, er data underlagt kinesisk lovgivning. Henter du de åbne vægte og hoster selv, har du fuld kontrol over data, men det kræver det hardware, vi gennemgår i artiklen.

 

 

Arkitekturen: 744 milliarder parametre, og hvorfor det tal er hele pointen

GLM-5.2 er en Mixture-of-Experts-model, forkortet MoE. Den har cirka 744 milliarder parametre i alt, men kun omkring 40 milliarder af dem er aktive, når modellen behandler et enkelt token. Det lyder, som om du kun skal bruge hardware til de 40 milliarder. Det gør du ikke, og det er den vigtigste misforståelse i hele den her historie.

Forklaringen er simpel, når man først får den. I en MoE-model kan du ikke forudsige, hvilke eksperter det næste token aktiverer. Derfor skal alle 744 milliarder parametre ligge klar i hukommelsen samtidig, selvom kun en brøkdel regner med per token. Hukommelsesbehovet følger det samlede antal parametre, ikke det aktive. En MoE sparer dig for regnekraft, ikke for hukommelse. Som stor sprogmodel (LLM) er GLM-5.2 altså langt tungere at hoste, end det aktive tal antyder.

20260617-012836

Konteksten er til gengæld blevet markant større. Hvor GLM-5.1 håndterede 200.000 tokens, kører GLM-5.2 med op til 1 million tokens i kontekstvinduet. Det er nok til et helt kodebase-monorepo eller flere lange dokumenter ad gangen. Z.ai bruger en ny teknik, de kalder IndexShare, til at holde omkostningen ved så lang kontekst nede. Til gengæld er det netop den lange kontekst, der bliver det dyre led i hardware-regnestykket, fordi KV-cachen vokser lineært med antallet af tokens.

Fordi modellen er åbne under MIT, kan du finjustere modellen til dit eget domæne med fine-tuning og hoste den, hvor du vil. Du ejer deploymentet og kan flytte det mellem cloud og egne servere. Det er en reel forskel fra en lukket API, du lejer dig ind på. Forskellen koster bare i hardware, og det kommer vi til.

 

Benchmarks: hvad der er ægte, og hvad der er pyntet

Lad os tage det ægte først, for der er meget af det. På videnskabelig ræsonnering er GLM-5.2 rykket markant:
Humanity's Last Exam steg 12 point til 40 procent, SciCode 7 point til 50 procent, og CritPt hele 16 point til 21 procent.

På GDPval-AA v2 rammer den 1524, stort set på niveau med GPT-5.5 på 1514. På AIME 2026-matematik ligger den helt oppe på 99,2.
Det er ikke pynt. Det er en model, der kan noget tungt.

Så til det, der kræver en advarsel. Overskriften "GLM-5.2 slår Opus 4.8 på kode" optræder mange steder, og den er sand på en bestemt måde og misvisende på en anden. På SWE-bench Pro, en af de hårdeste kodebenchmarks, scorer GLM-5.2 62,1 mod 69,2 for Claude Opus 4.8. Der er den altså 7 point bagud. Det er et reelt og målbart gab på den slags opgaver, hvor du beder modellen løse rigtige softwarefejl.

20260617-012551

Hvor "slår Opus" kommer fra, er Terminal-Bench 2.1. Her ligger GLM-5.2 på 81,0 i en standardiseret kørsel og på 82,7 i Z.ai's egen "best reported harness"-kørsel. Og her skal du holde tungen lige i munden. En harness er det stillads af værktøjer og prompts, modellen får stillet til rådighed. Når en producent rapporterer sit bedste resultat med sit eget optimerede stillads, sammenligner du ikke længere æbler med æbler. Samme model kan score forskelligt alt efter opsætning. Kald det ikke snyd, men kald det heller ikke en ren sammenligning.

Den sidste påstand, der trænger til nuancering, er "samme ydelse til en sjettedel af prisen". Prisen per token er rigtig lav, omkring 4,4 dollar per million output-tokens. Men GLM-5.2 er en token-grådig model. Artificial Analysis måler cirka 43.000 output-tokens per opgave, hvoraf 37.000 går til ren ræsonnering. Billig per token plus mange tokens per opgave giver ikke automatisk en sjettedel i samlet pris. Det afhænger fuldstændig af din opgavetype. Det er et aha værd, at den er billig per token, og et forbehold værd, at det samlede regnestykke ikke er så simpelt som overskriften.

 

Kan du køre den lokalt? Den ærlige hardware-snak

Her er, hvor de fleste artikler bliver vage, så lad os være konkrete. modellen fylder cirka 744 GB i FP8-præcision. For at holde dem i hukommelsen skal du bruge 8 styk Nvidia H200-grafikkort, der tilsammen giver 1.128 GB. Vil du køre fuld BF16-præcision, fordobles det til cirka 1.488 GB, og så er du oppe på omkring 16 GPU'er. Det er datacenter-territorium, ikke kontor-territorium.

Du kan skære behovet ned med kvantisering. I INT4 fylder modellen cirka 372 GB og kan køre på 4 H200 eller en enkelt node med 8 H100. Og her er en påstand, der ikke holder: hvis du ser nogen hævde, at 8 H100 kan køre FP8-udgaven, passer det ikke. 8 H100 giver 640 GB, og det er mindre end de 744 GB, modellen fylder. 8 H100 rækker til INT4 eller en 6-bit GGUF, ikke til FP8. Oven i modellen skal du lægge 80 til 160 GB til KV-cache, hvis du vil bruge hele kontekstvinduet på 1 million tokens.

Hvad så med Mac og lokal kørsel uden et serverrum? Det kan lade sig gøre via llama.cpp, der bruger den samlede unified memory i stedet for dedikeret VRAM. Den mest aggressive vej er en 2-bit dynamisk GGUF fra Unsloth, der lander på omkring 245 GB samlet hukommelse og holder cirka 82 procent af modellens nøjagtighed. Den praktiske minimumsmaskine er en Mac Studio med 256 GB unified memory, altså M3 Ultra eller M4 Ultra, eller en workstation med 256 GB RAM. Under 245 GB samlet hukommelse loader modellen slet ikke. Og selv på en 256 GB Mac skal du forvente lav hastighed, i størrelsesordenen 2 til 5 tokens i sekundet for den her modelklasse.

Så til det personlige. Din Mac Studio med M4 Max og 64 GB? Den kører ikke GLM-5.2. Ikke i 2-bit, ikke med offloading, ikke på nogen måde. Du mangler cirka 180 GB hukommelse, og det er ikke et tal, du finjusterer dig ud af. Vil du have en virkelig god model, der faktisk kører på din maskine, er Qwen 3.6 stadig det rigtige valg i 32 til 64 GB-klassen, eller en mindre GLM-variant som GLM-4.7. Pointen, der bør stå med store bogstaver: åbne vægte betyder ikke lokal kørsel. GLM-5.2 er åben i licens og datacenter i praksis. For de fleste er det enten API'en eller en lejet GPU-klynge.

 

Lokal vs cloud: Kina-problemet

Du kan bruge GLM-5.2 på to måder, og de har vidt forskellige konsekvenser for data. Den nemme vej er Z.ai's cloud-API, der er billig og kører fra dag ét. Den anden vej er at hente de åbne vægte og hoste modellen selv. Forskellen ligger ikke i kvaliteten. Den ligger i, hvor dine data ender, og hvilken lovgivning der gælder.

Bruger du cloud-API'en, er data underlagt kinesisk lovgivning, herunder Kinas National Intelligence Law, der forpligter kinesiske virksomheder til at bistå statens efterretningstjenester. Z.ai, dengang Zhipu, kom på USA's Entity List i januar 2025, hvor det amerikanske handelsministerium pegede på selskabets rolle i kinesisk militær modernisering. I maj 2026 åbnede amerikanske kongresmedlemmer en formel undersøgelse af sikkerhedsrisici ved kinesiske AI-modeller i kritisk infrastruktur, og her var Zhipu nævnt sammen med DeepSeek, MiniMax og ByteDance. Det her er ikke Kina-skræk. Det er konkrete fakta, du bør kende, før du router kundedata gennem en kinesisk cloud.

Og her bliver det interessant, for de åbne vægte er faktisk svaret på problemet. Henter du modellen og kører den på egen infrastruktur, forlader dine data aldrig dit eget setup. Det er ægte data-suverænitet, og for en dansk B2B-virksomhed med GDPR og følsomme kundedata er det en reel fordel. Pointen er bare, at den rene vej er præcis den dyre vej. Vil du være fri af Kina-spørgsmålet, skal du hoste selv, og så er vi tilbage ved de 245 GB hukommelse.

Der er en pæn ironi i timingen. Z.ai frigav GLM-5.2 samme dag, som Trump-administrationen blokerede Anthropics nyeste modeller, Fable 5 og Mythos 5, for udlændinge. Mens USA strammer adgangen til sine bedste modeller, svarer Kina med en gratis download uden begrænsninger. Zhipus aktie steg 33 procent. Uanset hvad man mener om det, er det et strategisk træk værd at lægge mærke til.

 

Hvad det her betyder for dig

Hvis du er udvikler med et reelt GPU-budget eller et compliance-krav, der tvinger dig til at hoste selv, er GLM-5.2 den første åbne model, der for alvor er klyngen værd. Du kan auditere den, finjustere den til dit domæne og køre den helt isoleret. Det er en anden type aktiv end en API, du lejer.

Hvis du bare vil have en stærk model til kodeopgaver, ikke har et compliance-krav og ligger under cirka 100 forespørgsler om dagen, så lad være med at købe en server. Brug en hostet plan, din egen eller en vestlig, og spar dig selv for et kvartals ingeniørarbejde. Og sidder du på en Mac og drømmer om frontier-kode lokalt, så kør Qwen 3.6 eller en mindre GLM indtil videre, og hold øje med, at kvantiseringerne bliver mindre måned for måned.

Den egentlige nyhed er ikke kontekstvinduet eller benchmarktallet. Det er, at frontier-klasse, MIT-licenseret og til at downloade nu findes på én og samme tid. Det ændrer, hvad der er muligt for data-suveræn AI, selvom hardware-barren er brutal i dag.

Hos Consile bygger vi MCP-integrationer og lokale AI-setups, og hvis du står med valget mellem selv-hosting og API til følsomme data, er det præcis den slags afvejning, vi hjælper med at kortlægge. 

Fortsæt læsningen