Den kinesiske AI-model GLM-5.1 fra Z.AI har taget førstepladsen på SWE-Bench Pro og placerer sig som nr. 3 på Code Arena. Her er en teknisk gennemgang af arkitektur, benchmarks og hvad det betyder for virksomheder, der bygger med AI-agenter.
Det kinesiske AI-lab Z.AI (tidligere Zhipu AI) lancerede den 7. april 2026 deres nye flagskibsmodel GLM-5.1. Modellen scorer 58,4 på SWE-Bench Pro, hvilket gør den til den højest rangerede model på et af verdens mest anerkendte kodningsbenchmarks. Den overgår dermed GPT-5.4 (57,7), Claude Opus 4.6 (57,3) og Gemini 3.1 Pro (54,2). Det er første gang en open source-model tager førstepladsen på SWE-Bench Pro.
Hvad gør GLM-5.1 anderledes?
GLM-5.1 er ikke bare en trinvis forbedring af forgængeren GLM-5. Modellen er bygget til en fundamentalt anden opgavetype: langvarig autonom kodning. Hvor tidligere modeller (inklusive GLM-5) typisk plateauer hurtigt efter et par dusin tool-kald, fortsætter GLM-5.1 med at levere forbedringer over hundredvis af iterationer og tusindvis af tool-kald.
Z.AI beskriver det som skiftet fra "vibe coding" til "agentic engineering". Tidligere LLM'er anvender deres kendte strategier hurtigt, opnår en baseline og stagnerer derefter. GLM-5.1 bryder det mønster ved at nedbryde komplekse problemer i delproblemer, køre eksperimenter, analysere resultater og justere sin strategi løbende. Jo længere modellen kører, jo bedre bliver resultatet.
.png?width=5820&height=3438&name=unnamed%20(4).png)
Modellen kan ifølge Z.AI arbejde autonomt i op til 8 timer på en enkelt opgave. I en demonstration byggede den et komplet Linux desktop-miljø fra bunden, med filbrowser, terminal, teksteditor, systemmonitor og funktionelle spil. I en anden demonstration forbedrede den en CUDA-kernel fra 2,6x til 35,7x speedup gennem vedvarende autonom optimering.
Følg med i AI-modellernes kapløb
Nye modeller lander hver uge. Få overblikket leveret direkte i din indbakke, så du altid ved hvad der rykker.
Kan GLM-5.1 køre lokalt på en Mac eller gaming-PC?
Nej, ikke i fuld størrelse. Modellen fylder ca. 1,5 TB og kræver enterprise-grade GPU-infrastruktur (8x Nvidia H200 eller tilsvarende). Unsloth tilbyder kvantiserede 2-bit versioner ned til ca. 220 GB, som kan køre på en 256 GB unified memory Mac, men med reduceret kvalitet.
Hvordan adskiller GLM-5.1 sig fra Claude Opus 4.6?
GLM-5.1 slår Claude Opus 4.6 på SWE-Bench Pro (58,4 vs. 57,3), men Claude leder stadig på den samlede kodningscomposite, reasoning og flere agentic benchmarks. GLM-5.1 er bedst til langvarige, iterative kodningsopgaver, mens Claude er stærkere ved præcisionsopgaver i første forsøg.
Er GLM-5.1 gratis at bruge?
Vægtene er open source under MIT-licens og kan downloades fra Hugging Face. API-adgang koster $0,95 per million input-tokens via Z.AI's BigModel API. DeepInfra tilbyder det til $1,40/$4,40 per million tokens. Z.AI har også et Coding Plan fra $27 per kvartal til brug med kodningsagenter.
Arkitektur og træning
GLM-5.1 bygger på en Mixture of Experts-arkitektur (MoE) med 754 milliarder parametre i alt, hvoraf ca. 40 milliarder aktiveres per token. Det er en væsentlig opskalering fra GLM-4.5, der havde 355 milliarder parametre med 32 milliarder aktive. Arkitekturen hedder glm_moe_dsa og kombinerer MoE-routing med Deep Learning-teknikker til effektiv inferens.
Modellen integrerer DeepSeek Sparse Attention (DSA), som reducerer både trænings- og inferensomkostninger markant, samtidig med at den bevarer stabiliteten i et kontekstvindue på 200.000 tokens og op til 128.000 tokens output. DSA undgår den kvadratiske memory-eksplosion, som standard attention-mekanismer har ved lange kontekster.
Træningspipelinen omfatter tre faser: pre-training på 28,5 billioner tokens (med prioritet på kode og reasoning), en midttræningsfase, der progressivt udvider kontekstlængden fra 4.000 til 200.000 tokens, og en post-training-fase med sekventiel reinforcement learning (Reasoning RL, derefter Agentic RL, og til sidst General RL). Z.AI har udviklet en asynkron RL-infrastruktur kaldet "slime", der dekobler generering fra træning og dermed forbedrer effektiviteten markant.
Et bemærkelsesværdigt aspekt: GLM-5.1 er trænet udelukkende på Huawei Ascend 910B-chips med Huaweis MindSpore-framework. Ingen Nvidia- eller AMD-hardware er involveret. Z.AI har været på den amerikanske Entity List siden januar 2025, og denne model demonstrerer, at kinesiske labs kan producere frontier-modeller på indenlandsk hardware.
Benchmark-resultater i detaljer
GLM-5.1's benchmarks tegner et billede af en foundation model, der er stærkest på kodning og agentic opgaver, men med nuancer. På kodningssiden scorer modellen 58,4 på SWE-Bench Pro (ny SOTA), 42,7 på NL2Repo (generering af hele repositories fra naturligt sprog), 63,5 på Terminal-Bench 2.0 (stigende til 66,5 med Claude Code harness), og 68,7 på CyberGym (cybersikkerhedsopgaver), et spring på hele 20,4 point fra GLM-5.
På reasoning scorer GLM-5.1 95,3 på AIME 2026, 86,2 på GPQA-Diamond (dog 8+ point bag Claude Opus 4.6 her), og 31,0 på Humanity's Last Exam. På agentic benchmarks scorer den 71,8 på MCP-Atlas (tool-brug via Model Context Protocol), 70,6 på τ³-Bench, 68,0 på BrowseComp (79,3 med context management, men Claude Opus 4.6 leder med 85,9), og $5.634 på Vending Bench 2 (autonom indtjening over et simuleret år, mod Claudes $8.018).
På Code Arena, et human-preference leaderboard for agentic webdev, placerer GLM-5.1 sig som nr. 3 med 1.530 point, kun bag Claude Opus 4.6-thinking (1.548) og Claude Opus 4.6 (1.542). Det er den første open source-model, der bryder ind i top 3, og den overgår både GPT-5.4-high (1.457) og Gemini 3.1 Pro Preview (1.456).
Det er dog vigtigt at nuancere: på den samlede kodningscomposite (SWE-Bench Pro + Terminal-Bench + NL2Repo) leder Claude Opus 4.6 stadig med 57,5 mod GLM-5.1's 54,9. Uafhængige evalueringer anslår GLM-5.1 til ca. 94,6% af Claude Opus 4.6's samlede kodningskapacitet. Modellen er stærkest på undersøgelsestunge opgaver, hvor den kan iterere og selvkorrigere over tid, mens Claude forbliver mere pålidelig ved præcisionsopgaver, der kræver korrekt svar i første forsøg.
Adgang og priser
GLM-5.1 er udgivet under MIT-licens med vægte på Hugging Face. Den fylder ca. 1,5 TB og kræver enterprise-grade infrastruktur (8x Nvidia H200 eller tilsvarende) til lokal inference.
Det er ikke en model til consumer-hardware.
.png?width=2398&height=834&name=unnamed%20(3).png)
Via Z.AI's BigModel API koster modellen $0,95 per million input-tokens og $3,15 per million output-tokens. På DeepInfra koster den $1,40/$4,40 per million tokens. Det er dyrere end gennemsnittet for open source-modeller, men stadig markant billigere end lukkede frontier-modeller.
Modellen er tilgængelig på Ollama som cloud-variant (glm-5.1:cloud), men lokal GGUF-understøttelse kræver stadig en patch. Unsloth tilbyder kvantiserede GGUF-versioner ned til 2-bit (ca. 220 GB), som kan køre på en 256 GB unified memory Mac. Z.AI tilbyder også et GLM Coding Plan, der integrerer med Claude Code, Cline, Kilo Code og andre kodningsagenter, med priser fra $27 per kvartal.
Hvad betyder det for danske virksomheder?
GLM-5.1 signalerer et bredere skifte i AI-landskabet. Open source-modeller er ikke længere permanent et trin bagud. I 2023 var afstanden ca. to år. I 2025 var den seks måneder. Nu er den nede på et enkelt benchmark-point.
For danske B2B-virksomheder, der evaluerer agentic AI til softwareudvikling, er GLM-5.1 relevant som det stærkeste open source-alternativ til lukkede frontier-modeller. Modellen excellerer på langvarige, iterative kodningsopgaver, hvor den kan arbejde autonomt i timevis. Den er mindre egnet til opgaver, der kræver præcision i første forsøg eller dyb reasoning uden for kodningsdomænet.
Hvis din virksomhed bygger agentic workflows med Model Context Protocol (MCP), er GLM-5.1's score på MCP-Atlas (71,8) værd at bemærke. Det viser solid tool-brug i multi-step opgaver. Modellen understøtter thinking mode, streaming, function calling, context caching og struktureret output. Konklusionen er nuanceret: GLM-5.1 er en milepæl for open source AI, og den bedste open source-model til kodningsagenter lige nu. Men Claude Opus 4.6 leder stadig på den samlede kodningscomposite, reasoning og flere agentic benchmarks. For de fleste produktionsworkflows er anbefalingen at bruge GLM-5.1 til daglige kodningsopgaver til lavere pris og reservere frontier-modeller til opgaver, der kræver maksimal kapacitet.
Kan du heller ikke følge med nyhedsstrømmen?
Det kan vi godt forstå, for hver uge bringer +20 nyheder! Du kan gøre som 1200+ andre profesionelle og modtage nyhederne direkte i din indbakke.
Blot udfyld formularen og du er med på holdet