Ollama har netop annonceret en markant hastighedsforøgelse for lokal AI på Apple Silicon, drevet af Apples eget MLX-framework. Resultatet er op til 1.851 tokens pr. sekund i prefill og 134 tokens pr. sekund i generering, nok til at køre en komplet coding-agent lokalt på din Mac.
For danske virksomheder, der vil bruge AI-agenter uden at sende data til skyen, er det en game changer. I denne artikel gennemgår vi, hvad opdateringen indeholder, hvorfor NVFP4-kvantisering er vigtig, og hvad det betyder for jer, der overvejer lokal AI som alternativ til cloud-baserede løsninger.
Ollama er et open source værktøj, der gør det enkelt at køre store sprogmodeller (LLM'er) lokalt på din egen maskine. Indtil nu har Ollama brugt sin egen implementering til at udnytte hardware, men med den nye opdatering bygger det direkte oven på Apples MLX-framework, som er designet specifikt til Apples unified memory-arkitektur.
Unified memory betyder, at CPU og GPU deler den samme hukommelse uden at data skal kopieres frem og tilbage. For AI-modeller, der konstant flytter store datamængder, er det en enorm fordel. MLX er optimeret til netop dette, og på Apples nyeste M5-chips udnytter Ollama desuden de nye GPU Neural Accelerators til at accelerere både time-to-first-token og genereringshastighed.
I praksis betyder det, at du nu kan køre modeller som Alibabas Qwen3.5-35B lokalt med en hastighed, der føles som en cloud-tjeneste. Det er edge AI i sin mest tilgængelige form: ingen API-kald, ingen latenstid over netværket, og ingen data der forlader din maskine.
Ollama nævner specifikt, at opdateringen er optimeret til coding-agenter som Claude Code, OpenCode og Codex. Det signalerer, at lokal AI ikke længere bare handler om at chatte med en model, men om at køre komplekse, agentiske workflows direkte på din hardware.
En af de mest interessante dele af opdateringen er understøttelsen af NVIDIAs NVFP4-kvantiseringsformat. Kvantisering handler om at reducere præcisionen af en models vægte for at bruge mindre hukommelse og køre hurtigere, uden at miste for meget kvalitet. NVFP4 er NVIDIAs bud på den optimale balance mellem størrelse og nøjagtighed.
Det afgørende for virksomheder er, at NVFP4 er det samme format, som store inference-udbydere bruger i produktion. Når du kører en model lokalt med NVFP4, får du de samme resultater, som du ville få via en cloud-API. Det eliminerer den klassiske bekymring om, at lokale modeller giver dårligere output end hosted versioner.
Ollama åbner desuden op for at køre modeller, der er optimeret med NVIDIAs Model Optimizer, hvilket giver adgang til et voksende bibliotek af produktionsklare modeller. For teams der allerede arbejder med AI-inferens i skyen, betyder det en smidigere overgang til en hybrid strategi, hvor dele af workloaden kører lokalt.
Ollama har også opgraderet sin caching-mekanisme med tre konkrete forbedringer, der er særligt relevante for coding-agenter og andre agentiske anvendelser. For det første genbruger Ollama nu sin cache på tværs af samtaler, hvilket reducerer hukommelsesforbruget markant, når flere sessioner deler det samme system prompt.
For det andet introducerer Ollama intelligente checkpoints, der gemmer snapshots af cachen på strategiske punkter i prompten. Det betyder mindre prompt-processering og hurtigere svar, særligt i langvarige kodningssessioner, hvor konteksten vokser over tid.
For det tredje er eviction-strategien forbedret, så delte præfikser overlever længere, selv når ældre branches droppes. I praksis oplever du færre "kolde starter" og en mere responsiv agent, der husker konteksten fra din igangværende opgave. For dem der bruger værktøjer som Claude Code eller OpenCode med Ollama som backend, gør disse forbedringer en mærkbar forskel i den daglige arbejdsgang.
Den mest oplagte gevinst er datasikkerhed. Når en AI-model kører lokalt på jeres Mac, forlader data aldrig maskinen. Det er relevant for virksomheder, der arbejder med fortrolig kode, kundedata eller juridiske dokumenter, og som ikke ønsker at sende dem til en ekstern API. Med Ollama + MLX er ydeevnen nu god nok til, at lokale modeller kan bruges til reel produktivitet, ikke kun eksperimenter.
Den anden gevinst er økonomi. Lokale modeller har ingen API-omkostninger pr. kald. For teams der bruger AI-agenter intensivt, typisk med hundredvis af kald om dagen, kan den besparelse hurtigt løbe op. Investeringen er en Mac med tilstrækkelig hukommelse, og derfra er marginalomkostningen nul.
Det er værd at bemærke, at Ollama allerede understøtter integration med populære kodningsværktøjer. Du kan starte en Claude Code-session direkte med en lokal Ollama-model, eller bruge OpenClaw som din lokale AI-assistent. Det gør overgangen fra cloud til lokal AI praktisk, ikke bare teoretisk.
For virksomheder med en hybrid AI-strategi peger denne udvikling i en klar retning: den lokale del af stakken bliver hurtigere, billigere og mere kapabel for hver måned. Start med at identificere, hvilke workflows der egner sig til lokal AI, test med Ollama på jeres eksisterende Macs, og byg gradvist op, efterhånden som modellerne forbedres.