Du behøver ikke en cloud-tjeneste eller et NVIDIA-grafikkort for at køre en kraftfuld LLM lokalt. Med NVIDIA Nemotron 3 Nano 30B og Ollama kan du have en stærk sprogmodel kørende på din Mac på under 10 minutter.
Nemotron 3 Nano er NVIDIAs nyeste åbne model, bygget med en hybrid Mamba-Transformer MoE-arkitektur, der kun aktiverer ca. 6 milliarder parametre per token, selvom den indeholder 30 milliarder i alt. Det gør den hurtig, effektiv og ideel til lokal kørsel på en Mac med Apple Silicon. I denne guide viser vi dig hele processen fra installation til brug.
Hvad er Nemotron 3 Nano, og hvorfor køre den lokalt?
NVIDIA Nemotron er en familie af åbne modeller med åbne vægte, træningsdata og opskrifter. Nemotron 3 Nano er den mindste variant i den nyeste Nemotron 3-familie og er designet som en samlet model til både reasoning og generelle opgaver. Den bruger en Mixture-of-Experts (MoE) arkitektur, hvilket betyder at selvom modellen har 30 milliarder parametre, aktiverer den kun omkring 6 milliarder per token. Du får altså kvaliteten fra en stor model med hastigheden fra en lille.

At køre en LLM lokalt giver dig fuld kontrol over dine data. Intet forlader din maskine, og du er ikke afhængig af internet eller API-kvoter. For virksomheder, der arbejder med følsomme data eller vil eksperimentere med AI-agenter, er lokal kørsel et oplagt valg. Du kan også bruge modellen som backend til RAG-pipelines, kodeassistenter eller interne chatbots.
Nemotron 3 Nano understøtter op til 1 million tokens kontekst, hvilket er usædvanligt for en model i denne størrelse. Den bruger State Space Models (SSMs), der skalerer lineært i stedet for kvadratisk, hvilket betyder at lange kontekster ikke sænker modellen drastisk. I praksis afhænger din reelle kontekstlængde af, hvor meget RAM din Mac har.
Modellen har desuden en indbygget "thinking mode", hvor den genererer en intern reasoning-trace før det endelige svar. Det giver markant bedre resultater på komplekse opgaver som kodning, matematik og logisk ræsonnement. Du kan slå det til og fra efter behov.
Hvor meget RAM kræver Nemotron 3 Nano 30B?
Modellen kræver ca. 24 GB RAM ved standard kontekstlængde. Apple Silicon Macs med 32 GB unified memory kan køre den fint, men 64 GB anbefales hvis du vil bruge lange kontekster (32K tokens eller mere). 4-bit kvantiserede versioner kan køre med mindre.
Kan jeg bruge Nemotron 3 Nano uden NVIDIA GPU?
Ja. Nemotron 3 Nano er en åben model, der kan køres via Ollama og llama.cpp på enhver platform, inklusiv Apple Silicon Macs. Du behøver ikke et NVIDIA-grafikkort til lokal inferens. Modellen udnytter Macs unified memory og Neural Engine effektivt.
Hvad er forskellen på Nemotron 3 Nano 4B og 30B?
4B-varianten kræver kun ca. 5 GB RAM og er hurtigere, men 30B-varianten leverer markant bedre resultater på reasoning, kodning og matematik. Takket være MoE-arkitekturen aktiverer 30B-modellen kun ca. 6 milliarder parametre per token, så den er hurtigere end man ville forvente for sin størrelse.
Trin for trin: Installer Nemotron 3 Nano 30B med Ollama
Den nemmeste vej til at køre Nemotron 3 Nano lokalt er via Ollama, som er et open source-værktøj der gør det trivielt at downloade og køre LLM'er på din maskine. Ollama håndterer alt det tekniske: modeldownload, kvantisering, hukommelsesstyring og en lokal API-server.
Trin 1: Installer Ollama. Åbn Terminal på din Mac og kør: brew install ollama. Alternativt kan du downloade installeren direkte fra ollama.com/download. Hvis du bruger Homebrew-metoden, starter du bagefter Ollama-serveren med ollama serve. Installerer du via .dmg-filen, kører Ollama automatisk som en menu bar-app.
Trin 2: Download og kør modellen. Kør kommandoen: ollama run nemotron-3-nano:30b. Første gang downloader Ollama modellen (ca. 18 GB), hvilket tager et par minutter afhængigt af din internetforbindelse. Når download er færdig, åbner en interaktiv chat direkte i din Terminal, og du kan begynde at stille spørgsmål med det samme.
Trin 3: Test modellen. Prøv at stille et par spørgsmål for at mærke, hvordan den reagerer. Nemotron 3 Nano har som standard "thinking mode" aktiveret, hvor den viser sin reasoning-process før svaret. Hvis du vil have hurtigere svar uden reasoning, kan du tilføje /no_think i din prompt. For systematisk at slå thinking fra kan du oprette en tilpasset Modelfile.
Konfigurer og optimer til din Mac
Standardkonfigurationen i Ollama bruger typisk en kontekstlængde på 4.096 tokens. På en Mac med 64 GB unified memory kan du skrue det markant op. Opret en fil kaldet Modelfile med følgende indhold: FROM nemotron-3-nano:30b på første linje og PARAMETER num_ctx 32768 på næste. Kør derefter ollama create nemotron-nano-32k -f Modelfile og start den med ollama run nemotron-nano-32k.
Med 64 GB unified memory har du ca. 40 GB tilovers efter modellen er indlæst, hvilket giver plads til kontekster på 32K, 65K eller endda 128K tokens. Jo højere kontekst, jo langsommere bliver token-generering, men for de fleste opgaver er 32K et godt kompromis mellem hastighed og kapacitet.
Ollama eksponerer automatisk en OpenAI-kompatibel API på http://localhost:11434. Det betyder at du kan bruge modellen fra Python, JavaScript, cURL eller ethvert værktøj, der understøtter OpenAI-formatet. Her er et eksempel med Python: installer ollama-pakken via pip, og brug derefter from ollama import chat til at sende beskeder til modellen programmatisk.
Vil du bygge AI-agenter med lokale modeller?
Vi hjælper dig med at vælge den rigtige model, opsætte infrastrukturen og integrere den i dine eksisterende systemer.
Næste skridt: Brug Nemotron i dine projekter
Når du har Nemotron 3 Nano kørende lokalt, åbner der sig en række muligheder. Du kan bruge den som en lokal AI-agent backend, hvor den behandler forespørgsler uden at sende data til eksterne tjenester. Med den OpenAI-kompatible API kan du integrere den i eksisterende workflows, scripts og applikationer med minimal tilpasning.
For mere avancerede brugere understøtter Nemotron 3 Nano også tool calling, hvilket betyder at modellen kan kalde funktioner og API'er som en del af sin reasoning-process. Det gør den velegnet til at bygge agentbaserede systemer, der kan søge i databaser, udføre beregninger eller interagere med andre systemer. Kombineret med et RAG-setup kan du give modellen adgang til dine egne dokumenter og data.
Nemotron 3 Nano er et stærkt alternativ til cloud-baserede LLM'er for teams, der prioriterer privatliv, kontrol og uafhængighed. Med en Mac Studio eller MacBook Pro med tilstrækkelig RAM kan du have en produktionsklar lokal AI-infrastruktur, der kører 24/7 uden løbende API-omkostninger. Det er et konkret første skridt mod at bringe generativ AI ind i din virksomhed på dine egne præmisser.
Vil du udforske, hvilke modeller der passer bedst til dine specifikke use cases, eller har du brug for hjælp til at integrere lokale LLM'er i dine systemer? Tag fat i os, og lad os finde den rigtige løsning sammen.