Local-LLM News: Ollama 0.30, Nemotron 3 Ultra, Gemma 4 12B & Sicherheitswarnungen (6. Juni 2026)

🚀 Releases

Ollama 0.30 (5. Juni 2026)
Die neueste Version bringt verbesserte Performance und erweiterte GGUF-Modellkompatibilität durch llama.cpp-Integration. Highlights:

  • NVIDIA-Hardware: bis zu 20% schneller (getestet mit Gemma 4 26B, Q4_K_M auf RTX 5090)
  • Vulkan standardmäßig aktiviert — GPU-Beschleunigung jetzt auf AMD und Intel Geräten ohne zusätzliche Vendor-Libraries
  • Erweiterte GGUF-Ökosystem-Unterstützung: LFM, Prism, Unsloth-feinabgestimmte Modelle jetzt direkt nutzbar
  • Neue Modelfile-Syntax zum Laden lokaler GGUF-Dateien: FROM ./my-model.Q4_K_M.gguf
  • Coding-Agent-Integration: ollama launch codex-app, ollama launch hermes, ollama launch openclaw für Tool-Calling-Modelle

Quelle: https://ollama.com/blog/improved-performance-and-model-support-with-gguf

llamafile v0.10.2 & v0.10.1
Mozilla-AI aktualisierte llamafile mit neuer llama.cpp-Submodule-Integration. v0.10.1 enthält:

  • Vulkan-Dylib-Unterstützung für Linux/Mac
  • Windows-Build-Skripte für CUDA, ROCm, Vulkan
  • llama.cpp-Unterstützung für Gemma 4, Bonsai, Qwen 3.6 und neue Agent-Funktionen
  • v0.10.2: Bug-Fix für SIGSEGV bei GPU-Init-Fehler, CPU-Fallback wiederhergestellt

Quelle: https://github.com/mozilla-ai/llamafile/releases

llama.cpp Continuous Builds (6. Juni 2026)
Aktueller Build: b9544 (veröffentlicht 6. Juni). llama.cpp folgt kontinuierlichem Versioning ohne Semver-Releases. Neueste Builds bringen:

  • CUDA 13.3 DLL-Updates (ab Ende Mai)
  • Laufende Vulkan-Backend-Optimierungen (jetzt auf manchen Hardware konkurrenzfähig zu CUDA)
  • Qwen 3.6 Multi-Token-Prediction (MTP) Speculative Decoding ~2x schneller bei einzelnen Streams

Quelle: https://github.com/ggml-org/llama.cpp/releases

🆕 Open-Weight-Modelle

NVIDIA Nemotron 3 Ultra (4. Juni 2026)
NVIDIA veröffentlichte sein Orchestrator-Modell für lange Agent-Workflows:

  • Architektur: ~35B aktive / ~1T Gesamtparameter in Sparse-MoE mit Hybrid Mamba–Transformer-Schichten
  • Kontext: 256K native Multi-Turn-Länge
  • Performance: SWE-Bench Verified 65–70.4%; NVIDIA behauptet Parität mit Claude Opus 4.6
  • Quantisierung: NVFP4 (~5× besserer Durchsatz vs. BF16 auf Blackwell) und MTP für lange Outputs
  • Training: 20T Pretraining-Tokens + 212B neue Open-Data-Tokens, 10M SFT-Samples, 1M RL-Tasks
  • Verfügbarkeit: HuggingFace, NVIDIA NIM, vLLM, SGLang, TRT-LLM; fine-tuning via NeMo Automodel, Megatron Bridge, MOPD (Multi-Teacher On-Policy Distillation)

Lizenz: OpenMDW-1.1 (neuer als klassische permissive OSS-Lizenzen; Legal-Review empfohlen)

Quelle: https://mer.vin/2026/06/ai-engineering-roundup-june-2026-nemotron-gemma-mai-m3-bedrock-codex-and-agent-security/

Google Gemma 4 12B (Juni 2026)
Encoder-free multimodales Modell: Vision & Audio direkt ins Token-Embedding ohne separate Encoder:

  • Größe: 12B Dense; Qualität nähert sich 26B-MoE mit unter halber Speichernutzung
  • Multimodalität: Natives Text + Vision + Audio ohne Encoder-Overhead
  • MTP-Drafters: Verringerte Dekodier-Latenz für interaktive Agenten
  • VRAM: ~16GB für lokale Ausführung auf Consumer-Hardware möglich
  • Verfügbarkeit: HuggingFace, Kaggle, Ollama, LM Studio, vLLM, SGLang, MLX, llama.cpp, Unsloth, Google Cloud Run GPU, GKE
  • Tools: Gemma Skills Repo für strukturierte Agent-Feinabstimmung

Quelle: mer.vin

MiniMax M3 (Juni 2026)
Erstes Open-Weight-Modell mit Frontier-Coding, 1M-Kontext und nativer Multimodalität (Image, Video, Desktop-Kontrolle):

  • Kontext: 1M Tokens mit MSA (MiniMax Sparse Attention) KV-outer-gather-Q-Design
  • Performance: ~1/20 Pro-Token-Compute vs. Vorversion; 9× Prefill- und 15× Decode-Speedup
  • Benchmarks: SWE-Bench Pro 59.0%, Terminal-Bench 2.1 66.0%, MCP Atlas 74.2%
  • Demos: 12-Stunden autonome ICLR-Paper-Reproduktion (18 Commits, 23 Figures); 24-Stunden Hopper FP8 GEMM-Optimierung (7.6% → 71.3% Peak Util)
  • Zugang: API-First via MiniMax Code & Token Plan; Open-Weights auf HuggingFace

Quelle: mer.vin

🔴 Sicherheit

⚠️ CVE-2026-7482: Ollama Out-of-Bounds Read (Heap Memory Leak)
Betroffen: Ollama < 0.17.1 (alle Plattformen)
CVSS: 9.1 (kritisch)
Beschreibung: Das GGUF-Modell-Loader-Endpunkt /api/create akzeptiert manipulierte GGUF-Dateien mit Tensor-Offsets/Größen, die die Dateigrenze überschreiten. Während der Quantisierung in fs/ggml/gguf.go und server/quantization.go (WriteTo()) liest der Server über den allocierten Heap-Buffer. Dies kann API-Keys, Systemprompts, Gesprächsdaten und Umgebungsvariablen offenbaren.
Exploit-Kette: Angreifer sendet manipulierte GGUF-Datei an /api/create → exfiltriert Heap-Daten über /api/push zu externer Registry.
Mitigation: Auf Ollama ≥ 0.17.1 aktualisieren; Netzwerkzugriff auf Ollama einschränken; Authentication-Proxy vor dem REST-API einrichten.
Quelle: https://thehackernews.com/2026/05/ollama-out-of-bounds-read-vulnerability.html

⚠️ CVE-2026-42248 & CVE-2026-42249: Ollama Windows Auto-Updater RCE (Persistence)
Betroffen: Ollama für Windows 0.12.10 – 0.22.0 (Stand 23. Mai 2026)
Plattform: Windows-only
CVSS: 7.7 jeweils
Details:

  • CVE-2026-42248 (Signature Verification Bypass): Windows Auto-Updater führt Download aus, ohne die Binärsignatur zu validieren (macOS-Build prüft korrekt). Ohne Path-Traversal ist RCE nicht persistent.
  • CVE-2026-42249 (Path Traversal): Updater konstruiert lokalen Installer-Pfad direkt aus unsanitisierten HTTP-Response-Headern (ETag). Angreifer kann ../-Sequenzen in ETag einschleusen und beliebige .exe in Windows Startup-Ordner schreiben.
  • Persistence: Kombiniert: Startup-ausführbare Datei wird ohne Mark-of-the-Web-Tag geschrieben, Signature-Check gibt false-positive „OK“ zurück, Cleanup läuft nicht, Payload bleibt über Neustarts bestehen.

Angriffs-Voraussetzungen: Auto-Update aktiviert (Standard), Ollama im Startup-Ordner (Standard), Angreifer kontrolliert Update-Response (DNS/TLS-MITM, lokale Fußstapfen, OLLAMA_UPDATE_URL-Umgebungsvariable).
Status: Openoffene Flaws seit Meldung am 27. Januar 2026; kein Public Statement von Maintainern. CERT Polska übernahm Koordination; Disclosure 90 Tage nach Meldung (29. April 2026) veröffentlicht.
Mitigation: Auto-Update in Einstellungen deaktivieren; Ollama-Shortcut aus %APPDATA%\Microsoft\Windows\Start Menu\Programs\Startup entfernen.
Quelle: https://www.helpnetsecurity.com/2026/05/05/ollama-windows-vulnerabilities-cve-2026-42248-cve-2026-42249/

🔀 Ökosystem & Integrations-Updates

MLX auf M5-Chips: bis 4× schneller (Mai 2026 — Carryover)
Apples M5 GPU Cores haben jetzt dedizierte Neural Accelerators. MLX ist das einzige Framework, das diese ansteuert. Erfordert macOS 26.2+ und MLX 0.30.0+. Ollama 0.24 und LM Studio 0.4.13 nutzen MLX als primären Apple-Silicon-Backend.

Ollama Cloud & Integration-Ökosystem (Juni 2026)
Ollama bündelt nun Nemotron 3 Ultra, Gemma 4, GLM-5.1, Qwen 3.6, Kimi-K2.6 und weitere auf Ollama Cloud. ollama launch-Familie erweitert sich:
ollama launch codex-app – OpenAI Desktop Codex direkt gegen Ollama-Modelle
ollama launch claude-desktop – entfernt in 0.23.2 (Third-Party-Integration auf Anthropic-Modelle limitiert)
ollama launch opencode, ollama launch openclaw, ollama launch hermes – Agent-Integration mit Tool-Calling-Unterstützung

vLLM 0.21.0 (15. Mai 2026 — Carryover)
Stabilisierungsrelease für DeepSeek V4 auf Blackwell; EAGLE 3.1 (kommend in v0.22.0) fixt Attention-Drift-Bug bei Speculative Decoding unter long-context & ungewöhnlichen Chat-Templates. EAGLE 3.1: bis 2× längere Acceptance-Length bei long-context.

LM Studio 0.4.14 (Mai 2026 — Carryover)
MTP Speculative Decoding jetzt stabil (Build 4): 1.5–3× Tokens/s Speedup auf Modellen mit eingebauten MTP-Heads (Gemma 4, Qwen 3.6). Parallel vision predictions für Batch-workloads.

🧠 Performance & Engineering

Ollama vs. llama.cpp: Vulkan-Standard & GGUF-Ökosystem (Juni 2026)
Ollama 0.30 aktiviert Vulkan als Standard-Backend für GPU-Beschleunigung über AMD/Intel hinweg. llama.cpp exponiert Vulkan bereits seit Monaten im Multi-Backend-Setup (-DGGML_CUDA=ON -DGGML_VULKAN=ON). Praktisch: Ollama-Nutzer bekommen jetzt GPU-Zugriff „out-of-the-box“; llama.cpp-Nutzer wählen Backends manuell. Beide unterstützen GGUF-Ökosystem vollständig (Unsloth, Hugging-Face-Community-Quants).

Speculative Decoding-Landschaft
Stand Juni 2026:

  • Ollama: Gemma 4 MTP via MLX (Apple Silicon); kein Cross-Platform-MTP im Mainline
  • llama.cpp: Qwen 3.6 MTP merged (PR #22673); kein Draft-Model-Support yet
  • vLLM: EAGLE 3.1 (kommend); TOKENSPEED_MLA für Blackwell
  • LM Studio: MTP stabil, parallel-vision-predictions

MoE-Caveat: llama.cpp Qwen 3.6 35B-A3B mit MTP zeigt bei Batch=1 keinen Speedup auf Consumer-GPUs (RTX 3090) — Expert-Union-Overhead wipe den Gewinn aus. Nur Dense-Modelle profitieren lokal.

Hardware-Partner & Vendor-Integration (Juni 2026)
Ollama würdigt NVIDIA, AMD, Qualcomm, Intel für Hardware-Optimierungen in llama.cpp-Ökosystem. NVIDIA NIM, vLLM, SGLang, TRT-LLM als primäre Nemotron-3-Ultra-Inference-Optionen. Ollama Cloud & OpenRouter bieten Managed Nemotron.

📊 Mai 2026 Local-LLM-Runtimes Vergleich (Carryover aus Codersera)

Highlight-Releases der letzten 7 Tage:

  • Ollama: 0.30 (5. Juni) — GGUF-Kompatibilität, Vulkan, +20% NVIDIA-Perf
  • llamafile: 0.10.2 (Late Mai/Early Juni) — Vulkan-Dylib, Agent-Features
  • llama.cpp: b9544 (6. Juni) — Laufend; Qwen MTP, Vulkan-Optimierungen
  • Modelle: Nemotron 3 Ultra, Gemma 4 12B, MiniMax M3 (alle Juni 2026)

Auswahl-Guidance für Juni 2026:

  • Agenten & Codex/Claude Code: Ollama 0.30 + ollama launch codex-app oder ollama launch claude-code
  • Apple Silicon (M5): MLX 0.30.0+ direkt, oder Ollama 0.30/LM Studio 0.4.14 darüber
  • Produktions-Inference (Multi-Concurrency): vLLM 0.21.0 für DeepSeek V4 / Kimi K2.6; EAGLE 3.1 kommend in v0.22.0
  • Portabilität & Consumer-Hardware: llama.cpp Builds (b9544) mit Vulkan, CUDA, ROCm; oder llamafile 0.10.2
  • Desktop-GUI: LM Studio 0.4.14 (mlx-engine v1.8.1, MTP stabil, parallel-vision)
  • Long-Context & Multimodal: Nemotron 3 Ultra (256K via API/NIM) oder MiniMax M3 (1M lokal oder API)

⚠️ Sicherheits-Checkliste für Ollama-Nutzer

Falls Sie Ollama ≤ 0.22.0 auf Windows nutzen:

  1. Auto-Update in Einstellungen ausschalten
  2. Ollama-Shortcut aus Startup-Ordner entfernen
  3. Netzwerkzugriff auf Port 11434 einschränken (Firewall)
  4. Falls REST-API exponiert, Authentication-Proxy einbauen
  5. Auf ≥ 0.17.1 aktualisieren (CVE-2026-7482)

Dieser Roundup deckt Nachrichten der Woche 31. Mai – 7. Juni 2026 ab. Alle Links und Versionsnummern basieren auf verifizierte Quellen vom Publikationsdatum.

← Zurück zum AI-News Archiv (07.06.2026)