Local-LLM Roundup 17. Mai 2026: Ollama-Architekturwechsel, MTP in llama.cpp, drei Sicherheitslücken

Stand: 17. Mai 2026 – alle Angaben auf Basis öffentlicher GitHub-Releases, Sicherheitsadvisories und Dokumentation.

🚀 Releases

Ollama

v0.23.4 (13. Mai 2026, aktuelles Stable-Release) – ollama launch opencode unterstützt nun Vision-Modelle mit Bildeingaben; Formatierungsfehler bei Claude-Tool-Ergebnissen mit lokalen Bildpfaden behoben.

v0.23.3 (12. Mai) – MLX-Korrekturen, macOS-26-Targetleck im v3-Metallib gefixt, stabilere Status-Timeouts beim Inference.

v0.23.2 (7. Mai) – /api/show-Antworten werden jetzt gecacht; das senkt die Median-Latenz für Integrationen wie VS Code um ~6,7×. Claude Desktop wurde wieder aus ollama launch entfernt (Drittanbieter-Integration war auf Anthropic-Modelle beschränkt).

v0.23.1 (5. Mai) – Gemma-4-MTP-Speculative-Decoding für den Apple-Silicon-MLX-Runner: beim 31B-Coding-Modell laut Ollama über 2× schnellere Generierung (ollama run gemma4:31b-coding-mtp-bf16).

v0.23.0 (3. Mai) – Claude Desktop via ollama launch claude-desktop, Featured-Model-Empfehlungen server-seitig konfigurierbar.

⚠️ Pre-release v0.24.0-rc0 (14. Mai) – Codex-App-Integration mit eingebautem Browser; noch kein stabiler Release.

⚠️ Pre-release v0.30.0-rc15 (13. Mai) – Architekturwechsel: Ollama wird von GGML entkoppelt und spricht llama.cpp direkt an; GGUF-Kompatibilität bleibt erhalten, Apple Silicon weiterhin über MLX beschleunigt. Feedback zu Performance und Abstürzen wird erbeten.

llama.cpp

Build b9189 (16. Mai 2026, neuester Build) – Unter anderem ggml-Sync und laufende WebUI→UI-Umbenennung. Die interne Bezeichnung --webui wurde zu --ui umbenannt; alle alten Flags bleiben als Deprecation-Aliases erhalten. Betroffen: --webui → --ui, --webui-config → --ui-config, Umgebungsvariablen LLAMA_ARG_UI usw. CI-Workflows, Artefaktnamen und das CODEOWNERS-File wurden angepasst.

Build b9186 (16. Mai) – ggml-Sync.

llama-cpp-python – Version vom 11. Mai 2026 auf PyPI verfügbar.

Open WebUI

v0.9.5 (10. Mai 2026) – Neuer vollständiger Kalender-Workspace mit wiederkehrenden Ereignissen, Browser-Benachrichtigungen und Webhook-Alerts. Der Ollama-Proxy unterstützt nun die Responses-API (/v1/responses). Datenbankmigrierung von asyncpg auf psycopg v3. Brotli-Abhängigkeit aktualisiert (CVE-2025-6176). Asynchroner Tensor-API-Wechsel in wllama spart ~20–25 % Speicher.

Desktop v0.0.20 (6. Mai) – Linux-Blank-Screen-Problem durch SwiftShader-Software-Rendering behoben; Spotlight-Fensterfokus-Fix für macOS.

🔴 Sicherheit

CVE-2026-7482 „Bleeding Llama“ – KRITISCH (CVSS 9.1) – alle Plattformen – behoben in 0.17.1

Ein Heap-Out-of-Bounds-Read im GGUF-Model-Loader erlaubt unauthentifizierten Angreifern, den gesamten Prozessspeicher von Ollama-Instanzen mit drei API-Aufrufen zu extrahieren – lautlos, ohne Log-Einträge. Im Speicher können API-Keys, Systemprompts, Konversationsverläufe und Umgebungsvariablen aller laufenden Sessions stecken. Entdeckt von Cyera-Forscher Dor Attias (gemeldet 2. Feb. 2026), Patch in Ollama 0.17.1 (25. Feb. 2026) – die Releasenotes enthielten keinen Sicherheitshinweis, weshalb das CVE erst Mitte April 2026 vergeben wurde.

Betroffene Version: Ollama < 0.17.1, alle Plattformen. Aktuell (0.23.x): nicht betroffen. Wer 0.17.1 oder neuer läuft, muss hier nicht handeln. Wer alte Versionen öffentlich exponiert hatte: sofort alle API-Keys, Tokens und Credentials rotieren.

CVE-2026-42248 & CVE-2026-42249 – HOCH (CVSS je 7.7) – Windows only – noch kein offizieller Release-Patch

Zwei von Striga Research entdeckte Lücken im Windows-Auto-Updater von Ollama, veröffentlicht 28./29. April 2026 nach erfolgloser Responsible-Disclosure (CERT Polska übernahm Koordination):

CVE-2026-42248: Die Signaturprüfung des Windows-Updaters gibt bedingungslos „OK“ zurück – jede heruntergeladene Datei wird ohne Authentizitätsprüfung ausgeführt.
CVE-2026-42249: Pfad-Traversal im Updater: HTTP-Response-Header werden ohne Bereinigung in Dateipfade umgewandelt. In Kombination mit CVE-2026-42248 kann ein Angreifer im gleichen Netzwerksegment eine beliebige EXE in den Windows-Autostart-Ordner schreiben – persistente Code-Ausführung bei jedem Login, ohne Benutzerinteraktion.

Betroffene Versionen: Ollama für Windows 0.12.10 bis 0.17.5 (von CERT Polska getestet und bestätigt). Laut Mondoo (Stand 11. Mai 2026) wurde der Fix in den main-Branch gemergt, ist aber in keinem offiziellen Tag enthalten – v0.23.4 enthält keinen expliziten Sicherheitshinweis dazu. Linux und macOS sind nicht betroffen (Windows-spezifische Codepfade).

⚡ Sofortmaßnahme für Windows-Nutzer: Auto-Update in den Ollama-Einstellungen deaktivieren. Bestehende Ollama-Verknüpfungen aus dem Autostart-Ordner (%APPDATA%\Microsoft\Windows\Start Menu\Programs\Startup) entfernen, bis ein offizieller Patch-Release erscheint.

🆕 Open-Weight-Modelle

Qwen3.6-Familie (Alibaba, April 2026)

Qwen3.6-27B (dense, Vision + Thinking + Tool-Calling) und Qwen3.6-35B-A3B (MoE, 3,5B aktive Parameter von 35B) fokussieren auf agentic Coding und Frontend-Workflows. Neu: „Thinking Preservation“ speichert Reasoning-Kontext über mehrere Turns hinweg. GGUF-Quants (Unsloth Dynamic 2.0, von Q2_K bis Q4_K_XL) auf Hugging Face verfügbar. Wichtiger Hinweis: Qwen3.5- und Qwen3.6-GGUFs funktionieren laut Unsloth aktuell nicht in Ollama (separate mmproj-Dateien für Vision); llama.cpp-kompatible Backends wie llama-server oder LM Studio nutzen.

Qwen3-Coder (Alibaba)

Zwei Varianten: Qwen3-Coder-30B-A3B (3B aktiv, MoE) und das Flaggschiff Qwen3-Coder-480B-A35B (35B aktiv), das laut Alibaba 61,8 % auf Aider Polyglot erreicht und damit Claude Sonnet 4 und GPT-4.1 übertrifft. Unsloth hat Tool-Calling-Bugs für llama.cpp, Ollama und LM Studio gefixt und kommuniziert die Fixes an das Qwen-Team. GGUFs und 1M-Context-Varianten via YaRN auf Hugging Face.

Kimi K2.6 (Moonshot AI, April 2026)

32B aktive Parameter aus ~200B total (MoE), Agent-Swarm-Architektur. Laut LiveBench-Snapshot vom 12. Mai 2026 stärkste Open-Source-Option in Coding- und Agentic-Coding-Benchmarks (78,57 Coding Avg / 58,33 Agentic Avg). GGUF-Quants auf Hugging Face vorhanden; in Ollama über Cloud-Integration verfügbar.

GLM-5.1 (Z.AI / Tsinghua, April 2026)

744B-Parameter-MoE mit 40B aktiven Parametern, MIT-Lizenz, 200K Kontextfenster, fokussiert auf Long-Horizon-Agentic-Tasks (bis 8 h Ausführungszeit laut Doku). Für lokale Nutzung über vLLM / SGLang dokumentiert; GGUF-Quants im Entstehen.

🔀 Ökosystem

Open WebUI Desktop

Native ARM64-Builds für Linux (.deb, AppImage) und Windows (NSIS), womit NVIDIA DGX Spark, Snapdragon-Laptops und Raspberry Pi nun offiziell unterstützt werden.

llama-swap

In Praxisberichten (u. a. AkitaOnRails-Blog) wird llama-swap (Go-Wrapper um llama-server) als Alternative zu Ollama für Multi-Modell-Setups erwähnt, die modell-spezifische Flags benötigen (z. B. --reasoning-format none für GLM/Qwen <think>-Tags). Vorteil: stabiles Lifecycle-Management. Nachteil: jedes Modell muss separat konfiguriert werden.

Ollama v0.30.0 – Architektur-Preview

Die Pre-Release-Serie „v0.30.0″ ist architektonisch interessant: Ollama entfernt die eigene GGML-Schicht und spricht llama.cpp direkt an. Parallel dazu bleibt llama.cpp ein schlanker, UI-loser HTTP-Server mit OpenAI-kompatiblem API; externe Frontends wie Open WebUI bleiben die empfohlene Oberfläche für llama.cpp-Setups.

🧠 Performance / Engineering

MTP (Multi-Token Prediction) in llama.cpp – ab Build ~b9189 gemergt

Multi-Token Prediction integriert die Spekulativ-Decoding-Köpfe direkt in das Zielmodell – kein separates Draft-Modell nötig. In Benchmarks mit Qwen3.6 27B auf einer RTX 3090 stieg der Durchsatz von 38 tok/s auf 65 tok/s (1,71×). Unsloth berichtet für Qwen3.6 35B-A3B sogar 220 tok/s und für 27B 140 tok/s.

Kompatible Modelle (brauchen trainierte MTP-Heads): Qwen3.5, Qwen3.6, DeepSeek V3/R1, Gemma 4. Llama 3, Mistral und ältere Modelle profitieren nicht.

⚠️ Breaking Change: Flag am 13. Mai umbenannt: --spec-type mtp → --spec-type draft-mtp. Alte Skripte müssen angepasst werden.

Bekannter Bug: Vision-Eingaben + MTP-Speculative-Decoding crashen llama.cpp auf allen Plattformen (PR #22673). Für Vision --spec-type draft-mtp weglassen.

Ollama v0.23.1 liefert Gemma-4-MTP für den Apple-Silicon-MLX-Runner bereits aus dem Kasten; für llama.cpp-Nutzer ist manuelles Build-from-Source (oder ein aktueller nightly build) derzeit noch nötig.

ZenDNN-Backend (llama.cpp)

Ein adaptiver Fallback-Mechanismus stellt sicher, dass das ZenDNN-Backend nie schlechter als der native CPU-Pfad ist; zudem wurde auf ZenDNN-2026-WW17 aktualisiert.

🆚 Ollama vs. llama.cpp – Unterschied der Woche

MTP-Zugang: Ollama 0.23.1 liefert Gemma-4-MTP für Apple Silicon (MLX) bereits ab Werk – kein Build-from-Source erforderlich. llama.cpp hat MTP allgemein verfügbar (Build ≥ b9189, alle Plattformen inkl. CUDA), aber Nutzer müssen selbst bauen oder auf aktuelle Nightly-Downloads zurückgreifen; Homebrew und stabile Releases hinken noch hinterher. Wer Qwen3.6 + MTP auf einer NVIDIA-GPU nutzen will, ist mit llama.cpp deutlich früher am Ziel.