Local-LLM Roundup 19. Mai 2026: Ollama 0.23.4, MTP in llama.cpp, drei Sicherheitslücken & Qwen3.6 MoE

Tagesüberblick für das lokale LLM-Ökosystem — Stand 19. Mai 2026.

🚀 Releases

Ollama v0.23.4 — 14. Mai 2026

Ollama v0.23.4 ist das aktuell neueste stabile Release. Die zwei Änderungen sind knapp, aber relevant für Coding-Workflows:

  • Vision-Support für ollama launch opencode: OpenCode kann jetzt Bilder als Eingabe verarbeiten, wenn ein Vision-fähiges Modell ausgewählt ist.
  • Bugfix Claude Tool-Results: Formatierungsfehler bei lokalen Bildpfaden in Claude-Tool-Ergebnissen behoben.

Im Hintergrund befindet sich v0.24.0-rc0 in der Vorschau. Diese Version wird die Architektur umstellen: direktes Bauen auf llama.cpp statt GGML, GGUF-Kompatibilität, MLX-Beschleunigung auf Apple Silicon sowie die Integration der OpenAI Codex-App mit eingebautem Browser.

llama.cpp b9222 — 19. Mai 2026 ⭐ Neuestes Build

llama.cpp taktiert weiterhin im 4-Stunden-Rhythmus. Build b9222 ist das jüngste Release (Binaries vom 19. Mai 2026, 00:29 UTC). Besonders relevant aus der letzten Woche:

  • MTP (Multi-Token Prediction) offiziell gemergt – 16. Mai 2026: Spekulatives Decoding via eigenem Draft-Head ermöglicht laut Unsloth ca. 1,5–2× schnellere Inferenz ohne Genauigkeitsverlust für Qwen3.5- und Qwen3.6-Modelle. Das Flag wurde am 13. Mai von --spec-type mtp in --spec-type draft-mtp umbenannt. Multi-Projection (-np > 1) und --mmproj sind mit MTP noch nicht kompatibel.
  • Hexagon/HVX-Backend (b9221): GGML_OP_PAD auf dem Qualcomm Hexagon HTP-Backend via HVX-Vektorkernel implementiert – unterstützt Zero-Padding und Circular-Padding über alle 4 Tensor-Dimensionen.
  • IBM Granite 4.0 Speech: Support für ibm-granite/granite-4.0-1b-speech mit Conformer-Encoder und QFormer-Projektor in Arbeit; modality-conditional LoRA-Adapter (automatisches Umschalten zwischen Text- und Multimodal-Modus) wurde hinzugefügt.
  • DeepSeek V4: Work-in-Progress-PR für nativen V4-Support (GGUF-Konvertierung, FP4/FP8-Quantisierung, CUDA-Optimierungen) aktiv in Entwicklung.

Tipp für AMD-Nutzer: Das lemonade-sdk/llamacpp-rocm-Projekt liefert tägliche ROCm-7.14-Builds (aktuell b1272 vom 18. Mai) für Windows und Ubuntu.

Open WebUI v0.9.5 — 10. Mai 2026

Open WebUI 0.9.5 bringt mehrere praktische Erweiterungen:

  • Kalender-Workspace: Vollständiger Kalender mit Wiederholungs-Ereignissen, In-App-Toast-Benachrichtigungen und Browser-Notifications.
  • Ollama Responses-API-Proxy: Clients können /v1/responses jetzt direkt mit Ollama-gehosteten Modellen über Open WebUI nutzen.
  • Dateihistorie: Zuvor hochgeladene Dateien lassen sich im Chat-Input-Menü erneut anhängen – kein Re-Upload nötig.
  • Azure Responses-Support: Azure OpenAI unterstützt jetzt das neuere /openai/v1-Format.
  • psycopg v3: Async-Datenbanktreiber von asyncpg auf psycopg v3 migriert. Custom Connection-Strings mit asyncpg-spezifischen Parametern müssen ggf. angepasst werden.
  • CVE-2025-6176 (Brotli): Brotli-Abhängigkeit auf gepatchte Version aktualisiert.

Das Desktop-App-Paket (v0.0.20, 6. Mai) behebt einen Linux-Blank-Screen-Bug und bringt ARM64-Builds für Linux und Windows (Raspberry Pi, DGX Spark, Snapdragon-Laptops).

LM Studio 0.4.13 — 13. Mai 2026

LM Studio 0.4.13 (aktuell 0.4.13-1, Beta 0.4.14) bringt ein signifikantes MLX-Update:

  • mlx-engine v1.8.1: Deutlich verbesserte Leistung und parallele Predictions für Vision-fähige Modelle wie Qwen 3.5/3.6 und Gemma 4 auf Apple Silicon.
  • Security-Hardening und Bugfix für komprimierte Zeilenumbrüche beim Einfügen in das Chat-Eingabefeld.

LM Studio nutzt llama.cpp als Inferenz-Engine für GGUF-Modelle und bleibt damit eng mit dessen Entwicklungsstand verbunden.

KoboldCpp 1.108.x

KoboldCpp (aktuell 1.108.2) wurde mit zwei Hotfixes stabilisiert: 1.108.1 behebt DPI-Probleme und falschen Backend-Selekt sowie fügt Multi-Image-LoRA-Support hinzu; 1.108.2 behebt broken Audio in OuteTTS und einen CUDA-Graph-Memory-Leak. KoboldCpp bleibt das „All-in-One“-Paket der Szene: eine einzige ausführbare Datei mit KoboldAI-UI, Stable-Diffusion-Bildgenerierung, Whisper-Transkription, TTS und OpenAI-kompatiblem API — ein bewusstes Gegenmodell zum minimalistischen Server-Ansatz von Ollama und llama.cpp.


🔴 Sicherheit — Drei aktive CVEs, Handlungsbedarf!

CVE-2026-7482 „Bleeding Llama“ — KRITISCH (CVSS 9.1) — Alle Plattformen — Ollama < 0.17.1

Entdeckt von Dor Attias (Cyera Research), publiziert am 2./5. Mai 2026. Patch in Ollama 0.17.1 (24. Feb. 2026) — aktuelle 0.23.x-Nutzer sind nicht betroffen, sofern sie aktualisiert haben.

Die Lücke sitzt im GGUF-Tensor-Parser: Beim Aufruf von /api/create mit einer manipulierten GGUF-Datei liest der Quantisierungscode (fs/ggml/gguf.go, server/quantization.go) über den allozierten Heap-Buffer hinaus. Der gestohlene Heap-Inhalt — Systemprompts, Nutzerkonversationen, Environment-Variablen, API-Keys — wird in das erzeugte Model-Artefakt eingebettet und via /api/push an einen Angreifer-Registry-Server exfiltriert. Der Angriff benötigt nur drei unauthentifizierte API-Calls und hinterlässt keinerlei Fehler in den Logs. Rund 300.000 Ollama-Server sind laut Internet-Scans öffentlich auf Port .

Sofortmaßnahmen: Upgrade auf ≥ 0.17.1 (aktuell 0.23.4). Ollama niemals auf 0.0.0.0 binden ohne Auth-Proxy davor. War die Instanz öffentlich erreichbar: alle API-Keys, Tokens und Credentials sofort rotieren.

CVE-2026-42248 + CVE-2026-42249 — Windows Only — Ollama 0.12.10 bis 0.23.2 — UNGEPATCHT in Release-Builds

Entdeckt von Striga, gemeldet 27. Januar 2026, nach 90 Tagen Vendor-Silence über CERT Polska publiziert. Der Fix wurde am 11. Mai 2026 auf den Haupt-Branch gemergt (Commit 3d5a011a), ist aber in keinem offiziellen Release enthalten. Jedes Windows-Build von 0.12.10 bis einschließlich 0.23.2 ist verwundbar.

  • CVE-2026-42249: Path-Traversal im Windows-Auto-Updater — der lokale Pfad für das Installer-Staging-Verzeichnis wird direkt aus HTTP-Response-Headers übernommen, ohne Sanitization.
  • CVE-2026-42248: Fehlende Signaturprüfung — Ollama für Windows lädt Update-Executables herunter und führt sie aus, ohne Signaturen zu verifizieren (macOS prüft dies korrekt).

Beide Lücken kombiniert: Wer den Netzwerkpfad zwischen Ollama-Client und Update-Endpoint kontrolliert (feindliches WLAN, DNS-Poisoning, kompromittierter Proxy), kann beliebigen Code in den Windows-Startup-Ordner schreiben, der bei jedem Login ausgeführt wird. Workaround: OLLAMA_UPDATE_URL auf einen internen, signierten Endpunkt zeigen oder Auto-Update deaktivieren, bis das nächste getaggte Release verfügbar ist. macOS-Nutzer sind nicht betroffen.


🆕 Open-Weight-Modelle

Qwen3.6 (Alibaba, April 2026) — GGUF verfügbar

Die Qwen3.6-Familie ist in zwei Varianten lokal verfügbar:

  • Qwen3.6-27B (Dense): Fokus auf Coding; Apache-2.0-Lizenz. GGUF-Quants von Unsloth auf Hugging Face (unsloth/Qwen3.6-27B-GGUF). Auf Ollama via ollama pull qwen3.6:27b.
  • Qwen3.6-35B-A3B (MoE): Nur 3,5B aktive Parameter bei 35B gesamt — sehr RAM-effizient. GGUF und MTP-GGUF von Unsloth verfügbar (unsloth/Qwen3.6-35B-A3B-MTP-GGUF). Mit llama.cpp MTP jetzt ~1,5–2× schneller nutzbar. Bekannter Bug: Tensor-Parallelismus mit ≥ 3 GPUs produziert korrumpierten Output.

Beide Modelle profitieren direkt vom neu gemergten MTP in llama.cpp — Ollama exponiert diesen Schalter noch nicht.

IBM Granite 4.1 (Dense, 3B/8B/30B) — llama.cpp-kompatibel

Granite 4.1 ist IBMs neue Dense-Decoder-Familie (3B, 8B, 30B), trainiert auf 15T Tokens mit bis zu 512K Kontext. Optimiert für Instruction-Following, Tool-Calling, RAG und Coding; ausdrücklich kompatibel mit llama.cpp, vLLM und SGLang. Unsloth-GGUFs sind auf Hugging Face verfügbar. Das 8B-Modell soll das Granite-4.0-32B-MoE auf vielen Enterprise-Benchmarks übertreffen.

Hinweis: Granite-4.0-Hybrid (Mamba-Architektur) erfordert noch weitere Arbeit in llama.cpp; die Standard-Transformer-Varianten (1B, 350M) laufen bereits.


🔀 Ökosystem

Open WebUI

Neben den Release-Highlights oben hat das Team die Abhängigkeit asyncpg → psycopg v3 migriert (Breaking Change bei custom Connection-Strings) und einen Brotli-CVE gepatcht. Die Desktop-App-ARM64-Builds öffnen Open WebUI für DGX Spark und Snapdragon-Geräte.

LM Studio — LM Link (Remote-Verbindungen)

LM Studio hat LM Link eingeführt: Ende-zu-Ende-verschlüsselte Remote-Verbindungen zu eigenen LM-Studio-Instanzen, gestartet in Partnerschaft mit Tailscale. Damit lässt sich LM Studio auch als Remote-Inference-Backend nutzen, ohne den API-Port direkt exponieren zu müssen.

llama.cpp Windows-Prebuilts (CUDA 13.1 / Vulkan / HIP / SYCL)

Die offiziellen Release-Seiten liefern jetzt vorkompilierte Windows-Pakete für alle gängigen GPU-Backends. Nutzer brauchen nicht mehr selbst zu kompilieren: NVIDIA → CUDA-Build, AMD → Vulkan oder HIP, Intel → SYCL oder Vulkan, CPU-only → Fallback-Build.


🧠 Performance & Engineering

MTP Speculative Decoding in llama.cpp — gemergt 16. Mai 2026

Multi-Token Prediction (MTP) ist nun offiziell in llama.cpp integriert. Anders als klassisches Speculative Decoding mit einem separaten Draft-Modell nutzt MTP einen im Hauptmodell eingebetteten Draft-Head — kein zweites Modell nötig. Für Qwen3.5/3.6 (und Gemma 4 auf Mac via Ollama) werden 1,5–2× höhere Token-Raten ohne Genauigkeitsverlust berichtet. Nutzung: --spec-type draft-mtp --spec-draft-n-max 6. Einschränkungen: kein Multi-Prompt (-np > 1), kein --mmproj.

Hexagon-Backend: Aktive HVX-Kernel-Entwicklung

Das llama.cpp-Hexagon-Backend (Qualcomm Snapdragon NPU) wächst kontinuierlich: Neben dem neuen PAD-HVX-Kernel (b9221) wurden in den letzten Wochen L2-Norm, Gated Delta Net und asynchrones HMX-MatMul für Qwen3.5 hinzugefügt. Das Backend ist noch experimentell, ermöglicht aber vollständige On-Device-Inferenz auf Android-Geräten mit Snapdragon HTP.


🆚 Ollama vs. llama.cpp — aktuell relevante Unterschiede

  • MTP Speculative Decoding: llama.cpp hat MTP am 16. Mai offiziell gemergt und bietet damit 1,5–2× schnellere Inferenz für Qwen3.5/3.6 über --spec-type draft-mtp. Ollama exponiert diesen Schalter noch nicht direkt — Gemma-4-MTP für Mac (MLX) ist der einzige vergleichbare Weg derzeit.
  • Windows-Update-Sicherheit: Die CVEs 2026-42248/ ausschließlich Ollama for Windows (auto-updater ohne Signaturprüfung). llama.cpp ist eine Bibliothek/Binary ohne Auto-Updater — diese Angriffsfläche existiert schlicht nicht.
  • Architektur-Upgrade (Ollama 0.24): Ollama nähert sich llama.cpp mit v0.24 an: direkter llama.cpp-Support statt GGML-Schicht, volle GGUF-Kompatibilität. llama.cpp bleibt unterliegendes Fundament, exponiert aber selbst nur einen Plain-HTTP-Server — externe UIs wie Open WebUI oder LM Studio sind für GUI-Nutzer weiterhin der empfohlene Weg.

Quellen: github.com/ollama/ollama/releases · github.com/ggml-org/llama.cpp/releases · github.com/open-webui/open-webui/releases · Mondoo Security Blog · Cyera Research · lmstudio.ai/changelog · Unsloth/HuggingFace · IBM Research

← Zurück zum KI Archiv (19.05.2026)