Tagesüberblick für das lokale LLM-Ökosystem — Stand 19. Mai 2026.
🚀 Releases
Ollama v0.23.4 — 14. Mai 2026
Ollama v0.23.4 ist das aktuell neueste stabile Release. Die zwei Änderungen sind knapp, aber relevant für Coding-Workflows:
- Vision-Support für
ollama launch opencode: OpenCode kann jetzt Bilder als Eingabe verarbeiten, wenn ein Vision-fähiges Modell ausgewählt ist. - Bugfix Claude Tool-Results: Formatierungsfehler bei lokalen Bildpfaden in Claude-Tool-Ergebnissen behoben.
Im Hintergrund befindet sich v0.24.0-rc0 in der Vorschau. Diese Version wird die Architektur umstellen: direktes Bauen auf llama.cpp statt GGML, GGUF-Kompatibilität, MLX-Beschleunigung auf Apple Silicon sowie die Integration der OpenAI Codex-App mit eingebautem Browser.
llama.cpp b9222 — 19. Mai 2026 ⭐ Neuestes Build
llama.cpp taktiert weiterhin im 4-Stunden-Rhythmus. Build b9222 ist das jüngste Release (Binaries vom 19. Mai 2026, 00:29 UTC). Besonders relevant aus der letzten Woche:
- MTP (Multi-Token Prediction) offiziell gemergt – 16. Mai 2026: Spekulatives Decoding via eigenem Draft-Head ermöglicht laut Unsloth ca. 1,5–2× schnellere Inferenz ohne Genauigkeitsverlust für Qwen3.5- und Qwen3.6-Modelle. Das Flag wurde am 13. Mai von
--spec-type mtpin--spec-type draft-mtpumbenannt. Multi-Projection (-np > 1) und--mmprojsind mit MTP noch nicht kompatibel. - Hexagon/HVX-Backend (b9221): GGML_OP_PAD auf dem Qualcomm Hexagon HTP-Backend via HVX-Vektorkernel implementiert – unterstützt Zero-Padding und Circular-Padding über alle 4 Tensor-Dimensionen.
- IBM Granite 4.0 Speech: Support für
ibm-granite/granite-4.0-1b-speechmit Conformer-Encoder und QFormer-Projektor in Arbeit; modality-conditional LoRA-Adapter (automatisches Umschalten zwischen Text- und Multimodal-Modus) wurde hinzugefügt. - DeepSeek V4: Work-in-Progress-PR für nativen V4-Support (GGUF-Konvertierung, FP4/FP8-Quantisierung, CUDA-Optimierungen) aktiv in Entwicklung.
Tipp für AMD-Nutzer: Das lemonade-sdk/llamacpp-rocm-Projekt liefert tägliche ROCm-7.14-Builds (aktuell b1272 vom 18. Mai) für Windows und Ubuntu.
Open WebUI v0.9.5 — 10. Mai 2026
Open WebUI 0.9.5 bringt mehrere praktische Erweiterungen:
- Kalender-Workspace: Vollständiger Kalender mit Wiederholungs-Ereignissen, In-App-Toast-Benachrichtigungen und Browser-Notifications.
- Ollama Responses-API-Proxy: Clients können
/v1/responsesjetzt direkt mit Ollama-gehosteten Modellen über Open WebUI nutzen. - Dateihistorie: Zuvor hochgeladene Dateien lassen sich im Chat-Input-Menü erneut anhängen – kein Re-Upload nötig.
- Azure Responses-Support: Azure OpenAI unterstützt jetzt das neuere
/openai/v1-Format. - psycopg v3: Async-Datenbanktreiber von asyncpg auf psycopg v3 migriert. Custom Connection-Strings mit asyncpg-spezifischen Parametern müssen ggf. angepasst werden.
- CVE-2025-6176 (Brotli): Brotli-Abhängigkeit auf gepatchte Version aktualisiert.
Das Desktop-App-Paket (v0.0.20, 6. Mai) behebt einen Linux-Blank-Screen-Bug und bringt ARM64-Builds für Linux und Windows (Raspberry Pi, DGX Spark, Snapdragon-Laptops).
LM Studio 0.4.13 — 13. Mai 2026
LM Studio 0.4.13 (aktuell 0.4.13-1, Beta 0.4.14) bringt ein signifikantes MLX-Update:
- mlx-engine v1.8.1: Deutlich verbesserte Leistung und parallele Predictions für Vision-fähige Modelle wie Qwen 3.5/3.6 und Gemma 4 auf Apple Silicon.
- Security-Hardening und Bugfix für komprimierte Zeilenumbrüche beim Einfügen in das Chat-Eingabefeld.
LM Studio nutzt llama.cpp als Inferenz-Engine für GGUF-Modelle und bleibt damit eng mit dessen Entwicklungsstand verbunden.
KoboldCpp 1.108.x
KoboldCpp (aktuell 1.108.2) wurde mit zwei Hotfixes stabilisiert: 1.108.1 behebt DPI-Probleme und falschen Backend-Selekt sowie fügt Multi-Image-LoRA-Support hinzu; 1.108.2 behebt broken Audio in OuteTTS und einen CUDA-Graph-Memory-Leak. KoboldCpp bleibt das „All-in-One“-Paket der Szene: eine einzige ausführbare Datei mit KoboldAI-UI, Stable-Diffusion-Bildgenerierung, Whisper-Transkription, TTS und OpenAI-kompatiblem API — ein bewusstes Gegenmodell zum minimalistischen Server-Ansatz von Ollama und llama.cpp.
🔴 Sicherheit — Drei aktive CVEs, Handlungsbedarf!
CVE-2026-7482 „Bleeding Llama“ — KRITISCH (CVSS 9.1) — Alle Plattformen — Ollama < 0.17.1
Entdeckt von Dor Attias (Cyera Research), publiziert am 2./5. Mai 2026. Patch in Ollama 0.17.1 (24. Feb. 2026) — aktuelle 0.23.x-Nutzer sind nicht betroffen, sofern sie aktualisiert haben.
Die Lücke sitzt im GGUF-Tensor-Parser: Beim Aufruf von /api/create mit einer manipulierten GGUF-Datei liest der Quantisierungscode (fs/ggml/gguf.go, server/quantization.go) über den allozierten Heap-Buffer hinaus. Der gestohlene Heap-Inhalt — Systemprompts, Nutzerkonversationen, Environment-Variablen, API-Keys — wird in das erzeugte Model-Artefakt eingebettet und via /api/push an einen Angreifer-Registry-Server exfiltriert. Der Angriff benötigt nur drei unauthentifizierte API-Calls und hinterlässt keinerlei Fehler in den Logs. Rund 300.000 Ollama-Server sind laut Internet-Scans öffentlich auf Port .
Sofortmaßnahmen: Upgrade auf ≥ 0.17.1 (aktuell 0.23.4). Ollama niemals auf 0.0.0.0 binden ohne Auth-Proxy davor. War die Instanz öffentlich erreichbar: alle API-Keys, Tokens und Credentials sofort rotieren.
CVE-2026-42248 + CVE-2026-42249 — Windows Only — Ollama 0.12.10 bis 0.23.2 — UNGEPATCHT in Release-Builds
Entdeckt von Striga, gemeldet 27. Januar 2026, nach 90 Tagen Vendor-Silence über CERT Polska publiziert. Der Fix wurde am 11. Mai 2026 auf den Haupt-Branch gemergt (Commit 3d5a011a), ist aber in keinem offiziellen Release enthalten. Jedes Windows-Build von 0.12.10 bis einschließlich 0.23.2 ist verwundbar.
- CVE-2026-42249: Path-Traversal im Windows-Auto-Updater — der lokale Pfad für das Installer-Staging-Verzeichnis wird direkt aus HTTP-Response-Headers übernommen, ohne Sanitization.
- CVE-2026-42248: Fehlende Signaturprüfung — Ollama für Windows lädt Update-Executables herunter und führt sie aus, ohne Signaturen zu verifizieren (macOS prüft dies korrekt).
Beide Lücken kombiniert: Wer den Netzwerkpfad zwischen Ollama-Client und Update-Endpoint kontrolliert (feindliches WLAN, DNS-Poisoning, kompromittierter Proxy), kann beliebigen Code in den Windows-Startup-Ordner schreiben, der bei jedem Login ausgeführt wird. Workaround: OLLAMA_UPDATE_URL auf einen internen, signierten Endpunkt zeigen oder Auto-Update deaktivieren, bis das nächste getaggte Release verfügbar ist. macOS-Nutzer sind nicht betroffen.
🆕 Open-Weight-Modelle
Qwen3.6 (Alibaba, April 2026) — GGUF verfügbar
Die Qwen3.6-Familie ist in zwei Varianten lokal verfügbar:
- Qwen3.6-27B (Dense): Fokus auf Coding; Apache-2.0-Lizenz. GGUF-Quants von Unsloth auf Hugging Face (
unsloth/Qwen3.6-27B-GGUF). Auf Ollama viaollama pull qwen3.6:27b. - Qwen3.6-35B-A3B (MoE): Nur 3,5B aktive Parameter bei 35B gesamt — sehr RAM-effizient. GGUF und MTP-GGUF von Unsloth verfügbar (
unsloth/Qwen3.6-35B-A3B-MTP-GGUF). Mit llama.cpp MTP jetzt ~1,5–2× schneller nutzbar. Bekannter Bug: Tensor-Parallelismus mit ≥ 3 GPUs produziert korrumpierten Output.
Beide Modelle profitieren direkt vom neu gemergten MTP in llama.cpp — Ollama exponiert diesen Schalter noch nicht.
IBM Granite 4.1 (Dense, 3B/8B/30B) — llama.cpp-kompatibel
Granite 4.1 ist IBMs neue Dense-Decoder-Familie (3B, 8B, 30B), trainiert auf 15T Tokens mit bis zu 512K Kontext. Optimiert für Instruction-Following, Tool-Calling, RAG und Coding; ausdrücklich kompatibel mit llama.cpp, vLLM und SGLang. Unsloth-GGUFs sind auf Hugging Face verfügbar. Das 8B-Modell soll das Granite-4.0-32B-MoE auf vielen Enterprise-Benchmarks übertreffen.
Hinweis: Granite-4.0-Hybrid (Mamba-Architektur) erfordert noch weitere Arbeit in llama.cpp; die Standard-Transformer-Varianten (1B, 350M) laufen bereits.
🔀 Ökosystem
Open WebUI
Neben den Release-Highlights oben hat das Team die Abhängigkeit asyncpg → psycopg v3 migriert (Breaking Change bei custom Connection-Strings) und einen Brotli-CVE gepatcht. Die Desktop-App-ARM64-Builds öffnen Open WebUI für DGX Spark und Snapdragon-Geräte.
LM Studio — LM Link (Remote-Verbindungen)
LM Studio hat LM Link eingeführt: Ende-zu-Ende-verschlüsselte Remote-Verbindungen zu eigenen LM-Studio-Instanzen, gestartet in Partnerschaft mit Tailscale. Damit lässt sich LM Studio auch als Remote-Inference-Backend nutzen, ohne den API-Port direkt exponieren zu müssen.
llama.cpp Windows-Prebuilts (CUDA 13.1 / Vulkan / HIP / SYCL)
Die offiziellen Release-Seiten liefern jetzt vorkompilierte Windows-Pakete für alle gängigen GPU-Backends. Nutzer brauchen nicht mehr selbst zu kompilieren: NVIDIA → CUDA-Build, AMD → Vulkan oder HIP, Intel → SYCL oder Vulkan, CPU-only → Fallback-Build.
🧠 Performance & Engineering
MTP Speculative Decoding in llama.cpp — gemergt 16. Mai 2026
Multi-Token Prediction (MTP) ist nun offiziell in llama.cpp integriert. Anders als klassisches Speculative Decoding mit einem separaten Draft-Modell nutzt MTP einen im Hauptmodell eingebetteten Draft-Head — kein zweites Modell nötig. Für Qwen3.5/3.6 (und Gemma 4 auf Mac via Ollama) werden 1,5–2× höhere Token-Raten ohne Genauigkeitsverlust berichtet. Nutzung: --spec-type draft-mtp --spec-draft-n-max 6. Einschränkungen: kein Multi-Prompt (-np > 1), kein --mmproj.
Hexagon-Backend: Aktive HVX-Kernel-Entwicklung
Das llama.cpp-Hexagon-Backend (Qualcomm Snapdragon NPU) wächst kontinuierlich: Neben dem neuen PAD-HVX-Kernel (b9221) wurden in den letzten Wochen L2-Norm, Gated Delta Net und asynchrones HMX-MatMul für Qwen3.5 hinzugefügt. Das Backend ist noch experimentell, ermöglicht aber vollständige On-Device-Inferenz auf Android-Geräten mit Snapdragon HTP.
🆚 Ollama vs. llama.cpp — aktuell relevante Unterschiede
- MTP Speculative Decoding: llama.cpp hat MTP am 16. Mai offiziell gemergt und bietet damit 1,5–2× schnellere Inferenz für Qwen3.5/3.6 über
--spec-type draft-mtp. Ollama exponiert diesen Schalter noch nicht direkt — Gemma-4-MTP für Mac (MLX) ist der einzige vergleichbare Weg derzeit. - Windows-Update-Sicherheit: Die CVEs 2026-42248/ ausschließlich Ollama for Windows (auto-updater ohne Signaturprüfung). llama.cpp ist eine Bibliothek/Binary ohne Auto-Updater — diese Angriffsfläche existiert schlicht nicht.
- Architektur-Upgrade (Ollama 0.24): Ollama nähert sich llama.cpp mit v0.24 an: direkter llama.cpp-Support statt GGML-Schicht, volle GGUF-Kompatibilität. llama.cpp bleibt unterliegendes Fundament, exponiert aber selbst nur einen Plain-HTTP-Server — externe UIs wie Open WebUI oder LM Studio sind für GUI-Nutzer weiterhin der empfohlene Weg.
Quellen: github.com/ollama/ollama/releases · github.com/ggml-org/llama.cpp/releases · github.com/open-webui/open-webui/releases · Mondoo Security Blog · Cyera Research · lmstudio.ai/changelog · Unsloth/HuggingFace · IBM Research