Local-LLM News-Roundup – 23. Mai 2026

🚀 Releases

Ollama v0.24.0 – Codex App & MLX-Verbesserungen (14. Mai 2026)

Das aktuelle stabile Release bringt als Hauptneuigkeit die Unterstützung der Codex App:
ollama launch codex-app startet OpenAIs Desktop-Erlebnis mit eingebautem Browser, Page-Annotation
direkt auf laufenden Local-Servern und einem Review-Modus für Code-Kommentare. Für den Apple-Silicon-Pfad wurde
der MLX-Sampler überarbeitet, was die Generierungsqualität verbessert.
Empfohlene lokale Modelle für Codex: nemotron-3-super, gemma4:31b, qwen3.6.
(Release-Notes)

Ollama v0.30.0-rc21 – Pre-release: Architekturwechsel auf llama.cpp (13. Mai 2026)

⚠️ Breaking Pre-release, nicht für Produktivbetrieb.
Diese Version stellt Ollamas internen Inference-Stack von GGML auf direktes llama.cpp um und
bringt damit native GGUF-Kompatibilität. Auf Apple Silicon übernimmt MLX die Beschleunigung.
Bekannte Einschränkungen: laguna-xs.2 und llama3.2-vision werden noch nicht unterstützt.
Feedback zu Performance, Abstürzen und Speicherverbrauch wird im
GitHub-Thread #16031 gesammelt.

Ollama v0.23.1 – Gemma 4 MTP Speculative Decoding (5. Mai 2026)

Gemma 4 Multi-Token-Processing ist jetzt im MLX-Runner verfügbar:
ollama run gemma4:31b-coding-mtp-bf16 bringt bei Coding-Aufgaben auf Apple-Silicon-Macs
mehr als 2× Speedup gegenüber dem Standard-Modell.

llama.cpp b9294 – heute, 23. Mai 2026

Der neueste Build des Tages (veröffentlicht um 01:50 UTC) behebt einen Integer-Overflow im Perplexity-Berechnungscode
(PR #23496).
Wie gewohnt erscheinen mehrere Builds täglich; das Projekt steht bei 112.000 GitHub-Stars.
Vorgänger-Highlights der letzten Woche: b9222 (Hexagon TRI HVX-Kernel für Qualcomm HTP), b9216 (llama-server UI-Refactoring
mit MCP-Service-Optimierung, Unit-Tests), b9209 (SYCL Q6_K MMVQ-Dot-Product-Optimierung für Intel),
b9204 (SSM-Conv d_conv=15-Support für Granite 4.0 Speech).
(Alle Releases)

Open WebUI v0.9.5 (10. Mai 2026)

Das neueste Release bringt einen vollständigen Kalender-Workspace mit Wiederholungsevents,
In-App-Toast-Benachrichtigungen und Browser-Notifications.
Der Ollama-Proxy unterstützt jetzt die Responses API (/v1/responses),
sodass Clients die OpenAI-Responses-API direkt gegen Ollama-Modelle nutzen können.
Weitere Neuerungen: Azure OpenAI Responses-Support, Datei-Attach aus vorherigen Uploads,
Migration des async DB-Treibers von asyncpg auf psycopg v3,
und ein Fix für CVE-2025-6176 (Brotli-Dependency-Update).
(Release-Notes)

llama-cpp-python v0.3.x (11. Mai 2026)

Neue Version der Python-Bindings auf PyPI veröffentlicht. Installierbar via
pip install llama-cpp-python.
(PyPI)

🔴 Sicherheit

CVE-2026-7482 „Bleeding Llama“ – Kritischer Heap-Speicherleck (alle Plattformen, Ollama < 0.17.1)

Betroffen: Alle Plattformen (Linux, macOS, Windows) · Ollama-Versionen < 0.17.1
Gepatcht in: v0.17.1 (24. Feb 2026) · CVSS: 9.1 (kritisch)

Ein Heap-Out-of-Bounds-Read im GGUF-Modell-Loader ermöglicht es unauthentifizierten Angreifern,
über drei API-Calls den gesamten Heap-Speicher des Ollama-Prozesses auszulesen – ohne Fehler oder Crash.
Dabei können API-Keys, System-Prompts, Nutzerkonversationen und Cloud-Credentials abgegriffen werden.
Ein PoC ist öffentlich verfügbar. Rund 300.000 über 0.0.0.0:11434 erreichbare Instanzen
wurden bei Internet-Scans gefunden. Der Fix wurde in den Release-Notes nicht als Sicherheits-Update markiert,
weshalb die CVE-Zuweisung erst am 28. April 2026 erfolgte – zwei Monate nach dem Patch.

Maßnahmen: Update auf ≥ 0.17.1. Ollama auf 127.0.0.1 binden
(OLLAMA_HOST=127.0.0.1:11434). Rotiere alle Secrets bei öffentlich erreichbarer Instanz.
(The Hacker News /
Mondoo-Analyse)

CVE-2026-42248 & CVE-2026-42249 – Windows Auto-Updater RCE-Kette (Windows only, 0.12.10–0.23.2)

Betroffen: Nur Windows · Ollama für Windows 0.12.10–0.23.2
Gepatcht in: v0.23.3 (12. Mai 2026, PR #16100) · CVSS: jeweils 7.7

Zwei von Striga-Forschern entdeckte Schwachstellen im Windows-Auto-Updater, die sich zu persistenter Code-Ausführung ketten lassen:
CVE-2026-42248 überprüft die Update-Binary nicht auf Signaturen (fehlende Signaturprüfung),
CVE-2026-42249 erlaubt Path Traversal über HTTP-Response-Header – ein Angreifer im Netzwerkpfad
(feindliches WLAN, DNS-Poisoning, kompromittierter Proxy) kann so eine beliebige Executable in den Windows-Startup-Ordner
schreiben und bei jedem Login ausführen. CERT Polska koordinierte die Disclosure nach 90 Tagen Stillschweigen.
Der Fix (PR #16100 „app: harden update flows“) ist in v0.23.3+ enthalten.

Maßnahmen: Update auf v0.23.3 oder neuer. Wer noch auf < 0.23.3 ist:
Auto-Updates in Windows deaktivieren und den Ollama-Startup-Ordner-Shortcut entfernen.
(Help Net Security)

🆕 Open-Weight-Modelle

Kimi K2.6 – 1T-Parameter MoE, nativ multimodal (Moonshot AI, Mai 2026)

Architektur: MoE, ~1T total / 32B aktiv pro Token · Kontext: 256K Token · Lizenz: Modified MIT
Moonshots neuestes Open-Weight-Modell fokussiert auf Long-Horizon-Coding, Agentic Execution und
Swarm-Task-Orchestrierung mit nativem Vision-Support.
Auf Ollama aktuell nur als Cloud-geroutetes Modell verfügbar:
ollama run kimi-k2.6:cloud – kein lokales GGUF im offiziellen Library.
Für Self-Hosting: GGUFs von unsloth/Kimi-K2.6-GGUF
auf Hugging Face (Dynamic Q2 ~350 GB RAM, Q8 ~610 GB RAM). Läuft direkt via llama.cpp;
minimale Hardware: UD-TQ1_0-Quant mit 24 GB VRAM + ~256 GB RAM.

Qwen3.6-35B-A3B – Agentic Coding MoE (Alibaba/Qwen Team, April/Mai 2026)

Architektur: MoE, 35B total / 3B aktiv · Lizenz: Apache 2.0
Auf Frontend-Workflows und Repository-Level-Reasoning ausgerichtet, mit neuem „Thinking Preservation“-Feature.
GGUF von Unsloth verfügbar: unsloth/Qwen3.6-35B-A3B-GGUF.
In llama.cpp bekannt: Tensor-Parallelismus mit 3+ GPUs erzeugt bei diesem Modell fehlerhaften Output (Endlosschleife
aus Schrägstrichen) – mit 2 GPUs oder weniger kein Problem.
Auf Ollama: ollama pull qwen3.6:27b.

Gemma 4 (Google) – Vision + Tool Calling, MTP-Support

Mehrere Größen (0.8B–122B), Apache 2.0-Lizenz. Hebt sich durch natives Vision + Tool Calling hervor.
In Ollama 0.23.1 kommt MTP Speculative Decoding für Gemma 4 31B hinzu (2× Speedup auf Mac/Apple Silicon).
ollama pull gemma4:9b.

🔀 Ökosystem

llama.cpp – Qualcomm Hexagon HTP Backend

Die Builds b9221 und b9222 (18./19. Mai) ergänzen das Hexagon-Backend um HVX-Kernel für die Operatoren
PAD und TRI – Zero-Padding und circulares Padding über alle 4 Tensor-Dimensionen
sowie vektorisierte Triangular-Operationen. Relevant für Deployment auf Qualcomm HTP (z. B. Snapdragon-Laptops).

llama.cpp – Vulkan Fused Snake Activation

Build b9292 (22. Mai) fügt einen gefuseten Vulkan-Shader für die Snake-Aktivierungsfunktion hinzu
(BigVGAN, Vocos Audio-Decoder). Der neue Shader unterstützt F32/F16/BF16 und fasst die naive
5-Op-Zerlegung zu einem einzigen elementweisen Kernel zusammen – relevant für Audio-Inferenz auf GPU.

AMD ROCm-Builds für llama.cpp (lemonade-sdk)

Das lemonade-sdk/llamacpp-rocm-Projekt
liefert tägliche Windows- und Ubuntu-Builds von llama.cpp mit ROCm 7.14 für die GPU-Targets
gfx1151, gfx1150, gfx120X, gfx110X und gfx103X. Aktueller Build: b1274 (20. Mai 2026).

Open WebUI Desktop v0.0.20 (6. Mai 2026)

Linux-Blank-Screen-Fix: SwiftShader-Software-Rendering ersetzt den problematischen
--in-process-gpu-Chromium-Flag. ARM64-Native-Builds für Linux und Windows sind verfügbar
(Raspberry Pi, DGX Spark, Snapdragon-Laptops). Self-Signed-SSL-Verbindungen werden jetzt toleriert.

🧠 Performance & Engineering

llama.cpp – DeepSeek V4 Support in Arbeit

Eine umfangreiche Pull-Request-Serie aus der Woche 4.–11. Mai bringt Support für DeepSeek V4:
GGUF-Konvertierung, CUDA-Performance-Optimierungen, native FP4/FP8-Quantisierung und
verbesserte Aktivierungsquantisierung. Der Merge ist noch ausstehend.

llama.cpp – Intel SYCL-Optimierungen

b9208 und b9209 verbessern die SYCL-Performance für Intel-GPUs: kleine F32-Matmuls werden jetzt
direkt über oneMKL statt oneDNN geroutet, und der Q6_K MMVQ-Dot-Product nutzt eine skalare
SWAR-Byte-Subtract-Optimierung. Beide Änderungen kommen von Intel-Contributor Chun Tao.

llama.cpp Windows-Prebuilds: CUDA 12.4 und 13.1

Seit Build b9196 (18. Mai) stehen offizielle Windows-Prebuilds für
CUDA 12.4, CUDA 13.1, Vulkan, HIP (AMD) und SYCL (Intel) bereit.
Nutzer müssen nicht mehr selbst kompilieren – Download, entpacken, Modell ablegen, starten.

🆚 Ollama vs. llama.cpp – Aktueller Unterschied

Kimi K2.6 lokal vs. Cloud: Wer Kimi K2.6 wirklich lokal betreiben will,
greift zu llama.cpp direkt: Unsloth-GGUFs laufen ab ~350 GB RAM (Dynamic 2-bit). Ollama bietet das Modell
nur als kimi-k2.6:cloud-Tag an – Inferenz findet auf Ollamas Cloud-Infrastruktur statt,
nicht auf der eigenen Hardware. Kein Offline-Betrieb, keine Quant-Kontrolle.

Architektur-Konvergenz: Mit dem Pre-Release v0.30.0 wechselt Ollama von seinem GGML-Fork
auf direktes llama.cpp als Backend. Sobald stabil, wird die technische Basis beider
Tools identisch – ein seltener Schritt in Richtung Ökosystem-Vereinfachung.

Sicherheit (Windows-Updater): Der CVE-2026-42248/42249-Fix (PR #16100) ist für
Windows-Nutzer nur relevant bei Ollama – llama.cpp hat keinen eingebauten Auto-Updater
und ist nicht betroffen.