Local-LLM Roundup 22. Mai 2026: Ollama 0.24, llama.cpp b9279, drei CVEs und Kimi K2.6

Stand: 22. Mai 2026. Quellen: GitHub Releases, Mondoo Security Blog, Hugging Face, Unsloth, offizielle Changelogs.

🚀 Releases

Ollama v0.24.0 – Aktuell stabile Version (14. Mai 2026)

Ollama v0.24.0 ist der aktuelle Stable-Release. Das Highlight ist die Codex App (ollama launch codex-app):
ein eingebettetes Desktop-Erlebnis für parallele Coding-Threads mit integriertem Browser, direkter Seiten-Annotation, Review-Modus mit Kommentarfunktion sowie Git/Worktree-Support.
Zusätzlich wurde der MLX-Sampler für Apple Silicon überarbeitet, was die Generierungsqualität verbessert.
Empfohlene Modelle für den lokalen Betrieb ohne Ollama Cloud: nemotron-3-super, gemma4:31b, qwen3.6.

Ebenfalls frisch im stabilen Kanal: v0.23.4 (13. Mai) – ollama launch opencode unterstützt jetzt Vision-Modelle mit Bildeingaben;
v0.23.2 (7. Mai) – /api/show-Antworten werden gecacht, was die Median-Latenz um den Faktor ~6,7× senkt (spürbar z. B. im VS-Code-Plugin);
v0.23.1 (5. Mai) – Gemma 4 MTP Speculative Decoding für den MLX-Runner auf Apple Silicon, das beim Gemma-4-31B-Coding-Modell über 2× Speedup bringt.

⚠️ Ollama v0.30.0-rc21 – Architektur-Vorabversion (Pre-release, 13. Mai 2026)

Die wichtigste technische Neuigkeit der Woche ist eine Pre-release: Ollama v0.30.0 wechselt die interne Architektur.
Statt auf dem eigenen GGML-Layer aufzusetzen, wird llama.cpp direkt als Backend eingebunden. MLX bleibt für Apple-Silicon-Beschleunigung zuständig.
Das bringt volle Kompatibilität mit dem GGUF-Dateiformat. Bekannte Einschränkungen im RC-Stand: laguna-xs.2 und llama3.2-vision noch nicht unterstützt.
Feedback kann im verlinkten GitHub-PR hinterlassen werden.

llama.cpp b9279 – Heutiger Build (22. Mai 2026)

llama.cpp schifft täglich neue Builds; heutiger Stand ist b9279 (veröffentlicht kurz nach Mitternacht UTC).
Relevante Merges der letzten Tage:

  • VRAM-Leak bei Speculative Decoding behoben: Die destroy()-Funktion im Server-Context räumte bisher den Draft-Context (ctx_dft), das Draft-Modell (model_dft) und den Spec-Decoder (spec) nicht frei. Bei MTP-Modellen mit GPU-KV-Cache führte das bei jedem Sleep/Resume-Zyklus zu steigendem VRAM-Verbrauch bis zum OOM-Absturz. Fix ist in den aktuellen Builds.
  • Carbon-3B / HybridDNA-Tokenizer: Unterstützung für Microsofts biologisches Sprachmodell, das DNA-k-mer-Sequenzen tokenisiert. Neuer Vocab-Typ LLAMA_VOCAB_TYPE_HYBRIDDNA, 12 Unit-Tests.
  • DeepSeek V4 Support in Arbeit: Umfangreicher WIP-PR für GGUF-Konvertierung, FP4/FP8-Quantisierung und CUDA-Optimierungen für DeepSeek V4.
  • IBM Granite 4.0 Speech: Erster LLM-Audiomodell-Support mit Conformer-Encoder und QFormer-Projektor in llama.cpp.

Parallel dazu: Das Community-Projekt lemonade-sdk/llamacpp-rocm liefert täglich frische Windows- und Ubuntu-Binaries mit ROCm-7.14-Support für AMD-GPUs (gfx1151/1150/120X/110X/103X) – derzeit auf Build b1275 (21. Mai).

Open WebUI v0.9.5 (10. Mai 2026)

Open WebUI 0.9.5 bringt eine native Desktop-App für macOS, Windows und Linux (kein Docker, kein Terminal, kein Setup).
Die App läuft lokal oder verbindet sich mit bestehenden Remote-Instanzen, hat eine systemweite Floating-Chat-Bar (Shift+Cmd+I / Shift+Ctrl+I), Push-to-Talk, Offline-Support nach dem ersten Start und automatische Updates.
Neu außerdem: Scheduled Chat Automations (wiederkehrende KI-Aufgaben wie tägliche Digests), Migration des async-DB-Treibers von asyncpg auf psycopg v3 sowie ein Brotli-Update gegen CVE-2025-6176.
Die Hauptbibliothek hat inzwischen 138.000 GitHub-Stars.


🆕 Open-Weight-Modelle

Kimi K2.6 – Moonshot AI (veröffentlicht 20. April 2026)

Kimi K2.6 ist ein 1-Billion-Parameter-MoE-Modell (32B aktive Parameter pro Token) von Moonshot AI unter Modified-MIT-Lizenz.
Gegenüber K2.5 neu: natives Video-Verständnis (mp4, mov, avi, webm bis 2K), überarbeitetes Long-Horizon-Coding-Training, bis zu 300 parallele Sub-Agenten (Agent Swarm), und 262.144 Token Kontextfenster.
Das Modell ist nativ in INT4 vorquantisiert (Quantization-Aware Training).

  • Ollama: ollama pull kimi-k2.6 – direkt verfügbar, empfohlen für schwierige Coding- und Agenten-Aufgaben.
  • llama.cpp / GGUF: unsloth/Kimi-K2.6-GGUF auf Hugging Face. Kleinste lauffähige Variante: UD-Q2_K_XL (~350 GB RAM+VRAM). Mit 16 GB VRAM + 256 GB RAM sind etwa 5+ t/s erreichbar. Vision-Unterstützung per mmproj-F16.gguf inkl.

Qwen3.6 – Alibaba (April 2026)

Alibabas Qwen3.6-Familie umfasst ein 27B-Dense-Modell und ein 35B-A3B-MoE-Modell, beide auf Coding und Agentic-Tasks optimiert (Apache 2.0).
llama.cpp unterstützt beide Varianten (--hf ggml-org/Qwen3.6-...-GGUF), Ollama führt sie als qwen3.6 und qwen3.6:35b.
Bekanntes Problem in llama.cpp: Tensor-Parallelismus mit ≥ 3 GPUs auf dem 35B-A3B-Modell erzeugt fehlerhafte Ausgaben (endloser Slash-Stream) – Workaround: max. 2 GPUs oder kein Tensor-Parallelismus.

Gemma 4 – Google (April 2026)

Gemma 4 ist bereits in Ollama stabil integriert. Besonders hervorzuheben: Das 31B-Coding-MTP-Modell profitiert auf Apple Silicon via MLX-Runner von Speculative Decoding mit über 2× Speedup (gemma4:31b-coding-mtp-bf16). llama.cpp unterstützt Gemma 4 über den normalen GGUF-Pfad, Speculative Decoding dort über Draft-Modelle.


🔴 Sicherheit

CVE-2026-7482 – „Bleeding Llama“ (Kritisch, alle Plattformen)

Betroffene Versionen: Ollama < 0.17.1, alle Plattformen (Linux, macOS, Windows).
Gepatcht seit: Ollama 0.17.1 (24. Februar 2026).
Ein unauthentifizierter Angreifer, der die Ollama-HTTP-API auf Port , kann über einen präparierten GGUF-Upload (/api/create) einen Heap-Out-of-Bounds-Read auslösen (CVSS 9.1).
Der GGUF-Loader vertraut deklarierten Tensor-Shapes ohne Größenprüfung. Durch eine F16→F32-Konvertierung (verlustfreier Pfad) werden Heap-Bytes einschließlich Umgebungsvariablen, API-Keys und System-Prompts anderer Nutzer in ein neues Modell-File geschrieben und können per /api/push exfiltriert werden.
Wer noch auf einer Version unter 0.17.1 betreibt: Sofort updaten.
Internet-Scans finden ca. 300.000 öffentlich erreichbare Ollama-Instanzen auf Port 11434 – Standardbinding sollte 127.0.0.1 bleiben.

CVE-2026-42248 & CVE-2026-42249 – Windows Auto-Updater Chain (Hoch, Windows only)

Betroffene Versionen: Ollama für Windows 0.12.10 – 0.23.2.
Gepatcht seit: Ollama 0.23.3 (12. Mai 2026, PR #16100 „app: harden update flows“).
CVE-2026-42248 (CVSS 7.7): Fehlende Signaturprüfung beim automatischen Update-Download – ein Angreifer im Netzwerkpfad (WLAN-Hotspot, DNS-Poisoning, kompromittierter Proxy) kann das Update-Paket durch beliebige Executables ersetzen.
CVE-2026-42249 (CVSS 7.7): Path-Traversal im Staging-Verzeichnis – der Angreifer kann die gelandete Datei in den Windows-Autostart-Ordner schreiben.
Beide Bugs zusammen ergeben persistente Code-Ausführung ohne Nutzerinteraktion.
Der Fix in v0.23.3 implementiert WinVerifyTrustEx mit Authenticode-Prüfung und strikter Signer-Verifikation (Ollama Inc.) sowie sichere Pfad-Sanitierung im Staging-Verzeichnis.
Sofortmaßnahme für v0.23.2 und älter: Auto-Downloads in den Tray-App-Einstellungen deaktivieren (verfügbar seit v0.17.1) oder ollama app.exe per Firewall vom Netz sperren.

Hinweis: Der Mondoo-Artikel vom 11. Mai beschrieb die CVEs noch als ungepatcht – der Fix landete einen Tag später in v0.23.3. Wer v0.23.3, v0.23.4 oder v0.24.0 betreibt, ist abgesichert.


🔀 Ökosystem

LM Studio

LM Studio hat Tool-Call-Grammar für gpt-oss-Modelle via llama.cpp-Engine hinzugefügt (erfordert llama.cpp-Engine ≥ v2.7.1), was die Tool-Call-Erfolgsrate dieser Modelle deutlich erhöht.
Verbessert wurde auch der Tool-Calling-Support für die Qwen-3.5-Modellfamilie.
Neu: Remote-Verbindung zu anderen LM-Studio-Instanzen, end-to-end verschlüsselt, in Partnerschaft mit Tailscale.

Open WebUI Desktop

Das separate Desktop-Repo (open-webui/desktop) ist auf Version v0.0.20. Fix für leere Webview auf Linux (SwiftShader-Rendering), Spotlight fokussiert nun korrekt ohne Space-Wechsel auf macOS, persistente Fenstergröße und -position über Neustarts hinweg.


🆚 Ollama vs. llama.cpp – Eine Bemerkung wert

Die wichtigste Querschnitts-News der Woche: Ollama v0.30.0-rc21 bereitet den Wechsel von eigenem GGML-Layer zu nativem llama.cpp als Backend vor.
Das bedeutet, dass Ollama künftig direkt von jedem llama.cpp-Fix und -Feature-Merge profitiert – einschließlich neuer Modell-Architekturen, Quantisierungsverbesserungen und Backend-Optimierungen – ohne eigene Portierungsarbeit.
Für Anwender ist der Unterschied beim Prompten unsichtbar; technisch konvergiert das Ökosystem deutlich.
Im aktuellen Stable-Stand (v0.24.0) zeigt sich die Differenz noch klar: Ollama liefert eine integrierte Codex-App mit Browser; llama.cpp bleibt ein schlanker HTTP-Server und empfiehlt externe UIs wie Open WebUI.


Quellen: github.com/ollama/ollama/releases · github.com/ggml-org/llama.cpp/releases · mondoo.com · huggingface.co/unsloth/Kimi-K2.6-GGUF · github.com/open-webui/open-webui/releases · lmstudio.ai/changelog

← Zurück zum KI Archiv (22.05.2026)