Local-LLM-Roundup 21. Mai 2026: Ollama 0.24 mit Codex-App, drei aktive CVEs, DeepSeek V4 & Kimi K2.6

Täglicher Überblick über Releases, Sicherheitsmeldungen und Neuigkeiten im lokalen LLM-Ökosystem – Stand 21. Mai 2026.

🚀 Releases

Ollama v0.24.0 — 14. Mai 2026

Das bisher umfangreichste Release dieses Monats. Ollama 0.24 bringt Unterstützung für die Codex App von OpenAI: über ollama launch codex-app lässt sich der Codex-Desktop direkt mit beliebigen lokalen oder Cloud-Modellen verbinden, inklusive integriertem Browser, Code-Review-Modus und paralleler Worktree-Unterstützung. Daneben wurde der MLX-Sampler komplett überarbeitet (verbesserte Generierungsqualität auf Apple Silicon) und Gemma 4 MTP Speculative Decoding für Macs eingeführt – laut Changelog mehr als 2× Geschwindigkeitszuwachs beim Gemma-4-31B-Modell auf Coding-Aufgaben.

Neu: /api/show-Antworten werden jetzt gecacht, was die Medianlatenz um ~6,7× senkt und Integrationen wie VS Code spürbar beschleunigt. ollama launch startet Claude Desktop nicht mehr automatisch mit; der Restore-Befehl lautet ollama launch claude-desktop --restore.

Ollama v0.23.4 — 13. Mai 2026

ollama launch opencode unterstützt jetzt Vision-Modelle mit Bildeingaben. Außerdem wurde die Formatierung von Claude-Tool-Ergebnissen bei lokalen Bildpfaden korrigiert.

Ollama v0.30.0-rc15 — Pre-Release, 13. Mai 2026 ⚠️ Breaking

Ein wichtiger Ausblick: Die Pre-Release-Reihe 0.30.0 ändert die interne Architektur grundlegend – Ollama nutzt künftig llama.cpp direkt, anstatt auf GGML aufzubauen, und ist damit vollständig GGUF-kompatibel. MLX bleibt als Beschleuniger für Apple Silicon erhalten. Modelle müssen im GGUF-Format vorliegen; wer noch alte Formate nutzt, muss neu laden. Nutzer mit Feedback zur Speichernutzung sind eingeladen, dies im GitHub-Issue zu melden.

llama.cpp — Build b9240, 19.–20. Mai 2026

Der aktuelle stabile Build ist b9240 (veröffentlicht 20. Mai 2026). Gleichzeitig liefert der ROCm-Build-Service täglich aktualisierte Windows- und Ubuntu-Binaries für AMD-GPUs (gfx103X bis gfx120X, ROCm 7.14.0). Der Wochenbericht (4.–11. Mai) meldete außerdem einen laufenden Work-in-Progress-Branch für DeepSeek-V4-Unterstützung inklusive GGUF-Konvertierung, FP4/FP8-Quantisierung und CUDA-Optimierungen – noch kein Merge in main.

Ein bekannter Bug: Tensor Parallelism mit drei oder mehr GPUs auf Qwen3.6-35B-A3B erzeugt in llama-server einen Endlosstrom von Schrägstrichen. Zwei GPUs oder kleinere Modelle sind nicht betroffen.

llama-cpp-python — 11. Mai 2026

Die offiziellen Python-Bindings wurden am 11. Mai 2026 aktualisiert und stehen via pip install llama-cpp-python bereit.

Open WebUI v0.9.5 — 10. Mai 2026

Open WebUI (138k GitHub-Sterne) erreicht Version 0.9.5. Highlights:

  • Kalender-Workspace: Vollständiges Kalendermodul mit wiederkehrenden Terminen, Erinnerungen via Browser-Notifications und Webhook-Support.
  • Ollama Responses-API-Proxy: Clients können /v1/responses jetzt direkt gegen Ollama-gehostete Modelle über Open WebUI nutzen.
  • Dateianhänge: Neu: Bereits hochgeladene Dateien können über einen Files-Tab in der Chat-Eingabe erneut angehängt werden.
  • Azure Responses Support für das neuere /openai/v1-Format.
  • psycopg v3 ersetzt asyncpg als async-Datenbanktreiber (transparente Änderung für die meisten Deployments; asyncpg-spezifische Connection-Strings müssen ggf. angepasst werden).
  • Sicherheit: Brotli wurde aktualisiert, um CVE-2025-6176 zu adressieren.

Open WebUI Desktop v0.0.20 — 6. Mai 2026

Der Electron-Desktop-Client behebt einen Blank Webview-Bug auf Linux durch Umstieg auf SwiftShader-Software-Rendering. ARM64-Builds für Linux und Windows sind verfügbar (Raspberry Pi, NVIDIA DGX Spark, Snapdragon-Laptops).

KoboldCpp — neueste Version

KoboldCpp (jetzt über 10.000 GitHub-Sterne) hat zwei neue Features geschifft: AceStepXL-Unterstützung für Musikgenerierung (gleiche LM/Embedder/VAE wie AceStep 1.5, verbesserte Vulkan-Qualität, MP3-Ausgabe, reduzierter VRAM-Bedarf) und einen neuen reasoning_effort-Parameter für denkende Modelle über die API (Werte: high, medium, low, minimal, none). Die Ollama-Emulation wurde ebenfalls verbessert: Requests von Endpunkten, die nur Streaming unterstützen, werden jetzt korrekt gepuffert.


🔴 Sicherheit — Drei aktive Ollama-CVEs

Im Mai 2026 wurden drei Ollama-Schwachstellen bekannt, die unabhängig voneinander zu behandeln sind:

CVE-2026-7482 „Bleeding Llama“ — CVSS 9.1 — Alle Plattformen — GEPATCHT

Betroffene Versionen: Ollama < 0.17.1, alle Plattformen.
Fix vorhanden: Ollama v0.17.1 (24. Februar 2026).

Ein Heap-Out-of-Bounds-Read im GGUF-Modell-Loader. Der /api/create-Endpunkt akzeptiert präparierte GGUF-Dateien, bei denen Tensor-Offset und -Größe die tatsächliche Dateigröße überschreiten. Während der Quantisierung liest der Server über den allokierten Heap-Buffer hinaus. Geleakte Daten können Umgebungsvariablen, API-Keys, System-Prompts und Gesprächsdaten gleichzeitig laufender Nutzer enthalten – exfiltrierbar über den /api/push-Endpunkt an einen angreiferkontrollierten Registry. Der Angriff erfordert nur drei unauthentifizierte API-Calls und hinterlässt keine Fehlermeldungen in den Logs. CVE wurde erst am 28. April 2026 zugewiesen, obwohl der Fix bereits Ende Februar ausgeliefert wurde – NVD-getriebene Scanner hatten daher zwei Monate lang keine Erkennungsgrundlage. Wer noch Ollama < 0.17.1 betreibt, muss sofort updaten und alle Secrets rotieren.

CVE-2026-42248 & CVE-2026-42249 — CVSS je 7.7 — Nur Windows — NOCH NICHT IN STABILEM RELEASE

Betroffene Versionen: Ollama für Windows 0.12.10 bis mindestens v0.23.2 (Stand: Mondoo-Bericht vom 11. Mai 2026). Der Fix wurde am 11. Mai 2026 in den main-Branch gemergt (PR #16100), war aber laut Recherche zum Zeitpunkt von v0.23.2 noch nicht in einem Tagged Release enthalten.
Nicht betroffen: macOS (verifiziert Signaturen), Linux.

Zwei von Striga-Forschern entdeckte und über CERT Polska am 29. April 2026 veröffentlichte Windows-spezifische Lücken im Auto-Updater:

  • CVE-2026-42248: Der Windows-Client verifiziert das Update-Binary vor der Installation nicht (im Gegensatz zum macOS-Build). Ein Angreifer, der den Update-Endpunkt kontrolliert, kann beliebige Executables ausliefern.
  • CVE-2026-42249: Path Traversal – der Updater leitet den Staging-Pfad direkt aus HTTP-Response-Headern ab, ohne zu sanitisieren. In Kombination mit CVE-2026-, was persistente Code-Ausführung bei jedem Login ermöglicht.

Sofortmaßnahmen für Windows-Nutzer: Auto-Updates in den Einstellungen deaktivieren. Den Startup-Ordner-Shortcut von Ollama entfernen, bis ein gepatchtes Tagged Release vorliegt (sucht nach PR #). Ollama niemals an 0.0.0.0 binden. Die Schwachstellen wurden am 27. Januar 2026 gemeldet; nach 90 Tagen Stillschweigen seitens der Maintainer wurde public disclosure eingeleitet.


🆕 Open-Weight-Modelle

DeepSeek V4 — April 2026 — MIT-Lizenz

DeepSeek hat zwei neue MoE-Modelle veröffentlicht: V4-Pro (1,6 Billionen Parameter gesamt, 49 Milliarden aktiv, 1M-Token-Kontext) und V4-Flash (284B gesamt, 13B aktiv, 1M-Token-Kontext). Das neue Attention-Stack (Compressed Sparse Attention + Heavily Compressed Attention) reduziert die Per-Token-FLOPs auf ~27 % (Pro) und ~10 % (Flash) des Vorgängers V3.2 bei 1-Million-Token-Kontext; der KV-Cache schrumpft um 90 %. Auf LiveCodeBench erreicht V4-Pro 93,5 % – damit übertrifft das Open-Weight-Modell alle geschlossenen Konkurrenten. Für lokales Inference: vLLM und SGLang lieferten am Launch-Tag offizielle Rezepte; Ollama und llama.cpp haben derzeit nur ungeprüfte Community-GGUFs. Das Mainstream-llama.cpp arbeitet an einem WIP-Branch für GGUF-Konvertierung und native FP4/FP8-Quantisierung.

Kimi K2.6 — April 2026 — Modified MIT

Moonshot AIs neuestes Open-Weight-Flaggschiff: 1 Billion Parameter gesamt (MoE), 32 Milliarden aktiv, 256K Kontext, native Multimodalität (Text, Bild, Video), INT4-Quantisierung, 384 Experten. Benchmarks (vendor-claimed): HLE w/ Tools 54,0, SWE-Bench Pro 58,6, BrowseComp 83,2. Kimi K2.6 ist darauf ausgelegt, bis zu 300 parallele Sub-Agenten zu koordinieren und Coding-Sessions über mehrere Stunden oder Tage autonom durchzuführen. Ollama-Unterstützung ist über die neue Kimi CLI-Integration verfügbar: ollama launch kimi. Für lokales Inference via llama.cpp sind GGUF-Quants auf Hugging Face verfügbar.

GLM-5 / GLM-4.7 — Zhipu AI

Zhipus GLM-Reihe hat mit GLM-5 und den schnelleren Flash-Varianten (GLM-4.7-Flash) Aufmerksamkeit erregt. Der ik_llama.cpp-Fork (ein leistungsoptimierter llama.cpp-Ableger) hat Support für GLM-5 bereits in PR 1268 und GLM-4.7-Flash in PR 1168 gemergt. MIT-Lizenz.

Qwen3.6 / Qwen3-VL

Alibabas Qwen3.6 (27B Dense, 77,2 % SWE-Bench) und die Preview-Versionen des Qwen3.6-Max sind in der Ollama-Library verfügbar. Qwen3-VL (multimodal mit OCR in 32 Sprachen) ist ebenfalls per ollama pull abrufbar. ik_llama.cpp hat Qwen3-VL-Support in PR 883 und Qwen3.5-MoE in PR 1288 integriert.

Granite 4.0 Speech (IBM) & Sarashina2.2 Vision 3B

Im llama.cpp-Wochenbericht (4.–11. Mai) werden außerdem PRs für IBM Granite-4.0-1b-Speech (Conformer-Encoder + QFormer-Projektor) und das japanische Vision-Modell Sarashina2.2 Vision 3B erwähnt – beide noch im Review.


🔀 Ökosystem

  • llama-swap: Der Go-Wrapper um llama-server wird von Entwicklern als Alternative zu Olamas Lifecycle-Management eingesetzt. Zu beachten: Viele Modelle benötigen spezifische Flags (z. B. --reasoning-format none für GLM/Qwen bei <think>-Tags); Gemma 4 erfordert Build b8665+.
  • KoboldCpp Ollama-Emulation: Verbessert – Anfragen von rein-streaming-fähigen Clients werden jetzt korrekt gepuffert. Der OpenAI-Endpunkt bleibt empfohlen, wenn unterstützt.
  • Open WebUI + Ollama Responses API: Open WebUI 0.9.5 proxied den /v1/responses-Endpunkt jetzt direkt an Ollama-Modelle, was Kompatibilität mit Clients erhöht, die ausschließlich die Responses API nutzen.
  • ik_llama.cpp (Fork): Dieser auf CPU- und hybride GPU/CPU-Performance optimierte Fork unterstützt inzwischen ein breites Spektrum aktueller Modelle (Kimi-2, DeepSeek-V3, GLM-5, Qwen3-VL, Gemma 4, Mimo-2.5, Mistral 4, u. v. m.) und hat native Android-Unterstützung über Termux.

🧠 Performance & Engineering

  • DeepSeek V4 Attention Innovation: Die neue CSA+HCA-Architektur reduziert bei 1-Millionen-Token-Kontext den KV-Cache von V4-Pro auf 10 % des V3.2-Werts – ein Quantensprung für Long-Context-Inference. V4-Flash passt in 160 GB (2× H100 FP8); V4-Pro braucht 865 GB.
  • Ollama + Gemma 4 MTP Speculative Decoding: Mehr als 2× Speedup für das Gemma-4-31B-Modell auf Apple-Silicon-Macs dank Multi-Token-Prediction in Ollama 0.24.
  • Windows llama.cpp Prebuilds: Das offizielle llama.cpp-Release-Package liefert jetzt CUDA-, Vulkan-, HIP- und SYCL-Binaries für Windows – kein Kompilieren mehr nötig. Faustregeln: NVIDIA → CUDA; AMD → Vulkan oder HIP; Intel Arc → SYCL oder Vulkan.
  • llama.cpp-ROCm Nightly Builds: Täglich aktualisierte ROCm-7.x-Binaries für Windows und Ubuntu, abgedeckte Targets: gfx103X bis gfx120X.
  • Benchmark-Praxis (llama-swap vs. Ollama): Ein unabhängiger Coding-Benchmark (AkitaOnRails, Mai 2026) dokumentiert, dass Ollama bei 6 von 8 lokalen Benchmark-Läufen scheiterte (Mid-Session-Entladen, Context-Drift, BF16-Bugs). llama-swap über llama-server erzielte stabilere Ergebnisse, erfordert aber modellspezifische Flags. Dies ist ein Einzelbericht, keine systematische Studie – dennoch ein relevanter Hinweis für Power-User mit anspruchsvollen Multi-Modell-Workflows.

🆚 Ollama vs. llama.cpp – was gerade relevant ist

DeepSeek V4: llama.cpp hat einen aktiven WIP-Branch für V4-Support (GGUF-Konvertierung, FP4/FP8, CUDA-Optimierungen) – kein Merge in main. Ollama hat ebenfalls keinen offiziellen V4-Support. Community-GGUFs sind verfügbar, aber ungeprüft. Wer V4 heute produktiv nutzen will, setzt auf vLLM oder SGLang.

Architektur-Konvergenz: Mit Ollama 0.30.0-rc nutzt Ollama künftig llama.cpp direkt statt GGML – die interne Unterscheidung zwischen beiden Tools kollabiert auf Modell-Format-Ebene. Für Endnutzer bedeutet das vollständige GGUF-Kompatibilität und potenziell weniger Divergenz bei Modell-Support.

Speculative Decoding: Ollama 0.24 bringt Gemma-4-MTP-Speculative-Decoding für Macs. llama.cpp unterstützt Speculative Decoding allgemein seit Längerem als konfigurierbares Feature (Flag --draft-model), Ollama hat diesen Parameter bisher nicht für Endnutzer exponiert.


Quellen: GitHub Releases (ollama/ollama, ggml-org/llama.cpp, open-webui, LostRuins/koboldcpp), Mondoo Security Blog, The Hacker News, Help Net Security, NVD/CVE.org, DeepLearning.AI The Batch, Latent Space AINews, Runpod Blog, DataCamp, Knightli.com – Stand 21. Mai 2026.

← Zurück zum KI Archiv (21.05.2026)