Local-LLM Roundup 27. Mai 2026: Ollama 0.24, Bleeding Llama, Kimi K2.6 & DeepSeek V4

Tagesüberblick über das Local-LLM-Ökosystem – Ollama, llama.cpp, Open WebUI, KoboldCpp und aktuelle Modelle. Stichtag: 27. Mai 2026.

🚀 Releases

Ollama v0.24.0 (14. Mai 2026)

⚡ Aktuellste stabile Version.
Ollama v0.24.0 bringt mehrere nennenswerte Neuerungen:

  • Codex-App-Integration: OpenAIs Codex-Desktop-App ist nun über ollama launch nutzbar – inklusive eingebautem Browser, der lokale Server und Sites laden kann, sowie Review-Modus für Code-Kommentare direkt in der App.
  • /api/show-Caching: Antworten werden jetzt gecacht, was die mediane Latenz um den Faktor ~6,7 verbessert – spürbar vor allem in VS-Code-Integrationen.
  • Gemma-4-MTP-Speculative-Decoding auf Mac: Für das Gemma-4-31B-Modell auf Apple Silicon sind damit Coding-Tasks mehr als doppelt so schnell möglich.
  • Claude Desktop entfernt: ollama launch enthält Claude Desktop nicht mehr (Drittanbieter-Integration war auf Anthropic-Modelle beschränkt). Wiederherstellung via ollama launch claude-desktop --restore möglich.
  • Neue Modelle in der Library: Kimi-K2.5, GLM-5, MiniMax, Qwen3-VL und andere sind verfügbar.

Parallel dazu befindet sich v0.30.0-rc15 in der Vorschau (Stand 13. Mai). Das Python-SDK steht aktuell als v0.6.2 bereit (29. April 2026).

llama.cpp-Vergleich: Ollama nutzt nun eine direkte llama.cpp-Unterstützung anstatt auf GGML aufzubauen; der plain llama-server bleibt weiterhin ein schlanker HTTP-Server ohne eigene UI und empfiehlt externe Frontends wie Open WebUI.

llama.cpp b9333 (26. Mai 2026)

llama.cpp erscheint im kontinuierlichen Rolling-Release-Rhythmus.
Build b9333 ist der aktuellste Stand (26. Mai). Relevante Aktivitäten der letzten Woche:

  • CI-Reorganisation: PR #23675 trennt Android, HIP, WebGPU und RPC in separate Workflows auf – schnellere Builds, weniger unnötige Job-Läufe.
  • Qwen3.5-Bug-Fix: Ein nicht initialisierter embeddings_pre_norm_masked-Member in llama_context verursachte einen Assert-Fehler beim Graph-Aufbau von Qwen3.5-Modellen (get_rows_f32). Behoben in b9213.
  • Adreno-OpenCL-GEMM: Opt-in xmem F16×F32-Pfad für Prefill-Matmul auf Qualcomm-Adreno-GPUs via GGML_OPENCL_USE_ADRENO_KERNELS.
  • ZenDNN-Fallback: Adaptiver CPU-Fallback für kleine Batch-Größen verhindert Regressionen gegenüber dem nativen CPU-Backend.
  • Upstream hat inzwischen mehr als 109.000 GitHub Stars.

Open WebUI v0.9.5 (10. Mai 2026) & Desktop v0.0.20 (6. Mai 2026)

  • Desktop-App allgemein verfügbar für Mac, Windows und Linux – kein Docker, kein Terminal. System-weite Floating-Chat-Bar (Shift+Cmd+I / Shift+Ctrl+I), Push-to-Talk, Offline-Betrieb und automatische Updates.
  • Geplante Automatisierungen: KI-Tasks können nun auf wiederkehrender Basis (z. B. täglich) automatisch ausgeführt werden.
  • Datenbank-Migration: asyncpg → psycopg v3 (transparente Änderung für die meisten Deployments).
  • Brotli-Update: Dependency auf CVE-2025-6176 gepatcht.
  • Desktop v0.0.20 behebt Blank-Webview auf Linux durch SwiftShader-Rendering und ermöglicht Self-Signed-SSL-Verbindungen.

KoboldCpp (aktuelle rolling builds)

  • AceStep-XL-Support hinzugefügt (Musik-Generierung mit Reference-Audio-Upload, MP3-Ausgabe, Stereo als Standard).
  • Verbesserte Ollama-Emulation: Requests von Endpunkten, die nur Streaming unterstützen, werden nun korrekt gepuffert.
  • Multiple Dynamic LoRAs: --sdlora unterstützt jetzt Verzeichnisse; alle darin enthaltenen Image-LoRAs lassen sich zur Laufzeit laden.
  • KoboldCpp hat die 10.000-Stars-Marke auf GitHub überschritten.

🆕 Open-Weight-Modelle

Kimi K2.6 – Moonshot AI (Mai 2026)

Architektur: MoE, ~1T Parameter gesamt, 32B aktiv pro Token. Kontext: 256K (262.144 Tokens). Multimodal: Text + Bild nativ. Lizenz: MIT-kompatibel. Gewichte: HuggingFace moonshotai/Kimi-K2.6.

  • Ollama-Library: Nur als kimi-k2.6:cloud verfügbar – Inferenz läuft auf Ollamaʼs Cloud-Infrastruktur, nicht lokal. Für echte Offline-Nutzung sind die HF-Gewichte mit vLLM, SGLang oder KTransformers nötig.
  • llama.cpp/GGUF: Unsloth stellt Dynamic-GGUFs bereit (UD-Q2_K_XL ~350 GB, UD-Q8_K_XL ~620 GB lossless). Die UD-Q2_K_XL-Variante benötigt mindestens 350 GB RAM/VRAM.
  • K2.6 unterstützt Vision auch im GGUF-Format (mmproj-F16.gguf). Video-Input ist derzeit nur über Moonshots offizielle API garantiert.

GLM-5 & GLM-5.1 – Z.ai / Zhipu AI (Februar / April 2026)

GLM-5: 744B MoE (40B aktiv), 200K Kontext, MIT-Lizenz. Gewichte auf Hugging Face und ModelScope. Verfügbar unter ollama run glm-5. Für lokale Nutzung mit llama.cpp/Unsloth verfügbar; die volle BF16-Version benötigt ~1,65 TB Speicherplatz.

GLM-5.1 (7. April 2026) ist ein Post-Training-Upgrade auf GLM-5 mit deutlich stärkerer Coding- und Agentic-Performance. Es erreicht 58,4 Punkte auf SWE-Bench Pro und führt damit aktuell die Open-Weight-Rangliste an. Ebenfalls auf dem Ollama-Library unter ollama run glm-5.1. Für die meisten Entwickler bleibt es aufgrund der Modellgröße (8×H100 für FP8-Inferenz) ein API-Modell.

DeepSeek V4 Flash – Community-GGUF (WIP)

DeepSeek-V4-Flash (284B gesamt, 37B aktiv, MoE, 1M-Token-Kontext) ist offiziell auf Hugging Face verfügbar, aber der upstream llama.cpp unterstützt die Architektur noch nicht vollständig. Die Modelle nutzen ein hybrides CSA+HCA-Attention-System sowie native FP4/FP8-Gewichte. Community-Entwickler (antirez, nsparks) haben WIP-Forks und GGUFs bereitgestellt:

Eine Upstream-PR (wip/deepseek-v4-support) ist offen, aber noch nicht gemergt. Wer eine stabile lokale Inference mit vergleichbarer Qualität sucht, ist mit Qwen3-32B oder Llama 3.3 70B INT4 aktuell besser bedient.


🔴 Sicherheit

CVE-2026-7482 „Bleeding Llama“ – Kritisch, alle Plattformen, Ollama < 0.17.1 ✅ Gepatcht

Betrifft: Ollama < 0.17.1 · Plattformen: Alle (Linux, macOS, Windows) · CVSS: 9.1 (kritisch) · Veröffentlicht: 4. Mai 2026

Ein Heap-Out-of-Bounds-Read im GGUF-Model-Loader erlaubt es unauthentifizierten Angreifern, den gesamten Prozessspeicher auszulesen – inklusive API-Keys, Umgebungsvariablen, System-Prompts und laufender Nutzer-Konversationen. Die Lücke ist über /api/create (kein Auth nötig) mit einer präparierten GGUF-Datei ausnutzbar. Über 300.000 öffentlich erreichbare Server galten als betroffen. Der Patch ist in v0.17.1 enthalten. Wer v0.24.x betreibt, ist nicht betroffen. Wer sich noch auf einer älteren Version befindet: sofort aktualisieren. War Ollama-Instanz öffentlich erreichbar: API-Keys und Credentials rotieren.

CVE-2026-42248 + CVE-2026-42249 – Windows Auto-Updater, RCE bei Login, Status unklar

Betrifft: Ollama für Windows 0.12.10–0.17.5 (getestet) · Plattformen: Windows only · Veröffentlicht: 29. April 2026 (CERT Polska)

  • CVE-2026-42248: Die Signaturprüfung im Windows-Auto-Updater existiert zwar, tut aber nichts – heruntergeladene Dateien werden ohne Validierung ausgeführt.
  • CVE-2026-42249: Path-Traversal im Updater – ein Angreifer, der die Update-Antwort kontrolliert, kann via manipuliertem ETag-Header eine beliebige Executable in den Windows-Startup-Ordner schreiben. Die Datei wird bei jedem Login ausgeführt.

Voraussetzung: Angreifer muss die Update-URL kontrollieren (z. B. via OLLAMA_UPDATE_URL auf HTTP-Basis) und AutoUpdate muss aktiviert sein (Standard). Maintainer haben bisher keine öffentliche Stellungnahme veröffentlicht. Bis eine Aussage zu neueren Versionen vorliegt: Auto-Update auf Windows deaktivieren und den Startup-Ordner-Shortcut entfernen. macOS ist nicht betroffen (korrekte Code-Signing-Prüfung).


🔀 Ökosystem

Open WebUI – Neue Projekte im Orbit

Die Open-WebUI-Organisation auf GitHub ist aktiver denn je. Neben der Haupt-App (138K Stars) sind neue Satellite-Projekte aktiv: mcpo (MCP-zu-OpenAPI-Proxy, 4,2K Stars), oikb (Knowledge-Base-Sync), und ein öffentlicher open-terminal (HTTP-basierter Terminal-Zugang, 2,6K Stars). Das Helm-Chart-Repo wurde zuletzt am 20. Mai aktualisiert.

llama-cpp-python v0.x (11. Mai 2026)

Das Python-Binding hat sich deutlich weiterentwickelt: Qwen3.5-Hybrid-Prefix-Reuse-Fix, riscv64-Wheel-Builds, Ruff-basiertes Linting in der CI, und ein neuer gpt-oss-Chat-Format-Support via strftime_now. Die Wheels werden nun als py3-none veröffentlicht.

ROCm-Builds für llama.cpp (lemonade-sdk)

Die lemonade-sdk/llamacpp-rocm-Builds liefern vorkompilierte llama.cpp-Binaries mit AMD-ROCm-7-Support für Windows und Ubuntu (GPU-Targets: gfx103X–gfx1151). Letzte Version b1277 vom 23. Mai, gebaut gegen llama.cpp-Commit b0df4.


🧠 Performance & Engineering

Gemma-4-Speculative-Decoding auf Apple Silicon

Ollama v0.24.x bringt MTP-basierende Speculative Decoding für Gemma 4 auf Macs – mit über 2× Geschwindigkeitssteigerung für Gemma-4-31B bei Coding-Tasks. llama.cpp selbst unterstützt Speculative Decoding generell (modellunabhängig), aber ohne ein dediziertes UI-Toggle; die Konfiguration erfolgt über CLI-Parameter.

DeepSeek V4 – Neue Quant-Techniken in GGUF

Die Community-GGUFs für DeepSeek V4 Flash nutzen native MXFP4 für MoE-Gewichte und FP8 E4M3 für dichte Schichten – eine 1:1-Konvertierung der originalen Checkpoint-Präzision ohne Umweg über höhere Präzision. Upstream llama.cpp muss noch native F8_E4M3_B128– und MXFP4-Unterstützung integrieren, damit diese Dateien ohne WIP-Branch laufen.

Tensor-Parallelismus-Bug bei Qwen3.6 auf ≥3 GPUs

Ein bekanntes Problem in llama.cpp: Tensor-Parallelismus mit drei oder mehr GPUs auf Qwen3.6-35B-A3B-Modellen erzeugt im llama-server endlosen Slash-Output. Mit zwei GPUs oder kleineren Modellen tritt das Problem nicht auf. Bugfix ausstehend.


🆚 Ollama vs. llama.cpp – Kurzvergleich

  • Speculative Decoding (Apple Silicon): Ollama 0.24 schaltet MTP-Speculative-Decoding für Gemma 4 mit einem einzigen Pull frei. llama.cpp bietet denselben Mechanismus generisch, erfordert aber manuelle --draft-model-Konfiguration.
  • DeepSeek V4 Flash: Ollama enthält noch keinen offiziellen Support. llama.cpp hat einen offenen WIP-PR, der Stock-Build kann das Modell nicht laden.
  • API-Show-Caching: Ollama-spezifische Optimierung (~6,7× schnellere Metadaten-Abrufe). llama.cpp’s /v1/models-Endpunkt ist zustandsloser und benötigt kein Caching.

Quellen: GitHub ollama/ollama, GitHub ggml-org/llama.cpp, GitHub open-webui, Help Net Security (CVE-2026-42248/49), Cyera Research (CVE-2026-7482), Unsloth Kimi K2.6, antirez/llama.cpp-deepseek-v4-flash

← Zurück zum KI Archiv (27.05.2026)