Local-LLM Roundup KW 21/2026: Ollama 0.24, llama.cpp b9305, Bleeding Llama, Kimi K2.6 & GLM-Familie

Stand: 25. Mai 2026 – Wöchentlicher Überblick über Releases, Modelle, Sicherheitslücken und Ökosystem-Neuigkeiten rund um Ollama, llama.cpp und die lokale-KI-Welt.

🚀 Releases

Ollama v0.24.0 — 14. Mai 2026

Das bisher grösste Feature-Release des Jahres: Ollama v0.24.0 bringt die Integration der OpenAI Codex App. Codex kann lokale Server und Seiten in einem eingebauten Browser starten, erlaubt direktes Annotieren im Browser, Code-Reviews und paralleles Arbeiten mit Git Worktrees – alles ohne die Applikation zu verlassen. Auf Apple Silicon wurde der MLX-Sampler überarbeitet, was die Generierungsqualität verbessern soll.

Die unmittelbar vorangegangene Version v0.23.4 hatte Vision-Support für ollama launch opencode nachgerüstet sowie die Formatierung von Claude-Tool-Ergebnissen bei lokalen Bildpfaden gefixt. Chocolatey-Nutzer auf Windows erhalten 0.24.0 über den offiziellen Chocolatey-Feed (approved 15. Mai 2026).

Ebenfalls eingeflossen in den Versionszweig: Claude Desktop wird jetzt über ollama launch unterstützt (inkl. Claude Cowork und Claude Code). Ollama integriert inzwischen den llama.cpp-Stack direkt statt auf GGML aufzusetzen; MLX übernimmt die Apple-Silicon-Beschleunigung.

llama.cpp b9305 — 24. Mai 2026

llama.cpp schippt täglich neue Builds; aktuellster Stand ist b9305 (Stand 24. Mai 2026). Build b9297 vom 23. Mai behebt einen GGML-Interfacefehler bei 2D-Tensorfallbacks (Check the right iface method before using the fallback 2d get). Ebenfalls im Zeitraum gemergt: ein Fix für uninitialisiertes embeddings_pre_norm_masked in llama_context, das bei Qwen3.5-Graphen zu Assert-Fehlern führte (b9213). Windows-Nutzer profitieren seit b9196 von vorgefertigten Binaries mit CUDA 13.1-, Vulkan-, HIP- und SYCL-Unterstützung ohne eigenen Build. Die ROCm-Community-Builds (AMD) halten parallel mit täglich aktualisierten Paketen Schritt (ROCm 7.14.0a).

DeepSeek V4 Support: Ein WIP-PR für natives DeepSeek-V4-GGUF ist in Diskussion (Issue #22376 / #22319). Parallel hat Redis-Erfinder Salvatore Sanfilippo (antirez) am 7. Mai ein experimentelles Fork DS4 veröffentlicht, das DeepSeek V4 Flash auf einem MacBook Pro M3 Max (128 GB RAM) mit Q2-Quantisierung bei 26 Token/Sek. und 50 Watt Spitzenleistung betreibt – ein Ein-Modell-One-File-Engine auf Basis von Metal/GGUF ohne GGML-Abhängigkeit.

llama.cpp-Python-Bindings: Version 0.0.19 des gguf-Pakets (6. Mai) enthält neue Schreibwerkzeuge. llama-cpp-python letzte stabile Version: 11. Mai 2026.

Open WebUI v0.9.5 — 10. Mai 2026

Open WebUI (138 K GitHub-Sterne) erschien am 10. Mai 2026 mit mehreren nennenswerten Neuerungen:

  • Ollama Responses-API-Proxy: Clients können jetzt /v1/responses direkt mit Ollama-Modellen über Open WebUI nutzen – inkl. Citation-Sichtbarkeit und Tool-Output-Rendering.
  • Kalender-Workspace: Events, wiederkehrende Zeitpläne, Browser-Notifications und Webhook-Reminder sind nun vollständig in die Oberfläche integriert.
  • Datei-Anhänge: Bereits hochgeladene Dateien lassen sich ohne erneuten Upload aus dem Chat-Eingabemenü wieder anhängen.
  • Datenbankschicht: Migration von asyncpg auf psycopg v3 (für Custom-Connection-Strings ggf. Anpassung nötig).
  • Sicherheit: Brotli aktualisiert wegen CVE-2025-6176.
  • Azure: Azure OpenAI unterstützt jetzt das neue /openai/v1-Format.

LM Studio 0.4.13 — 22. Mai 2026

LM Studio 0.4.13 bringt den stabilen Release von MTP Speculative Decoding (Multi-Token Prediction): Modelle mit eingebautem MTP-Head generieren damit spürbar schneller. Parallel erschien MLX-Engine v1.8.1 (13. Mai), die parallele Predictions für Vision-Modelle wie Qwen 3.5/3.6 und Gemma 4 auf Apple Silicon beschleunigt. Frühere Builds dieses Monats hatten MCP-OAuth-Support (0.4.10) und Qwen-3.6-Support (0.4.12) gebracht sowie die Übernahme von Locally AI abgeschlossen, die native iOS/iPad-Clients für LM-Studio-Modelle ermöglicht.

KoboldCpp — aktueller Build Mai 2026

KoboldCpp vermeldet verbesserte AceStep 1.5 Music Generation (bessere Qualität, MP3-Output, Reference-Audio-Uploads) sowie eine überarbeitete Ollama-Emulation, die jetzt auch streaming-only Endpoints puffern kann (OpenAI-API bleibt empfohlen). Multiple dynamische LoRAs per Verzeichnis-Angabe sind ebenfalls neu.


🆕 Open-Weight-Modelle

Kimi K2.6 — Moonshot AI (MIT-Lizenz)

Moonshot AIs jüngstes Flaggschiff ist ein 1-Billionen-Parameter-MoE (32B aktive Parameter), nativ multimodal (Text + Bild, Video experimentell), 256K Kontextfenster. Ollama listiert das Modell unter kimi-k2.6, allerdings ausschliesslich als :cloud-Tag – die Inferenz findet auf Ollamas Cloud-Infrastruktur statt, nicht lokal. Für echtes Self-Hosting: GGUFs von Unsloth auf Hugging Face (unsloth/Kimi-K2.6-GGUF); das 2-Bit-Dynamic-Quant UD-Q2_K_XL belegt ~350 GB und läuft via llama.cpp mit --n-cpu-moe-Offloading. Community-Quants von ubergarm (ik_llama.cpp-Varianten) bieten noch kompaktere Footprints.

Kimi K2 / K2-Thinking — Moonshot AI (MIT-Lizenz)

Die älteren 1T-MoE-Varianten sind voll in llama.cpp integriert. K2-Thinking ist ein natives INT4-QAT-Modell mit 256K Kontext, erreicht SOTA auf Humanity’s Last Exam (HLE) und BrowseComp, und unterstützt bis zu 200–300 sequentielle Tool-Calls. GGUFs via unsloth/Kimi-K2-Thinking-GGUF; 1,8-Bit Dynamic Quant ~230 GB. Empfehlung: Temperatur 1.0, min_p 0.01.

Qwen 3.6 27B — Alibaba Cloud (Apache 2.0)

Am 20. Mai als GGUF-Ready-Release erschienen: Qwen 3.6 27B liegt bei Q4_K_M zwischen 15–18 GB, passt auf eine 24-GB-Karte oder einen M-Series-Mac mit Reserve. Mit 77,2 % SWE-bench-Score gilt er als stärkstes Dense-Coding-Modell dieser Grössenklasse. Auf Ollama per ollama pull qwen3.6:27b verfügbar. Der MoE-Ableger Qwen 3.6 35B A3B (nur 3B aktiv) passt sogar auf schwächere Hardware.

GLM-4.6 & GLM-5 / GLM-5.1 — Zhipu AI / Z.ai

GLM-4.6 (355B, 40B aktiv, 200K Kontext): Im Vergleich zu GLM-4.5 wurde der Kontextfenster von 128K auf 200K erweitert; Coding-Benchmarks zeigen Verbesserungen bei visuell polished Frontend-Ausgaben. GGUFs bei bartowski und Unsloth; wichtig: --jinja-Flag für llama.cpp-Quants verwenden, sonst falsche Outputs. Auf Ollama als Cloud-Service verfügbar (GLM-4.6 + Qwen3-Coder-480B).

GLM-5 (744B, 40B aktiv, 200K Kontext, 28,5T Trainingstokens): 2-Bit Dynamic GGUF ~241 GB, passt direkt auf einen 256-GB-Mac oder 1×24 GB GPU + 256 GB RAM mit MoE-Offloading. Etwa 12 Token/s auf einem Server mit Q4_K_XL bei 60K Kontext laut Community-Berichten.

GLM-5.1 gleiche Architektur wie GLM-5, angepasstes Chat-Template, 202K Kontext, Thinking standardmässig aktiviert. GGUFs auf Hugging Face (Unsloth Dynamic 2.0).

OpenAI gpt-oss-20b / gpt-oss-120b (MIT-Lizenz)

OpenAIs erste Open-Weight-Modelle sind über Unsloth als GGUF verfügbar (unsloth/gpt-oss-20b-GGUF). Das 20B-Modell zielt auf lokale und Spezialanwendungen, das 120B-Modell (5,1B aktive Parameter, MoE) passt auf eine einzelne H100. LM Studio erkennt die Modelle nativ; auf Ollama als Cloud-Modell gelistet (gpt-oss). Unsloth Dynamic 2.0 Quantisierung ist für beide Grössen verfügbar.


🔴 Sicherheit

⚠️ CVE-2026-7482 „Bleeding Llama“ — KRITISCH — Alle Plattformen — Ollama < 0.17.1

Cyera-Forscher haben eine Heap-Out-of-Bounds-Read-Schwachstelle im GGUF-Modell-Loader von Ollama entdeckt. CVSS-Score: 9.1 (CRITICAL), betrifft alle Plattformen (Linux, macOS, Windows). Ein Angreifer kann eine präparierte GGUF-Datei hochladen, die einen grösseren Tensor-Offset deklariert als die Datei enthält, wodurch Ollama weit über den vorgesehenen Buffer hinaus liest. Aus dem geleakten Heap-Speicher können API-Keys, Systemprompte, User-Conversations und Umgebungsvariablen aller laufenden Modelle extrahiert werden – ohne Authentifizierung, in nur drei API-Aufrufen. Schätzungsweise 300.000 internet-exponierte Server sind betroffen.

Fix: Ollama v0.17.1 (veröffentlicht 25. Februar 2026). Das Patch wurde damals nicht als Security-Fix markiert, sodass viele Betreiber keine Dringlichkeit erkannten. Der CVE wurde erst Ende April 2026 nach Eskalation an eine Dritt-CNA (Echo) zugewiesen. Nutzer vor v0.17.1 sollten sofort updaten, API-Schlüssel rotieren und die Instanz hinter einen Authentifizierungs-Proxy verlegen. Ollama-Instanzen sollten nie unauthentifiziert im Internet erreichbar sein.

Hinweis für aktuelle Nutzer: Wer bereits auf 0.24.x läuft, ist nicht betroffen.

⚠️ CVE-2026-42248 + CVE-2026-42249 — HOCH — Windows only — Ollama für Windows 0.12.10–0.17.5 — Ungepacht

Striga-Forscher haben zwei Schwachstellen im Windows-Auto-Updater von Ollama (CVSS je 7.7) offengelegt. CVE-2026-fehlende Signaturprüfung: Der Updater prüft heruntergeladene Installer nicht auf Codesigning. CVE-2026-Path-Traversal-Lücke: Der lokale Pfad für den Staging-Installer wird direkt aus HTTP-Response-Headern gebaut ohne Sanitierung – ein Angreifer kann über einen manipulierten ETag-Header (../-Sequenzen) eine beliebige Executable in den Windows-Startup-Ordner schreiben, die bei jedem Login ausgeführt wird.

Betrifft: Ollama für Windows, Versionen 0.12.10–0.17.5. macOS-Builds sind nicht betroffen (korrekte Code-Signing-Prüfung). Status: Zum Zeitpunkt der Veröffentlichung ungepacht. CERT Polska hat nach 90-Tage-Frist koordiniert. Workaround: AutoUpdate deaktivieren und den Ollama-Eintrag aus dem Windows-Startup-Ordner entfernen, bis ein Fix verfügbar ist.


🔀 Ökosystem

  • Open WebUI + Ollama: Der neue Responses-API-Proxy erlaubt es, /v1/responses direkt mit Ollama-Modellen zu nutzen – damit sind Agents und Tool-Call-Flows ohne separaten OpenAI-API-Key möglich.
  • LM Studio & Locally AI: Die Akquisition von Locally AI bringt native iPhone/iPad-Unterstützung für LM-Studio-Modelle. LM Link ermöglicht Ende-zu-Ende-verschlüsselten Gerätezugriff ohne eigenen VPN-Setup.
  • KoboldCpp: Die verbesserte Ollama-Emulation (buffertes Streaming) schliesst eine wichtige Kompatibilitätslücke für Clients, die kein Non-Streaming unterstützen. AceStep XL für Musikgenerierung ist neu.
  • ramalama / llama-swap: Keine grossen Releases diese Woche; beide Projekte bauen stabil auf dem llama.cpp-Kern auf.
  • gguf Python-Package: Version 0.19.0 vom 6. Mai 2026 enthält neue Metadaten-Schreibwerkzeuge und den visuellen GGUF-Editor als optionale Abhängigkeit.

🧠 Performance & Engineering

DeepSeek V4 Flash: Consumer-Hardware rückt näher

Salvatore Sanfilippos experimentelle Engine DS4 (7. Mai) demonstriert, dass DeepSeek V4 Flash (284B MoE, 13B aktiv) mit 2-Bit-Quantisierung auf einem MacBook Pro M3 Max mit 128 GB RAM bei 26 Token/Sek. und 50 Watt läuft. Das offizielle llama.cpp-Upstream-Tracking (Issue #22319 / WIP-PR) zeigt aktive Arbeit an nativem FP4/FP8-Quantisierungs-Support und CUDA-Optimierungen für DeepSeek V4. Community-GGUFs für das NVIDIA DGX Spark sind bereits auf Hugging Face verfügbar.

Unsloth Dynamic 2.0: SOTA-Quantisierungsgenauigkeit

Unsloth hat für alle grossen neuen Modelle (Kimi K2.6, GLM-4.6, GLM-5, GLM-5.1, gpt-oss) Dynamic-2.0-GGUFs veröffentlicht, die wichtige Layer auf 8/16 Bit hochskalieren und so bei gleicher Dateigrösse spürbar bessere Perplexität als statische Quants erzielen. Für native INT4-MoE-Modelle wie Kimi K2 schlägt ein spezieller Bijection-Patch den Q4_0-Fehler von 1,8 % auf near-zero.

MTP Speculative Decoding in LM Studio

Multi-Token-Prediction-basiertes Speculative Decoding ist in LM Studio 0.4.13 (22. Mai) stabil. Es nutzt eingebettete Prediction-Heads kompatibler Modelle. llama.cpp unterstützt Draft-Modell-basiertes Speculative Decoding bereits länger über -md draft.gguf; Ollama exponiert diesen Knopf nicht direkt.

Qwen3.5-Bug in llama.cpp behoben

Build b9213 fixte einen uninitialisierten embeddings_pre_norm_masked-Member in llama_context, der bei Qwen3.5-Graphen zu einem Assert-Fehler in get_rows_f32 führte. Nutzer von Qwen3.5 in llama.cpp sollten auf b9213+ updaten.

AMD ROCm-Builds

lemonade-sdk/llamacpp-rocm veröffentlicht täglich Binaries für gfx103X/110X/120X/1150/1151 mit ROCm 7.14.0a – keine Eigencompilierung mehr nötig für RX 6000/7000/9000-Nutzer auf Windows und Ubuntu.


🆚 Ollama vs. llama.cpp – was heute actionable ist

  • Kimi K2.6 lokal: Ollama bietet nur den :cloud-Tag – echte lokale Inferenz verlangt llama.cpp + GGUF von HuggingFace und mindestens 350 GB RAM/VRAM für 2-Bit.
  • DeepSeek V4 Flash: Mainline llama.cpp hat WIP-Support; antirez‘ DS4-Fork läuft produktionsreif auf Apple Silicon. Ollama: kein offizieller lokaler Support bisher.
  • Speculative Decoding: llama.cpp (und LM Studio darauf) bieten stabile Draft-Model- und MTP-Decoding-Optionen. Ollama hat den MLX-Sampler verbessert, legt den Knopf aber nicht direkt für Nutzer frei.
  • Windows-Sicherheit: Beide CVE-2026-42248/49 betreffen ausschliesslich Ollamas Windows-Client; llama.cpp hat keinen eigenen Auto-Updater.

Quellen: GitHub Releases (ollama/ollama, ggml-org/llama.cpp, open-webui/open-webui, LostRuins/koboldcpp), lmstudio.ai/changelog, HuggingFace (unsloth, bartowski, ubergarm), Cyera Research, Help Net Security, SecurityWeek, The Hacker News, Buttondown llama.cpp Weekly, PyPI.

← Zurück zum KI Archiv (25.05.2026)