Local-LLM News Roundup – 28. Mai 2026

Stand: 28. Mai 2026 – Quellen: GitHub Releases, NVD, Help Net Security, Cyera Research, Unsloth, OpenAI, Ollama Blog, Open WebUI

🚀 Releases

Ollama

v0.24.0 (14. Mai 2026) – aktuell stabile Version
Das Headline-Feature ist die Integration der Codex App (ollama launch codex-app): OpenAIs Desktop-Coding-Umgebung mit eingebautem Browser, Page-Annotation und Code-Review-Modus direkt im App-Fenster. Empfohlene Modelle für Codex: kimi-k2.6, glm-5.1 (mit Cloud-Abo) oder nemotron-3-super, gemma4:31b, qwen3.6 (lokal ohne Abo). Außerdem wurde der MLX-Sampler für bessere Generierungsqualität auf Apple Silicon überarbeitet.
v0.23.1 (5. Mai 2026)
Gemma 4 MTP Speculative Decoding für den MLX-Runner auf Mac – laut Release Notes über 2× Geschwindigkeitssteigerung beim Modell gemma4:31b-coding-mtp-bf16 auf Coding-Tasks.
v0.23.2 (7. Mai 2026)
/api/show-Antworten werden jetzt gecacht: mediane Latenz laut Changelog um ~6,7× verbessert, spürbar bei VS-Code-Integrationen. Claude Desktop wurde aus ollama launch entfernt (Drittanbieter-Integration auf Anthropic-Modelle beschränkt).
v0.30.0-rc21 (Pre-Release, zuletzt 13. Mai 2026)
⚠️ Architekturwechsel: Ollama baut künftig direkt auf llama.cpp statt auf GGML auf und ergänzt volle GGUF-Kompatibilität. MLX bleibt für Apple Silicon. Das Projekt sammelt aktiv Community-Feedback zu Performance, Crashes und Speichernutzung – noch nicht für Produktionssysteme empfohlen.

llama.cpp

b9353 (27. Mai 2026) – aktueller Build
llama.cpp veröffentlicht kontinuierlich mehrere Builds täglich. Aktuelle Korrekturen: SSL-Log-Fix (llama-server zeigte bei SSL-Start fälschlich „http“ statt „https“), MiniCPM5-Pretokenizer-Hash, ZenDNN Adaptive Fallback auf CPU für kleine Batch-Größen, opt-in Adreno xmem F16×F32 GEMM für OpenCL-Prefill sowie ein Qwen3.5-Embeddings-Bug-Fix (embeddings_pre_norm_masked war uninitialisiert). Das Projekt hat inzwischen über 113.000 GitHub-Sterne.
DeepSeek V4 Support (WIP, Community)
Upstream llama.cpp unterstützt DeepSeek V4 noch nicht nativ. Ein WIP-Branch (wip/deepseek-v4-support von nisparks) implementiert die FP4/FP8-Architektur und enthält erste GGUFs. Parallel dazu hat antirez (Salvatore Sanfilippo) ein spezialisiertes Inferenz-Toolkit „DS4″ für DeepSeek V4 Flash auf Metal/CUDA veröffentlicht – kein generischer GGUF-Loader, sondern ein schlankes C/Metal-Projekt auf llama.cpp/GGML-Basis.

Open WebUI

v0.9.5 (10. Mai 2026)
Offizieller nativer Desktop-Client für Mac, Windows und Linux – kein Docker, keine Terminal-Einrichtung nötig. Features: System-weite Floating-Chatbar (Shift+Cmd+I / Shift+Ctrl+I), Push-to-Talk, Offline-Betrieb nach dem ersten Start, automatische Updates, zero Telemetrie. Außerdem: Geplante Chat-Automationen (tägl. Digests, wiederkehrende Reports), Migration des Async-DB-Treibers von asyncpg auf psycopg v3 und ein Fix für CVE-2025-6176 (Brotli-Abhängigkeit).

🆕 Open-Weight-Modelle

gpt-oss (OpenAI, April/Mai 2026) – Lokal verfügbar

OpenAIs erste offizielle Open-Weight-Modelle: gpt-oss-20b (21B Parameter total, 3,6B aktiv, Apache 2.0) und gpt-oss-120b (117B total, 5,1B aktiv). Beide MoE-Architekturen mit 128K-Kontextfenster. gpt-oss-20b läuft mit 16 GB RAM und eignet sich laut OpenAI für On-Device-Use-Cases; gpt-oss-120b passt in eine einzelne 80-GB-GPU. gpt-oss-120b erreicht nahezu Parität mit o4-mini auf Core-Reasoning-Benchmarks.

Lokal starten:

Ollama: ollama pull gpt-oss:20b / ollama pull gpt-oss:120b
llama.cpp: llama-server -hf ggml-org/gpt-oss-20b-GGUF --ctx-size 0 --jinja (offiziell konvertierte GGUF-Dateien von ggml-org); Unsloth bietet Dynamic-2.0-GGUFs für beide Größen.

Kimi K2.6 (Moonshot AI) – 1T Parameter, Vision

Kimi K2.6 ist ein 1-Billion-Parameter-MoE-Modell mit 256K Kontextlänge, Visions-Support und MIT-Lizenz (Einschränkungen im Modell-Card beachten). Es gilt derzeit als eines der stärksten Open-Weight-Modelle für agentic Coding und Tool Use.

Lokal starten:

Ollama: ollama pull kimi-k2.6 (im Ollama-Katalog gelistet, empfohlen für Codex App)
llama.cpp: Unsloth Dynamic GGUF (UD-Q2_K_XL Dynamic 2-bit benötigt mind. 350 GB RAM/VRAM; UD-Q8_K_XL gilt als verlustfrei, ~10 GB größer als Q4). Vorsicht: Die stark komprimierten Quants von ubergarm (iq1_kt, iq3_k etc.) benötigen den ik_llama.cpp-Fork, nicht mainline llama.cpp.

DeepSeek V4 (DeepSeek AI, April 2026) – GGUF noch WIP

DeepSeek V4-Flash (284B total, 13B aktiv, 1M Kontext) und V4-Pro (1,6T total, 49B aktiv) sind unter MIT-Lizenz auf Hugging Face verfügbar. Die lokale Inferenz über Standard-llama.cpp ist noch nicht möglich – das Modell verwendet eine Hybrid-CSA+HCA-Attention und native FP4/FP8 Sparse-Expert-Gewichte, für die eine Architektur-Erweiterung in llama.cpp erforderlich ist. Community-GGUFs (z. B. nsparks/DeepSeek-V4-Flash-FP4-FP8-GGUF) benötigen den WIP-Branch. DS4 von antirez bietet einen schnellen Metal-Pfad für 128-GB-MacBooks (Q2-Quantisierung, ~76 GB RAM).

🔴 Sicherheit

CVE-2026-7482 „Bleeding Llama“ – KRITISCH, alle Plattformen, behoben in Ollama 0.17.1

Cyera Research entdeckte einen Heap-Out-of-Bounds-Read im GGUF-Modell-Loader von Ollama. Ein Angreifer kann eine präparierte GGUF-Datei über den unauthentifizierten /api/create-Endpunkt hochladen und damit den kompletten Prozessspeicher des Ollama-Servers auslesen – inklusive API-Schlüssel, Umgebungsvariablen, System-Prompts und laufender Nutzergespräche. Angriff erfordert keine Authentifizierung und ist mit drei API-Aufrufen durchführbar.

CVSS: 9.1 (Kritisch)
Betrifft: Ollama < 0.17.1, alle Plattformen (Linux, macOS, Windows)
Behoben: Ollama 0.17.1 (veröffentlicht 25. Februar 2026 – das Security-Release wurde im Changelog nicht als solches markiert, was die Patchzeit verlängerte)
Für 0.24.x-Nutzer: Nicht relevant – fix ist seit 0.17.1 enthalten.
Empfehlung: Ollama niemals ohne Authentifizierungs-Proxy ins Internet exponieren; OLLAMA_HOST=0.0.0.0 nur in abgeschotteten Netzwerken verwenden. Bei vergangener Internet-Exposition: API-Keys rotieren.

CVE-2026-42248 + CVE-2026-42249 – Windows-Auto-Updater, kein offizieller Patch

Striga/CERT Polska veröffentlichten zwei verkettbare Schwachstellen im Ollama-Windows-Auto-Updater (Disclosure 29. April 2026). CVE-2026-42249 ist ein Path-Traversal-Bug: Der Updater übernimmt den Staging-Pfad direkt aus HTTP-Response-Headern ohne Sanitierung – ein Angreifer, der die Update-Antwort kontrolliert, kann eine beliebige Executable in den Windows-Startup-Ordner schreiben. CVE-2026-42248: Fehlende Signaturprüfung ermöglicht Code-Execution auch ohne Path-Traversal.

Betrifft: Ollama für Windows, Versionen 0.12.10–0.17.5 (CERT Polska bestätigte 0.15.1 als verwundbar)
Betrifft nicht: macOS (korrekte Code-Signing-Prüfung vorhanden), Linux
Status: Kein offizieller Patch von Ollama bestätigt (Stand 28. Mai 2026).
Workaround: Auto-Update unter Windows deaktivieren (OLLAMA_UPDATE_URL nicht auf externen Server zeigen lassen); Windows-Startup-Verknüpfung von Ollama prüfen und ggf. entfernen.

🔀 Ökosystem

Open WebUI Desktop

Der native Desktop-Client (v0.0.20, veröffentlicht 6. Mai 2026) löst einen kritischen Rendering-Bug auf Linux: Der --in-process-gpu-Chromium-Flag wurde durch SwiftShader-Software-Rendering ersetzt, das WebView-Compositing auf allen Linux-Konfigurationen korrekt ausführt. Weitere Fixes: Self-signed SSL wird nun vertraut, Clipboard-Funktionalität unter GNOME/Wayland/Flatpak repariert.

DS4 – spezialisierter DeepSeek-V4-Flash-Inferencer

antirez veröffentlichte DS4 (DwarfStar4) als schlankes, spezialisiertes Inferenz-Tool für DeepSeek V4 Flash auf Apple Silicon und CUDA – kein generischer Loader. Das Projekt basiert konzeptuell auf llama.cpp/GGML, implementiert aber eine eigene Metal-Graph-Optimierung für V4 Flash. Aktuell: Responses API, live Anthropic Streaming, persistenter KV-Cache auf Disk.

llama.cpp AMD ROCm Builds (lemonade-sdk)

Das Projekt lemonade-sdk/llamacpp-rocm liefert täglich kompilierte llama.cpp-Binaries mit ROCm 7-Unterstützung für AMD-GPUs (gfx1151, gfx1150, gfx120X, gfx110X, gfx103X) für Windows und Ubuntu. Aktueller Build: b1280 (26. Mai 2026, ROCm 7.13.0a).

🧠 Performance & Engineering

Ollama v0.30.0 (Pre-Release) – llama.cpp-Migration: Die Umstellung von GGML auf direktes llama.cpp bringt vollständige GGUF-Kompatibilität und öffnet Ollama für alle llama.cpp-Architektur-Erweiterungen. Community-Feedback zu Performance und Stabilität wird aktiv gesucht.
Gemma 4 MTP auf Mac (Ollama 0.23.1): Multi-Token Prediction (Speculative Decoding) für Gemma 4 31B Coding auf Apple Silicon – über 2× Geschwindigkeitsgewinn bei Coding-Tasks.
Kimi K2.6 GGUF-Quantisierung: Da Kimi nativ INT4-Gewichte für MoE-Layer verwendet, ist UD-Q8_K_XL von Unsloth praktisch verlustfrei (Perplexity 1,8419 vs. 1,8420 bei Q4). Dynamic 2-bit (UD-Q2_K_XL) reduziert 610 GB auf ~350 GB.
gpt-oss auf M3 Ultra: llama.cpp-Benchmarks der Community zeigen gpt-oss-20b auf einem M3 Ultra (512 GB) mit guten Token-Raten; gpt-oss-120b erfordert auf Macs mind. 64 GB VRAM für vollständige GPU-Offloading.
ZenDNN Adaptive Fallback (llama.cpp b9129): Der ZenDNN-Backend fällt nun adaptiv auf die CPU zurück, wenn die Batch-Größe zu klein für ZenDNN-Kernels ist – verhindert Regressionen auf AMD-Prozessoren gegenüber reinem CPU-Betrieb.

🆚 Ollama vs. llama.cpp – Aktuelle Unterschiede

gpt-oss: Beide Ökosysteme unterstützen das Modell vollständig. llama.cpp bietet ein offizielles GGUF von ggml-org mit Benchmark-Daten; Ollama hat gpt-oss als kuratierten Bibliothekseintrag (ollama pull gpt-oss:20b). Für reine CLI-Nutzer: llama.cpp-Benchmarks auf verschiedener Hardware sind detaillierter dokumentiert.
Ollama v0.30.0 (Pre-Release): Ollama migriert seinen Kern zu einer direkten llama.cpp-Integration – damit wird die architektonische Trennung zwischen beiden Tools kleiner. llama.cpp bleibt der Upstream; Ollama ergänzt Modell-Management, UX und App-Integrationen.
DeepSeek V4: Weder Ollama noch Standard-llama.cpp unterstützen V4 vollständig – beide Ökosysteme sind auf Community-WIP-Forks angewiesen. Erste produktive Option für Einzelnutzer: DS4 (antirez) auf Apple Silicon mit 128-GB-Mac.