Local-LLM-Roundup: Ollama 0.24 mit Codex-App, „Bleeding Llama“-Sicherheitslücken, neue MoE-Modelle (29. Mai 2026)

Täglicher Überblick über das lokale KI-Ökosystem: Releases, Sicherheitslücken, neue Modelle und Neuigkeiten aus dem Ökosystem – Stand 29. Mai 2026.

🚀 Releases

Ollama v0.24.0 – Codex-App-Integration (14. Mai 2026)

⭐ Aktuelles Stable-Release. Ollama v0.24.0 ist das neueste stabile Release und bringt die Integration der Codex App: einen eingebetteten Browser zur direkten Seitenannotation, einen Code-Review-Modus mit Inline-Kommentaren sowie einen Wiederherstellungsbefehl (ollama launch codex-app --restore). Zusätzlich wurde der MLX-Sampler für verbesserte Ausgabequalität auf Apple Silicon überarbeitet. Für schwierige Coding- und Agenten-Aufgaben empfiehlt Ollama die Modelle kimi-k2.6 (mit Vision-Unterstützung) und glm-5.1; für den rein lokalen Betrieb ohne Cloud-Abo sind nemotron-3-super, gemma4:31b und qwen3.6 empfohlen.

Vorherige Highlights der 0.23.x-Serie (Mai 2026):

  • v0.23.4: ollama launch opencode unterstützt jetzt Vision-Modelle mit Bild-Eingaben.
  • v0.23.2: /api/show-Antworten werden gecacht → mediane Latenz 6,7× schneller, was Integrationen wie VS Code direkt spürbar beschleunigt.
  • v0.23.1: Gemma-4-MTP-Spekulative-Dekodierung für den MLX-Runner – laut Ollama über 2× Geschwindigkeitsgewinn bei Gemma 4 31B auf Coding-Aufgaben.
  • v0.23.0: Claude-Desktop-Unterstützung per ollama launch claude-desktop.
  • v0.22.0: NVIDIA Nemotron 3 Omni und Poolsides Laguna XS.2 im Modell-Katalog.

v0.30.0 Pre-Release (RC21, 13. Mai): Ein laufender Pre-Release-Zweig baut Ollamas Architektur um – statt auf GGML aufzusetzen, wird llama.cpp direkt eingebunden und das GGUF-Format nativ unterstützt. MLX bleibt der Apple-Silicon-Beschleuniger. Feedback zu Performance, Abstürzen und Speicherverbrauch ist erwünscht.

🔗 github.com/ollama/ollama/releases

llama.cpp – Build b9374 (28. Mai 2026)

llama.cpp baut täglich neue Builds; der aktuell neueste ist b9374 vom 28. Mai 2026 (veröffentlicht ca. 07:34 UTC). Das Projekt zählt inzwischen über 114.000 GitHub-Sterne. Relevante jüngste Änderungen aus dem Changelog:

  • b9371: Entfernung veralteter WebGPU-Konstanten (ggml-webgpu) – Breaking-Change für WebGPU-Nutzer.
  • b9213: Bugfix – nicht initialisiertes embeddings_pre_norm_masked im llama_context führte zu falschen Qwen3.5-Graphen und Assert-Fehlern.
  • b9145: API-Alignment für continue_final_message / add_generation_prompt analog zu vLLM-Verhalten im WebUI.
  • b9129: ZenDNN-Backend erhält adaptiven Fallback auf CPU bei kleinen Batch-Größen, sodass ZenDNN nie schlechter ist als der native CPU-Pfad.
  • DeepSeek-V4-Support (WIP): Ein größerer PR fügt GGUF-Konvertierung, natives FP4/FP8-Quant, CUDA-Optimierungen und erweiterte Aktivierungsquantisierung für DeepSeek V4 hinzu.
  • Windows Prebuilt Binaries: Offizielle Windows-Builds unterstützen jetzt CUDA 13.1, Vulkan, HIP (AMD) und SYCL (Intel) – kein Kompilieren aus dem Quellcode mehr nötig.
  • Tensor-Parallelismus-Bug: Bei ≥3 GPUs mit Qwen3.6-35B-A3B liefert llama-server endlose Schrägstriche als Ausgabe; 2-GPU-Setups und kleinere Modelle sind nicht betroffen.

🔗 github.com/ggml-org/llama.cpp/releases

LM Studio v0.4.14 – MTP-Spekulative-Dekodierung (22. Mai 2026)

LM Studio hat mit Build 4 die MTP-Spekulative-Dekodierung (Multi-Token Prediction) als stabiles Release ausgeliefert. Zuvor war das Feature als Beta verfügbar. MTP beschleunigt die Generierung bei Modellen mit eingebauten Multi-Token-Prediction-Köpfen spürbar. Das MLX-Engine-Update auf v1.8.1 (13. Mai) verbessert außerdem Performance und parallele Vorhersagen für Vision-fähige Modelle wie Qwen 3.5/3.6 und Gemma 4.

🔗 lmstudio.ai/changelog

RamaLama v0.21.0 (14. Mai 2026)

RamaLama – das container-basierte CLI-Tool für KI-Inferenz (Podman/Docker) – veröffentlichte Version 0.21.0. Es isoliert Modelle in rootlosen Containern mit Read-Only-Mounts und --network=none, was eine saubere Alternative zur direkten llama.cpp-Ausführung ohne Netzwerkzugriff bietet.

🔗 pypi.org/project/ramalama

🆕 Open-Weight-Modelle

Kimi K2.5 / K2.6 (Moonshot AI)

Kimi K2.5 ist ein 1-Billion-Parameter MoE-Modell (32B aktiv pro Token) mit nativem Multimodal-Pre-Training auf ~15 Billionen gemischten Text- und Bild-Tokens. Es verfügt über eine 256K-Token-Kontextfenster, zwei Inference-Modi (Thinking / Instant) und eine „Agent-Swarm“-Technologie, die bis zu 100 parallele Agenten koordinieren kann. Unsloth stellt GGUF-Quants über Dynamic 2.0 bereit (1,8-bit bis Q8); der 2-bit-Quant (UD-Q2_K_XL, ~375 GB) lässt sich auf einer RTX 4090 mit 256 GB RAM per CPU-Offloading betreiben (~5–10 tokens/s). Hinweis: Vision-Eingaben sind im GGUF-Format noch nicht verfügbar; dafür wird vLLM benötigt.

Kimi K2.6 ist die Nachfolgeversion mit Fokus auf Long-Horizon-Coding, Coding-Driven-Design und autonomer Ausführung; GGUF-Quants ebenfalls bei Unsloth. Ollama empfiehlt K2.6 explizit für anspruchsvolle Coding- und Agenten-Aufgaben.

GLM-5 / GLM-5.1 (Zhipu AI)

GLM-5.1 ist als Coding-Modell für SWE-Bench-Pro gerankt und direkt in Ollama verfügbar. Ollama nennt es neben Kimi K2.6 als Empfehlung für schwierige Agentenaufgaben. GGUF-Versionen laufen auf llama.cpp. Ollama: ollama pull glm-5.1

Qwen 3.6 (Alibaba)

Qwen 3.6 ist aktuell die am schnellsten wachsende Modellfamilie in der Ollama-Library. Die 35B-A3B-Variante (MoE, 3B aktiv) ist praktisch auf Consumer-Hardware. Community-Quants von Unsloth und DavidAU sind schnell nach Release auf Hugging Face erschienen. Ollama: ollama pull qwen3.6 bzw. ollama pull qwen3.6:27b. Bekanntes Problem: Tensor-Parallelismus mit ≥3 GPUs auf Qwen3.6-35B-A3B produziert fehlerhafte Ausgaben in llama-server.

Llama 4 Scout (Meta)

Llama 4 Scout (17B aktiv / 109B total, MoE-Architektur) ist stabil in der Ollama-Library und lässt sich mit ~10 GB VRAM betreiben. Ollama: ollama pull llama4:scout

🔴 Sicherheit

⚠️ CVE-2026-7482 – „Bleeding Llama“ – Kritischer Heap-OOB-Read (alle Plattformen, Ollama < 0.17.1)

Betroffen: Ollama vor Version 0.17.1 – alle Plattformen. Nicht betroffen: Ollama ≥ 0.17.1 (aktuelles Stable: 0.24.0).

Cyera Research entdeckte eine kritische Heap-Out-of-Bounds-Read-Schwachstelle im GGUF-Modell-Loader von Ollama (CVSS 9.1). Ein Angreifer kann einen manipulierten GGUF-File einreichen, dessen deklarierte Tensor-Größe die tatsächliche Dateilänge überschreitet. Ollama liest dabei über den vorgesehenen Heap-Buffer hinaus und gibt sensible Daten zurück – darunter Umgebungsvariablen, API-Keys, System-Prompts und Gesprächsverläufe aller laufenden Nutzer. Die Ausnutzung erfordert keine Authentifizierung; beide betroffenen Endpunkte (/api/create, /api/push) sind im Standard ungeschützt. Schätzungsweise 300.000 internet-zugängliche Server sind potenziell betroffen, weil die Konfiguration OLLAMA_HOST=0.0.0.0 weit verbreitet ist.

Der Patch wurde am 25. Februar 2026 in v0.17.1 ausgeliefert, jedoch ohne expliziten Sicherheitshinweis in den Release Notes. Das CVE wurde erst am 28. April 2026 über den externen CNA „Echo“ vergeben, nachdem MITRE zwei Monate nicht reagiert hatte. Wer eine Version vor 0.17.1 betreibt, sollte sofort aktualisieren und bei internet-zugänglichen Instanzen alle Credentials rotieren.

🔗 Cyera-Bericht | SecurityWeek

⚠️ CVE-2026-42248 & CVE-2026-42249 – Windows-Auto-Updater RCE (Windows only, Ollama 0.12.10–0.17.5)

Betroffen: Ollama für Windows, Versionen 0.12.10 bis 0.17.5. Nicht betroffen: macOS- und Linux-Builds; Ollama ≥ 0.18.x.

Striga-Forscher veröffentlichten nach Ablauf einer 90-Tage-Frist zwei verkettbare Schwachstellen im Windows-Auto-Updater (CVSS je 7,7):

  • CVE-2026-42248: Die Signatur-Verifikationsfunktion existiert, wird aufgerufen, tut aber nichts – heruntergeladene Dateien werden ungeprüft ausgeführt.
  • CVE-2026-42249: Path-Traversal – der Windows-Updater übernimmt den lokalen Staging-Pfad direkt aus HTTP-Response-Headern (ETag) ohne Sanitisierung. Ein Angreifer mit Kontrolle über den Update-Server kann beliebige Executables in den Windows-Startup-Ordner schreiben.

Die Kette setzt voraus, dass AutoUpdate aktiviert ist (Standard), und dass der Angreifer den Update-Server kontrolliert oder via OLLAMA_UPDATE_URL umleiten kann. CERT Polska hat die CVEs am 29. April 2026 veröffentlicht. Stand heute: kein offizieller Patch von Ollama. Empfehlung: automatisches Update auf Windows deaktivieren und den Ollama-Startup-Shortcut entfernen, bis ein Fix vorliegt.

🔗 Help Net Security

🔀 Ökosystem

Open WebUI v0.9.5 (10. Mai 2026)

Das neueste stable Release bringt unter anderem:

  • Responses-API-Proxy: Der Ollama-Proxy unterstützt jetzt den /v1/responses-Endpunkt direkt mit Ollama-Modellen.
  • Kalender-Workspace: Vollwertiger Kalender mit wiederkehrenden Events, In-App-Toast-Benachrichtigungen, Browser-Notifications und Webhook-Alerts.
  • Datei-Anhänge (History): Bereits hochgeladene Dateien lassen sich über einen neuen „Files“-Tab im Chat-Input direkt wiederverwenden.
  • Azure Responses Support für das neue /openai/v1-Format.
  • Sicherheits-Update: Brotli-Dependency aktualisiert wegen CVE-2025-6176; Datenbank-Treiber von asyncpg auf psycopg v3 migriert.

Das Desktop-Begleit-App (v0.0.20) behebt einen Blank-Webview-Bug auf Linux durch SwiftShader-Software-Rendering und unterstützt native ARM64-Builds für Raspberry Pi, DGX Spark und Snapdragon-Laptops.

🔗 github.com/open-webui/open-webui/releases

llama-swap – aktiver Entwicklungszustand (v201+)

llama-swap ist ein schlankes Go-Binary, das mehrere lokale llama-server-Prozesse hinter einem einzigen OpenAI-kompatiblen API-Endpunkt verwaltet. Modelle werden on-demand geladen und bei VRAM-Engpässen automatisch entladen (TTL-Mechanismus). Mit Release v201 (April 2026) und aktiver Community wächst das Ökosystem: Es existieren Projekte für automatische Konfigurations-Generierung aus einem GGUF-Verzeichnis, Intent-Router (Coder/Planner/Uncensored) für Apple Silicon sowie opencode-Integration.

🔗 github.com/mostlygeek/llama-swap

🧠 Performance & Engineering

Ollama 0.30.0-Architekturwechsel: llama.cpp statt GGML

Der laufende v0.30.0-Pre-Release-Zweig ist ein fundamentaler Schritt: Ollama bindet künftig llama.cpp direkt ein, anstatt auf der GGML-Bibliothek aufzusetzen. Das bringt GGUF-Kompatibilität ohne Umweg und soll Performance-Regressions bereinigen, die in früheren Versionen aufgetreten waren. Auf Apple Silicon bleibt MLX der primäre Inferenz-Pfad.

LM Studio MTP vs. Ollama Gemma-4-MTP

Beide Tools liefern inzwischen spekulative Dekodierung über Multi-Token-Prediction-Heads: LM Studio hat MTP als stabiles Feature (Build 4, 22. Mai), Ollama bietet Gemma-4-MTP-Spekulative-Dekodierung seit v0.23.1 für den MLX-Runner (2× Speed bei 31B-Coding-Aufgaben). llama.cpp exponiert das Flag --speculative direkt und unterstützt draft-model-basiertes Speculative Decoding unabhängig vom Frontend.

llama.cpp Windows-Prebuilts mit CUDA 13.1

Die offiziellen Windows-Prebuilt-Binaries (ab Build b9196) unterstützen jetzt CUDA 13.1, Vulkan, HIP (AMD) und SYCL (Intel) ohne Kompilierung aus dem Quellcode. Für Windows-Nutzer gilt: NVIDIA → CUDA, AMD → Vulkan (dann HIP), Intel → SYCL oder Vulkan.

GGUF wächst auf über 180.000 Modelle auf Hugging Face

Der GGUF-Filter auf Hugging Face listet über 180.000 kompatible Modelle (Stand heute). Community-Quantisierungen von Unsloth (Dynamic 2.0) und anderen erscheinen typischerweise innerhalb weniger Tage nach einem neuen Release. Trending in den letzten Wochen: Gemma-4-Familie, Qwen-3.6-Varianten und DeepSeek-V4-Pro (1,3 Mio. Downloads).

🆚 Ollama vs. llama.cpp – Kurznotizenvergleich

Thema Ollama llama.cpp
Architektur-Unterbau Aktuell GGML; v0.30.0 wechselt zu direktem llama.cpp-Support Direkter C/C++-Kern; täglich neue Builds
MTP-Spekulative Dekodierung (Apple Silicon) Seit v0.23.1 via MLX-Runner (Gemma 4) Über --speculative-Flag, modellunabhängig
Windows-Sicherheit Zwei ungepatchte RCE-CVEs im Auto-Updater (0.12.10–0.17.5) Kein Auto-Updater; keine vergleichbaren CVEs bekannt
Frontend/UI Integrierte Desktop-App, Codex-App, Launch-Integrationen Plain HTTP-Server + WebUI; externe UIs wie Open WebUI empfohlen
Tensor-Parallelismus ≥3 GPUs (Qwen3.6) Nicht direkt konfigurierbar Möglich, aber bekannter Bug bei ≥3 GPUs mit Qwen3.6-35B-A3B

Quellen: github.com/ollama/ollama/releases · github.com/ggml-org/llama.cpp/releases · github.com/open-webui/open-webui/releases · lmstudio.ai/changelog · Cyera Research · Help Net Security · Hugging Face / Unsloth

← Zurück zum KI Archiv (29.05.2026)