Local-LLM-Roundup: Ollama 0.24 mit Codex-App, llama.cpp b9297, Open WebUI 0.9.5-Sicherheits-Patch und Kimi K2 lokal

🚀 Releases

Ollama 0.24.0

Quelle: github.com/ollama/ollama/releases

Das aktuelle stabile Release integriert die Codex-App von OpenAI direkt in den Ollama-Workflow. Der Aufruf ollama launch codex-app startet ein Desktop-Frontend mit eingebautem Browser, das lokale Server und Seiten laden und direkt annotieren kann. Weiter gibt es einen Review-Modus für Code-Kommentare innerhalb der App. Außerdem wurde der MLX-Sampler für Apple Silicon grundlegend überarbeitet, was die Generierungsqualität verbessern soll. Als empfohlene lokale Modelle für anspruchsvolle Coding- und Agenten-Aufgaben nennt das Changelog explizit kimi-k2.6 (mit Vision-Unterstützung) und glm-5.1; für rein lokale Nutzung ohne Cloud-Subscription werden nemotron-3-super, gemma4:31b und qwen3.6 aufgeführt.

Ollama 0.23.x – Rückblick der Patch-Serie

Quelle: github.com/ollama/ollama/releases

0.23.4: ollama launch opencode unterstützt jetzt Vision-Modelle mit Bild-Eingaben; Formatierungsfehler bei Claude-Tool-Ergebnissen mit lokalen Bildpfaden behoben.
0.23.3: Stabilitäts-Fixes im MLX-Runner (macOS 26 Metallib-Leak, Thread-Affinität für Bildgenerierung, Timeout-Problem bei Inferenz).
0.23.2: Claude Desktop aus ollama launch entfernt (bleibt per Restore verfügbar); /api/show-Antworten werden jetzt gecached – medianer Latenz-Speedup ~6,7×, spürbar z.B. in der VS-Code-Integration.
0.23.1: Gemma 4 MTP Speculative Decoding für den MLX-Runner – laut Release Notes über 2× schnellere Generierung für gemma4:31b auf Coding-Tasks auf Apple-Silicon-Macs. Aufruf via ollama run gemma4:31b-coding-mtp-bf16.
0.23.0: Claude Desktop per ollama launch claude-desktop gestartet; Featured-Model-Empfehlungen werden jetzt serverseitig gepusht ohne Ollama-Update.
0.22.0: NVIDIA Nemotron 3 Omni und Poolsides erstes Open-Weight-Coding-Modell Laguna XS.2 in die Ollama-Bibliothek aufgenommen.

⚠️ Ollama 0.30.0 – Pre-Release (RC23)

Quelle: github.com/ollama/ollama/releases

Breaking-Change-Kandidat. Diese Pre-Release-Version ändert die interne Architektur grundlegend: Ollama baut künftig direkt auf llama.cpp auf, anstatt auf der GGML-Schicht. MLX wird weiterhin für Apple-Silicon-Beschleunigung eingesetzt. Bekannte Einschränkungen: laguna-xs.2 und llama3.2-vision funktionieren im RC noch nicht. Das Team bittet ausdrücklich um Feedback zu Performance, Abstürzen und Speicherverbrauch. Noch nicht für Produktivumgebungen geeignet.

Installation: curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.30.0-rc23 sh

llama.cpp b9285 – b9297 (aktuelle Build-Reihe)

Quelle: github.com/ggml-org/llama.cpp/releases

llama.cpp veröffentlicht weiterhin im täglichen Build-Rhythmus. Die jüngsten Builds enthalten:

b9297: NVFP4-MTP-Scale-Tensoren hinzugefügt; Qwen3.5-MTP-Tensoren verknüpft – Vorbereitung für nächste Quantisierungsformate.
b9296: Bugfix: Falsche Methoden-Prüfung im 2D-GGML-Fallback (ggml: Check the right iface method before using the fallback 2d get).
b9295: Vulkan-Fix für find_package(SPIRV-Headers) unter Windows (nicht Windows-exklusiv, aber dort primär relevant).
b9294: OpenCL: MoE-Kernel für Adreno-GPUs (Android) generalisiert – bessere MoE-Unterstützung auf Qualcomm-SoCs.
b9292: Perplexity: Integer-Overflow-Fix.
b9291: SYCL: MoE-Prefill-Durchsatz verbessert via Counting-Sort-basiertem Mapping (O(n_as + n_routed_rows) statt O(n_as × n_routed_rows)) – relevant für Intel-GPU-Nutzer.
b9286: ZenDNN-Backend: Q8_0-Quantisierungsunterstützung hinzugefügt (AMD EPYC-Server).
b9285: Router-App wird nur noch bei Standalone-Builds kompiliert.

Open WebUI 0.9.5

Quelle: github.com/open-webui/open-webui/releases

Dieses Release ist ein reines Sicherheits- und Bugfix-Update – Nutzer sollten zeitnah aktualisieren (Details im Sicherheitsabschnitt unten). Neu: granulare Markdown-Rendering-Steuerung für Nutzer- und Assistenz-Nachrichten getrennt konfigurierbar; Channel-Streaming mit vollem Tool-Pipeline-Support.

🆕 Open-Weight-Modelle

Kimi K2 (Moonshot AI) – MoE, 1 Billion Parameter, stark in Coding & Agenten

Quelle: huggingface.co/moonshotai/Kimi-K2-Instruct | ollama.com/library/kimi-k2

Kimi K2 ist ein Mixture-of-Experts-Modell von Moonshot AI mit 32 Milliarden aktiven Parametern bei 1 Billion Gesamtparametern, trainiert auf 15,5 Billionen Tokens mit dem Muon/MuonClip-Optimizer. Besonderes Merkmal: Das Modell ist gezielt für agentic use cases (Tool Use, Reasoning, autonome Problemlösung) optimiert und erreicht laut Tech-Report 65,8 % pass@1 auf SWE-bench Verified.

Varianten: Kimi-K2-Base (Foundation), Kimi-K2-Instruct (Chat/Agenten), Kimi-K2-Instruct-0905 (neueste Version). Lizenz: Modified MIT.

Für lokale Inferenz: Das Modell liegt in Block-FP8 auf Hugging Face vor. Für vollständige lokale Ausführung mit GGUF-Quantisierungen wird auf die Community-Seite des Modells verwiesen; über Ollama ist kimi-k2:1t-cloud verfügbar (Cloud-Routing). Direkte lokale GGUF-Quants für Consumer-Hardware befinden sich noch im Aufbau – das Modell ist durch seine Größe primär für Server mit vLLM, SGLang oder KTransformers geeignet.

GLM-5.1 (Zhipu AI / Z.ai) – 754B, FP8

Quelle: huggingface.co/collections/zai-org/glm-51

Zhipu AI hat GLM-5.1 mit 754 Milliarden Parametern in FP8 auf Hugging Face veröffentlicht (zai-org/GLM-5.1 und zai-org/GLM-5.1-FP8, letztere 964k Downloads). Das Modell läuft bislang primär über die Z.ai-Cloud-API; für Consumer-Hardware sind die Ressourcenanforderungen prohibitiv. Ollama listet die ältere glm4-Variante in der Bibliothek, eine GLM-5.x-GGUF-Integration ist noch nicht angekündigt.

Gemma 4 31B – Speculative Decoding auf Apple Silicon

Quelle: Ollama v0.23.1 Changelog

Google Gemma 4 31B unterstützt mit ollama run gemma4:31b-coding-mtp-bf16 jetzt MTP (Multi-Token Processing) Speculative Decoding im Ollama-MLX-Runner. Laut Changelog mehr als 2× schnellere Generierung auf Coding-Tasks auf Apple-Silicon-Macs. Für llama.cpp-Nutzer: Speculative Decoding via llama.cpp ist architekturunabhängig konfigurierbar, erfordert dort aber manuelle Draft-Modell-Konfiguration.

NVIDIA Nemotron 3 Omni & Poolside Laguna XS.2

Quelle: Ollama v0.22.0 Changelog

NVIDIA Nemotron 3 Omni: Multimodales Modell, jetzt in der Ollama-Bibliothek verfügbar (ollama run nemotron-mini-super für die kompaktere Variante bereits länger verfügbar).
Poolside Laguna XS.2: Erstes Open-Weight-Coding-Modell von Poolside AI; im Ollama 0.22.0 in die Bibliothek aufgenommen, in 0.30.0-rc ist die Unterstützung noch unvollständig.

🔴 Sicherheit

Open WebUI 0.9.5 – Umfangreiches Sicherheits-Patch-Release (alle Plattformen)

Quelle: github.com/open-webui/open-webui/releases | Security Advisories

Betroffen: Open WebUI < 0.9.5, alle Plattformen. Sofortiges Update empfohlen.

Version 0.9.5 schließt eine Reihe schwerwiegender Schwachstellen, die in den offiziellen Security Advisories dokumentiert sind:

SSRF via 3xx-Redirects (mehrere Call-Sites): Ausgehende HTTP-Requests folgten bislang Weiterleitungen, was Angreifern ermöglichte, interne Adressen (RFC-1918, Loopback, Cloud-Metadata-Endpoints) zu erreichen. Betroffen: Web Fetch, Image Loading, OAuth Discovery, Tool-Server-Execution, Code-Interpreter-Login. Behoben durch AIOHTTP_CLIENT_ALLOW_REDIRECTS=false als neuer Standard. (#24491, #24524)
Stored XSS via SVG in Profile Images (GHSA-3wgj-c2hg-vm6q, High): OAuth-picture-Claims mit SVG-Data-URIs konnten gespeicherte XSS auslösen. Behoben durch striktes MIME-Type-Allowlist (PNG, JPEG, GIF, WEBP) und X-Content-Type-Options: nosniff.
Stored XSS via Office/DOCX-Datei-Vorschau (GHSA-hcwp-82g6-8wxc, Moderate): Unkontrolliertes {@html}-Rendering ohne DOMPurify.
Stored XSS via Audio-Transcription-Dateiendung (GHSA-m8f9-9whg-f4xr, High): Angreifergesteuerte Dateiendungen in /api/v1/audio/transcriptions.
Privilege Escalation via Tool-Update-Endpoint (GHSA-p4fx-23fq-jfg6, High): Fehlende workspace.tools-Prüfung ermöglichte Hochstufen von Berechtigungen bis zur Code-Ausführung.
Feedback-User-ID-Spoofing (GHSA-rjmp-vjf2-qf4g, Moderate): Mass Assignment in FeedbackForm erlaubte Verfälschen von Elo-Rankings.
iframe Content-Security-Policy: Neues IFRAME_CSP-Environment-Variable begrenzt, was LLM-generiertes HTML in Artifact-Vorschauen laden und ausführen darf.
URL-Parser-SSRF-Bypass: Backslash-, Tab-, CR- und LF-Zeichen in URLs erzeugten Diskrepanzen zwischen urllib und aiohttp bei der Ziel-Host-Erkennung.

Außerdem wurden in Open WebUI 0.9.3 mehrere Permission-Enforcement-Bugs behoben (Collection Write Access, Tool Source Code Authorization, Channel Message Ownership, Channel Pin Write Permission).

Die separat publizierten GitHub Security Advisories (GHSA-Liste) decken darüber hinaus Redis-Cache-Poisoning (GHSA-3x8w-4f7p-xxc2, High), Cross-Instance-Angriffe bei Multi-Deployment-Setups sowie weitere Privilege-Escalation-Szenarien ab.

⚡ Handlungsbedarf: Alle Self-Hosted-Open-WebUI-Instanzen auf Version 0.9.5 aktualisieren. CVE-Nummern für die einzelnen Advisories werden noch in der NVD geführt – Tracking über die verlinkten GHSA-IDs empfohlen.

🔀 Ökosystem

Open WebUI 0.9.3 – Neue Features neben den Sicherheits-Patches

Quelle: github.com/open-webui/open-webui/releases

Unified Model Unload Controls: Administratoren können laufende Modelle direkt aus dem Modell-Selektor entladen – mit Statusanzeige für Ollama- und llama.cpp-Modelle.
Voice Mode Mute-Toggle mit „M“-Shortcut und Auto-Unmute nach Assistenz-Ausgabe.
Brave LLM Context als neuer Web-Such-Provider mit konfigurierbar großem Kontext-Budget.
Playground Controls Panel für direkte Parameter-Anpassung (Temperature etc.) pro Chat-Run.
{{USER_GROUPS}}-Prompt-Variable für rollenbasierte System-Prompts.
Deutlich verbesserte Chat-History-Ladegeschwindigkeit durch normalisierte DB-Abfragen.

Ollama Launch – Integration-Ökosystem wächst

Mit ollama launch lassen sich inzwischen neben der Codex-App auch OpenCode, OpenClaw, Hermes und Claude (CLI) starten. Claude Desktop wurde in 0.23.2 wieder aus dem Standard-Launch entfernt (auf Restore verfügbar), da die Drittanbieter-Integration auf Anthropic-Modelle beschränkt ist. Für llama.cpp-Nutzer: Das Tool empfiehlt weiterhin externe UIs wie Open WebUI oder eine direkte API-Integration ohne eigene Desktop-Shell.

🧠 Performance / Engineering

llama.cpp: NVFP4 + MTP-Scale-Tensoren für Qwen3.5

Quelle: llama.cpp b9297

Build b9297 fügt NVFP4-MTP-Scale-Tensoren hinzu und verknüpft Qwen3.5-MTP-Tensoren – Grundlage für zukünftige NVFP4-Quantisierungsunterstützung in GGUF-Modellen. NVFP4 ist NVIDIAs 4-Bit-Floating-Point-Format, das auf Blackwell-Architektur-GPUs deutlich schneller als INT4 ist.

llama.cpp: MoE-Prefill-Throughput auf Intel-GPUs (SYCL)

Quelle: llama.cpp b9291

Der SYCL-Backend-MoE-Prefill wurde von O(n_as × n_routed_rows) auf O(n_as + n_routed_rows) gesenkt – ein algorithmischer Durchsatz-Gewinn für Nutzer, die MoE-Modelle (DeepSeek, Kimi K2, Mixtral) auf Intel Arc oder Intel Data Center GPUs über SYCL betreiben.

llama.cpp: OpenCL Adreno MoE-Kernel generalisiert

Quelle: llama.cpp b9294

Die OpenCL-MoE-Kernel für Qualcomm-Adreno-GPUs wurden verallgemeinert, was MoE-Inferenz auf Android-Geräten mit Snapdragon-SoC stabiler und performanter macht.

llama.cpp: ZenDNN Q8_0-Quantisierung

Quelle: llama.cpp b9286

Das ZenDNN-Backend (AMD EPYC-Server) unterstützt jetzt Q8_0-Quantisierungen – mehr Modelle laufen jetzt nativ beschleunigt auf AMD-Server-CPUs.

🆚 Ollama vs. llama.cpp

Speculative Decoding: Ollama MLX-exklusiv, llama.cpp allgemein verfügbar

Ollama 0.23.1 bringt MTP Speculative Decoding für Gemma 4 31B – aber ausschließlich im MLX-Runner auf Apple Silicon. llama.cpp unterstützt Speculative Decoding über --model-draft auf allen Plattformen (CPU, CUDA, Metal, Vulkan), erfordert aber manuelle Konfiguration eines Draft-Modells. Wer Speculative Decoding auf Linux/CUDA oder Windows nutzen möchte, ist aktuell auf llama.cpp (oder Frameworks wie llama-swap) angewiesen.

Architektur-Umbau bei Ollama 0.30 bringt llama.cpp näher

Das laufende Refactoring in Ollama 0.30.0 (Pre-Release) – direkter llama.cpp-Support statt GGML-Schicht – wird langfristig die Kompatibilitätslücken zwischen beiden Tools reduzieren: Neue Quantisierungsformate und Modellarchitekturen, die llama.cpp abdeckt, sollten schneller in Ollama ankommen. Kurzzeitig kann der Umbau jedoch Regressionen bei einzelnen Modellen (aktuell: laguna-xs.2, llama3.2-vision) mitbringen.

Alle Angaben basieren auf öffentlich verfügbaren GitHub-Release-Notes, Hugging Face Model Cards und den verlinkten Quellen. Stand: Juli 2025.