🚀 Releases
Ollama 0.24.0
Quelle: github.com/ollama/ollama/releases
Das aktuelle stabile Release integriert die Codex-App von OpenAI direkt in den Ollama-Workflow. Der Aufruf ollama launch codex-app startet ein Desktop-Frontend mit eingebautem Browser, das lokale Server und Seiten laden und direkt annotieren kann. Weiter gibt es einen Review-Modus für Code-Kommentare innerhalb der App. Außerdem wurde der MLX-Sampler für Apple Silicon grundlegend überarbeitet, was die Generierungsqualität verbessern soll. Als empfohlene lokale Modelle für anspruchsvolle Coding- und Agenten-Aufgaben nennt das Changelog explizit kimi-k2.6 (mit Vision-Unterstützung) und glm-5.1; für rein lokale Nutzung ohne Cloud-Subscription werden nemotron-3-super, gemma4:31b und qwen3.6 aufgeführt.
Ollama 0.23.x – Rückblick der Patch-Serie
Quelle: github.com/ollama/ollama/releases
- 0.23.4:
ollama launch opencodeunterstützt jetzt Vision-Modelle mit Bild-Eingaben; Formatierungsfehler bei Claude-Tool-Ergebnissen mit lokalen Bildpfaden behoben. - 0.23.3: Stabilitäts-Fixes im MLX-Runner (macOS 26 Metallib-Leak, Thread-Affinität für Bildgenerierung, Timeout-Problem bei Inferenz).
- 0.23.2: Claude Desktop aus
ollama launchentfernt (bleibt per Restore verfügbar);/api/show-Antworten werden jetzt gecached – medianer Latenz-Speedup ~6,7×, spürbar z.B. in der VS-Code-Integration. - 0.23.1: Gemma 4 MTP Speculative Decoding für den MLX-Runner – laut Release Notes über 2× schnellere Generierung für gemma4:31b auf Coding-Tasks auf Apple-Silicon-Macs. Aufruf via
ollama run gemma4:31b-coding-mtp-bf16. - 0.23.0: Claude Desktop per
ollama launch claude-desktopgestartet; Featured-Model-Empfehlungen werden jetzt serverseitig gepusht ohne Ollama-Update. - 0.22.0: NVIDIA Nemotron 3 Omni und Poolsides erstes Open-Weight-Coding-Modell Laguna XS.2 in die Ollama-Bibliothek aufgenommen.
⚠️ Ollama 0.30.0 – Pre-Release (RC23)
Quelle: github.com/ollama/ollama/releases
Breaking-Change-Kandidat. Diese Pre-Release-Version ändert die interne Architektur grundlegend: Ollama baut künftig direkt auf llama.cpp auf, anstatt auf der GGML-Schicht. MLX wird weiterhin für Apple-Silicon-Beschleunigung eingesetzt. Bekannte Einschränkungen: laguna-xs.2 und llama3.2-vision funktionieren im RC noch nicht. Das Team bittet ausdrücklich um Feedback zu Performance, Abstürzen und Speicherverbrauch. Noch nicht für Produktivumgebungen geeignet.
Installation: curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.30.0-rc23 sh
llama.cpp b9285 – b9297 (aktuelle Build-Reihe)
Quelle: github.com/ggml-org/llama.cpp/releases
llama.cpp veröffentlicht weiterhin im täglichen Build-Rhythmus. Die jüngsten Builds enthalten:
- b9297: NVFP4-MTP-Scale-Tensoren hinzugefügt; Qwen3.5-MTP-Tensoren verknüpft – Vorbereitung für nächste Quantisierungsformate.
- b9296: Bugfix: Falsche Methoden-Prüfung im 2D-GGML-Fallback (
ggml: Check the right iface method before using the fallback 2d get). - b9295: Vulkan-Fix für
find_package(SPIRV-Headers)unter Windows (nicht Windows-exklusiv, aber dort primär relevant). - b9294: OpenCL: MoE-Kernel für Adreno-GPUs (Android) generalisiert – bessere MoE-Unterstützung auf Qualcomm-SoCs.
- b9292: Perplexity: Integer-Overflow-Fix.
- b9291: SYCL: MoE-Prefill-Durchsatz verbessert via Counting-Sort-basiertem Mapping (O(n_as + n_routed_rows) statt O(n_as × n_routed_rows)) – relevant für Intel-GPU-Nutzer.
- b9286: ZenDNN-Backend: Q8_0-Quantisierungsunterstützung hinzugefügt (AMD EPYC-Server).
- b9285: Router-App wird nur noch bei Standalone-Builds kompiliert.
Open WebUI 0.9.5
Quelle: github.com/open-webui/open-webui/releases
Dieses Release ist ein reines Sicherheits- und Bugfix-Update – Nutzer sollten zeitnah aktualisieren (Details im Sicherheitsabschnitt unten). Neu: granulare Markdown-Rendering-Steuerung für Nutzer- und Assistenz-Nachrichten getrennt konfigurierbar; Channel-Streaming mit vollem Tool-Pipeline-Support.
🆕 Open-Weight-Modelle
Kimi K2 (Moonshot AI) – MoE, 1 Billion Parameter, stark in Coding & Agenten
Quelle: huggingface.co/moonshotai/Kimi-K2-Instruct | ollama.com/library/kimi-k2
Kimi K2 ist ein Mixture-of-Experts-Modell von Moonshot AI mit 32 Milliarden aktiven Parametern bei 1 Billion Gesamtparametern, trainiert auf 15,5 Billionen Tokens mit dem Muon/MuonClip-Optimizer. Besonderes Merkmal: Das Modell ist gezielt für agentic use cases (Tool Use, Reasoning, autonome Problemlösung) optimiert und erreicht laut Tech-Report 65,8 % pass@1 auf SWE-bench Verified.
Varianten: Kimi-K2-Base (Foundation), Kimi-K2-Instruct (Chat/Agenten), Kimi-K2-Instruct-0905 (neueste Version). Lizenz: Modified MIT.
Für lokale Inferenz: Das Modell liegt in Block-FP8 auf Hugging Face vor. Für vollständige lokale Ausführung mit GGUF-Quantisierungen wird auf die Community-Seite des Modells verwiesen; über Ollama ist kimi-k2:1t-cloud verfügbar (Cloud-Routing). Direkte lokale GGUF-Quants für Consumer-Hardware befinden sich noch im Aufbau – das Modell ist durch seine Größe primär für Server mit vLLM, SGLang oder KTransformers geeignet.
GLM-5.1 (Zhipu AI / Z.ai) – 754B, FP8
Quelle: huggingface.co/collections/zai-org/glm-51
Zhipu AI hat GLM-5.1 mit 754 Milliarden Parametern in FP8 auf Hugging Face veröffentlicht (zai-org/GLM-5.1 und zai-org/GLM-5.1-FP8, letztere 964k Downloads). Das Modell läuft bislang primär über die Z.ai-Cloud-API; für Consumer-Hardware sind die Ressourcenanforderungen prohibitiv. Ollama listet die ältere glm4-Variante in der Bibliothek, eine GLM-5.x-GGUF-Integration ist noch nicht angekündigt.
Gemma 4 31B – Speculative Decoding auf Apple Silicon
Quelle: Ollama v0.23.1 Changelog
Google Gemma 4 31B unterstützt mit ollama run gemma4:31b-coding-mtp-bf16 jetzt MTP (Multi-Token Processing) Speculative Decoding im Ollama-MLX-Runner. Laut Changelog mehr als 2× schnellere Generierung auf Coding-Tasks auf Apple-Silicon-Macs. Für llama.cpp-Nutzer: Speculative Decoding via llama.cpp ist architekturunabhängig konfigurierbar, erfordert dort aber manuelle Draft-Modell-Konfiguration.
NVIDIA Nemotron 3 Omni & Poolside Laguna XS.2
Quelle: Ollama v0.22.0 Changelog
- NVIDIA Nemotron 3 Omni: Multimodales Modell, jetzt in der Ollama-Bibliothek verfügbar (
ollama run nemotron-mini-superfür die kompaktere Variante bereits länger verfügbar). - Poolside Laguna XS.2: Erstes Open-Weight-Coding-Modell von Poolside AI; im Ollama 0.22.0 in die Bibliothek aufgenommen, in 0.30.0-rc ist die Unterstützung noch unvollständig.
🔴 Sicherheit
Open WebUI 0.9.5 – Umfangreiches Sicherheits-Patch-Release (alle Plattformen)
Quelle: github.com/open-webui/open-webui/releases | Security Advisories
Betroffen: Open WebUI < 0.9.5, alle Plattformen. Sofortiges Update empfohlen.
Version 0.9.5 schließt eine Reihe schwerwiegender Schwachstellen, die in den offiziellen Security Advisories dokumentiert sind:
- SSRF via 3xx-Redirects (mehrere Call-Sites): Ausgehende HTTP-Requests folgten bislang Weiterleitungen, was Angreifern ermöglichte, interne Adressen (RFC-1918, Loopback, Cloud-Metadata-Endpoints) zu erreichen. Betroffen: Web Fetch, Image Loading, OAuth Discovery, Tool-Server-Execution, Code-Interpreter-Login. Behoben durch
AIOHTTP_CLIENT_ALLOW_REDIRECTS=falseals neuer Standard. (#24491, #24524) - Stored XSS via SVG in Profile Images (GHSA-3wgj-c2hg-vm6q, High): OAuth-
picture-Claims mit SVG-Data-URIs konnten gespeicherte XSS auslösen. Behoben durch striktes MIME-Type-Allowlist (PNG, JPEG, GIF, WEBP) undX-Content-Type-Options: nosniff. - Stored XSS via Office/DOCX-Datei-Vorschau (GHSA-hcwp-82g6-8wxc, Moderate): Unkontrolliertes
{@html}-Rendering ohne DOMPurify. - Stored XSS via Audio-Transcription-Dateiendung (GHSA-m8f9-9whg-f4xr, High): Angreifergesteuerte Dateiendungen in
/api/v1/audio/transcriptions. - Privilege Escalation via Tool-Update-Endpoint (GHSA-p4fx-23fq-jfg6, High): Fehlende
workspace.tools-Prüfung ermöglichte Hochstufen von Berechtigungen bis zur Code-Ausführung. - Feedback-User-ID-Spoofing (GHSA-rjmp-vjf2-qf4g, Moderate): Mass Assignment in
FeedbackFormerlaubte Verfälschen von Elo-Rankings. - iframe Content-Security-Policy: Neues
IFRAME_CSP-Environment-Variable begrenzt, was LLM-generiertes HTML in Artifact-Vorschauen laden und ausführen darf. - URL-Parser-SSRF-Bypass: Backslash-, Tab-, CR- und LF-Zeichen in URLs erzeugten Diskrepanzen zwischen urllib und aiohttp bei der Ziel-Host-Erkennung.
Außerdem wurden in Open WebUI 0.9.3 mehrere Permission-Enforcement-Bugs behoben (Collection Write Access, Tool Source Code Authorization, Channel Message Ownership, Channel Pin Write Permission).
Die separat publizierten GitHub Security Advisories (GHSA-Liste) decken darüber hinaus Redis-Cache-Poisoning (GHSA-3x8w-4f7p-xxc2, High), Cross-Instance-Angriffe bei Multi-Deployment-Setups sowie weitere Privilege-Escalation-Szenarien ab.
⚡ Handlungsbedarf: Alle Self-Hosted-Open-WebUI-Instanzen auf Version 0.9.5 aktualisieren. CVE-Nummern für die einzelnen Advisories werden noch in der NVD geführt – Tracking über die verlinkten GHSA-IDs empfohlen.
🔀 Ökosystem
Open WebUI 0.9.3 – Neue Features neben den Sicherheits-Patches
Quelle: github.com/open-webui/open-webui/releases
- Unified Model Unload Controls: Administratoren können laufende Modelle direkt aus dem Modell-Selektor entladen – mit Statusanzeige für Ollama- und llama.cpp-Modelle.
- Voice Mode Mute-Toggle mit „M“-Shortcut und Auto-Unmute nach Assistenz-Ausgabe.
- Brave LLM Context als neuer Web-Such-Provider mit konfigurierbar großem Kontext-Budget.
- Playground Controls Panel für direkte Parameter-Anpassung (Temperature etc.) pro Chat-Run.
{{USER_GROUPS}}-Prompt-Variable für rollenbasierte System-Prompts.- Deutlich verbesserte Chat-History-Ladegeschwindigkeit durch normalisierte DB-Abfragen.
Ollama Launch – Integration-Ökosystem wächst
Mit ollama launch lassen sich inzwischen neben der Codex-App auch OpenCode, OpenClaw, Hermes und Claude (CLI) starten. Claude Desktop wurde in 0.23.2 wieder aus dem Standard-Launch entfernt (auf Restore verfügbar), da die Drittanbieter-Integration auf Anthropic-Modelle beschränkt ist. Für llama.cpp-Nutzer: Das Tool empfiehlt weiterhin externe UIs wie Open WebUI oder eine direkte API-Integration ohne eigene Desktop-Shell.
🧠 Performance / Engineering
llama.cpp: NVFP4 + MTP-Scale-Tensoren für Qwen3.5
Quelle: llama.cpp b9297
Build b9297 fügt NVFP4-MTP-Scale-Tensoren hinzu und verknüpft Qwen3.5-MTP-Tensoren – Grundlage für zukünftige NVFP4-Quantisierungsunterstützung in GGUF-Modellen. NVFP4 ist NVIDIAs 4-Bit-Floating-Point-Format, das auf Blackwell-Architektur-GPUs deutlich schneller als INT4 ist.
llama.cpp: MoE-Prefill-Throughput auf Intel-GPUs (SYCL)
Quelle: llama.cpp b9291
Der SYCL-Backend-MoE-Prefill wurde von O(n_as × n_routed_rows) auf O(n_as + n_routed_rows) gesenkt – ein algorithmischer Durchsatz-Gewinn für Nutzer, die MoE-Modelle (DeepSeek, Kimi K2, Mixtral) auf Intel Arc oder Intel Data Center GPUs über SYCL betreiben.
llama.cpp: OpenCL Adreno MoE-Kernel generalisiert
Quelle: llama.cpp b9294
Die OpenCL-MoE-Kernel für Qualcomm-Adreno-GPUs wurden verallgemeinert, was MoE-Inferenz auf Android-Geräten mit Snapdragon-SoC stabiler und performanter macht.
llama.cpp: ZenDNN Q8_0-Quantisierung
Quelle: llama.cpp b9286
Das ZenDNN-Backend (AMD EPYC-Server) unterstützt jetzt Q8_0-Quantisierungen – mehr Modelle laufen jetzt nativ beschleunigt auf AMD-Server-CPUs.
🆚 Ollama vs. llama.cpp
Speculative Decoding: Ollama MLX-exklusiv, llama.cpp allgemein verfügbar
Ollama 0.23.1 bringt MTP Speculative Decoding für Gemma 4 31B – aber ausschließlich im MLX-Runner auf Apple Silicon. llama.cpp unterstützt Speculative Decoding über --model-draft auf allen Plattformen (CPU, CUDA, Metal, Vulkan), erfordert aber manuelle Konfiguration eines Draft-Modells. Wer Speculative Decoding auf Linux/CUDA oder Windows nutzen möchte, ist aktuell auf llama.cpp (oder Frameworks wie llama-swap) angewiesen.
Architektur-Umbau bei Ollama 0.30 bringt llama.cpp näher
Das laufende Refactoring in Ollama 0.30.0 (Pre-Release) – direkter llama.cpp-Support statt GGML-Schicht – wird langfristig die Kompatibilitätslücken zwischen beiden Tools reduzieren: Neue Quantisierungsformate und Modellarchitekturen, die llama.cpp abdeckt, sollten schneller in Ollama ankommen. Kurzzeitig kann der Umbau jedoch Regressionen bei einzelnen Modellen (aktuell: laguna-xs.2, llama3.2-vision) mitbringen.
Alle Angaben basieren auf öffentlich verfügbaren GitHub-Release-Notes, Hugging Face Model Cards und den verlinkten Quellen. Stand: Juli 2025.