Überblick
Die letzte Woche war für Ollama äußerst ereignisreich: Innerhalb weniger Tage erschienen vier stabile Releases (v0.23.1 bis v0.23.4), ein neuer Versions-Zweig (v0.24.0) bringt die Integration der OpenAI Codex App, und ein weitreichender Architektur-Vorab-Release (v0.30.0-rc) läutet den Abschied von GGML ein. Gleichzeitig stehen mehrere, teils noch ungepatchte Sicherheitslücken im Fokus der Community.
🚀 Releases der Woche
⭐ v0.23.4 – Aktuelles Stable-Release (13. Mai 2026)
Der aktuelle stabile Stand. Die wichtigsten Änderungen laut GitHub Releases:
ollama launch opencodeunterstützt jetzt Vision-Modelle mit Bildeingabe.- Formatierungsfehler bei Claude-Tool-Ergebnissen mit lokalen Bildpfaden wurden behoben.
🔬 v0.24.0-rc0 – Pre-Release: Codex App (14. Mai 2026)
Das erste Release-Candidate des v0.24-Zweigs bringt die Integration der OpenAI Codex App. Ollama 0.24 unterstützt die Codex App, OpenAIs Desktop-Erlebnis für die parallele Arbeit an Codex-Threads mit integriertem Worktree-Support und Git-Funktionalität. Codex kann lokale Server und Websites im eingebauten Browser öffnen – Annotationen direkt auf der Seite sind möglich. Der MLX-Sampler wurde für Apple Silicon neu geschrieben, was die Generierungsqualität verbessern soll.
Starten lässt sich die Integration über: ollama launch codex-app
Hinweis: v0.24.0-rc0 ist noch als Pre-Release markiert. Für Produktivsysteme bleibt v0.23.4 die empfohlene Version.
v0.23.3 – MLX-Fixes für macOS (12. Mai 2026)
- Fix für macOS 26: Fehlerhafte Metallib-Kompilierung im MLX-Runner behoben.
- MLX-Statustimeout während der Inferenz beseitigt.
- Verbesserter Update-Ablauf in der Desktop-App.
v0.23.2 – API-Latenz -6,7x, Claude Desktop entfernt (7. Mai 2026)
/api/show-Antworten werden nun gecacht – der Median der Latenz sinkt um den Faktor 6,7x, was Integrationen wie VS Code spürbar beschleunigt.ollama launchbeinhaltet Claude Desktop nicht mehr, da die Drittanbieter-Integration auf Anthropic-Modelle beschränkt ist. Rücksetzung überollama launch claude-desktop --restore.- Aufgeräumtes Bildgenerierungs-Layout im MLX-Runner.
v0.23.1 – Gemma 4 MTP Speculative Decoding auf dem Mac (5. Mai 2026)
Gemma 4 MTP (Multi-Token Processing) Speculative Decoding ist jetzt auf Macs verfügbar und kann bei Coding-Tasks mit dem Gemma 4 31B über 2× Geschwindigkeitszuwachs bringen:
ollama run gemma4:31b-coding-mtp-bf16
v0.23.0 – Claude Desktop in ollama launch (3. Mai 2026)
Claude Desktop, Claude Cowork und Claude Code wurden in ollama launch integriert. Hinweis: Diese Integration wurde in v0.23.2 wieder entfernt (s. o.).
🏗️ Architektur-Vorschau: v0.30.0-rc (Pre-Release)
Parallel zum stabilen 0.23-Zweig arbeitet das Ollama-Team an einem tiefgreifenden Architekturwechsel. Das Pre-Release v0.30.0-rc15 (13. Mai) wurde auf Docker Hub bereits bis rc17 weitergeführt (15. Mai). Die wichtigste Änderung: Ollama baut nicht mehr auf GGML auf, sondern bindet llama.cpp direkt ein. Modelle müssen im GGUF-Format vorliegen; MLX übernimmt die Beschleunigung auf Apple Silicon. Das Team bittet explizit um Feedback zu Performance, Abstürzen und Speichernutzung. Nicht für Produktivsysteme geeignet.
Bekannte Einschränkungen im aktuellen RC: laguna-xs.2 und llama3.2-vision werden noch nicht unterstützt.
Quellen: GitHub Releases · Docker Hub Release Alert
🔒 Sicherheit
⚠️ CVE-2026-7482 „Bleeding Llama“ – BEHOBEN in v0.17.1 (alle Plattformen)
Betroffene Version: Ollama < 0.17.1 · Plattform: alle · CVSS 3.1: 9.1 CRITICAL
Ein Heap-Out-of-Bounds-Read im GGUF-Model-Loader (CWE-125) erlaubte nicht-authentifizierten Angreifern, den gesamten Prozessspeicher des Ollama-Servers auszulesen – darunter API-Keys, Systemprompts, Nutzergespräche und Umgebungsvariablen. Der Angriff benötigt lediglich drei API-Calls und keinen gültigen Account. Rund 300.000 öffentlich erreichbare Server wurden als potenziell betroffen eingestuft. Der Patch wurde am 25. Februar 2026 in v0.17.1 veröffentlicht; mangels CVE-Nummer in den Release-Notes blieb die Lücke über zwei Monate unsichtbar für Scanner.
Handlungsbedarf: Wer Ollama ≥ 0.17.1 betreibt (aktuell: 0.23.4), ist nicht betroffen. Wer noch auf einer älteren Version läuft, sollte sofort updaten und API-Keys rotieren, falls der Server öffentlich erreichbar war.
Quellen: NVD CVE-2026-7482 · Cyera Research
🚨 CVE-2026-42248 & CVE-2026-42249 – UNGEPACHT, Windows-only
Betroffene Version: Ollama für Windows 0.12.10–0.17.5 (bestätigt; andere Versionen möglicherweise ebenfalls betroffen) · Plattform: nur Windows · CVSS 4.0: 7.7 HIGH
Zwei von Striga-Forschern entdeckte und von CERT Polska am 29. April 2026 veröffentlichte Lücken im Windows-Auto-Updater:
- CVE-2026-42248: Die Windows-Implementierung des Update-Verifiers gibt bedingungslos „Erfolg“ zurück – keine digitale Signaturprüfung, keine Integritätsprüfung. Angreifer können beliebige ausführbare Dateien als Update einschleusen.
- CVE-2026-42249: Path-Traversal-Schwachstelle: Der Windows-Updater übernimmt den lokalen Pfad für das Installer-Staging-Verzeichnis unbereinigt aus HTTP-Response-Headern. Ein manipulierter ETag-Header mit
../-Sequenzen kann eine beliebige Datei in den Windows-Autostart-Ordner schreiben.
Beide Lücken kombiniert ermöglichen persistente, stille Codeausführung beim jedem Windows-Login. Das Ollama-Projekt hat auf die Offenlegung (Januar 2026) bisher nicht öffentlich reagiert. Kein offizieller Patch vorhanden (Stand: 17. Mai 2026).
Handlungsbedarf für Windows-Nutzer: Automatische Updates in den Ollama-Einstellungen deaktivieren und den Ollama-Autostart-Eintrag aus dem Windows-Startmenü entfernen, bis ein offizieller Fix erscheint. Wer Ollama ≥ 0.18.0 auf Windows betreibt, sollte prüfen, ob die Signaturprüfung im Update-Pfad inzwischen korrekt implementiert wurde – dazu fehlt noch eine offizielle Stellungnahme der Maintainer.
Quellen: NVD CVE-2026-42248 · Help Net Security
📦 Neue Modelle in der Ollama-Bibliothek
Die Ollama-Bibliothek umfasst aktuell über 4.500 Modelle. Neu hinzugekommen oder stark nachgefragt im Mai 2026:
- Kimi K2.6 (Moonshot AI, MIT-Lizenz): MoE-Architektur mit 42 Mrd. aktiven / 1 Bio. Gesamtparametern. Platz eins bei Real-World-Coding-Benchmarks (87/100).
ollama run kimi-k2.6 - Qwen 3.6 27B (Alibaba): Bestes dichtes Coding-Modell mit 77,2 % auf SWE-bench. Benötigt ca. 22 GB VRAM.
ollama run qwen3.6:27b - GLM-5.1 (Zhipu AI): Nächste Generation für Agentic Engineering, deutlich stärker als GLM-5 auf SWE-Bench Pro.
- Laguna XS.2 (Poolside): 33B MoE-Coding-Modell (3B aktiv), für Agentic Coding auf lokaler Hardware konzipiert. Ab v0.22.0 verfügbar.
- NVIDIA Nemotron 3 Omni: Multimodales Modell für Video, Audio, Bild und Text. Ab v0.22.0 verfügbar.
- MiniMax M2: Coding- und Agentic-Modell, auf Ollamas Cloud-Dienst verfügbar.
- Gemma 4 (Google): Vollständige Tool-Calling- und Vision-Unterstützung; Thinking-Rendering-Verbesserungen in v0.22.1.
📊 Community & Ökosystem
- Das Ollama-Repository hat auf GitHub die Marke von 171.000 Stars überschritten; Docker Hub verzeichnet über 100 Mio. Downloads.
- Die beliebtesten Modelle nach Downloads (Mai 2026): Llama 3.2 3B (meistgezogen, ideal als Einstiegsmodell), Llama 4 Scout (bestes Gesamtmodell, MoE), Qwen3 (am schnellsten wachsende Familie), DeepSeek-R1 (beste lokale Reasoning-Performance).
- Das Python-SDK ollama-python liegt bei v0.6.2 (veröffentlicht 29. April 2026) und bringt Bildgenerierungs-Support sowie Cloud-Model-Dokumentation.
- OpenClaw, die Ollama-Multichannel-Integration für WhatsApp, Telegram, Slack und Discord, erhielt ebenfalls Updates mit nativer Codex-App-Server-Unterstützung.