Der heutige Ollama-Roundup bündelt alle wichtigen Entwicklungen rund um Releases, Architektur, Modelle und Sicherheit der vergangenen Tage – kompakt und mit direkten Quellenverweisen.
🚀 Neue Releases (GitHub)
v0.24.0 – Stable Release (14. Mai 2026) ⭐ AKTUELLSTE VERSION
Das neueste stabile Release bringt zwei zentrale Neuerungen:
- OpenAI Codex App-Integration: Via
ollama launch codex-applässt sich jetzt jedes Ollama-Modell – lokal oder aus der Cloud – direkt in der Codex-Desktop-App nutzen. Die App kann lokale Server und Websites in einem integrierten Browser starten, Seiten annotieren, Code reviewen und iterieren. Empfohlene Modelle für anspruchsvolle Coding-Aufgaben:kimi-k2.6(mit Vision-Support),glm-5.1; für lokale Nutzung ohne Cloud-Abo:nemotron-3-super,gemma4:31b,qwen3.6. - Überarbeiteter MLX-Sampler für verbesserte Generierungsqualität auf Apple Silicon.
🔗 Quelle: github.com/ollama/ollama/releases
v0.30.0-rc15 – Großes Architektur-Preview (13. Mai 2026) ⚠️ PRE-RELEASE
Ein besonders bedeutsames Pre-Release: Diese Version ändert die interne Architektur grundlegend – Ollama unterstützt nun direkt llama.cpp statt auf GGML aufzubauen, was vollständige Kompatibilität mit dem GGUF-Dateiformat sicherstellt. Für Apple Silicon wird MLX zur Modell-Inferenz-Beschleunigung eingesetzt. Das Ollama-Team bittet ausdrücklich um Community-Feedback zu Performance, Abstürzen und Speicherverbrauch. Bekannte Einschränkungen: laguna-xs.2 und llama3.2-vision werden in dieser Vorschau noch nicht unterstützt.
🔗 Quelle: github.com/ollama/ollama/releases
v0.23.4 (13. Mai 2026)
ollama launch opencodeunterstützt jetzt Vision-Modelle mit Bild-Inputs.- Bugfix: Formatierung von Claude-Tool-Ergebnissen bei lokalen Bildpfaden korrigiert.
v0.23.3 (12. Mai 2026)
- MLX-Fixes: Verfeinertes Modell-Push-Verhalten, Behebung eines macOS-26-Target-Leaks im Metal-Compiler, Vermeidung von Status-Timeouts während der Inferenz.
- Härtere Update-Flows im App-Code.
v0.23.2 (7. Mai 2026)
- Performance:
/api/show-Antworten werden jetzt gecacht – die mittlere Latenz verbessert sich um den Faktor ~6,7×, was besonders VS Code und ähnliche Integrationen deutlich beschleunigt. - Claude Desktop wurde aus dem Standard-
ollama launchentfernt (Drittanbieter-Beschränkung auf Anthropic-Modelle); Wiederherstellung viaollama launch claude-desktop --restore. - Verbesserte Backup-Workflows bei Launch-Integrationen; saubereres Image-Generation-Layout im MLX-Runner.
v0.23.1 (5. Mai 2026)
- Gemma 4 MTP (Multi-Token Processing) auf Apple Silicon: Spekulatives Decoding für den Gemma-4-31B-Coding-Modell bringt über 2× Geschwindigkeit auf macOS. Aufruf via
ollama run gemma4:31b-coding-mtp-bf16. - Go auf Version 1.26 aktualisiert.
v0.23.0 (3. Mai 2026)
- Claude Desktop-Unterstützung via
ollama launch claude-desktop– inklusive Claude Cowork und Claude Code. - Featured Models werden nun server-seitig empfohlen.
- OpenClaw-Gateway-Timeout unter Windows behoben (IPv4-Loopback erzwungen).
🔒 Sicherheit – Kritische Schwachstellen (DRINGEND LESEN)
⚠️ Windows Auto-Updater: Persistente RCE-Kette (ungepacht)
Forscher von Striga haben zwei verkettbare Schwachstellen im Windows-Auto-Updater von Ollama offengelegt (Disclosure: 27. Januar 2026, CVEs durch CERT Polska am 29. April 2026 veröffentlicht – bislang ungepacht):
- CVE-2026-42249 (CVSS 7.7) – Path Traversal: Der Windows-Updater baut den lokalen Pfad für das Installer-Staging-Verzeichnis direkt aus HTTP-Response-Headern zusammen, ohne diese zu bereinigen. Ein Angreifer kann via manipuliertem ETag-Header mit
../-Sequenzen eine beliebige ausführbare Datei direkt in den Windows-Autostart-Ordner schreiben. - CVE-2026-42248 – Fehlende Signaturprüfung: Die Signaturverifizierungsfunktion im Windows-Build wird zwar aufgerufen, tut aber nichts – jede heruntergeladene Datei wird ausgeführt. (Auf macOS werden korrekte Code-Signing-Checks durchgeführt.)
Betroffen: Ollama für Windows, Versionen 0.12.10 bis 0.17.5. Sofortmaßnahme: Auto-Update in den Einstellungen deaktivieren und bestehende Ollama-Shortcuts aus dem Autostart-Ordner entfernen.
🔗 Quellen: Help Net Security | The Hacker News
⚠️ Out-of-Bounds-Read via präparierte GGUF-Datei
Eine weitere kritische Lücke erlaubt es einem nicht authentifizierten Angreifer, den kompletten Prozessspeicher eines exponierten Ollama-Servers auszulesen. Angriffsvektor: Eine präparierte GGUF-Datei mit überdimensionierter Tensor-Shape wird via /api/create hochgeladen, löst den Heap-Read aus, und die erbeuteten Daten (inkl. Umgebungsvariablen, API-Keys, Systemprompts, Gesprächsdaten anderer Nutzer) werden über /api/push an einen externen Server exfiltriert.
Empfehlung: Ollama-Server niemals ungeschützt ins öffentliche Internet exponieren.
🤖 Modell-Ökosystem (Mai 2026)
Die Ollama-Bibliothek umfasst inzwischen über 4.500 Modelle. Die Top-Neuzugänge und meistgenutzten Modelle im Mai 2026:
- Kimi K2.6 (Moonshot AI, MIT-Lizenz, 42B aktive / 1T gesamt, MoE) – erstes nicht-westliches Modell in Tier A der Coding-Benchmarks (87/100)
- Qwen 3.6 27B – 77,2 % SWE-bench, bestes dichtes Coding-Modell
- GLM-5.1 – Next-Gen-Flaggschiff für Agentic Engineering, State-of-the-Art auf SWE-Bench Pro
- Llama 4 Scout (17B aktiv / 109B gesamt, MoE) – schnell wachsend, läuft auf ~10 GB VRAM
- Gemma 4 – stark für Tool Calling und Vision-Aufgaben
- DeepSeek-R1 – weiterhin führend bei Reasoning-Tasks
🔗 Quelle: promptquorum.com
🍎 Apple Silicon: MLX-Boost (März/Mai 2026)
Mit Ollama 0.19 (März 2026) wurde die MLX-Framework-Integration eingeführt, die auf Apple-Silicon-Macs rund 1,6× schnelleres Prefilling und eine fast doppelte Decode-Geschwindigkeit liefert. M5-Chips profitieren am stärksten dank der neuen GPU Neural Accelerators. In v0.23.1 wurde der MLX-Sampler nochmals überarbeitet (v0.24.0), und Gemma 4 MTP-Spekulatives Decoding kam hinzu. Mindestvoraussetzung: Mac mit mehr als 32 GB Unified Memory.
🔗 Quelle: MacRumors
🐍 Python-Bibliothek v0.6.2 (29. April 2026)
Die offizielle Python-Bibliothek für Ollama wurde auf v0.6.2 aktualisiert. Highlights: Unterstützung für Image Generation, Cloud-API-Dokumentation und Cloud-Model-Nutzung (z. B. kimi-k2:1t-cloud, qwen3-coder:480b-cloud), sowie neue Resource-Cleanup-Methoden. Unterstützte Cloud-Modelle können direkt über https://ollama.com als Endpoint angesprochen werden.
🔗 Quelle: PyPI – ollama 0.6.2
📊 Community & Projekt
- Das Ollama-GitHub-Repository hat 171.000 Sterne und 16.100 Forks.
- Das Projekt veröffentlicht im Schnitt alle ~2 Tage ein neues Release – seit dem ersten öffentlichen Beta bereits über 542 Releases.
- Unterstützte Integrationen umfassen u.a. Claude Code, OpenAI Codex, GitHub Copilot CLI, OpenCode, OpenClaw (WhatsApp, Telegram, Slack, Discord), Cline und Continue.
Alle Angaben basieren auf öffentlich verfügbaren Quellen vom 15. Mai 2026. Links: GitHub Releases | ollama.com