Ollama News-Roundup: v0.24.0-RC, Sicherheitslücken & neue Modelle (16. Mai 2026)

Täglicher Überblick über die wichtigsten Entwicklungen rund um Ollama – Stand: 16. Mai 2026.

🚀 Releases & GitHub-Aktivität

v0.23.4 – Aktuelles Stable-Release (13. Mai 2026)

Das aktuelle stabile Release ist v0.23.4, veröffentlicht am 13. Mai 2026. Die wichtigsten Änderungen laut GitHub-Changelog:

ollama launch opencode unterstützt jetzt Vision-Modelle mit Bild-Inputs.
Fehlerbehebung bei der Formatierung von Claude-Tool-Ergebnissen, wenn lokale Bildpfade verwendet werden.

Quelle: github.com/ollama/ollama/releases

⚠️ v0.24.0-RC0 – Release Candidate verfügbar (14. Mai 2026)

Parallel zum Stable-Release wurde am 14. Mai 2026 der erste Release Candidate v0.24.0-rc0 veröffentlicht. Zu den angekündigten Neuerungen gehören:

Direktere Unterstützung von llama.cpp statt des bisherigen GGML-Layers sowie vollständige GGUF-Kompatibilität.
Einsatz von MLX zur Beschleunigung der Inferenz auf Apple Silicon.
ollama launch codex-app --restore-Befehl hinzugefügt.
Überarbeiteter MLX-Sampler für verbesserte Generierungsqualität auf Apple Silicon.

Quelle: releasealert.dev / github.com/ollama/ollama/releases

⚡ Performance: MLX-Boost für Apple Silicon (Mai 2026)

Ollama hat ein Update veröffentlicht, das Apples eigenes Machine-Learning-Framework MLX nutzt und erhebliche Geschwindigkeitsgewinne auf Macs mit Apple Silicon bringt. Laut Ollama wird die Prefill-Geschwindigkeit rund 1,6-mal schneller, und die Decode-Geschwindigkeit verdoppelt sich nahezu. Macs mit M5-Chips profitieren besonders stark durch Apples neue GPU Neural Accelerators. Die Preview war als Ollama 0.19 verfügbar und erfordert mehr als 32 GB Unified Memory.

Quelle: MacRumors

Auch NVIDIA hat Optimierungen beigesteuert: Auf NVIDIA RTX-PCs konnte die Token-Generierungsrate für MoE-Modelle in Ollama um bis zu 30 % gesteigert werden – unter anderem durch GPU Token Sampling und MMVQ-Kernel-Optimierungen.

Quelle: NVIDIA Technical Blog

🔗 Neue Integrationen: OpenAI Codex & Claude Desktop

OpenAI Codex App: Die Codex-Desktop-App ist jetzt über Ollama nutzbar. Jedes Ollama-Modell – lokal oder in der Cloud – kann innerhalb der App zum Coden, Browsen und Code-Review eingesetzt werden. Codex kann lokale Server und Websites im integrierten Browser starten.
Claude Desktop: Ollama Launch unterstützt jetzt Claude Desktop. Claude Code und Claude Cowork sind in der Claude Desktop App integriert.
GitHub Copilot CLI: Copilot CLI spricht jetzt denselben OpenAI-kompatiblen Endpoint auf localhost:11434.
OpenClaw: Ollama lässt sich via ollama launch openclaw als persönlichen KI-Assistenten über WhatsApp, Telegram, Slack und Discord nutzen.

Quelle: github.com/ollama/ollama

🤖 Neue & populäre Modelle im Mai 2026

Die Ollama-Library umfasst mittlerweile über 4.500 Modelle. Neu im Mai 2026:

Kimi K2.6 (Moonshot AI, MIT-Lizenz, 42B aktiv / 1T gesamt, MoE): Erstes nicht-westliches Modell, das Tier A in Coding-Benchmarks erreicht (87/100). Top-Wahl für Coding-Aufgaben.
Qwen 3.6 27B: Bestes dichtes Coding-Modell mit 77,2 % auf dem SWE-Bench.
GLM-5.1: Neu in der Ollama-Library.
Llama 4 Scout (Meta, MoE, 17B aktiv / 109B gesamt): Stabil im Ollama-Katalog, läuft auf ca. 10 GB VRAM (ollama pull llama4:scout). Schnell wachsend in der Download-Statistik.
Devstral Small 24B: Bestes agentisches Coding-Modell in seiner Klasse.

Top-Downloads insgesamt: Llama 3.2 3B (Einsteiger), Llama 4 Scout (beste Qualität), Qwen3 (am schnellsten wachsend), Gemma 4 (Tool Calling + Vision), DeepSeek-R1 (Reasoning).

Quelle: PromptQuorum

🔴 Sicherheit: Drei CVEs – Dringender Handlungsbedarf

Anfang Mai 2026 wurden drei kritische Sicherheitslücken bekannt. Sie betreffen unterschiedliche Plattformen und erfordern verschiedene Gegenmaßnahmen:

CVE-2026-7482 – „Bleeding Llama“ (CVSS 9.1) – GEPATCHT

Eine kritische Out-of-Bounds-Read-Lücke im GGUF-Modell-Loader ermöglicht es einem unauthentifizierten Remote-Angreifer, große Teile des Prozessspeichers auszulesen – darunter Umgebungsvariablen, API-Keys, System-Prompts und Konversationsdaten anderer Nutzer. Der Angriff erfolgt über den /api/create-Endpoint mit einer manipulierten GGUF-Datei; die gestohlenen Daten können via /api/push exfiltriert werden. Betroffen sind Versionen vor 0.17.1 (Fix veröffentlicht am 24. Februar 2026, CVE zugewiesen am 28. April 2026). Schätzungsweise ~300.000 öffentlich erreichbare Ollama-Server sind potenziell betroffen.

Quelle: The Hacker News / Let’s Data Science

CVE-2026-42248 & CVE-2026-42249 – Windows Auto-Updater (noch ungepatchtes Release)

Zwei Windows-spezifische Lücken im Auto-Update-Mechanismus lassen sich zu persistenter Code-Ausführung bei jedem Login verketten:

CVE-2026-42248: Die Signaturprüfung ist implementiert, tut aber nichts – heruntergeladene Update-Dateien werden ohne Validierung ausgeführt (macOS prüft korrekt).
CVE-2026-42249: Path-Traversal-Lücke: Der Updater baut den lokalen Pfad für den Installer direkt aus HTTP-Response-Headern ohne Bereinigung. Ein Angreifer kann über einen manipulierten ETag-Header beliebige Executables in den Windows-Startup-Ordner schreiben.

Betroffen: Ollama für Windows 0.12.10 bis 0.23.2. Der Fix ist am 11. Mai 2026 in den Main-Branch gemergt, aber noch in keinem getaggten Release enthalten. Empfehlung: Auto-Update deaktivieren und keine ungeschützten Ports nach außen öffnen, bis ein gepatchtes Release erscheint.

Quelle: Help Net Security / Mondoo

📋 Zusammenfassung & Empfehlungen

Update sofort auf ≥ 0.17.1, um „Bleeding Llama“ (CVE-2026-7482) zu schließen.
Windows-Nutzer: Auto-Update deaktivieren, bis ein Release nach v0.23.2 mit dem Fix für CVE-2026-42248/42249 erscheint. Das nächste Release (v0.24.0) dürfte diesen Patch enthalten.
Ollama-Server niemals ohne Authentifizierung öffentlich auf Port 11434 exponieren.
Neue Modelle wie Kimi K2.6 und Qwen 3.6 sind jetzt direkt über ollama pull verfügbar.
v0.24.0-rc0 kann für Tests bereits heruntergeladen werden – Stable-Release steht kurz bevor.