🚀 Releases
Ollama 0.30 (5. Juni 2026)
Verbesserte Performance und GGUF-Kompatibilität: Ollama 0.30 bringt bis zu 20% schnellere Inferenz auf NVIDIA-Hardware (getestet mit Gemma 4 26B auf RTX 5090) und erweitert Vulkan-Unterstützung für AMD und Intel GPUs. Das Release augmentiert die MLX-Engine auf Apple Silicon und ermöglicht direktes Laden von GGUF-Dateien von Hugging Face mit lokalen Pfaden.
Neue Features:
- Direkte GGUF-Unterstützung – „ollama create -f Modelfile“ mit lokalen GGUF-Dateien
- Tool-Calling-Integration für Coding-Agents: Claude Code, Hermes Agent, OpenClaw
- Vulkan standardmäßig aktiviert – breiter Hardware-Support ohne spezifische Treiber
- MLX NVFP4-Quantisierung für verbessertes Apple Silicon
Patch-Updates: 0.30.5 (Gemma 4 12B FP-Exception-Crash-Fix), 0.30.6 (Oh My Pi-Integration, MLX Quantisierungsverbesserungen)
Quelle: ollama.com/blog
Hermes Agent 0.5.0 (5. Juni 2026)
Produktiv-reife Desktop-Anwendung: Nous Research veröffentlicht Hermes als native macOS/Linux/Windows-Anwendung mit Text-to-Speech und Browser-Automation. Direkte Integration mit Ollama-Modellen (via „ollama launch hermes“).
Quelle: github.com/NousResearch/hermes-agent
Open WebUI 0.9.6 (2. Juni 2026)
Knowledge-Base-Revolutionierung mit oikb-Tool: Open WebUI führt offizielle Knowledge-Base-Synchronisierung ein – das neue Companion-Tool oikb hält lokale Verzeichnisse, GitHub-Repos und S3-Buckets automatisch in Sync, vergleicht Checksummen und uploaded nur geänderte/neue Dateien.
Sicherheit & Performance:
- 🛡️ Redirect-basierte SSRF-Prävention (blockiert 3xx-Redirects in HTTP-Requests)
- 🛡️ iframe Content-Security-Policy konfigurierbar
- 💽 Schnellere Ollama-Verbindungen via Shared Connection-Pool
- 🚀 Nicht-blockierende Web-Search (SearXNG, Brave, etc.)
- 🗂️ Knowledge-Base-Ordnerstruktur mit Breadcrumb-Navigation
- 🧰 Dateisystem-Tool für Knowledge Bases (ls, cat, grep, find mit Pipes)
Quelle: github.com/open-webui/open-webui
llama.cpp b9542 (6. Juni 2026 – kontinuierliche Entwicklung)
Neueste Builds fokussieren auf Stabilität und Performance-Optimierungen:
- b9542: Entfernung überflüssiger Statics (#24226)
- b9541: Format-Specifier-Fix in LOG_INF (#24213)
- b9536: OpenCL-Verbesserungen für get_rows, cpy, concat und q6_k (#24160)
- b9535: LFM2/LFM2.5 Chat-Template-Vereinheitlichung (#24178)
llama.cpp verteilt regelmäßig optimierte Binaries für macOS, Linux, Windows, Android mit Support für CUDA 12/13, Vulkan, ROCm, HIP und OpenVINO.
Quelle: github.com/ggml-org/llama.cpp
🆕 Open-Weight-Modelle
NVIDIA Nemotron 3 Ultra (4. Juni 2026)
550B MoE für Langläufer-Agents: NVIDIA veröffentlicht Nemotron 3 Ultra als offenes 550B-Parameter-Modell mit 55B aktiven Parametern. 5x schneller als vorgängige Versionen, optimiert für lange, mehrstündige Agenten-Workflows und Reasoning-Aufgaben.
Verfügbarkeit: Ollama Cloud, GGUF-Quantisierungen für llama.cpp/Ollama (lokal trainierbar, aber große Modelle erfordern Cluster-Hardware).
Quelle: Ollama Blog, NVIDIA Developer Blog
Gemma 4 – QAT-optimierte Varianten (Juni 2026)
Google DeepMind veröffentlicht Gemma 4 (multimodal, Text+Bild+Audio-Support) mit neuem Quantization-Aware Training (QAT) – lokale GGUF-Quantisierungen erhalten bessere Genauigkeit. Modelle: 12B, 26B, 31B (alle GGUF auf Ollama/HF verfügbar).
Quelle: Google for Developers Instagram, Unsloth-Benchmarks
🔴 Sicherheit
llama.cpp GGUF-Parser: 6 kritische Schwachstellen (15. Mai 2026, veröffentlicht)
Betroffene Versionen: Alle Versionen von llama.cpp seit Einführung des GGUF-Formats; betroffen sind auch Ollama (nutzt llama.cpp als Backend), LM Studio, und alle Python-basierten GGUF-Tools.
Kritische Fehler (V-01 bis V-06):
- V-01 (KRITISCH): Integer-Overflow in GGML_PAD-Makro bei `general.alignment`-Feld auf 32-Bit-Systemen – ermöglicht willkürliche Datei-Seeks und Out-of-Bounds-Reads vor Inferenz-Start. Betroffener Code: gguf.cpp Zeile 703.
- V-02 (HOCH): Memory-Exhaustion durch GGUF_MAX_STRING_LENGTH und GGUF_MAX_ARRAY_ELEMENTS auf 1 GB – 1GB-String in 1GB-Array → Crash mit std::bad_alloc.
- V-03 (HOCH): Python gguf_reader.py akzeptiert beliebig viele Tensor-Dimensionen (n_dims=0xFFFFFFFF) – ~32GB Speicher-Map-Versuch.
- V-04–V-06 (MITTEL): Typ-Konversion-Bypass, unkontrollierte Enum-Casts, Division-by-Zero bei Quantisierungstyp.
Angriffsvektor: Downloads von öffentlichen Repositories (Hugging Face etc.). Ein bösartiges GGUF-Modell wird sofort beim Laden geparsed – vor Token-Generierung und vor jeder Anwendungs-Schutzmaßnahme.
Mitigationen (bis Patch verfügbar): GGUF-Dateien nur von verifizierten, gehashten oder kryptographisch signierten Quellen laden. Öffentliche, nicht kuratierte Uploads vermeiden.
Stand: Keine CVE-Nummern automatisch zugewiesen – Scanner-basierte Patch-Workflows schlagen fehl. CVE-Kandidat-Status, Maintainer-Response ausstehend.
Quelle: TechTimes (26. Mai 2026)
Bleeding Llama (CVE-2026-7482) – älter, aber relevant
Betroffene Versionen: Ollama < 0.17.1 (alle Plattformen)
Schweregrad: CVSS 9.1
Heap-Out-of-Bounds-Read in Ollamas Go-GGUF-Loader. Unauthentisierte Angreifer mit HTTP-API-Zugang senden crafted GGUF mit aufgeblähten Tensor-Dimensionen an `/api/create` → Process-Memory-Leak (Env-Variablen, API-Keys, Chats, Prompts) in 3 API-Calls via `/api/push` ohne Log-Einträge. Fix in Ollama 0.17.1 (24. Februar 2026); CVE zugewiesen erst 28. April (fast 2 Monate Delay). Alle aktuellen Ollama-User (0.24+, 0.30) sind gepatcht.
🔀 Ökosystem
Ollama vs. llama.cpp – Aktuelle Unterschiede
GGUF-Loading:
- Ollama 0.30: Natives GGUF-Loading mit Modelfile `FROM ./my-model.Q4_K_M.gguf` – einfache lokale Datei-Verwaltung.
- llama.cpp: Exposes offenes OpenAI-kompatibles HTTP-Server-API; externe UIs wie Open WebUI werden empfohlen.
Tool-Calling-Integration:
- Ollama 0.30: Eingebaute Integration via `ollama launch [claude|hermes|openclaw]` – ein-Befehl-Setup mit Coding-Agents.
- llama.cpp: Tool-Calling wird von Chat-Templates unterstützt (z.B. LFM2/LFM2.5-Parser in b9535), erfordert aber externe Agent-Framework-Konfiguration.
Hardware-Support:
- Ollama 0.30: Vulkan standardmäßig – AMD/Intel GPU-Support out-of-box.
- llama.cpp: Vulkan, ROCm, SYCL, HIP, OpenVINO in verschiedenen Builds, nutzer-muss richtige Variante wählen.
Weitere Tools & Integrationen
Open WebUI 0.9.6: Knowledge-Base-Dateisystem-Tool + oikb-Sync ändert Arbeitsfluss für RAG-Deployments. Schnellere Ollama-Connections via Connection-Pooling für große Instanzen relevant.
Hermes Agent 0.5.0: Desktop-Version macht lokale Agenten-Workflows zugänglicher – direkte Ollama-Modell-Auswahl, keine CLI nötig.
Unsloth Gemma 4 QAT: Quantisierungsverfahren verbessert lokale Modellgüte – relevant für Ollama/llama.cpp-User, die Hugging Face-Quantisierungen nutzen.
📊 Performance & Engineering
llama.cpp OpenCL-Optimierungen (b9536)
Verbesserte get_rows/cpy/concat/q6_k-Flops für Intel/AMD: Multi-Workgroup-Support für große Zeilen, gepacjte kleine cpy, q6_K-GEMV-Remapping. Besonders für AMD-iGPUs und Intel-Arc-Karten relevant.
Ollama NVIDIA 20% Throughput-Boost (0.30)
NVIDIA + llama.cpp-Teams: Getestet mit Gemma 4 26B Q4_K_M auf RTX 5090. Unklar, ob Overhead-Reduktion oder Kernel-Optimierungen – llama.cpp-Basis-Verbesserungen wahrscheinlich.
🆚 Ollama vs. llama.cpp – Neuer Snapshot
| Feature | Ollama 0.30 | llama.cpp b9542 |
|---|---|---|
| GGUF-Loading | Modelfile + lokale Pfade (einfach) | CLI-Flag; externe UI nötig |
| Tool-Calling-UI | ollama launch [claude|hermes|openclaw] | Nur API-Support; Framework-Konfiguration nötig |
| Vulkan-Default | Ja (0.30+) | Nutzer wählt Variante |
| Chat-Template-Parser | MLX + llama.cpp | LFM2/LFM2.5 vereinheitlicht (b9535) |
| Release-Zyklus | Monatlich (~0.24, 0.30) | Täglich (b-Builds), 3-4 pro Woche getaggt |
⚠️ Wichtig für diese Woche
- llama.cpp GGUF-Parser-Sicherheit: Warten auf Patches (V-01–V-06). Bis dahin: nur vertraute Modellquellen nutzen.
- Ollama 0.30: Upgrade empfohlen für Vulkan + GGUF-Kompatibilität; auch Bleeding-Llama-Fix (0.17.1) ist älter und sollte überprüft sein.
- Open WebUI 0.9.6: SSRF-Mitigationen wichtig für öffentlich zugängliche Instanzen.
- Hermes Agent 0.5.0: Produktive Desktop-Anwendung – gutes Zeichen für Ökosystem-Reife lokaler Agents.