Local-LLM-Roundup: Woche vom 30. Mai – 6. Juni 2026

🚀 Releases

Ollama 0.30 (5. Juni 2026)

Verbesserte Performance und GGUF-Kompatibilität: Ollama 0.30 bringt bis zu 20% schnellere Inferenz auf NVIDIA-Hardware (getestet mit Gemma 4 26B auf RTX 5090) und erweitert Vulkan-Unterstützung für AMD und Intel GPUs. Das Release augmentiert die MLX-Engine auf Apple Silicon und ermöglicht direktes Laden von GGUF-Dateien von Hugging Face mit lokalen Pfaden.

Neue Features:

Direkte GGUF-Unterstützung – „ollama create -f Modelfile“ mit lokalen GGUF-Dateien
Tool-Calling-Integration für Coding-Agents: Claude Code, Hermes Agent, OpenClaw
Vulkan standardmäßig aktiviert – breiter Hardware-Support ohne spezifische Treiber
MLX NVFP4-Quantisierung für verbessertes Apple Silicon

Patch-Updates: 0.30.5 (Gemma 4 12B FP-Exception-Crash-Fix), 0.30.6 (Oh My Pi-Integration, MLX Quantisierungsverbesserungen)

Quelle: ollama.com/blog

Hermes Agent 0.5.0 (5. Juni 2026)

Produktiv-reife Desktop-Anwendung: Nous Research veröffentlicht Hermes als native macOS/Linux/Windows-Anwendung mit Text-to-Speech und Browser-Automation. Direkte Integration mit Ollama-Modellen (via „ollama launch hermes“).

Quelle: github.com/NousResearch/hermes-agent

Open WebUI 0.9.6 (2. Juni 2026)

Knowledge-Base-Revolutionierung mit oikb-Tool: Open WebUI führt offizielle Knowledge-Base-Synchronisierung ein – das neue Companion-Tool oikb hält lokale Verzeichnisse, GitHub-Repos und S3-Buckets automatisch in Sync, vergleicht Checksummen und uploaded nur geänderte/neue Dateien.

Sicherheit & Performance:

🛡️ Redirect-basierte SSRF-Prävention (blockiert 3xx-Redirects in HTTP-Requests)
🛡️ iframe Content-Security-Policy konfigurierbar
💽 Schnellere Ollama-Verbindungen via Shared Connection-Pool
🚀 Nicht-blockierende Web-Search (SearXNG, Brave, etc.)
🗂️ Knowledge-Base-Ordnerstruktur mit Breadcrumb-Navigation
🧰 Dateisystem-Tool für Knowledge Bases (ls, cat, grep, find mit Pipes)

Quelle: github.com/open-webui/open-webui

llama.cpp b9542 (6. Juni 2026 – kontinuierliche Entwicklung)

Neueste Builds fokussieren auf Stabilität und Performance-Optimierungen:

b9542: Entfernung überflüssiger Statics (#24226)
b9541: Format-Specifier-Fix in LOG_INF (#24213)
b9536: OpenCL-Verbesserungen für get_rows, cpy, concat und q6_k (#24160)
b9535: LFM2/LFM2.5 Chat-Template-Vereinheitlichung (#24178)

llama.cpp verteilt regelmäßig optimierte Binaries für macOS, Linux, Windows, Android mit Support für CUDA 12/13, Vulkan, ROCm, HIP und OpenVINO.

Quelle: github.com/ggml-org/llama.cpp

🆕 Open-Weight-Modelle

NVIDIA Nemotron 3 Ultra (4. Juni 2026)

550B MoE für Langläufer-Agents: NVIDIA veröffentlicht Nemotron 3 Ultra als offenes 550B-Parameter-Modell mit 55B aktiven Parametern. 5x schneller als vorgängige Versionen, optimiert für lange, mehrstündige Agenten-Workflows und Reasoning-Aufgaben.

Verfügbarkeit: Ollama Cloud, GGUF-Quantisierungen für llama.cpp/Ollama (lokal trainierbar, aber große Modelle erfordern Cluster-Hardware).

Quelle: Ollama Blog, NVIDIA Developer Blog

Gemma 4 – QAT-optimierte Varianten (Juni 2026)

Google DeepMind veröffentlicht Gemma 4 (multimodal, Text+Bild+Audio-Support) mit neuem Quantization-Aware Training (QAT) – lokale GGUF-Quantisierungen erhalten bessere Genauigkeit. Modelle: 12B, 26B, 31B (alle GGUF auf Ollama/HF verfügbar).

Quelle: Google for Developers Instagram, Unsloth-Benchmarks

🔴 Sicherheit

llama.cpp GGUF-Parser: 6 kritische Schwachstellen (15. Mai 2026, veröffentlicht)

Betroffene Versionen: Alle Versionen von llama.cpp seit Einführung des GGUF-Formats; betroffen sind auch Ollama (nutzt llama.cpp als Backend), LM Studio, und alle Python-basierten GGUF-Tools.

Kritische Fehler (V-01 bis V-06):

V-01 (KRITISCH): Integer-Overflow in GGML_PAD-Makro bei `general.alignment`-Feld auf 32-Bit-Systemen – ermöglicht willkürliche Datei-Seeks und Out-of-Bounds-Reads vor Inferenz-Start. Betroffener Code: gguf.cpp Zeile 703.
V-02 (HOCH): Memory-Exhaustion durch GGUF_MAX_STRING_LENGTH und GGUF_MAX_ARRAY_ELEMENTS auf 1 GB – 1GB-String in 1GB-Array → Crash mit std::bad_alloc.
V-03 (HOCH): Python gguf_reader.py akzeptiert beliebig viele Tensor-Dimensionen (n_dims=0xFFFFFFFF) – ~32GB Speicher-Map-Versuch.
V-04–V-06 (MITTEL): Typ-Konversion-Bypass, unkontrollierte Enum-Casts, Division-by-Zero bei Quantisierungstyp.

Angriffsvektor: Downloads von öffentlichen Repositories (Hugging Face etc.). Ein bösartiges GGUF-Modell wird sofort beim Laden geparsed – vor Token-Generierung und vor jeder Anwendungs-Schutzmaßnahme.

Mitigationen (bis Patch verfügbar): GGUF-Dateien nur von verifizierten, gehashten oder kryptographisch signierten Quellen laden. Öffentliche, nicht kuratierte Uploads vermeiden.

Stand: Keine CVE-Nummern automatisch zugewiesen – Scanner-basierte Patch-Workflows schlagen fehl. CVE-Kandidat-Status, Maintainer-Response ausstehend.

Quelle: TechTimes (26. Mai 2026)

Bleeding Llama (CVE-2026-7482) – älter, aber relevant

Betroffene Versionen: Ollama < 0.17.1 (alle Plattformen)

Schweregrad: CVSS 9.1

Heap-Out-of-Bounds-Read in Ollamas Go-GGUF-Loader. Unauthentisierte Angreifer mit HTTP-API-Zugang senden crafted GGUF mit aufgeblähten Tensor-Dimensionen an `/api/create` → Process-Memory-Leak (Env-Variablen, API-Keys, Chats, Prompts) in 3 API-Calls via `/api/push` ohne Log-Einträge. Fix in Ollama 0.17.1 (24. Februar 2026); CVE zugewiesen erst 28. April (fast 2 Monate Delay). Alle aktuellen Ollama-User (0.24+, 0.30) sind gepatcht.

Quellen: WZ-IT, YUPL

🔀 Ökosystem

Ollama vs. llama.cpp – Aktuelle Unterschiede

GGUF-Loading:

Ollama 0.30: Natives GGUF-Loading mit Modelfile `FROM ./my-model.Q4_K_M.gguf` – einfache lokale Datei-Verwaltung.
llama.cpp: Exposes offenes OpenAI-kompatibles HTTP-Server-API; externe UIs wie Open WebUI werden empfohlen.

Tool-Calling-Integration:

Ollama 0.30: Eingebaute Integration via `ollama launch [claude|hermes|openclaw]` – ein-Befehl-Setup mit Coding-Agents.
llama.cpp: Tool-Calling wird von Chat-Templates unterstützt (z.B. LFM2/LFM2.5-Parser in b9535), erfordert aber externe Agent-Framework-Konfiguration.

Hardware-Support:

Ollama 0.30: Vulkan standardmäßig – AMD/Intel GPU-Support out-of-box.
llama.cpp: Vulkan, ROCm, SYCL, HIP, OpenVINO in verschiedenen Builds, nutzer-muss richtige Variante wählen.

Weitere Tools & Integrationen

Open WebUI 0.9.6: Knowledge-Base-Dateisystem-Tool + oikb-Sync ändert Arbeitsfluss für RAG-Deployments. Schnellere Ollama-Connections via Connection-Pooling für große Instanzen relevant.

Hermes Agent 0.5.0: Desktop-Version macht lokale Agenten-Workflows zugänglicher – direkte Ollama-Modell-Auswahl, keine CLI nötig.

Unsloth Gemma 4 QAT: Quantisierungsverfahren verbessert lokale Modellgüte – relevant für Ollama/llama.cpp-User, die Hugging Face-Quantisierungen nutzen.

📊 Performance & Engineering

llama.cpp OpenCL-Optimierungen (b9536)

Verbesserte get_rows/cpy/concat/q6_k-Flops für Intel/AMD: Multi-Workgroup-Support für große Zeilen, gepacjte kleine cpy, q6_K-GEMV-Remapping. Besonders für AMD-iGPUs und Intel-Arc-Karten relevant.

Ollama NVIDIA 20% Throughput-Boost (0.30)

NVIDIA + llama.cpp-Teams: Getestet mit Gemma 4 26B Q4_K_M auf RTX 5090. Unklar, ob Overhead-Reduktion oder Kernel-Optimierungen – llama.cpp-Basis-Verbesserungen wahrscheinlich.

🆚 Ollama vs. llama.cpp – Neuer Snapshot

Feature	Ollama 0.30	llama.cpp b9542
GGUF-Loading	Modelfile + lokale Pfade (einfach)	CLI-Flag; externe UI nötig
Tool-Calling-UI	ollama launch [claude\|hermes\|openclaw]	Nur API-Support; Framework-Konfiguration nötig
Vulkan-Default	Ja (0.30+)	Nutzer wählt Variante
Chat-Template-Parser	MLX + llama.cpp	LFM2/LFM2.5 vereinheitlicht (b9535)
Release-Zyklus	Monatlich (~0.24, 0.30)	Täglich (b-Builds), 3-4 pro Woche getaggt

⚠️ Wichtig für diese Woche

llama.cpp GGUF-Parser-Sicherheit: Warten auf Patches (V-01–V-06). Bis dahin: nur vertraute Modellquellen nutzen.
Ollama 0.30: Upgrade empfohlen für Vulkan + GGUF-Kompatibilität; auch Bleeding-Llama-Fix (0.17.1) ist älter und sollte überprüft sein.
Open WebUI 0.9.6: SSRF-Mitigationen wichtig für öffentlich zugängliche Instanzen.
Hermes Agent 0.5.0: Produktive Desktop-Anwendung – gutes Zeichen für Ökosystem-Reife lokaler Agents.