Local-LLM News vom 6. Juni 2026: Ollama 0.30, LlamaStash, Gemma 4 und Nemotron 3 Ultra

🚀 Releases

Ollama 0.30 (5. Juni 2026) – Verbesserte Performance und GGUF-Modellunterstützung
Die neue Version bringt bis zu 20% schnellere Durchsätze auf NVIDIA-Hardware, erweiterte GPU-Unterstützung durch standardmäßig aktiviertes Vulkan, und native GGUF-Modelkompatibilität durch die Integration von llama.cpp. Nutzer können nun beliebige GGUF-Dateien von Hugging Face verwenden, auch von Unsloth-Quantisierungen. Apple-Silicon-Nutzer profitieren von erweiterten MLX-Engine-Optimierungen. Zudem können alle mit Tool-Calling ausgestatteten Modelle direkt mit ollama launch claude, ollama launch hermes oder ollama launch openclaw mit Coding-Agenten verbunden werden. GitHub

Ollama 0.30.5 und 0.30.6 (nach dem 5. Juni)
Patch-Releases beheben ein Floating-Point-Exception-Crash bei gemma4:12b und integrieren Oh My Pi, einen KI-Coding-Agent mit IDE-Integration. NVFP4 Global-Scale-Quantisierung für MLX Embedding-Layer auf Apple Silicon ist nun aktiviert. GitHub

llama.cpp b9528–b9542 (5. Juni 2026)
Kontinuierliche tägliche Veröffentlichungen mit Verbesserungen in OpenCL (bessere get_rows, cpy und q6_K Implementierungen), Vulkan-Optimierungen für Intel/AMD, LFM2/LFM2.5 Tool-Parser-Fixes und verschiedene Build-Verbesserungen. llama.cpp bleibt das Fundament von Ollamas GGUF-Engine und profitiert von sehr aktivem Upstream-Maintenance. GitHub

llama-cpp-python Release (4. Juni 2026)
Python-Bindings für llama.cpp wurden am 5. Juni veröffentlicht. Die Bibliothek bietet High-Level Python API und OpenAI-kompatible Web-Server-Integration. PyPI

🆕 Open-Weight-Modelle

Gemma 4 12B Unified (Juni 2026)
Googles neueste Open-Weight-Modellfamilie unterstützt native Multimodalität (Text, Bild, Audio auf 12B/E2B/E4B), 256K Tokens Kontext und ist nun verfügbar als GGUF-Quantisierungen von Unsloth. Besonders erwähnenswert: Dynamic GGUFs ermöglichen das Ausführen von Gemma 4 12B auf nur 8GB RAM – ideal für Consumer-Hardware. Lizenz: Apache 2.0 (vereinfachte Bedingungen im Vergleich zu früheren Gemma-Versionen). Verfügbar in Ollama und auf Hugging Face. Google DeepMind | Hugging Face

NVIDIA Nemotron 3 Ultra (4. Juni 2026)
550B-Parameter Mixture-of-Experts Modell mit 1M Token Kontext, optimiert für High-Throughput-Reasoning und lange Agent-Workflows. Trainingscut: Mai 2026. GGUF-Quantisierungen (2-bit, 3-bit, 8-bit) sind auf Hugging Face verfügbar. 2-Bit läuft auf 200GB RAM, 8-Bit auf 256GB. Kompatibel mit llama.cpp und Ollama. Hugging Face

🔀 Ökosystem

LlamaStash veröffentlicht (2. Juni 2026)
Ein neuer, von der Gemeinschaft erstellter Terminal-nativer llama.cpp-Launcher mit TUI, CLI, Daemon und OpenAI-kompatibler Proxy – alles in einer ~5MB Rust-Binary. Zero Overhead gegenüber Raw llama.cpp (≤1% gemessen). Funktionen: Hardware-Autodetektor, HuggingFace-Browser im TUI, Vim-Navigation, Ollama-Drop-in-Kompatibilität mit --ollama-compat, Agent-freundliche CLI mit --json-Output. Unterschiede zu Ollama: LlamaStash bleibt näher am llama.cpp-Backend, versteckt keine Parameter, ist TUI-first statt GUI-first. Unterschied zu llama-server direkt: automatische Modellverwaltung, TUI-Interface, Daemon-Supervision. Blog | GitHub

Open WebUI 14.8.0 (1. Juni 2026)
Helm-Chart-Release für Container-Deployments. Die v0.9.3-Reihe aus Mai 2026 führte Enhanced Voice Control und Performance-Verbesserungen ein. GitHub | PyPI

Unsloth Updates (Juni 2026)
Fokus auf Gemma 4 12B GGUF-Quantisierungen, MCP-Integration (Model Context Protocol), CUDA 13.3 Support und neues Chat-UI. Unsloth’s Dynamic GGUF-Technologie ermöglicht extrem ressourceneffiziente Quantisierungen. Changelog

🧠 Performance & Engineering

NVIDIA RTX 5090 + Ollama 0.30 Benchmark
Getestet mit Gemma 4 26B (Q4_K_M): bis 20% Durchsatz-Verbesserung auf NVIDIA-Hardware. Vulkan ist Standard, AMD und Intel GPUs funktionieren out-of-the-box ohne Vendor-spezifische Library-Installation.

Apple Silicon MLX-Verbesserungen
NVFP4 Global Scale in Embedding-Layern für bessere Quantisierungsqualität. Ollama’s MLX-Engine wird durch GGUF-Unterstützung ergänzt – Nutzer können wählen, ob sie native MLX-Performance oder GGUF-Portabilität bevorzugen.

Laguna und neue Architekturen
Ollama 0.30 fügt Experimental-Support für neue Modell-Architekturen (z.B. Laguna/Poolside) über llama.cpp-Patches hinzu. Beachte: Laguna-xs.2 wird noch nicht auf Windows/Linux unterstützt.

🆚 Ollama vs llama.cpp

Konvergenz durch GGUF-Integration
Ollama 0.30 markiert einen Wendepunkt: die neue Version nutzt llama.cpp als Kern für GGUF-Modelle und exponiert damit das gleiche Leistungspotential wie llama.cpp direkt. Der praktische Unterschied schrumpft: Ollama bietet höhere Abstraktionen (vereinheitlichte Modellverwaltung, CLI-Integrations wie ollama launch), während llama.cpp und Tools wie LlamaStash für Power-User mehr Kontrolle über Parameter bieten. Apple Silicon zeigt den Unterschied am deutlichsten: Ollama setzt auf MLX-Performance, kann aber jetzt auch GGUF-Fallback nutzen; llama.cpp ist GPU-agnostisch und läuft überall.

Roadmap-Differenzen
Ollama fokussiert auf Agent-Integration (Claude Code, OpenCode, Hermes) und Cloud-Hybrid-Szenarien (cloud models in preview). llama.cpp konzentriert sich auf rohe Inferenz-Performance und Hardware-Optimierung (OpenCL, Vulkan, ROCm, SYCL). LlamaStash adressiert eine Nische zwischen beiden: minimale Abstraktion mit guter UX.

📅 Zusammenfassung (30. Mai – 6. Juni 2026)

🎯 Ollama’s GGUF-Integration durch llama.cpp macht lokale Modelle portabler und performanter
🚀 Gemma 4 12B und Nemotron 3 Ultra zeigen, dass große open-weight Modelle nun auf Consumer-Hardware laufen können
🛠️ LlamaStash bietet eine neue Philosophie: minimale Overhead, maximale Kontrolle
📈 20% Performance-Gewinn auf NVIDIA durch llama.cpp-Optimierungen in Ollama 0.30
🖥️ Breitere GPU-Unterstützung: Vulkan standardmäßig aktiviert, AMD und Intel out-of-the-box

Alle Informationen basieren auf Quellen vom 30. Mai bis 6. Juni 2026.