Mit sowohl dichten als auch MixtureâofâExpertsâ(MoEâ)Architekturen ist GemmaâŻ4 gut geeignet fĂŒr Aufgaben wie Textgenerierung, Programmieren und logisches Schliessen. Die Modelle sind in vier unterschiedlichen Grössen verfĂŒgbar: E2B, E4B, 26B A4B und 31B. Ihre verschiedenen Grössen machen sie einsetzbar in Umgebungen von HighâEndâSmartphones bis hin zu Laptops und Servern, wodurch der Zugang zu modernster KI demokratisiert wird.
Gemma 4 ist unterdessen schon unter Ollama und LM Studio verfĂŒgbar. Mich interessiert im Moment vor allem die Bildanalyse. Auf meinem lokalen KI-Server verwende ich meistens openai/gpt-oss-120b. Da dieses Modell keine Bildanalyse kann, ist zusĂ€tzlich qwen/qwen3-vl-30b fĂŒr visuelle Aufgaben installiert.
Hier ein erster Testlauf mit einer Bildanalyse. Ich verwende die 26b Variante unter Ollama, da dieses Modell als Erstes dort verfĂŒgbar war.
pp@MacStudio2025 >ollama list | grep gemma4
gemma4:26b 17 GB 27 hours ago
Gemma 4 26B Mixture-of-Experts (MoE) Model
| Property | 26B A4B MoE |
|---|---|
| Total Parameters | 25.2B |
| Active Parameters | 3.8B |
| Layers | 30 |
| Sliding Window | 1024 tokens |
| Context Length | 256K tokens |
| Vocabulary Size | 262K |
| Expert Count | 8 active / 128 total and 1 shared |
| Supported Modalities | Text, Image |
| Vision Encoder Parameters | ~550M |
Das 'A' in 26BâŻA4B steht fĂŒr 'aktive Parameter' im Gegensatz zur Gesamtzahl der Parameter, die das Modell enthĂ€lt.
Indem nur ein Subset von 4âŻB Parametern wĂ€hrend der Inferenz aktiviert wird, lĂ€uft das MixtureâofâExpertsâModell deutlich schneller als die Gesamtsumme von 26âŻB vermuten lĂ€sst.
Damit ist es eine ausgezeichnete Wahl fĂŒr schnelle Inferenz im Vergleich zum dichten 31âBâModell, da es fast so schnell lĂ€uft wie ein Modell mit 4âŻB Parametern.
Bildanalyse mit Gemma 4 26B MoE

PROMPT
analysiere diese bild, ĂŒberlege lange und grĂŒndlich
Nachgedacht fĂŒr 8 Sekunden
Gemma 4 26B MoE mit Open WebUI
Diese tiefgreifende Analyse des Bildes betrachtet verschiedene Ebenen: das Motiv, die Umgebung, die Farbpsychologie und die kompositorische Struktur.
1. Das Hauptmotiv: Die Richtungsweisung
Im Fokus steht ein kreisförmiges, blaues Verkehrsschild mit einem weissen Pfeil, der nach links deutet.
Bedeutung: Es handelt sich um ein Gebotszeichen (wahrscheinlich eine 'Vorgeschriebene Fahrtrichtung' oder eine Anweisung fĂŒr Wanderwege). Das Schild gibt eine klare Ordnung vor und unterbricht die scheinbare Wildnis der Natur durch einen menschlichen, regulatorischen Eingriff.
Zustand: Das Schild wirkt gepflegt, weist aber bei genauem Hinsehen leichte Texturen auf, was darauf hindeutet, dass es den Elementen (Sonne, Salzluft) ausgesetzt ist.
2. Die Umgebung: Eine vulkanische Landschaft
Der Hintergrund offenbart eine raue, ökologisch spezifische Umgebung.
Geologie: Die dunklen, fast schwarzen und rötlichen Gesteinsformationen im Vordergrund sind typisch fĂŒr vulkanisches GelĂ€nde. Es handelt sich um erstarrte Lava (Basalt) und möglicherweise Schlacke. Die Textur des Gesteins ist extrem zerklĂŒftet und scharfkantig.
Vegetation: Zwischen den Felsen wachsen spĂ€rliche, grĂŒne BĂŒsche und niedrige Pflanzen. Dies deutet auf eine xerophile Umgebung (trockenheitsresistent) hin, in der Pflanzen Strategien entwickelt haben, um mit wenig Wasser und hoher Sonneneinstrahlung zu ĂŒberleben.
Geografie: Im Hintergrund ist eine weite WasserflÀche (der Ozean) zu erkennen, die den Horizont bildet. Die Kombination aus vulkanischem Gestein, spezifischer Vegetation und dem nahen Meer lÀsst stark an die Kanarischen Inseln (wie etwa Lanzarote oder La Palma) denken.
3. Farbpsychologie und LichtverhÀltnisse
Das Bild zeichnet sich durch einen extrem hohen Kontrast und eine gesÀttigte Farbpalette aus.
KomplementÀre Kontraste: Das tiefe Blau des Himmels und des Schilds steht in einem starken SpannungsverhÀltnis zu den warmen, erdigen Tönen (Rot, Braun, Schwarz) der Felsen. Dieses Spiel zwischen 'Kalt' und 'Warm' macht das Bild visuell sehr dynamisch.
Licht: Das Licht ist hell und direkt, was auf die Mittagszeit oder einen sehr klaren Tag hindeutet. Es gibt kaum weiche Schatten; die Konturen sind scharf definiert. Dies verstÀrkt die plastische Wirkung der Felsen.
Die weisse Wolke: Die einzelne, flauschige weisse Wolke im linken oberen Quadranten dient als visuelles Gegengewicht zum weissen Pfeil auf dem Schild und bringt eine sanfte, organische Komponente in das sonst sehr harte BildgefĂŒge
4. Komposition und BlickfĂŒhrung
Die Komposition ist meisterhaft ausbalanciert:
Blickleitung: Der weisse Pfeil fungiert als 'Vektor'. Er zwingt das Auge des Betrachters, von der rechten Seite des Bildes (wo das Schild platziert ist) nach links ĂŒber die Landschaft hinweg zum Horizont zu wandern.
Tiefenwirkung: Das Bild arbeitet mit drei klaren Ebenen:
Der Vordergrund mit den detaillierten Felsen und dem Schild.
Der Mittelgrund mit der flacher werdenden Vegetation und der KĂŒstenlinie.
Der Hintergrund mit dem Ozean und dem unendlichen Himmel.
Dies erzeugt eine enorme rÀumliche Tiefe
Fazit der Analyse
Das Bild ist weit mehr als nur die Dokumentation eines Schildes. Es ist eine visuelle Meditation ĂŒber das VerhĂ€ltnis von Ordnung (das Schild) und Chaos (die vulkanische Natur). Durch die geschickte Platzierung des Pfeils wird der Betrachter eingeladen, nicht nur das Objekt zu betrachten, sondern die gesamte Weite der Landschaft gedanklich 'abzuwandern'. Es ist ein Bild von hoher struktureller Klarheit und emotionaler Ruhe.
Ich hÀtte es nicht besser formulieren können. Alles korrekt.
Genau das habe ich mir ĂŒberlegt als in das Bild mit meinem iPhone auf Lanzarote aufgenommen habe: visuelle Meditation ĂŒber das VerhĂ€ltnis von Ordnung und Chaos.
Genau so đł.
Subjektiv ist das Gemma 4 Modell mindestens so gut wie das Qwen3-VL-Modell, welches ich bisher verwendet habe.
Quellen
https://deepmind.google/models/gemma/gemma-4/
https://ollama.com/library/gemma4
https://lmstudio.ai/models/gemma-4
Video: Whatâs new in Gemma 4
Die Zusammenfassung wurde mithilfe von KIâTools erstellt. Web ClipperâŻââŻObsidianâŻââŻCopilot, unter lokaler Verwendung von gptâoss:120b auf einem Mac Studio.
YouTube hat kĂŒrzlich die Codierung geĂ€ndert, der bisherige Code fĂŒr das Transkript funktioniert nicht mehr. Diesen habe ich jetzt angepasst. Siehe hier:
Transkript
Einleitung
- Olivier ist Group Product Manager im Gemma-Team.
- Entwicklergemeinschaft hat seit dem Launch der ersten Modelle ĂŒber 400âŻMillionen Downloads und 100âŻ000 Varianten erzielt.
- Dankbarkeit fĂŒr das lebendige Ăkosystem rund um Gemma.
AnkĂŒndigung von Gemma 4
- Gemma 4 basiert auf Forschung und Technologie von Gemini 3.
- OpenâSource unter Apacheâ2.0 Lizenz, lĂ€uft direkt auf eigenen GerĂ€ten (Phone, Laptop, Desktop).
- Entwickelt fĂŒr die agentische Ăra: komplexe Logik, mehrstufige Planung, effiziente TokenâNutzung.
Modellfamilie
- 26âŻB MixtureâofâExperts (MOE) mit 3.8âŻB aktivierten Parametern â besonders schnell.
- 31âŻB DenseâModell â optimiert fĂŒr höchste AusgabequalitĂ€t.
- Effektive 2âŻB und 4âŻB Modelle â speichereffizient, geeignet fĂŒr Mobileâ und IoTâGerĂ€te, unterstĂŒtzen Audioâ und VisionâVerarbeitung in Echtzeit.
- UnterstĂŒtzung von ĂŒber 140 Sprachen.
Anwendungsbeispiele
- 26âŻB/31âŻB ermöglichen lokales Reasoning und Coding ohne Datenupload.
- Effektives 2âŻB Modell erfolgreich bei mehrsprachiger und agentischer Aufgabe (Französisches Restaurant in San Francisco, Antwort auf Englisch).
Sicherheit und VerfĂŒgbarkeit
- Entwickelt von Google DeepMind, unterliegt denselben strengen Sicherheitsprotokollen wie proprietÀre Modelle.
- GewĂ€hrleistet vertrauenswĂŒrdige Basis fĂŒr Unternehmen und Entwickler.
Nutzung
- Gewichte können heruntergeladen und sofort experimentell eingesetzt werden.
- Erwartung grosser kreativer Anwendungen durch die Community.
Nachtrag / Datenanalyse
Gemma 4 26B MoE mit Open WebUI

erstelle eine analyse des bildes und extrahiere alle daten.
stelle diese tabellarisch in markdown dar.
Nachgedacht fĂŒr 13 Sekunden
Analyse des Bildes
Das vorliegende Bild zeigt eine BenutzeroberflĂ€che der Einstellungen (Settings) einer komplexen Software-Anwendung, die offensichtlich fĂŒr das Management von RAG-Systemen (Retrieval-Augmented Generation) oder KI-Workflows (wie z. B. mit Ollama) konzipiert ist.
Die OberflÀche ist in drei funktionale Hauptbereiche unterteilt:
- Allgemein (General): Konfiguration der Datenextraktion, Text-Splitting und Chunking-Logik (GröĂe und Ăberlappung).
- Embedding: Verwaltung der Engine fĂŒr Vektor-Einbettungen, inklusive der URL zur Modell-Engine (Ollama) und Batch-GröĂen.
- Abruf (Retrieval): Einstellungen fĂŒr die Suchstrategien (hybride Suche, Vollkontext), Reranking-Modelle sowie Schwellenwerte fĂŒr die Relevanz und BM25-Gewichtung.
Die BenutzeroberflÀche nutzt moderne UI-Elemente wie Toggle-Switches, Slider und numerische Eingabefelder.
Extrahierte Konfigurationsparameter
Da das Bild keine physischen Dateien im Sinne von Dokumenten enthÀlt, sondern eine Konfigurationsmatrix, wurden alle im Interface sichtbaren Datenpunkte als 'DatensÀtze' extrahiert.
| Kategorie | Parameter | Wert / Einstellung |
|---|---|---|
| Allgemein | Engine zur Inhalts-Extraktion | Standard |
| Allgemein | Bilder aus PDFs extrahieren (OCR) | Aktiviert |
| Allgemein | PDF Loader Modus | Einzeln |
| Allgemein | Embedding und Retrieval umgehen | Deaktiviert |
| Allgemein | Text-Splitter | Markdown-Header-Splitter (Standard Zeichen) |
| Allgemein | Chunk-GröĂe | 1000 |
| Allgemein | Chunk-Ăberlappung | 100 |
| Allgemein | Zielwert fĂŒr minimale Chunk-GröĂe | 0 |
| Embedding | Embedding-Modell-Engine | http://192.168.45:11434 (Ollama) |
| Embedding | Embedding-Modell | bge-m3:latest |
| Embedding | Embedding-Batch-GröĂe | 128 |
| Embedding | Asynchrone Embedding-Verarbeitung | Aktiviert |
| Embedding | Gleichzeitige Embedding Anfragen | 0 |
| Abruf | Vollkontext-Modus | Aktiviert |
| Abruf | Hybride Suche | Aktiviert |
| Abruf | Hybrid-Suchtext anreichern | Aktiviert |
| Abruf | Reranking-Engine | http://192.168.45:11434 (Extern) |
| Abruf | Reranking-Modell | qllama/bge-reranker-v2-m:f16 |
| Abruf | Top-K | 10 |
| Abruf | Top-K Reranker | 5 |
| Abruf | Relevanzschwelle | 40 |
| Abruf | BM25-Gewichtung | 0,5 (Zwischen semantisch und lexikalisch) |