ki

Bildanalyse mit Gemma 4

Von peter portmann,

Veröffentlicht am 4. Apr. 2026   â€”   6 min Lesezeit

selfhostedcomputerfotoreisen
YouTube
👍
Gemma ist eine Familie offener Modelle, die von Google DeepMind entwickelt wurde. Gemma‑4‑Modelle sind multimodal und können Texte‑ und Bildeingaben verarbeiten und Textausgaben erzeugen. Gemma 4 bietet ein Kontextfenster von bis zu 256 K Token und behĂ€lt die mehrsprachige UnterstĂŒtzung fĂŒr ĂŒber 140 Sprachen bei. Gemma 4 Modelle erscheinen unter der Apache-2.0-Lizenz.

Mit sowohl dichten als auch Mixture‑of‑Experts‑(MoE‑)Architekturen ist Gemma 4 gut geeignet fĂŒr Aufgaben wie Textgenerierung, Programmieren und logisches Schliessen. Die Modelle sind in vier unterschiedlichen Grössen verfĂŒgbar: E2B, E4B, 26B A4B und 31B. Ihre verschiedenen Grössen machen sie einsetzbar in Umgebungen von High‑End‑Smartphones bis hin zu Laptops und Servern, wodurch der Zugang zu modernster KI demokratisiert wird.

Gemma 4 ist unterdessen schon unter Ollama und LM Studio verfĂŒgbar. Mich interessiert im Moment vor allem die Bildanalyse. Auf meinem lokalen KI-Server verwende ich meistens openai/gpt-oss-120b. Da dieses Modell keine Bildanalyse kann, ist zusĂ€tzlich qwen/qwen3-vl-30b fĂŒr visuelle Aufgaben installiert.

Hier ein erster Testlauf mit einer Bildanalyse. Ich verwende die 26b Variante unter Ollama, da dieses Modell als Erstes dort verfĂŒgbar war.

pp@MacStudio2025 >ollama list | grep gemma4
gemma4:26b  17 GB 27 hours ago

Gemma 4 26B Mixture-of-Experts (MoE) Model

Property 26B A4B MoE
Total Parameters 25.2B
Active Parameters 3.8B
Layers 30
Sliding Window 1024 tokens
Context Length 256K tokens
Vocabulary Size 262K
Expert Count 8 active / 128 total and 1 shared
Supported Modalities Text, Image
Vision Encoder Parameters ~550M

Das 'A' in 26B A4B steht fĂŒr 'aktive Parameter' im Gegensatz zur Gesamtzahl der Parameter, die das Modell enthĂ€lt.
Indem nur ein Subset von 4 B Parametern wĂ€hrend der Inferenz aktiviert wird, lĂ€uft das Mixture‑of‑Experts‑Modell deutlich schneller als die Gesamtsumme von 26 B vermuten lĂ€sst.
Damit ist es eine ausgezeichnete Wahl fĂŒr schnelle Inferenz im Vergleich zum dichten 31‑B‑Modell, da es fast so schnell lĂ€uft wie ein Modell mit 4 B Parametern.


Bildanalyse mit Gemma 4 26B MoE

PROMPT
analysiere diese bild, ĂŒberlege lange und grĂŒndlich

Nachgedacht fĂŒr 8 Sekunden

Gemma 4 26B MoE mit Open WebUI

Diese tiefgreifende Analyse des Bildes betrachtet verschiedene Ebenen: das Motiv, die Umgebung, die Farbpsychologie und die kompositorische Struktur.

1. Das Hauptmotiv: Die Richtungsweisung
Im Fokus steht ein kreisförmiges, blaues Verkehrsschild mit einem weissen Pfeil, der nach links deutet.
Bedeutung: Es handelt sich um ein Gebotszeichen (wahrscheinlich eine 'Vorgeschriebene Fahrtrichtung' oder eine Anweisung fĂŒr Wanderwege). Das Schild gibt eine klare Ordnung vor und unterbricht die scheinbare Wildnis der Natur durch einen menschlichen, regulatorischen Eingriff.
Zustand: Das Schild wirkt gepflegt, weist aber bei genauem Hinsehen leichte Texturen auf, was darauf hindeutet, dass es den Elementen (Sonne, Salzluft) ausgesetzt ist.

2. Die Umgebung: Eine vulkanische Landschaft
Der Hintergrund offenbart eine raue, ökologisch spezifische Umgebung.
Geologie: Die dunklen, fast schwarzen und rötlichen Gesteinsformationen im Vordergrund sind typisch fĂŒr vulkanisches GelĂ€nde. Es handelt sich um erstarrte Lava (Basalt) und möglicherweise Schlacke. Die Textur des Gesteins ist extrem zerklĂŒftet und scharfkantig.
Vegetation: Zwischen den Felsen wachsen spĂ€rliche, grĂŒne BĂŒsche und niedrige Pflanzen. Dies deutet auf eine xerophile Umgebung (trockenheitsresistent) hin, in der Pflanzen Strategien entwickelt haben, um mit wenig Wasser und hoher Sonneneinstrahlung zu ĂŒberleben.
Geografie: Im Hintergrund ist eine weite WasserflÀche (der Ozean) zu erkennen, die den Horizont bildet. Die Kombination aus vulkanischem Gestein, spezifischer Vegetation und dem nahen Meer lÀsst stark an die Kanarischen Inseln (wie etwa Lanzarote oder La Palma) denken.

3. Farbpsychologie und LichtverhÀltnisse
Das Bild zeichnet sich durch einen extrem hohen Kontrast und eine gesÀttigte Farbpalette aus.
KomplementÀre Kontraste: Das tiefe Blau des Himmels und des Schilds steht in einem starken SpannungsverhÀltnis zu den warmen, erdigen Tönen (Rot, Braun, Schwarz) der Felsen. Dieses Spiel zwischen 'Kalt' und 'Warm' macht das Bild visuell sehr dynamisch.
Licht: Das Licht ist hell und direkt, was auf die Mittagszeit oder einen sehr klaren Tag hindeutet. Es gibt kaum weiche Schatten; die Konturen sind scharf definiert. Dies verstÀrkt die plastische Wirkung der Felsen.
Die weisse Wolke: Die einzelne, flauschige weisse Wolke im linken oberen Quadranten dient als visuelles Gegengewicht zum weissen Pfeil auf dem Schild und bringt eine sanfte, organische Komponente in das sonst sehr harte BildgefĂŒge

4. Komposition und BlickfĂŒhrung
Die Komposition ist meisterhaft ausbalanciert:
Blickleitung: Der weisse Pfeil fungiert als 'Vektor'. Er zwingt das Auge des Betrachters, von der rechten Seite des Bildes (wo das Schild platziert ist) nach links ĂŒber die Landschaft hinweg zum Horizont zu wandern.
Tiefenwirkung: Das Bild arbeitet mit drei klaren Ebenen:
Der Vordergrund mit den detaillierten Felsen und dem Schild.
Der Mittelgrund mit der flacher werdenden Vegetation und der KĂŒstenlinie.
Der Hintergrund mit dem Ozean und dem unendlichen Himmel.
Dies erzeugt eine enorme rÀumliche Tiefe

Fazit der Analyse
Das Bild ist weit mehr als nur die Dokumentation eines Schildes. Es ist eine visuelle Meditation ĂŒber das VerhĂ€ltnis von Ordnung (das Schild) und Chaos (die vulkanische Natur). Durch die geschickte Platzierung des Pfeils wird der Betrachter eingeladen, nicht nur das Objekt zu betrachten, sondern die gesamte Weite der Landschaft gedanklich 'abzuwandern'. Es ist ein Bild von hoher struktureller Klarheit und emotionaler Ruhe.

Ich hÀtte es nicht besser formulieren können. Alles korrekt.
Genau das habe ich mir ĂŒberlegt als in das Bild mit meinem iPhone auf Lanzarote aufgenommen habe: visuelle Meditation ĂŒber das VerhĂ€ltnis von Ordnung und Chaos.
Genau so 😳.

Subjektiv ist das Gemma 4 Modell mindestens so gut wie das Qwen3-VL-Modell, welches ich bisher verwendet habe.


Quellen

https://deepmind.google/models/gemma/gemma-4/

https://ollama.com/library/gemma4
https://lmstudio.ai/models/gemma-4


Video: What’s new in Gemma 4


Die Zusammenfassung wurde mithilfe von KI‑Tools erstellt. Web Clipper → Obsidian → Copilot, unter lokaler Verwendung von gpt‑oss:120b auf einem Mac Studio.
YouTube hat kĂŒrzlich die Codierung geĂ€ndert, der bisherige Code fĂŒr das Transkript funktioniert nicht mehr. Diesen habe ich jetzt angepasst. Siehe hier:


Transkript

Einleitung

  • Olivier ist Group Product Manager im Gemma-Team.
  • Entwicklergemeinschaft hat seit dem Launch der ersten Modelle ĂŒber 400 Millionen Downloads und 100 000 Varianten erzielt.
  • Dankbarkeit fĂŒr das lebendige Ökosystem rund um Gemma.

AnkĂŒndigung von Gemma 4

  • Gemma 4 basiert auf Forschung und Technologie von Gemini 3.
  • Open‑Source unter Apache‑2.0 Lizenz, lĂ€uft direkt auf eigenen GerĂ€ten (Phone, Laptop, Desktop).
  • Entwickelt fĂŒr die agentische Ära: komplexe Logik, mehrstufige Planung, effiziente Token‑Nutzung.

Modellfamilie

  • 26 B Mixture‑of‑Experts (MOE) mit 3.8 B aktivierten Parametern – besonders schnell.
  • 31 B Dense‑Modell – optimiert fĂŒr höchste AusgabequalitĂ€t.
  • Effektive 2 B und 4 B Modelle – speichereffizient, geeignet fĂŒr Mobile‑ und IoT‑GerĂ€te, unterstĂŒtzen Audio‑ und Vision‑Verarbeitung in Echtzeit.
  • UnterstĂŒtzung von ĂŒber 140 Sprachen.

Anwendungsbeispiele

  • 26 B/31 B ermöglichen lokales Reasoning und Coding ohne Datenupload.
  • Effektives 2 B Modell erfolgreich bei mehrsprachiger und agentischer Aufgabe (Französisches Restaurant in San Francisco, Antwort auf Englisch).

Sicherheit und VerfĂŒgbarkeit

  • Entwickelt von Google DeepMind, unterliegt denselben strengen Sicherheitsprotokollen wie proprietĂ€re Modelle.
  • GewĂ€hrleistet vertrauenswĂŒrdige Basis fĂŒr Unternehmen und Entwickler.

Nutzung

  • Gewichte können heruntergeladen und sofort experimentell eingesetzt werden.
  • Erwartung grosser kreativer Anwendungen durch die Community.

Nachtrag / Datenanalyse

Gemma 4 26B MoE mit Open WebUI

erstelle eine analyse des bildes und extrahiere alle daten.
stelle diese tabellarisch in markdown dar.

Nachgedacht fĂŒr 13 Sekunden

Analyse des Bildes

Das vorliegende Bild zeigt eine BenutzeroberflĂ€che der Einstellungen (Settings) einer komplexen Software-Anwendung, die offensichtlich fĂŒr das Management von RAG-Systemen (Retrieval-Augmented Generation) oder KI-Workflows (wie z. B. mit Ollama) konzipiert ist.

Die OberflÀche ist in drei funktionale Hauptbereiche unterteilt:

  1. Allgemein (General): Konfiguration der Datenextraktion, Text-Splitting und Chunking-Logik (GrĂ¶ĂŸe und Überlappung).
  2. Embedding: Verwaltung der Engine fĂŒr Vektor-Einbettungen, inklusive der URL zur Modell-Engine (Ollama) und Batch-GrĂ¶ĂŸen.
  3. Abruf (Retrieval): Einstellungen fĂŒr die Suchstrategien (hybride Suche, Vollkontext), Reranking-Modelle sowie Schwellenwerte fĂŒr die Relevanz und BM25-Gewichtung.

Die BenutzeroberflÀche nutzt moderne UI-Elemente wie Toggle-Switches, Slider und numerische Eingabefelder.


Extrahierte Konfigurationsparameter

Da das Bild keine physischen Dateien im Sinne von Dokumenten enthÀlt, sondern eine Konfigurationsmatrix, wurden alle im Interface sichtbaren Datenpunkte als 'DatensÀtze' extrahiert.

Kategorie Parameter Wert / Einstellung
Allgemein Engine zur Inhalts-Extraktion Standard
Allgemein Bilder aus PDFs extrahieren (OCR) Aktiviert
Allgemein PDF Loader Modus Einzeln
Allgemein Embedding und Retrieval umgehen Deaktiviert
Allgemein Text-Splitter Markdown-Header-Splitter (Standard Zeichen)
Allgemein Chunk-GrĂ¶ĂŸe 1000
Allgemein Chunk-Überlappung 100
Allgemein Zielwert fĂŒr minimale Chunk-GrĂ¶ĂŸe 0
Embedding Embedding-Modell-Engine http://192.168.45:11434 (Ollama)
Embedding Embedding-Modell bge-m3:latest
Embedding Embedding-Batch-GrĂ¶ĂŸe 128
Embedding Asynchrone Embedding-Verarbeitung Aktiviert
Embedding Gleichzeitige Embedding Anfragen 0
Abruf Vollkontext-Modus Aktiviert
Abruf Hybride Suche Aktiviert
Abruf Hybrid-Suchtext anreichern Aktiviert
Abruf Reranking-Engine http://192.168.45:11434 (Extern)
Abruf Reranking-Modell qllama/bge-reranker-v2-m:f16
Abruf Top-K 10
Abruf Top-K Reranker 5
Abruf Relevanzschwelle 40
Abruf BM25-Gewichtung 0,5 (Zwischen semantisch und lexikalisch)

Auf Facebook teilen Auf Linkedin teilen Auf Twitter teilen Per E-Mail senden

Newsletter abonnieren

Abonnieren Sie den Newsletter fĂŒr die neusten Nachrichten direkt in Ihrem Postfach.

einschreiben