Wer sich aktuell mit KI-Modellen befasst, muss dieses Video gesehen haben. Mehr Informationsdichte geht kaum.
Der Inhalt dieses Beitrags wurde mit Hilfe von KI-Tools erstellt. Dabei wurde das Transkript des Videos auf Deutsch übersetzt und eine Zusammenfassung generiert. Web Clipper > Obsidian > Copilot, unter lokaler Verwendung von gpt-oss:120b auf einem Mac Studio.
Weitere Beiträge zum Thema KI:

Video
Übersetzung und Zusammenfassung mit Obsidian Copilot Plugin
Was unterscheidet LLMs voneinander?
- Die Wahl des neuesten LLMs ist nicht automatisch die beste Entscheidung; 2025 gibt es Dutzende Modelle mit unterschiedlichen Stärken (z. B. Programmierung, Mathematik, Self‑Hosting).
- Es ist wichtig, das passende Modell für den jeweiligen Anwendungsfall zu wählen; dazu gehören ein Überblick über die Unterschiede, die aktuelle Landschaft der Optionen und ein Entscheidungs‑Framework.
- Drei Hauptfaktoren bestimmen die Leistungsfähigkeit und „Persönlichkeit“ eines LLMs.
Architektur
- Alle modernen LLMs basieren auf der Transformer‑Architektur mit Self‑Attention.
- Unterschied zwischen dichten Modellen (z. B. GPT, Claude) und Mixture‑of‑Experts (z. B. Gemini, Llama 4).
- GPT‑5 nutzt ein Router‑System, das Anfragen je nach Komplexität zu verschiedenen Sub‑Modellen leitet.
- Kontextfenster variieren stark von wenigen Tokens bis zu mehreren Millionen Tokens.
Trainingsdaten
- Die Art und Vielfalt der Trainingsdaten bestimmen die Stärken eines Modells (z. B. GPT‑5 = allgemeine Daten, Gemini = Text + Video + Audio).
- Modelle fokussieren sich auf bestimmte Domänen: Claude auf Code, Grock auf Echtzeit‑Twitter‑Daten, Deepseek auf Code + Mathematik.
- Selbst bei gleichen Daten können unterschiedliche Trainings‑ und Optimierungsverfahren zu stark variierenden Verhaltensweisen führen.
Feinabstimmung und Ausrichtung
- SFT (Supervised Fine‑Tuning) lehrt Modelle, Anweisungen zu folgen.
- RLHF (Reinforcement Learning from Human Feedback) und DPO (Direct Preference Optimization) justieren das Verhalten nach menschlichen Präferenzen.
- Unternehmen verfolgen unterschiedliche Align‑Strategien (z. B. Anthropic → Constitutional AI, OpenAI → RLHF + Router, XAI → wenig Filter, Deepseek → Präferenz‑Optimierung).
Lizenzierung
- Closed‑API‑Modelle: Keine Gewichte, Nutzung über Cloud‑API (z. B. GPT‑5, Claude, Gemini, Grock).
- Open‑Weight‑Modelle: Gewichte herunterladbar, aber mit proprietären Lizenz‑Beschränkungen (z. B. Llama‑Familie).
- OSI‑offene Modelle: Vollständig open‑source unter Apache 2.0, MIT, BSD (z. B. Mistral, Falcon, einige Gemini‑Varianten).
- Lizenzwahl beeinflusst rechtliche Compliance, Datenschutz, Anpassbarkeit, Kosten und Qualitäts‑Trade‑offs.
Frontier‑Modelle
- GPT‑5: Allgemein‑Stärker, Router‑System, 40 K‑Token‑Kontext
- Cloud Sonnet 4.5 (Anthropic): Mixture‑of‑Experts, stark bei Software‑Entwicklung, vorsichtig, höhere Kosten.
- Llama 4 (Meta): Multimodal, 10 M‑Token‑Kontext (Scout‑Variante), Open‑Weight mit Lizenz‑Limits, on‑premise‑Einsatz.
- Grock 4 (XAI): 2 M‑Token‑Kontext, exzellente mathematisch‑wissenschaftliche Reasoning, wenig gefiltert.
- Deepseek: Zwei‑Modell‑Ansatz (Reasoning + Light), gute Performance bei Code/Mathe, konkurrenzfähige Preise.
- Gemini 2.5 Pro: Bis zu 1 M‑Token‑Kontext, native Multimodalität, stark bei Datenanalyse, leicht hinter beim Coding.
Spezialmodelle
- Mistal Medium: Hohe Effizienz, 90 % Leistung bei 10 % Kosten, geeignet für kostengünstige Produktion.
- Mistral Small: Apache‑2.0‑Lizenz, 24 B‑Parameter‑Modell, hohe Durchsatzrate für Kunden‑Service‑Bots.
- Cohere Command: Fokus auf Enterprise‑Compliance, Command R plus für zitierfähige Q&A, multilingual.
- Kimi: Agenten‑Spezialist, 1 T‑Parameter‑Mixture‑of‑Experts, Open‑Weight, Echtzeit‑Web‑Suche.
- Qwen (Alibaba): Open‑Weight‑Modelle bis 72 B Parameter, Apache‑2.0, stark im Programmier‑Task.
Entscheidungsmatrix – wie man das Modell für den eigenen Anwendungsfall auswählt
- Lizenz zuerst: Prüfen, ob PII/PHI vorhanden ist, ob Fine‑Tuning nötig ist, ob On‑Premise‑Hosting verlangt wird.
- Anforderungsdefinition: Aufgaben‑Komplexität, Kontextgröße, Deploy‑Umgebung (API vs. Self‑Host).
- Modell‑Matching: Kleine/ schnelle Modelle für FAQs, mittlere Modelle für Schreiben/Coding, große Reasoning‑Modelle für Forschung/Mathe, Agenten‑Modelle für autonome Workflows.
- Evaluierungspipeline: 20‑50 realitätsnahe Prompts, Rubriken (Genauigkeit, Hilfreich‑keit, Format, Geschwindigkeit), Bewertung per Exact‑Match, BLEU/ROUGE, semantische Ähnlichkeit oder AI‑Judges.
- Kostenkalkulation: API‑Kosten pro Token vs. Infrastruktur‑Kosten (GPU, Engineering‑Aufwand) für Open‑Weight‑Modelle.
Zukünftige Entwicklungen
- Grock 5: Auf Colossus 2 Supercomputer trainiert, Fokus auf AGI‑Fähigkeiten.
- Gemini 3: Verbesserte Coding‑Leistung, erweiterte Multimodalität.
- Hinweis: Das Feld entwickelt sich rasant, regelmässige Neubewertung der Modelle ist nötig.
Quelle
Die Autorin bezieht sich auf diesen Blog:

Hier ein Auszug:
Quick-Reference Chart (October 2025)
| Model | Release | Best For | Key Feature | Context | Cost |
|---|---|---|---|---|---|
| GPT-5 | Aug 2025 | General use | Unified system, auto-switching | 256K-400K | Mid |
| Claude 4.5 | Sep 2025 | Coding | 77% SWE-bench, Computer Use | 200K | High |
| Llama 4 | Apr 2025 | Enterprise | Open-source, 10M context (Scout) | 1M-10M | Free |
| Grok 4 | Jul 2025 | Research/Math | 88% GPQA, real-time X | 2M | Mid |
| Mistral Medium 3 | May 2025 | Cost-efficiency | 90% performance at 1/8 cost | Variable | Low |
| Gemini 2.5 Pro | Current | Large docs | 2M tokens, multimodal | 2M | Low-Mid |
Specialized Use Cases: Which Model When?
Software Development & Engineering
Winner: Claude Sonnet 4.5
- 77.2% on SWE-bench verified
- GitHub Copilot integration
- 30+ hour focus on complex tasks
Alternative: GPT-5-Codex for agentic coding workflows
Creative Writing & Content Marketing
Winner: GPT-5
- Better writing with literary depth and rhythm
- Automatic optimization for creative tasks
- Memory features for consistency
Data Analysis & Research
Winner: Gemini 2.5 Pro (until Gemini 3)
- 2M token context for massive datasets
- Deep Research mode
- Lowest hallucination rates
Alternative: Grok 4 for real-time data or complex mathematics
Mathematical & Scientific Computing
Winner: Grok 4
- 100% on AIME 2025, 88% on GPQA Diamond
- PhD-level problem solving
- Real-time data integration
Document Analysis & Compliance
Winner: Claude Sonnet 4.5
- Best at maintaining context across lengthy documents
- Computer Use for automated processing
- Reliable structured outputs
Real-Time Information & Trend Analysis
Winner: Grok 4
- Native X platform integration
- Real-time search capabilities
- Unfiltered perspectives
Cost-Effective Production
Winner: Mistral Medium 3
- 90% of frontier performance at significantly lower cost
- Deployable on 4 GPUs
Open-Source & Customization
Winner: Llama 4
- Fully open weights (with restrictions)
- Multiple size options
- 10M token context (Scout)
