Was ist das beste LLM für DEIN Projekt?

Veröffentlicht am 13. Nov. 2025 — 4 min Lesezeit

code selfhosted

YouTube

😊

Hausaufgaben für Entwickler:
Wer sich aktuell mit KI-Modellen befasst, muss dieses Video gesehen haben. Mehr Informationsdichte geht kaum.

Der Inhalt dieses Beitrags wurde mit Hilfe von KI-Tools erstellt. Dabei wurde das Transkript des Videos auf Deutsch übersetzt und eine Zusammenfassung generiert. Web Clipper > Obsidian > Copilot, unter lokaler Verwendung von gpt-oss:120b auf einem Mac Studio.

Video

Übersetzung und Zusammenfassung mit Obsidian Copilot Plugin

Was unterscheidet LLMs voneinander?

Die Wahl des neuesten LLMs ist nicht automatisch die beste Entscheidung; 2025 gibt es Dutzende Modelle mit unterschiedlichen Stärken (z. B. Programmierung, Mathematik, Self‑Hosting).
Es ist wichtig, das passende Modell für den jeweiligen Anwendungsfall zu wählen; dazu gehören ein Überblick über die Unterschiede, die aktuelle Landschaft der Optionen und ein Entscheidungs‑Framework.
Drei Hauptfaktoren bestimmen die Leistungsfähigkeit und „Persönlichkeit“ eines LLMs.

Architektur

Alle modernen LLMs basieren auf der Transformer‑Architektur mit Self‑Attention.
Unterschied zwischen dichten Modellen (z. B. GPT, Claude) und Mixture‑of‑Experts (z. B. Gemini, Llama 4).
GPT‑5 nutzt ein Router‑System, das Anfragen je nach Komplexität zu verschiedenen Sub‑Modellen leitet.
Kontextfenster variieren stark von wenigen Tokens bis zu mehreren Millionen Tokens.

Trainingsdaten

Die Art und Vielfalt der Trainingsdaten bestimmen die Stärken eines Modells (z. B. GPT‑5 = allgemeine Daten, Gemini = Text + Video + Audio).
Modelle fokussieren sich auf bestimmte Domänen: Claude auf Code, Grock auf Echtzeit‑Twitter‑Daten, Deepseek auf Code + Mathematik.
Selbst bei gleichen Daten können unterschiedliche Trainings‑ und Optimierungsverfahren zu stark variierenden Verhaltensweisen führen.

Feinabstimmung und Ausrichtung

SFT (Supervised Fine‑Tuning) lehrt Modelle, Anweisungen zu folgen.
RLHF (Reinforcement Learning from Human Feedback) und DPO (Direct Preference Optimization) justieren das Verhalten nach menschlichen Präferenzen.
Unternehmen verfolgen unterschiedliche Align‑Strategien (z. B. Anthropic → Constitutional AI, OpenAI → RLHF + Router, XAI → wenig Filter, Deepseek → Präferenz‑Optimierung).

Lizenzierung

Closed‑API‑Modelle: Keine Gewichte, Nutzung über Cloud‑API (z. B. GPT‑5, Claude, Gemini, Grock).
Open‑Weight‑Modelle: Gewichte herunterladbar, aber mit proprietären Lizenz‑Beschränkungen (z. B. Llama‑Familie).
OSI‑offene Modelle: Vollständig open‑source unter Apache 2.0, MIT, BSD (z. B. Mistral, Falcon, einige Gemini‑Varianten).
Lizenzwahl beeinflusst rechtliche Compliance, Datenschutz, Anpassbarkeit, Kosten und Qualitäts‑Trade‑offs.

Frontier‑Modelle

GPT‑5: Allgemein‑Stärker, Router‑System, 40 K‑Token‑Kontext
Cloud Sonnet 4.5 (Anthropic): Mixture‑of‑Experts, stark bei Software‑Entwicklung, vorsichtig, höhere Kosten.
Llama 4 (Meta): Multimodal, 10 M‑Token‑Kontext (Scout‑Variante), Open‑Weight mit Lizenz‑Limits, on‑premise‑Einsatz.
Grock 4 (XAI): 2 M‑Token‑Kontext, exzellente mathematisch‑wissenschaftliche Reasoning, wenig gefiltert.
Deepseek: Zwei‑Modell‑Ansatz (Reasoning + Light), gute Performance bei Code/Mathe, konkurrenzfähige Preise.
Gemini 2.5 Pro: Bis zu 1 M‑Token‑Kontext, native Multimodalität, stark bei Datenanalyse, leicht hinter beim Coding.

Spezialmodelle

Mistal Medium: Hohe Effizienz, 90 % Leistung bei 10 % Kosten, geeignet für kostengünstige Produktion.
Mistral Small: Apache‑2.0‑Lizenz, 24 B‑Parameter‑Modell, hohe Durchsatzrate für Kunden‑Service‑Bots.
Cohere Command: Fokus auf Enterprise‑Compliance, Command R plus für zitierfähige Q&A, multilingual.
Kimi: Agenten‑Spezialist, 1 T‑Parameter‑Mixture‑of‑Experts, Open‑Weight, Echtzeit‑Web‑Suche.
Qwen (Alibaba): Open‑Weight‑Modelle bis 72 B Parameter, Apache‑2.0, stark im Programmier‑Task.

Entscheidungsmatrix – wie man das Modell für den eigenen Anwendungsfall auswählt

Lizenz zuerst: Prüfen, ob PII/PHI vorhanden ist, ob Fine‑Tuning nötig ist, ob On‑Premise‑Hosting verlangt wird.
Anforderungsdefinition: Aufgaben‑Komplexität, Kontextgröße, Deploy‑Umgebung (API vs. Self‑Host).
Modell‑Matching: Kleine/ schnelle Modelle für FAQs, mittlere Modelle für Schreiben/Coding, große Reasoning‑Modelle für Forschung/Mathe, Agenten‑Modelle für autonome Workflows.
Evaluierungspipeline: 20‑50 realitätsnahe Prompts, Rubriken (Genauigkeit, Hilfreich‑keit, Format, Geschwindigkeit), Bewertung per Exact‑Match, BLEU/ROUGE, semantische Ähnlichkeit oder AI‑Judges.
Kostenkalkulation: API‑Kosten pro Token vs. Infrastruktur‑Kosten (GPU, Engineering‑Aufwand) für Open‑Weight‑Modelle.

Zukünftige Entwicklungen

Grock 5: Auf Colossus 2 Supercomputer trainiert, Fokus auf AGI‑Fähigkeiten.
Gemini 3: Verbesserte Coding‑Leistung, erweiterte Multimodalität.
Hinweis: Das Feld entwickelt sich rasant, regelmässige Neubewertung der Modelle ist nötig.

Quelle

Die Autorin bezieht sich auf diesen Blog:

Hier ein Auszug:

Quick-Reference Chart (October 2025)

Model	Release	Best For	Key Feature	Context	Cost
GPT-5	Aug 2025	General use	Unified system, auto-switching	256K-400K	Mid
Claude 4.5	Sep 2025	Coding	77% SWE-bench, Computer Use	200K	High
Llama 4	Apr 2025	Enterprise	Open-source, 10M context (Scout)	1M-10M	Free
Grok 4	Jul 2025	Research/Math	88% GPQA, real-time X	2M	Mid
Mistral Medium 3	May 2025	Cost-efficiency	90% performance at 1/8 cost	Variable	Low
Gemini 2.5 Pro	Current	Large docs	2M tokens, multimodal	2M	Low-Mid

Specialized Use Cases: Which Model When?

Software Development & Engineering

Winner: Claude Sonnet 4.5

77.2% on SWE-bench verified
GitHub Copilot integration
30+ hour focus on complex tasks

Alternative: GPT-5-Codex for agentic coding workflows

Creative Writing & Content Marketing

Winner: GPT-5

Better writing with literary depth and rhythm
Automatic optimization for creative tasks
Memory features for consistency

Data Analysis & Research

Winner: Gemini 2.5 Pro (until Gemini 3)

2M token context for massive datasets
Deep Research mode
Lowest hallucination rates

Alternative: Grok 4 for real-time data or complex mathematics

Mathematical & Scientific Computing

Winner: Grok 4

100% on AIME 2025, 88% on GPQA Diamond
PhD-level problem solving
Real-time data integration

Document Analysis & Compliance

Winner: Claude Sonnet 4.5

Best at maintaining context across lengthy documents
Computer Use for automated processing
Reliable structured outputs

Real-Time Information & Trend Analysis

Winner: Grok 4

Native X platform integration
Real-time search capabilities
Unfiltered perspectives

Cost-Effective Production

Winner: Mistral Medium 3

90% of frontier performance at significantly lower cost
Deployable on 4 GPUs

Open-Source & Customization

Winner: Llama 4

Fully open weights (with restrictions)
Multiple size options
10M token context (Scout)