ki

Was ist das beste LLM für DEIN Projekt?

Von peter portmann,

Veröffentlicht am 13. Nov. 2025   —   4 min Lesezeit

codeselfhosted
YouTube
😊
Hausaufgaben für Entwickler:
Wer sich aktuell mit KI-Modellen befasst, muss dieses Video gesehen haben. Mehr Informationsdichte geht kaum.

Der Inhalt dieses Beitrags wurde mit Hilfe von KI-Tools erstellt. Dabei wurde das Transkript des Videos auf Deutsch übersetzt und eine Zusammenfassung generiert. Web Clipper > Obsidian > Copilot, unter lokaler Verwendung von gpt-oss:120b auf einem Mac Studio.

Weitere Beiträge zum Thema KI:

ki - supportnet.ch

Video


Übersetzung und Zusammenfassung mit Obsidian Copilot Plugin

Was unterscheidet LLMs voneinander?

  • Die Wahl des neuesten LLMs ist nicht automatisch die beste Entscheidung; 2025 gibt es Dutzende Modelle mit unterschiedlichen Stärken (z. B. Programmierung, Mathematik, Self‑Hosting).
  • Es ist wichtig, das passende Modell für den jeweiligen Anwendungsfall zu wählen; dazu gehören ein Überblick über die Unterschiede, die aktuelle Landschaft der Optionen und ein Entscheidungs‑Framework.
  • Drei Hauptfaktoren bestimmen die Leistungsfähigkeit und „Persönlichkeit“ eines LLMs.

Architektur

  • Alle modernen LLMs basieren auf der Transformer‑Architektur mit Self‑Attention.
  • Unterschied zwischen dichten Modellen (z. B. GPT, Claude) und Mixture‑of‑Experts (z. B. Gemini, Llama 4).
  • GPT‑5 nutzt ein Router‑System, das Anfragen je nach Komplexität zu verschiedenen Sub‑Modellen leitet.
  • Kontextfenster variieren stark von wenigen Tokens bis zu mehreren Millionen Tokens.

Trainingsdaten

  • Die Art und Vielfalt der Trainingsdaten bestimmen die Stärken eines Modells (z. B. GPT‑5 = allgemeine Daten, Gemini = Text + Video + Audio).
  • Modelle fokussieren sich auf bestimmte Domänen: Claude auf Code, Grock auf Echtzeit‑Twitter‑Daten, Deepseek auf Code + Mathematik.
  • Selbst bei gleichen Daten können unterschiedliche Trainings‑ und Optimierungsverfahren zu stark variierenden Verhaltensweisen führen.

Feinabstimmung und Ausrichtung

  • SFT (Supervised Fine‑Tuning) lehrt Modelle, Anweisungen zu folgen.
  • RLHF (Reinforcement Learning from Human Feedback) und DPO (Direct Preference Optimization) justieren das Verhalten nach menschlichen Präferenzen.
  • Unternehmen verfolgen unterschiedliche Align‑Strategien (z. B. Anthropic → Constitutional AI, OpenAI → RLHF + Router, XAI → wenig Filter, Deepseek → Präferenz‑Optimierung).

Lizenzierung

  • Closed‑API‑Modelle: Keine Gewichte, Nutzung über Cloud‑API (z. B. GPT‑5, Claude, Gemini, Grock).
  • Open‑Weight‑Modelle: Gewichte herunterladbar, aber mit proprietären Lizenz‑Beschränkungen (z. B. Llama‑Familie).
  • OSI‑offene Modelle: Vollständig open‑source unter Apache 2.0, MIT, BSD (z. B. Mistral, Falcon, einige Gemini‑Varianten).
  • Lizenzwahl beeinflusst rechtliche Compliance, Datenschutz, Anpassbarkeit, Kosten und Qualitäts‑Trade‑offs.

Frontier‑Modelle

  • GPT‑5: Allgemein‑Stärker, Router‑System, 40 K‑Token‑Kontext
  • Cloud Sonnet 4.5 (Anthropic): Mixture‑of‑Experts, stark bei Software‑Entwicklung, vorsichtig, höhere Kosten.
  • Llama 4 (Meta): Multimodal, 10 M‑Token‑Kontext (Scout‑Variante), Open‑Weight mit Lizenz‑Limits, on‑premise‑Einsatz.
  • Grock 4 (XAI): 2 M‑Token‑Kontext, exzellente mathematisch‑wissenschaftliche Reasoning, wenig gefiltert.
  • Deepseek: Zwei‑Modell‑Ansatz (Reasoning + Light), gute Performance bei Code/Mathe, konkurrenzfähige Preise.
  • Gemini 2.5 Pro: Bis zu 1 M‑Token‑Kontext, native Multimodalität, stark bei Datenanalyse, leicht hinter beim Coding.

Spezialmodelle

  • Mistal Medium: Hohe Effizienz, 90 % Leistung bei 10 % Kosten, geeignet für kostengünstige Produktion.
  • Mistral Small: Apache‑2.0‑Lizenz, 24 B‑Parameter‑Modell, hohe Durchsatzrate für Kunden‑Service‑Bots.
  • Cohere Command: Fokus auf Enterprise‑Compliance, Command R plus für zitierfähige Q&A, multilingual.
  • Kimi: Agenten‑Spezialist, 1 T‑Parameter‑Mixture‑of‑Experts, Open‑Weight, Echtzeit‑Web‑Suche.
  • Qwen (Alibaba): Open‑Weight‑Modelle bis 72 B Parameter, Apache‑2.0, stark im Programmier‑Task.

Entscheidungsmatrix – wie man das Modell für den eigenen Anwendungsfall auswählt

  • Lizenz zuerst: Prüfen, ob PII/PHI vorhanden ist, ob Fine‑Tuning nötig ist, ob On‑Premise‑Hosting verlangt wird.
  • Anforderungsdefinition: Aufgaben‑Komplexität, Kontextgröße, Deploy‑Umgebung (API vs. Self‑Host).
  • Modell‑Matching: Kleine/ schnelle Modelle für FAQs, mittlere Modelle für Schreiben/Coding, große Reasoning‑Modelle für Forschung/Mathe, Agenten‑Modelle für autonome Workflows.
  • Evaluierungspipeline: 20‑50 realitätsnahe Prompts, Rubriken (Genauigkeit, Hilfreich‑keit, Format, Geschwindigkeit), Bewertung per Exact‑Match, BLEU/ROUGE, semantische Ähnlichkeit oder AI‑Judges.
  • Kostenkalkulation: API‑Kosten pro Token vs. Infrastruktur‑Kosten (GPU, Engineering‑Aufwand) für Open‑Weight‑Modelle.

Zukünftige Entwicklungen

  • Grock 5: Auf Colossus 2 Supercomputer trainiert, Fokus auf AGI‑Fähigkeiten.
  • Gemini 3: Verbesserte Coding‑Leistung, erweiterte Multimodalität.
  • Hinweis: Das Feld entwickelt sich rasant, regelmässige Neubewertung der Modelle ist nötig.

Quelle

Die Autorin bezieht sich auf diesen Blog:

State of LLMs in Late 2025
Analyzing the current LLM landscape and its use-cases

Hier ein Auszug:


Quick-Reference Chart (October 2025)

Model Release Best For Key Feature Context Cost
GPT-5 Aug 2025 General use Unified system, auto-switching 256K-400K Mid
Claude 4.5 Sep 2025 Coding 77% SWE-bench, Computer Use 200K High
Llama 4 Apr 2025 Enterprise Open-source, 10M context (Scout) 1M-10M Free
Grok 4 Jul 2025 Research/Math 88% GPQA, real-time X 2M Mid
Mistral Medium 3 May 2025 Cost-efficiency 90% performance at 1/8 cost Variable Low
Gemini 2.5 Pro Current Large docs 2M tokens, multimodal 2M Low-Mid

Specialized Use Cases: Which Model When?

Software Development & Engineering

Winner: Claude Sonnet 4.5

  • 77.2% on SWE-bench verified
  • GitHub Copilot integration
  • 30+ hour focus on complex tasks

Alternative: GPT-5-Codex for agentic coding workflows

Creative Writing & Content Marketing

Winner: GPT-5

  • Better writing with literary depth and rhythm
  • Automatic optimization for creative tasks
  • Memory features for consistency

Data Analysis & Research

Winner: Gemini 2.5 Pro (until Gemini 3)

  • 2M token context for massive datasets
  • Deep Research mode
  • Lowest hallucination rates

Alternative: Grok 4 for real-time data or complex mathematics

Mathematical & Scientific Computing

Winner: Grok 4

  • 100% on AIME 2025, 88% on GPQA Diamond
  • PhD-level problem solving
  • Real-time data integration

Document Analysis & Compliance

Winner: Claude Sonnet 4.5

  • Best at maintaining context across lengthy documents
  • Computer Use for automated processing
  • Reliable structured outputs

Real-Time Information & Trend Analysis

Winner: Grok 4

  • Native X platform integration
  • Real-time search capabilities
  • Unfiltered perspectives

Cost-Effective Production

Winner: Mistral Medium 3

  • 90% of frontier performance at significantly lower cost
  • Deployable on 4 GPUs

Open-Source & Customization

Winner: Llama 4

  • Fully open weights (with restrictions)
  • Multiple size options
  • 10M token context (Scout)
Auf Facebook teilen Auf Linkedin teilen Auf Twitter teilen Per E-Mail senden

Newsletter abonnieren

Abonnieren Sie den Newsletter für die neusten Nachrichten direkt in Ihrem Postfach.

einschreiben