ki

Pi Coding Agent - Tests auf Strix Halo Hardware

Von peter portmann,

Veröffentlicht am 22. Mai 2026   â€”   6 min Lesezeit

codemacosselfhostedtools
pi.dev
đŸ“œïž
Donato Capitella beschreibt in einem Video seine Erfahrung mit dem Pi Coding Agent und lokal gehosteten KI-Modellen. Mit der passenden Software ist Softwareentwicklung und agentische KI-Automatisierung auf eigener Hardware, mit brauchbarer Geschwindigkeit und QualitÀt möglich.

Nach diversen Tests und Recherchen verwende ich den gleichen Agenten und das gleiche Modell wie Donato: Pi Coding Agent und Qwen3.6-35B-A3B-Q8. Interessant, dass wir mit sehr unterschiedlicher Hardware zum selben Ergebnis kommen.

Pi Coding Agent

  • Schlank, aber erweiterbar
  • Sehr mĂ€chtig mit dem Bash-Tool
  • geringer 'Tokenverbrauch'
  • Viel schneller als Agent Goose oder OpenCode

Aus einem Referat von Mario Zechner am 31.3.2026:


Qwen3.6-35B-A3B-Q8

  • Beherrscht Tool Calling, kompatibel mit Pi Coding Agent
  • Schnell da MoE (Mixture of Experts)
  • Etwas weniger prĂ€zise als das Qwen3.6-27B (Dense Model), dafĂŒr eben 2-3x schneller

Aus dem Video von Donato:


Hardware

Ich verwende einen Apple Mac Studio, Donato einen framework PC:
https://frame.work/ch/en/desktop

Feature AMD „Strix Halo“ (im Video genutzt) Apple Mac Studio (M3 Ultra)
Max. SpeicherkapazitÀt 128 GB (im Video) / bis zu 192 GB (neue Max 400er) 256 GB
Speichertyp LPDDR5X-8000 LPDDR5X (Custom Apple Silicon)
Speicherinterface 256-bit Multi-Channel (Ultra-Wide)
Theoretische Bandbreite ~256 GB/s (real ca. 215 GB/s) 819 GB/s
Architektur AMD Ryzenℱ AI Max+ 395 ARM (28/32-Core CPU + 60/80-Core GPU)
Preis ~ 2500.00 CHF ~ 4500.00 CHF
Lieferfrist 1 Woche 2-3 Monate
(nur noch 96 GB verfĂŒgbar)

Die Hauptunterschiede im Detail; das meint Gemini

Speicherbandbreite & Inferenz-Geschwindigkeit (Tokens/s)

Bei der lokalen AusfĂŒhrung von Large Language Models (LLMs) ist fast immer die Speicherbandbreite der absolute Flaschenhals, nicht die Rechenleistung des Grafikchips. Das Modell muss bei jedem Token komplett durch den Speicher geschleust werden.

  • Mac Studio (M3 Ultra): Mit atemberaubenden 819 GB/s schlĂ€gt der M3 Ultra das AMD-System um das Vierfache. Die Daten können weitaus schneller zur GPU gestreamt werden können.
  • Strix Halo: Die 256 GB/s sind fĂŒr ein klassisches kompaktes Desktop-System phĂ€nomenal. Im Video sieht man beispielsweise, dass das Beantworten komplexerer Aufgaben im Benchmark einige Minuten dauern kann.

SpeicherkapazitÀt

  • Mac Studio: Mit 256 GB Unified Memory lĂ€sst sich fast der gesamte RAM als Grafikspeicher (VRAM) deklarieren. Damit lassen sich extrem mĂ€chtige Modelle mit weit ĂŒber 100 Milliarden Parametern lokal ausfĂŒhren.
  • Strix Halo: Das im Video gezeigte Framework-System besitzt 128 GB. AMD erlaubt es zwar im BIOS, fast den gesamten Speicher (bis zu ca. 115 GB) der integrierten Grafikkarte zuzuweisen, wodurch man fĂŒr einen Bruchteil des Apple-Preises sehr grosse Modelle laden kann, die auf einer normalen Nvidia RTX 4090 (24 GB VRAM) sofort abstĂŒrzen wĂŒrden – allerdings eben mit geringerer Generierungsgeschwindigkeit.

Fazit

Wenn es um die maximale Geschwindigkeit (Tokens/s) und den grössten RAM-Pool fĂŒr gigantische Modelle geht, ist der Mac Studio M3 Ultra mit 819 GB/s der klare König. Das Strix-Halo-System ist hingegen die Budget-Alternative fĂŒr die x86-Welt. Es kann dank des grossen geteilten Speichers riesige KI-Modelle laden, die auf normalen PCs unmöglich sind, transportiert sie aber deutlich langsamer als die teurere Apple-Konkurrenz.


Video

Episode 1 einer Serie ĂŒber das Erstellen und Betreiben von KI‑Agenten auf lokaler AMD‑Hardware. Diese Episode behandelt, wie Coding‑Agents funktionieren, welche Sicherheitsrisiken sie einfĂŒhren und einen praktischen Vergleich zweier Coding‑Agents, pi und opencode, die auf dem Strix Halo und dem Radeon R9700 AI PRO laufen, unter Verwendung von Qwen 3.6‑Quantisierungen und llama.cpp.

Coding‑Agents basieren unabhĂ€ngig davon, welchen man wĂ€hlt, auf denselben Kernprinzipien: einer Kontrollschleife um das LLM, die den Kontext verwaltet, Werkzeuge fĂŒr Dateizugriff und Shell‑AusfĂŒhrung bereitstellt, den Sitzungszustand handhabt und optional Sub‑Agents erzeugt. Die Hauptunterschiede zwischen den Agents liegen in ihrer Philosophie bezĂŒglich der Kontextgrösse und dem, was sie standardmĂ€ssig bieten versus dem, was man selbst konfiguriert. Wenn das LLM auf lokaler Hardware statt in einem Rechenzentrum lĂ€uft, sind KontextlĂ€nge und Token‑Durchsatz wichtiger, was bestimmt, welches Agent‑Design besser passt.

Die Episode behandelt zudem die Sicherheitsseite: Prompt‑Injection ĂŒber nicht vertrauenswĂŒrdige Datenquellen, den potenziellen Schaden (Blast Radius) und wie Sandboxing mittels bubblewrap unter Linux oder Docker‑Containern das Risiko reduzieren kann. Abschliessend gibt es ein Benchmark‑Projekt basierend auf einer angepassten Version von SWE‑bench mini, das pi bei 50 kuratierten Software‑Engineering‑Aufgaben evaluiert, wobei Modell‑Quantisierungen verwendet werden, die auf dem Strix Halo und dem R9700 passen.

Diese Serie wirdvon AMD unterstĂŒtzt.


https://strix-halo-toolboxes.com/#config

Benchmarks: https://pi-local-coding-bench.dev/

Strix Halo Toolboxes & Guides: https://strix-halo-toolboxes.com
Building a Coding Agent from Scratch: https://sebastianraschka.com
Pi Coding Agent: https://pi.dev
Opencode: https://opencode.ai
LLM Chronicles – ReAct Framework Episode: https://llm-chronicles.com
LLM Chronicles – Prompt Injection & LLM Security: https://llm-chronicles.com


Die Zusammenfassung wurde mithilfe von KI‑Tools erstellt. Web Clipper → Obsidian → Copilot, unter lokaler Verwendung von gpt‑oss:120b auf einem Mac Studio.
YouTube hat kĂŒrzlich die Codierung geĂ€ndert, der bisherige Code fĂŒr das Transkript funktioniert nicht mehr. Diesen habe ich nun angepasst. Siehe hier:


Transkript

EinfĂŒhrung

  • Serie ĂŒber lokale KI‑Agenten, Aufbau, AusfĂŒhrung und Anpassung von Agentic Workflows auf lokaler Hardware.
  • Kostendruck durch teure LLMs in Rechenzentren; Nutzungspreise steigen bei allgemeiner Compute‑Knappheit.
  • VerfĂŒgbarkeit leistungsfĂ€higer GPUs ermöglicht mittelgrosse Modelle lokal zu betreiben.
  • Neue Modellfamilien (z.B. Quen 3.6 ) sind speziell fĂŒr agentische AnwendungsfĂ€lle optimiert.
  • Kombination dieser Faktoren macht lokale LLMs praktisch einsetzbar.

Aufbau der Episode

  • Überblick ĂŒber verschiedene Abschnitte, Möglichkeit zum Springen.
  • Ziel: Funktionsweise von Coding Agents erklĂ€ren.
  • Viele Optionen, aber gleiche Grundprinzipien; VerstĂ€ndnis erleichtert Auswahl.
  • Vorstellung der genutzten Hardware (Strix, Halo, R9700 AI Pro).
  • Praktische Codierungsaufgaben mit PI‑Coding‑Agent und Open‑Code, Vergleich von Ergebnis, Geschwindigkeit, Tokenverbrauch.
  • Benchmark‑Projekt zur Leistungsbewertung verschiedener LLMs auf lokaler Hardware.

Dank an AMD

  • AMD sponsert das Projekt, stellt Ressourcen bereit.
  • Ziel: Zeigen, was mit AMD‑GPUs und KI möglich ist; Community zum Experimentieren motivieren.

Funktionsweise von Coding Agents

  • Viele Agenten, meist gleiche Arbeitsweise; Unterschied liegt in Minimal‑ vs. Vollausstattung und Anpassbarkeit.
  • Eigenen Agenten bauen fördert VerstĂ€ndnis (Referenz: Artikel von Sebastian Rashka).
  • Agent = LLM + Harness (Steuerungsschleife) zur Kontextverwaltung, Zustandsverfolgung und Tool‑Integration.
  • Harness sammelt Projekt‑Kontext (Git‑Status, Dateistruktur) und fĂŒgt ihn in Prompt ein.
  • Tools (Datei‑I/O, Shell, Web, MCP‑Server) geben dem LLM HandlungsfĂ€higkeit.
  • Kontextmanagement durch KĂŒrzen von Ausgaben und periodisches Zusammenfassen verhindert FensterĂŒberlauf.
  • Sitzungs‑Management ermöglicht Fortsetzen, Forken oder ZurĂŒckrollen von GesprĂ€chen.
  • Sub‑Agents können parallel im Hintergrund laufen.
  • Unterschiedliche Implementierungen: Cloud‑Code/Open‑Code (umfangreich, höhere Kosten) vs. PI‑Coding‑Agent (minimal, anpassbar).
  • Lokale Hardware erfordert kĂŒrzere Kontextfenster und effizientere Nutzung.

Sicherheitsrisiken & Sandboxing

  • Coding Agents benötigen umfangreiche Berechtigungen (Shell, Dateisystem, Internet); potenziell gefĂ€hrlich.
  • Gefahr von Prompt‑Injection bei untrusted Eingaben; Angreifer können Kontrolle ĂŒbernehmen.
  • Beispiel: Fehlfunktion eines Agenten löschte komplette Produktionsdatenbank (April 2026).
  • Mensch‑in‑der‑Schleife reduziert Risiko, ist aber bei vielen Aktionen mĂŒhsam (Approval Fatigue).
  • Sandboxing als Kompromiss: BeschrĂ€nkung auf Projektordner, PrĂŒfung jeder Tool‑AusfĂŒhrung gegen Nutzerregeln.
  • OS‑Level Sandbox (Sandbox‑XPC, Bubblewrap) oder Container (Docker) erhöhen Isolation.

Die Hardware (Strix Halo / R9700)

  • VerfĂŒgbare GPUs bestimmen Modell‑ und Quantisierungswahl (z.B. Quen 3.6 six 8‑Bit auf Strix).
  • Auch einzelne R9700 AI Pro mit 32 GB VRAM reicht fĂŒr leistungsfĂ€hige Quantisierungen.
  • Nutzung beliebiger Inferenz‑Engines (LlamaCPP, Ollama, LM Studio) möglich; OS‑unabhĂ€ngig.
  • Empfehlung: LLMs auf Remote‑Server laufen lassen, Port weiterleiten, um Workstation zu entlasten.

Pi Coding Agent

  • Installation mit einem einzigen Befehl; Konfiguration ĂŒber models.json (Provider‑Name z.B. llama‑cpp).
  • Nutzung von Quen 3.6 35B Modell in Q8K‑XL Quantisierung auf Strix.
  • Demonstration: Update eines Toolboxes von Version 7.2.2 zu 7.2.3 inkl. Anpassung aller Referenzen.
  • Agent nutzt minimale Tools (Datei‑I/O, Shell) und hĂ€lt Kontext klein.
  • Sandbox‑Extension konfiguriert Zugriff auf Netzwerk (nur GitHub), Dateisystem (Arbeitsverzeichnis, Temp) und blockiert sensible Pfade.
  • Ergebnis: 19 k Tokens Eingabe, 6 k Tokens Ausgabe (~25 k Tokens gesamt) fĂŒr die Aufgabe.

Opencode

  • Open‑Code ist voll ausgestatteter Agent mit umfangreichem Permission‑Model (Granulare Genehmigungen fĂŒr Shell‑Befehle und Dateizugriff).
  • Konfiguration Ă€hnlich wie PI, aber grössere System‑Prompts fĂŒhren zu höherem Tokenverbrauch.
  • Demonstration derselben Toolbox‑Aktualisierung: Plan‑Modus, ausfĂŒhrliche Anweisungen, UI‑Anzeige von Änderungen.
  • Tokenverbrauch deutlich höher (≈39 k Tokens) und langsamer aufgrund grösserer Kontextgrösse.

Benchmarks (SWE‑bench mini)

  • Projekt benchmarkt Modell‑Quantisierungen auf Strix und R9700 hinsichtlich Erfolgsrate und Geschwindigkeit.
  • PI‑Agent mit Quen 3.6 six erreicht 67 % Erfolg, durchschnittlich 8 min pro Aufgabe auf Strix.
  • Kleinere Modelle (3.5 B) haben höhere Erfolgsrate aber sind langsamer.
  • Auf R9700 gleiche Quantisierung halbiert die Laufzeit (~4 min); dichte 27 B Version erreicht Ă€hnliche Erfolgsrate bei ~9 min.
  • Multi‑Token Prediction (MTP) reduziert Dauer weiter (auf Strix auf 5 min 36 s, auf R9700 auf 6 min 9 s).
  • Hinweis auf Benchmark‑Limitationen: Datenkontamination, fehlende Internet-/Human‑Feedback‑Interaktion.

Fazit

  • NĂ€chste Episode behandelt lokale Agenten fĂŒr Deep Research, parallele Sub‑Agents und sichere Mailbox‑Integration.

Auf Facebook teilen Auf Linkedin teilen Auf Twitter teilen Per E-Mail senden

Newsletter abonnieren

Abonnieren Sie den Newsletter fĂŒr die neusten Nachrichten direkt in Ihrem Postfach.

einschreiben