Nach diversen Tests und Recherchen verwende ich den gleichen Agenten und das gleiche Modell wie Donato: Pi Coding Agent und Qwen3.6-35B-A3B-Q8. Interessant, dass wir mit sehr unterschiedlicher Hardware zum selben Ergebnis kommen.
Pi Coding Agent
- Schlank, aber erweiterbar
- Sehr mÀchtig mit dem Bash-Tool
- geringer 'Tokenverbrauch'
- Viel schneller als Agent Goose oder OpenCode
Aus einem Referat von Mario Zechner am 31.3.2026:

Qwen3.6-35B-A3B-Q8
- Beherrscht Tool Calling, kompatibel mit Pi Coding Agent
- Schnell da MoE (Mixture of Experts)
- Etwas weniger prĂ€zise als das Qwen3.6-27B (Dense Model), dafĂŒr eben 2-3x schneller
Aus dem Video von Donato:


Hardware
Ich verwende einen Apple Mac Studio, Donato einen framework PC:
https://frame.work/ch/en/desktop
| Feature | AMD âStrix Haloâ (im Video genutzt) | Apple Mac Studio (M3 Ultra) |
|---|---|---|
| Max. SpeicherkapazitÀt | 128 GB (im Video) / bis zu 192 GB (neue Max 400er) | 256 GB |
| Speichertyp | LPDDR5X-8000 | LPDDR5X (Custom Apple Silicon) |
| Speicherinterface | 256-bit | Multi-Channel (Ultra-Wide) |
| Theoretische Bandbreite | ~256 GB/s (real ca. 215 GB/s) | 819 GB/s |
| Architektur | AMD Ryzenâą AI Max+ 395 | ARM (28/32-Core CPU + 60/80-Core GPU) |
| Preis | ~ 2500.00 CHF | ~ 4500.00 CHF |
| Lieferfrist | 1 Woche | 2-3 Monate (nur noch 96 GB verfĂŒgbar) |
Die Hauptunterschiede im Detail; das meint Gemini
Speicherbandbreite & Inferenz-Geschwindigkeit (Tokens/s)
Bei der lokalen AusfĂŒhrung von Large Language Models (LLMs) ist fast immer die Speicherbandbreite der absolute Flaschenhals, nicht die Rechenleistung des Grafikchips. Das Modell muss bei jedem Token komplett durch den Speicher geschleust werden.
- Mac Studio (M3 Ultra): Mit atemberaubenden 819 GB/s schlÀgt der M3 Ultra das AMD-System um das Vierfache. Die Daten können weitaus schneller zur GPU gestreamt werden können.
- Strix Halo: Die 256 GB/s sind fĂŒr ein klassisches kompaktes Desktop-System phĂ€nomenal. Im Video sieht man beispielsweise, dass das Beantworten komplexerer Aufgaben im Benchmark einige Minuten dauern kann.
SpeicherkapazitÀt
- Mac Studio: Mit 256 GB Unified Memory lĂ€sst sich fast der gesamte RAM als Grafikspeicher (VRAM) deklarieren. Damit lassen sich extrem mĂ€chtige Modelle mit weit ĂŒber 100 Milliarden Parametern lokal ausfĂŒhren.
- Strix Halo: Das im Video gezeigte Framework-System besitzt 128 GB. AMD erlaubt es zwar im BIOS, fast den gesamten Speicher (bis zu ca. 115 GB) der integrierten Grafikkarte zuzuweisen, wodurch man fĂŒr einen Bruchteil des Apple-Preises sehr grosse Modelle laden kann, die auf einer normalen Nvidia RTX 4090 (24 GB VRAM) sofort abstĂŒrzen wĂŒrden â allerdings eben mit geringerer Generierungsgeschwindigkeit.
Fazit
Wenn es um die maximale Geschwindigkeit (Tokens/s) und den grössten RAM-Pool fĂŒr gigantische Modelle geht, ist der Mac Studio M3 Ultra mit 819 GB/s der klare König. Das Strix-Halo-System ist hingegen die Budget-Alternative fĂŒr die x86-Welt. Es kann dank des grossen geteilten Speichers riesige KI-Modelle laden, die auf normalen PCs unmöglich sind, transportiert sie aber deutlich langsamer als die teurere Apple-Konkurrenz.
Video
Episode 1 einer Serie ĂŒber das Erstellen und Betreiben von KIâAgenten auf lokaler AMDâHardware. Diese Episode behandelt, wie CodingâAgents funktionieren, welche Sicherheitsrisiken sie einfĂŒhren und einen praktischen Vergleich zweier CodingâAgents, pi und opencode, die auf dem Strix Halo und dem Radeon R9700 AI PRO laufen, unter Verwendung von QwenâŻ3.6âQuantisierungen und llama.cpp.
CodingâAgents basieren unabhĂ€ngig davon, welchen man wĂ€hlt, auf denselben Kernprinzipien: einer Kontrollschleife um das LLM, die den Kontext verwaltet, Werkzeuge fĂŒr Dateizugriff und ShellâAusfĂŒhrung bereitstellt, den Sitzungszustand handhabt und optional SubâAgents erzeugt. Die Hauptunterschiede zwischen den Agents liegen in ihrer Philosophie bezĂŒglich der Kontextgrösse und dem, was sie standardmĂ€ssig bieten versus dem, was man selbst konfiguriert. Wenn das LLM auf lokaler Hardware statt in einem Rechenzentrum lĂ€uft, sind KontextlĂ€nge und TokenâDurchsatz wichtiger, was bestimmt, welches AgentâDesign besser passt.
Die Episode behandelt zudem die Sicherheitsseite: PromptâInjection ĂŒber nicht vertrauenswĂŒrdige Datenquellen, den potenziellen Schaden (Blast Radius) und wie Sandboxing mittels bubblewrap unter Linux oder DockerâContainern das Risiko reduzieren kann. Abschliessend gibt es ein BenchmarkâProjekt basierend auf einer angepassten Version von SWEâbench mini, das pi bei 50 kuratierten SoftwareâEngineeringâAufgaben evaluiert, wobei ModellâQuantisierungen verwendet werden, die auf dem Strix Halo und dem R9700 passen.
Diese Serie wirdvon AMD unterstĂŒtzt.
Links aus dem Video
https://strix-halo-toolboxes.com/#config
Benchmarks: https://pi-local-coding-bench.dev/
Strix Halo Toolboxes & Guides: https://strix-halo-toolboxes.com
Building a Coding Agent from Scratch: https://sebastianraschka.com
Pi Coding Agent: https://pi.dev
Opencode: https://opencode.ai
LLM Chronicles â ReAct Framework Episode: https://llm-chronicles.com
LLM Chronicles â Prompt Injection & LLM Security: https://llm-chronicles.com
Die Zusammenfassung wurde mithilfe von KIâTools erstellt. Web ClipperâŻââŻObsidianâŻââŻCopilot, unter lokaler Verwendung von gptâoss:120b auf einem Mac Studio.
YouTube hat kĂŒrzlich die Codierung geĂ€ndert, der bisherige Code fĂŒr das Transkript funktioniert nicht mehr. Diesen habe ich nun angepasst. Siehe hier:
Transkript
EinfĂŒhrung
- Serie ĂŒber lokale KIâAgenten, Aufbau, AusfĂŒhrung und Anpassung von Agentic Workflows auf lokaler Hardware.
- Kostendruck durch teure LLMs in Rechenzentren; Nutzungspreise steigen bei allgemeiner ComputeâKnappheit.
- VerfĂŒgbarkeit leistungsfĂ€higer GPUs ermöglicht mittelgrosse Modelle lokal zu betreiben.
- Neue Modellfamilien (z.B. QuenâŻ3.6âŻ) sind speziell fĂŒr agentische AnwendungsfĂ€lle optimiert.
- Kombination dieser Faktoren macht lokale LLMs praktisch einsetzbar.
Aufbau der Episode
- Ăberblick ĂŒber verschiedene Abschnitte, Möglichkeit zum Springen.
- Ziel: Funktionsweise von Coding Agents erklÀren.
- Viele Optionen, aber gleiche Grundprinzipien; VerstÀndnis erleichtert Auswahl.
- Vorstellung der genutzten Hardware (Strix, Halo, R9700âŻAIâŻPro).
- Praktische Codierungsaufgaben mit PIâCodingâAgent und OpenâCode, Vergleich von Ergebnis, Geschwindigkeit, Tokenverbrauch.
- BenchmarkâProjekt zur Leistungsbewertung verschiedener LLMs auf lokaler Hardware.
Dank an AMD
- AMD sponsert das Projekt, stellt Ressourcen bereit.
- Ziel: Zeigen, was mit AMDâGPUs und KI möglich ist; Community zum Experimentieren motivieren.
Funktionsweise von Coding Agents
- Viele Agenten, meist gleiche Arbeitsweise; Unterschied liegt in Minimalâ vs. Vollausstattung und Anpassbarkeit.
- Eigenen Agenten bauen fördert VerstÀndnis (Referenz: Artikel von Sebastian Rashka).
- Agent = LLM + Harness (Steuerungsschleife) zur Kontextverwaltung, Zustandsverfolgung und ToolâIntegration.
- Harness sammelt ProjektâKontext (GitâStatus, Dateistruktur) und fĂŒgt ihn in Prompt ein.
- Tools (DateiâI/O, Shell, Web, MCPâServer) geben dem LLM HandlungsfĂ€higkeit.
- Kontextmanagement durch KĂŒrzen von Ausgaben und periodisches Zusammenfassen verhindert FensterĂŒberlauf.
- SitzungsâManagement ermöglicht Fortsetzen, Forken oder ZurĂŒckrollen von GesprĂ€chen.
- SubâAgents können parallel im Hintergrund laufen.
- Unterschiedliche Implementierungen: CloudâCode/OpenâCode (umfangreich, höhere Kosten) vs. PIâCodingâAgent (minimal, anpassbar).
- Lokale Hardware erfordert kĂŒrzere Kontextfenster und effizientere Nutzung.
Sicherheitsrisiken & Sandboxing
- Coding Agents benötigen umfangreiche Berechtigungen (Shell, Dateisystem, Internet); potenziell gefÀhrlich.
- Gefahr von PromptâInjection bei untrusted Eingaben; Angreifer können Kontrolle ĂŒbernehmen.
- Beispiel: Fehlfunktion eines Agenten löschte komplette Produktionsdatenbank (AprilâŻ2026).
- MenschâinâderâSchleife reduziert Risiko, ist aber bei vielen Aktionen mĂŒhsam (Approval Fatigue).
- Sandboxing als Kompromiss: BeschrĂ€nkung auf Projektordner, PrĂŒfung jeder ToolâAusfĂŒhrung gegen Nutzerregeln.
- OSâLevel Sandbox (SandboxâXPC, Bubblewrap) oder Container (Docker) erhöhen Isolation.
Die Hardware (StrixâŻHalo / R9700)
- VerfĂŒgbare GPUs bestimmen Modellâ und Quantisierungswahl (z.B. QuenâŻ3.6âŻsix 8âBit auf Strix).
- Auch einzelne R9700âŻAIâŻPro mit 32âŻGB VRAM reicht fĂŒr leistungsfĂ€hige Quantisierungen.
- Nutzung beliebiger InferenzâEngines (LlamaCPP, Ollama, LMâŻStudio) möglich; OSâunabhĂ€ngig.
- Empfehlung: LLMs auf RemoteâServer laufen lassen, Port weiterleiten, um Workstation zu entlasten.
Pi Coding Agent
- Installation mit einem einzigen Befehl; Konfiguration ĂŒber
models.json(ProviderâName z.B. llamaâcpp). - Nutzung von QuenâŻ3.6âŻ35B Modell in Q8KâXL Quantisierung auf Strix.
- Demonstration: Update eines Toolboxes von VersionâŻ7.2.2 zuâŻ7.2.3 inkl. Anpassung aller Referenzen.
- Agent nutzt minimale Tools (DateiâI/O, Shell) und hĂ€lt Kontext klein.
- SandboxâExtension konfiguriert Zugriff auf Netzwerk (nur GitHub), Dateisystem (Arbeitsverzeichnis, Temp) und blockiert sensible Pfade.
- Ergebnis: 19âŻk Tokens Eingabe, 6âŻk Tokens Ausgabe (~25âŻk Tokens gesamt) fĂŒr die Aufgabe.
Opencode
- OpenâCode ist voll ausgestatteter Agent mit umfangreichem PermissionâModel (Granulare Genehmigungen fĂŒr ShellâBefehle und Dateizugriff).
- Konfiguration Ă€hnlich wie PI, aber grössere SystemâPrompts fĂŒhren zu höherem Tokenverbrauch.
- Demonstration derselben ToolboxâAktualisierung: PlanâModus, ausfĂŒhrliche Anweisungen, UIâAnzeige von Ănderungen.
- Tokenverbrauch deutlich höher (â39âŻk Tokens) und langsamer aufgrund grösserer Kontextgrösse.
Benchmarks (SWEâbench mini)
- Projekt benchmarkt ModellâQuantisierungen auf Strix und R9700 hinsichtlich Erfolgsrate und Geschwindigkeit.
- PIâAgent mit QuenâŻ3.6âŻsix erreicht 67âŻ% Erfolg, durchschnittlich 8âŻmin pro Aufgabe auf Strix.
- Kleinere Modelle (3.5âŻB) haben höhere Erfolgsrate aber sind langsamer.
- Auf R9700 gleiche Quantisierung halbiert die Laufzeit (~4âŻmin); dichte 27âŻB Version erreicht Ă€hnliche Erfolgsrate bei ~9âŻmin.
- MultiâToken Prediction (MTP) reduziert Dauer weiter (auf Strix auf 5âŻminâŻ36âŻs, auf R9700 auf 6âŻminâŻ9âŻs).
- Hinweis auf BenchmarkâLimitationen: Datenkontamination, fehlende Internet-/HumanâFeedbackâInteraktion.
Fazit
- NĂ€chste Episode behandelt lokale Agenten fĂŒr Deep Research, parallele SubâAgents und sichere MailboxâIntegration.