Paperless-ngx Blogbeiträge
YouTube
Die Zusammenfassungen wurde mithilfe von KI‑Tools erstellt. Web Clipper → Obsidian → Copilot, unter lokaler Verwendung von gpt‑oss:120b auf einem Mac Studio.
YouTube hat kürzlich die Codierung geändert, der bisherige Code für das Transkript funktioniert nicht mehr. Diesen habe ich nun angepasst. Siehe hier:
Paperless-ngx + Local AI (Optional): Better OCR, Self-Hosted, No Cloud
Techno Tim, 27.01.2026
Baue einen vollständigen Paperless-ngx-Stack in Docker auf und übernimm die Kontrolle über deine Dokumente. Wir bringen zuerst Paperless zum Laufen (funktioniert auch alleine hervorragend), fügen dann optional lokale KI mit Ollama + Open WebUI hinzu und verbessern die OCR mittels Paperless-GPT und Paperless-AI für genaueren, durchsuchbaren Text – keine Cloud erforderlich.
Intro - Self-hosted, privat, KI optional
- Paperless-NGX ist ein selbst gehosteter Posteingang fĂĽr Dokumente, der PDFs automatisch per OCR verarbeitet, organisiert und durchsuchbar macht.
- Durch das Self-Hosting behält man die volle Kontrolle über seine Daten ohne Uploads in externe Cloud-Dienste oder ChatGPT.
Was ist in diesem Paperless-NGX-Stack enthalten?
- Der Setup nutzt Docker fĂĽr eine reproduzierbare Installation von Paperless-NGX und optionaler lokaler KI mit Ollama.
- Die Komponenten umfassen Paperless-NGX (Ablage), Ollama (lokale KI-Engine), paperless-ai (fĂĽr Tags, Titel und Metadaten) sowie paperless-gpt (fĂĽr verbesserte OCR durch Vision-Modelle).
Paperless-Architektur (Paperless ↔ KI ↔ Ollama)
- Die Architektur nutzt Add-ons wie paperless-ai und paperless-gpt zur Verbesserung von Metadaten und OCR.
- Die Nutzung der KI ist rein optional; Paperless-NGX funktioniert auch ohne diese Erweiterungen einwandfrei.
Stack-Übersicht - Alle Dienste erklärt
- Der Stack verwendet Postgres statt SQLite fĂĽr bessere Skalierbarkeit bei grossen Bibliotheken.
- Weitere Dienste sind Redis (In-Memory-Datenbank), Gotenberg (PDF-Konvertierung), Tika (Metadaten-Extraktion), Ollama und OpenWebUI zur Verwaltung der LLMs sowie Dozzle zur Ăśberwachung der Container-Logs.
Ordnerlayout + Ports + .env-Dateien
- Jeder Dienst nutzt eigene Ports (z. B. Paperless auf 8000, paperless-ai auf 3000) und separate .env-Dateien, um die Sicherheit durch begrenzte Zugriffsberechtigungen zu erhöhen.
Docker Compose up
- Der gesamte Stack lässt sich einfach mit dem Befehl
docker compose up -dstarten und ĂĽber Dozzle oderdocker psĂĽberwacht werden.
Ollama + Open WebUI Setup (Port 3001)
- Ăśber OpenWebUI kann ein Admin-Account erstellt und Modelle direkt von Ollama heruntergeladen werden (z. B. Llama 3.2 3b als guter Startpunkt).
NVIDIA GPU Schnelltest
- Die Nutzung der GPU lässt sich durch Tools wie
nvtopverifizieren, was fĂĽr die effiziente AusfĂĽhrung der lokalen KI-Modelle entscheidend ist.
Erster Login: Paperless-ngx Setup (Port 8000)
- Nach dem ersten Start muss ein Admin-Account in Paperless-NGX erstellt werden.
Paperless API Token erstellen
- FĂĽr die Integration von paperless-ai muss ein API-Token im Paperless-Profil generiert und in der entsprechenden .env-Datei hinterlegt werden.
Paperless-AI Setup + Einstellungen (Port 3000)
- In paperless-ai mĂĽssen die API-URL, der Token und der Benutzername konfiguriert werden.
- Es lassen sich fortgeschrittene Funktionen wie automatische Tag-Zuweisung, Korrespondenten-Erkennung und benutzerdefinierte Felder (z. B. Rechnungsbeträge) einrichten.
Dokumente hochladen + Basis-OCR und Metadaten-Ergebnisse
- Standard-OCR in Paperless-NGX kann bei komplexen Bildern oder schlechter Qualität ungenau sein und liefert oft nur einfache Dateinamen als Titel.
Dokumente mit Paperless-AI verarbeiten
- paperless-ai scannt die Dokumente und verbessert Metadaten wie Titel, Tags und Korrespondenten durch die Analyse mittels LLM.
Aktualisierte Metadaten durch Paperless-AI
- Die KI erkennt automatisch Themen (z. B. "Elektronik"), erstellt präzisere Titel und kann sogar Informationen aus dem Text extrahieren.
- Eine spannende Funktion ist das "RAG Chat", bei dem man Fragen zu den eigenen dokumentierten Inhalten stellen kann (z. B. "Wie hoch war mein Einkommen?").
OCR ist immer noch nicht gut
- Da herkömmliche OCR-Bibliotheken oft an Pixel-Erkennung scheitern, wird paperless-gpt als Lösung eingesetzt, das Vision-Modelle nutzt, um Inhalte wirklich zu "verstehen".
Paperless GPT ersetzt OCR durch ein Vision-Modell
- paperless-gpt nutzt LLMs (wie Llama) und Vision-Modelle (wie minicpm-v), um Text aus Bildern wesentlich präzakter zu extrahieren.
minicpm-v - Ein Open-Source Multimodales Vision-Modell
- Minicpm-v ist ein leistungsstarkes, kleines Modell, das sowohl Bilder als auch Text verarbeiten kann und ideal fĂĽr die Extraktion von Daten aus Scans ist.
Paperless-GPT Workflow (Port 3002)
- paperless-gpt bietet Funktionen zur manuellen oder automatisierten Analyse von Dokumenten anhand von IDs oder Tags.
Vision OCR Demo (Vorher/Nachher)
- Der Test zeigt, dass das Vision-Modell selbst schwierige Texte (z. B. Seriennummern auf Fotos) und Tabellen in sauberem Markdown formatieren kann, was weit ĂĽber die Leistung klassischer OCR hinausgeht.
Automatisierung mit Paperless Workflows (Auto-Tags)
- Durch die Einrichtung von Workflows in Paperless-NGX können Dokumente beim Hochladen automatisch mit Tags versehen werden, die wiederum den Prozess in paperless-gpt auslösen.
Test des automatisierten Workflows mit Vision OCR
- Ein Test mit einem Diagramm zeigt, dass das System selbst komplexe visuelle Strukturen (Pfeile, Boxen) beschreiben und korrekt kategorisieren kann.
Fazit: PaperlessNGX mit lokaler KI
- Die Kombination aus Paperless-NGX als Kern, Ollama für die Intelligenz und paperless-gpt für präzise Vision-OCR bietet ein mächtiges, privates und hochautomatisiertes Dokumentenmanagement.
Paperless NGX Complete Setup Guide - Never Lose Important Documents Again (part 1)
The Uncast Show, 31.01.2026
Paperless NGX ist ein Open‑Source Dokumentenmanagementsystem, das physische Dokumente in vollständig durchsuchbare digitale Dokumente umwandelt. In Teil 1 dieser Serie gehen wir über die einfache Ein‑Klick‑Installation hinaus und bauen einen professionellen Paperless‑ngx‑Stack auf Unraid auf. Wir verzichten auf die standardmässige SQLite‑Datenbank und setzen stattdessen ein Hochleistungs‑Postgres 16‑ und Redis‑Setup für maximale Stabilität und Geschwindigkeit ein.
EinfĂĽhrung in Paperless NGX
- Video stellt Paperless NGX als digitale Lösung für chaotische Papierablage vor.
- Dokumente werden gescannt, Text wird gelesen und alles ist durchsuchbar.
- Ziel: Kernsystem einrichten, damit sofort ein funktionierendes Archiv bereitsteht.
- Benötigte Komponenten: Paperless NGX Container, PostgreSQL Datenbank, Redis (Reddus) für Hintergrundaufgaben.
- Weitere Schritte: Installation von Gotenberg & Apache Tika für Dokumenten‑Parsing und später KI‑Funktionen (Tagging, Zusammenfassung).
Kernsystem einrichten
- Netzwerkshare 'paperless' auf Unraid anlegen, nicht als Cache‑Share nutzen.
- Drei Ordner im Share erstellen: consume, media, export.
- Consume‑Ordner kann per SMB gemappt oder direkt vom Scanner verwendet werden.
- Hinweis zu Nexcloud/Nextcloud Integration und mobilen Zugriffsmöglichkeiten.
- PostgreSQL‑Container (Version 16) mit einfachen Zugangsdaten einrichten, automatischer Start aktivieren.
- Redis‑Container (Bitnami) installieren, leeres Passwort zulassen, erforderliche Berechtigungen setzen.
Erforderliche Container installieren
- Redis‑Konfiguration anpassen: leeres Passwort erlauben, falsches Passwort entfernen.
- Terminalbefehl ausfĂĽhren, um Ordnerberechtigungen zu korrigieren und Container starten.
- Paperless‑Container installieren, Pfade für media, consume und export auf den Share verweisen.
- IP‑Adresse des Unraid‑Servers ermitteln, statische IP sicherstellen, Redis‑Endpoint konfigurieren (IP:6379).
- OCR‑Sprache setzen (Englisch), weitere Optionen unverändert lassen.
Paperless NGX konfigurieren
- Standard‑SQLite deaktivieren und PostgreSQL nutzen.
- Datenbankvariablen hinzufĂĽgen: paperless_dbhost, port (5432), name, user, password.
- Platzhalter‑Variablen für zukünftige Gotenberg‑ und Tika‑Endpoints anlegen, zunächst deaktiviert (Wert 0).
- Alle Bind‑Mounts, Sprache, Zeitzone und Datenbankparameter prüfen.
Einrichtung abschliessen und testen
- Container starten, Auto‑Start aktivieren, Logs auf Fehler überprüfen.
- Authentifizierungsfehler bei Redis beheben: leeres Passwort setzen und neu starten.
- Web‑UI öffnen, Benutzerkonto anlegen und anmelden.
- Dokumente per Drag‑&‑Drop oder über Consume‑Ordner hochladen; OCR erkennt Inhalt korrekt.
- ĂśberprĂĽfung im Dashboard, dass das Dokument gespeichert und durchsuchbar ist.
Fazit und nächste Schritte
- Voll funktionsfähiges Paperless NGX System von Grund auf aufgebaut.
- Empfehlung: offizielle Dokumentation fĂĽr Tagging, Dokumenttypen und Feineinstellungen lesen.
- Ausblick auf Teil 2: Aktivierung von Gotenberg & Apache Tika, erweiterte Office‑Dokumentenverarbeitung und automatisierte Workflows.
Paperless-ngx Part 2: Unlock the Features You Didn't Know Existed
The Uncast Show, 06.02.2026
Paperless NGX ist ein Open‑Source‑Dokumentenmanagementsystem, das physische Dokumente in vollständig durchsuchbare digitale Dokumente umwandelt. In Teil 2 dieser Serie konzentrieren wir uns auf Automatisierung und reale Arbeitsabläufe: die vollständige Unterstützung von Office‑Dokumenten mit Gotenberg + Tika hinzufügen, verschachtelte Tags erstellen, intelligente Schlüsselwort‑Abgleichsregeln für automatisches Tagging entwickeln und die automatische E‑Mail‑Importfunktion einrichten, sodass Ihr Posteingang Paperless freihändig versorgen kann.
Intro und Roadmap
- Vorstellung des Kanals und Teil 2 der Paperless‑Server‑Einrichtung.
- Kernsystem läuft bereits, PDFs werden manuell abgelegt.
- Ziel: Spezialcontainer für Office‑Dokumente einrichten, E‑Mail‑Import automatisieren und Dokumenterkennung verbessern.
- PDF‑Unterstützung vorhanden, Word/Excel benötigen Gotenberg.
- Apache Tika wird zur besseren Textextraktion eingesetzt.
The Paperless Problem (Office files)
- Wechsel zum Apps‑Tab, Suche nach Paperless und Anzeige von Gotenberg.
Installation Gotenberg + Tika (Unraid Apps)
- Installation von Gotenberg: stateless Container, keine App‑Daten nötig.
- Versuch, Apache Tika zu installieren, scheitert wegen privatem Repository.
- Lösung: offizielles
apache/tika:latestImage von DockerHub verwenden. - Beide Container laufen, Hinweis auf fehlende UI‑Benachrichtigung für Tika.
Aktivierung Tika
- Aktivierung der Tika‑ und Gotenberg‑Variablen (0 → off, 1 → on).
- Eingabe von Unraid‑Server‑IP und Ports (3000, 98) in den Variablen.
- Anwendung speichern, Logs prüfen – keine Fehler.
Test der DOCX Konvertierung
- Upload eines Word‑Dokuments über die Web‑UI.
- Dokument wird korrekt angezeigt, Text wird extrahiert.
- Original‑DOCX bleibt im
originals‑Ordner, Gotenberg konvertiert zu PDF für Vorschau. - Tika liefert bessere Textextraktion als OCR; Extraktion erfolgt einmalig beim Upload.
Verschachtelte Tags einrichten
- Erstellung eines neuen Tags 'server' mit orangefarbener Kennzeichnung.
- Auswahl des Matching‑Algorithmus: zunächst 'any' (ein Wort genügt), später mögliche Optionen ('all', automatisches Lernen).
- Hinweis, dass bereits hochgeladene Dokumente nicht retroaktiv getaggt werden.
Smart‑Keyword‑Matching‑Regeln (Auto‑Tagging)
- Anzeige von Tags als farbige Badges in der DokumentenĂĽbersicht.
- Manuelles Taggen von Dokumenten ohne Schlüsselwort möglich.
- Nach ausreichender Menge an Trainingsdaten kann auf automatisches Lernen umgestellt werden.
- Demonstration des Erstellens eines Unter‑Tags 'motherboard' unter dem Eltern‑Tag 'server'.
Automatisierter E‑Mail‑Import (E‑Mail‑Konten + Regeln)
- Einrichtung eines Test‑Gmail‑Accounts mit IMAP und App‑Passwort.
- Verbindungstest erfolgreich, Account speichern.
- Erstellung einer Mail‑Regel: Name, Konto, Reihenfolge 1, Ordner Inbox, Filter nach Absender, maximale Alterseinstellung.
Vollständiger Arbeitsablauf: E‑Mail → Papierlos
- Versand einer Test‑E‑Mail mit Word‑Anhang.
- Manuelles Auslösen der Mail‑Verarbeitung in Paperless.
- Dokument wird importiert, Tags 'email' und 'server' werden automatisch zugewiesen.
Install Ollama & AI Models for Paperless NGX | Local Document Intelligence (Part 3)
The Uncast Show, 20.02.2026
In Teil 3 der Paperless‑NGX‑Reihe fügen wir unserer Dokumentenverwaltung lokale KI hinzu. Alles läuft auf Ihrer eigenen Hardware, nichts verlässt Ihr Netzwerk. Paperless AI übernimmt automatisches Tagging, die Erkennung von Korrespondenten, Dokumenttypen, die Titelerstellung und bietet sogar einen RAG‑Chat, sodass Sie Fragen zu Ihren Dokumenten stellen können! Paperless GPT fügt vision‑basiertes OCR hinzu, sodass gescannte Dokumente, Fotos und sogar handschriftliche Notizen korrekt von einem lokalen Vision‑Modell gelesen werden.
EinfĂĽhrung
- Überblick über die vorherigen Teile der Paperless‑Serie (Grundlagen, Gotenberg, Apache Tika, E‑Mail‑Import, Tagging).
- Ziel dieses Videos: KI‑Integration für automatisches Lesen, Taggen, Dokumenttyp‑Bestimmung und Titelgenerierung.
- Vision‑basiertes OCR ermöglicht das Auslesen von Fotos und handschriftlichen Notizen.
- Zwei Container werden eingerichtet: Paperless AI (klassifiziert Texte) und Paperless GPT (Vision‑OCR).
- Paperless AI bietet RAG‑Chat, um Fragen zu Dokumenten zu beantworten.
Hardwareanforderungen & GPU
- Eine GPU ist nötig; CPU‑Ausführung wäre sehr langsam.
- Empfohlene Mindest‑VRAM: 12 GB (z. B. RTX 3060), besser mehr (RTX 3090, 4060 Ti, 5070 Ti).
- Cloud‑KI‑Dienste sind teuer und potenziell unsicher für sensible Dokumente; lokale Ausführung wird bevorzugt.
Installation des NVIDIA‑Treibers & Ollama
- Nvidia‑Treiber installieren, ggf. Open‑Source‑Treiber für 50er‑Serie GPUs wählen.
- Zwei Container installieren: KI‑Modelle und Open Web UI (Ollama‑Frontend).
- Verbindung zwischen Containern und GPU‑Server herstellen.
Herunterladen von KI‑Modellen
- Modelle herunterladen: Qwen 3‑14B (Allzweck, 9 GB) und Mini CPM‑V (Vision‑OCR, 5 GB).
- Beide passen in 12–16 GB VRAM; nur ein Modell wird gleichzeitig geladen.
Installation & Konfiguration von Paperless AI
- Paperless‑AI‑Container installieren, Port anpassen (z. B. 3030).
- API‑Token aus Paperless holen und in Paperless‑AI eintragen.
- Lokales LLM (Alarm) auswählen, Modelle konfigurieren.
- Einstellungen für Tagging‑Strategie, Scan‑Intervall und AI‑Prompt festlegen.
Ergebnisse des KI‑Taggings & RAG‑Chat‑Demo
- KI hat Dokumente automatisch getaggt und neue Tags hinzugefĂĽgt.
- RAG‑Chat ermöglicht Fragen zu einzelnen Dokumenten (z. B. CPU‑Empfehlung).
- Indexierung aller Dokumente fĂĽr globale Abfragen; Beispiel: Telefonnummer aus Versicherungsdokument extrahieren.
Installation & Konfiguration von Paperless GPT
- Paperless‑GPT‑Container installieren, API‑Token und Basis‑URL eintragen.
- LLM‑Provider (Alarm) und Vision‑Modell (Mini CPM) konfigurieren.
- Auto‑OCR‑Tagging aktivieren, aber automatische Titel‑/Tag‑Generierung deaktivieren.
Vision‑OCR‑Demo
- OCR‑Job für ein Bild (Energydrink‑Dose) starten, Ergebnis in Paperless speichern.
- Verbesserte Inhaltsextraktion ermöglicht weiterführende Fragen via Paperless‑AI.
Automatische OCR mit 'consume'-Unterordnern
- Automatisches OCR durch Tag‑basiertes Ordner‑Monitoring möglich.
- Einrichtung von Unterordnern im 'consume'-Verzeichnis und entsprechenden Umgebungsvariablen.
Handschriftlicher Notiztest
- Handschriftliche Notiz erfolgreich von Paperless‑GPT gelesen und getaggt.
- Nach dem Verarbeiten entfernt Paperless‑GPT sein eigenes Tag, um Doppelverarbeitung zu vermeiden.
Grundlagen paperless-ngx: Das papierlose BĂĽro
Digitalisierung mit Kopf, 31.01.2024
Paperless-ngx ist ein kostenloses Dokumentenmanagementsystem, das gescannte Dokumente mittels Volltexterkennung (OCR) durchsuchbar macht und eine organisierte Verwaltung über ein Webinterface ermöglicht. Technisch basiert die Anwendung auf einer Container-Struktur mit Docker, wobei verschiedene Komponenten wie Webserver, Datenbank und Broker zusammenarbeiten, um Dokumente automatisiert zu verarbeiten und zu archivieren. Der typische Workflow sieht vor, dass ein Netzwerkscanner Dateien in einen überwachten Ordner legt, woraufhin das System diese erfasst, indexiert und sicher auf einem NAS oder Server speichert.
Quellen
Paperless-ngx
https://docs.paperless-ngx.com/
Paperless-ngx Docling Consume Script
BoxcarFields
https://github.com/BoxcarFields/paperless-ngx-docling-consume
Bring the power of Docling to your Paperless-ngx instance!
This project provides a post-consume script for Paperless-ngx that automatically processes incoming documents (PDF, Images, Office Docs, HTML) using a local Docling server. It extracts high-quality text and structure (Markdown) and directly updates the document content in Paperless-ngx via the API, bypassing standard OCR limitations.
Dokumentenschlucker
c't Magazin 9/2024
www.heise.de/select/ct/2024/9/2401011512156952145
Papierloses BĂĽro mit paperless-ngx
Mit der Open-Source-Anwendung paperless-ngx auf einem Server, Raspi oder NAS sowie einem Einzugscanner gehört Dokumentenchaos der Vergangenheit an. Lesen Sie unseren Mehrstufenplan zum papierarmen Büro – selbstlernende Systeme und Langzeitarchiv inklusive.