paperless

Paperless - Tutorials

Von peter portmann,

Veröffentlicht am 18. Apr. 2026 — 10 min Lesezeit

dokumentation selfhosted tools

📑

Hier die wichtigsten Tutorials, welche ich als Grundlage für meine Installation verwendet habe.

Paperless-ngx Blogbeiträge

supportnet.ch #paperless

YouTube

Die Zusammenfassungen wurde mithilfe von KI‑Tools erstellt. Web Clipper → Obsidian → Copilot, unter lokaler Verwendung von gpt‑oss:120b auf einem Mac Studio.
YouTube hat kürzlich die Codierung geändert, der bisherige Code für das Transkript funktioniert nicht mehr. Diesen habe ich nun angepasst. Siehe hier:

Obsidian Web Clipper

Paperless-ngx + Local AI (Optional): Better OCR, Self-Hosted, No Cloud

Techno Tim, 27.01.2026

Baue einen vollständigen Paperless-ngx-Stack in Docker auf und übernimm die Kontrolle über deine Dokumente. Wir bringen zuerst Paperless zum Laufen (funktioniert auch alleine hervorragend), fügen dann optional lokale KI mit Ollama + Open WebUI hinzu und verbessern die OCR mittels Paperless-GPT und Paperless-AI für genaueren, durchsuchbaren Text – keine Cloud erforderlich.

Intro - Self-hosted, privat, KI optional

Paperless-NGX ist ein selbst gehosteter Posteingang für Dokumente, der PDFs automatisch per OCR verarbeitet, organisiert und durchsuchbar macht.
Durch das Self-Hosting behält man die volle Kontrolle über seine Daten ohne Uploads in externe Cloud-Dienste oder ChatGPT.

Was ist in diesem Paperless-NGX-Stack enthalten?

Der Setup nutzt Docker für eine reproduzierbare Installation von Paperless-NGX und optionaler lokaler KI mit Ollama.
Die Komponenten umfassen Paperless-NGX (Ablage), Ollama (lokale KI-Engine), paperless-ai (für Tags, Titel und Metadaten) sowie paperless-gpt (für verbesserte OCR durch Vision-Modelle).

Paperless-Architektur (Paperless ↔ KI ↔ Ollama)

Die Architektur nutzt Add-ons wie paperless-ai und paperless-gpt zur Verbesserung von Metadaten und OCR.
Die Nutzung der KI ist rein optional; Paperless-NGX funktioniert auch ohne diese Erweiterungen einwandfrei.

Stack-Übersicht - Alle Dienste erklärt

Der Stack verwendet Postgres statt SQLite für bessere Skalierbarkeit bei grossen Bibliotheken.
Weitere Dienste sind Redis (In-Memory-Datenbank), Gotenberg (PDF-Konvertierung), Tika (Metadaten-Extraktion), Ollama und OpenWebUI zur Verwaltung der LLMs sowie Dozzle zur Überwachung der Container-Logs.

Ordnerlayout + Ports + .env-Dateien

Jeder Dienst nutzt eigene Ports (z. B. Paperless auf 8000, paperless-ai auf 3000) und separate .env-Dateien, um die Sicherheit durch begrenzte Zugriffsberechtigungen zu erhöhen.

Docker Compose up

Der gesamte Stack lässt sich einfach mit dem Befehl docker compose up -d starten und über Dozzle oder docker ps überwacht werden.

Ollama + Open WebUI Setup (Port 3001)

Über OpenWebUI kann ein Admin-Account erstellt und Modelle direkt von Ollama heruntergeladen werden (z. B. Llama 3.2 3b als guter Startpunkt).

NVIDIA GPU Schnelltest

Die Nutzung der GPU lässt sich durch Tools wie nvtop verifizieren, was für die effiziente Ausführung der lokalen KI-Modelle entscheidend ist.

Nach dem ersten Start muss ein Admin-Account in Paperless-NGX erstellt werden.

Paperless API Token erstellen

Für die Integration von paperless-ai muss ein API-Token im Paperless-Profil generiert und in der entsprechenden .env-Datei hinterlegt werden.

Paperless-AI Setup + Einstellungen (Port 3000)

In paperless-ai müssen die API-URL, der Token und der Benutzername konfiguriert werden.
Es lassen sich fortgeschrittene Funktionen wie automatische Tag-Zuweisung, Korrespondenten-Erkennung und benutzerdefinierte Felder (z. B. Rechnungsbeträge) einrichten.

Dokumente hochladen + Basis-OCR und Metadaten-Ergebnisse

Standard-OCR in Paperless-NGX kann bei komplexen Bildern oder schlechter Qualität ungenau sein und liefert oft nur einfache Dateinamen als Titel.

Dokumente mit Paperless-AI verarbeiten

paperless-ai scannt die Dokumente und verbessert Metadaten wie Titel, Tags und Korrespondenten durch die Analyse mittels LLM.

Aktualisierte Metadaten durch Paperless-AI

Die KI erkennt automatisch Themen (z. B. "Elektronik"), erstellt präzisere Titel und kann sogar Informationen aus dem Text extrahieren.
Eine spannende Funktion ist das "RAG Chat", bei dem man Fragen zu den eigenen dokumentierten Inhalten stellen kann (z. B. "Wie hoch war mein Einkommen?").

OCR ist immer noch nicht gut

Da herkömmliche OCR-Bibliotheken oft an Pixel-Erkennung scheitern, wird paperless-gpt als Lösung eingesetzt, das Vision-Modelle nutzt, um Inhalte wirklich zu "verstehen".

Paperless GPT ersetzt OCR durch ein Vision-Modell

paperless-gpt nutzt LLMs (wie Llama) und Vision-Modelle (wie minicpm-v), um Text aus Bildern wesentlich präzakter zu extrahieren.

minicpm-v - Ein Open-Source Multimodales Vision-Modell

Minicpm-v ist ein leistungsstarkes, kleines Modell, das sowohl Bilder als auch Text verarbeiten kann und ideal für die Extraktion von Daten aus Scans ist.

Paperless-GPT Workflow (Port 3002)

paperless-gpt bietet Funktionen zur manuellen oder automatisierten Analyse von Dokumenten anhand von IDs oder Tags.

Vision OCR Demo (Vorher/Nachher)

Der Test zeigt, dass das Vision-Modell selbst schwierige Texte (z. B. Seriennummern auf Fotos) und Tabellen in sauberem Markdown formatieren kann, was weit über die Leistung klassischer OCR hinausgeht.

Automatisierung mit Paperless Workflows (Auto-Tags)

Durch die Einrichtung von Workflows in Paperless-NGX können Dokumente beim Hochladen automatisch mit Tags versehen werden, die wiederum den Prozess in paperless-gpt auslösen.

Test des automatisierten Workflows mit Vision OCR

Ein Test mit einem Diagramm zeigt, dass das System selbst komplexe visuelle Strukturen (Pfeile, Boxen) beschreiben und korrekt kategorisieren kann.

Fazit: PaperlessNGX mit lokaler KI

Die Kombination aus Paperless-NGX als Kern, Ollama für die Intelligenz und paperless-gpt für präzise Vision-OCR bietet ein mächtiges, privates und hochautomatisiertes Dokumentenmanagement.

Paperless NGX Complete Setup Guide - Never Lose Important Documents Again (Part 1)

The Uncast Show, 31.01.2026

Paperless NGX ist ein Open‑Source Dokumentenmanagementsystem, das physische Dokumente in vollständig durchsuchbare digitale Dokumente umwandelt. In Teil 1 dieser Serie gehen wir über die einfache Ein‑Klick‑Installation hinaus und bauen einen professionellen Paperless‑ngx‑Stack auf Unraid auf. Wir verzichten auf die standardmässige SQLite‑Datenbank und setzen stattdessen ein Hochleistungs‑Postgres 16‑ und Redis‑Setup für maximale Stabilität und Geschwindigkeit ein.

Einführung in Paperless NGX

Video stellt Paperless NGX als digitale Lösung für chaotische Papierablage vor.
Dokumente werden gescannt, Text wird gelesen und alles ist durchsuchbar.
Ziel: Kernsystem einrichten, damit sofort ein funktionierendes Archiv bereitsteht.
Benötigte Komponenten: Paperless NGX Container, PostgreSQL Datenbank, Redis (Reddus) für Hintergrundaufgaben.
Weitere Schritte: Installation von Gotenberg & Apache Tika für Dokumenten‑Parsing und später KI‑Funktionen (Tagging, Zusammenfassung).

Kernsystem einrichten

Netzwerkshare 'paperless' auf Unraid anlegen, nicht als Cache‑Share nutzen.
Drei Ordner im Share erstellen: consume, media, export.
Consume‑Ordner kann per SMB gemappt oder direkt vom Scanner verwendet werden.
Hinweis zu Nexcloud/Nextcloud Integration und mobilen Zugriffsmöglichkeiten.
PostgreSQL‑Container (Version 16) mit einfachen Zugangsdaten einrichten, automatischer Start aktivieren.
Redis‑Container (Bitnami) installieren, leeres Passwort zulassen, erforderliche Berechtigungen setzen.

Erforderliche Container installieren

Redis‑Konfiguration anpassen: leeres Passwort erlauben, falsches Passwort entfernen.
Terminalbefehl ausführen, um Ordnerberechtigungen zu korrigieren und Container starten.
Paperless‑Container installieren, Pfade für media, consume und export auf den Share verweisen.
IP‑Adresse des Unraid‑Servers ermitteln, statische IP sicherstellen, Redis‑Endpoint konfigurieren (IP:6379).
OCR‑Sprache setzen (Englisch), weitere Optionen unverändert lassen.

Paperless NGX konfigurieren

Standard‑SQLite deaktivieren und PostgreSQL nutzen.
Datenbankvariablen hinzufügen: paperless_dbhost, port (5432), name, user, password.
Platzhalter‑Variablen für zukünftige Gotenberg‑ und Tika‑Endpoints anlegen, zunächst deaktiviert (Wert 0).
Alle Bind‑Mounts, Sprache, Zeitzone und Datenbankparameter prüfen.

Einrichtung abschliessen und testen

Container starten, Auto‑Start aktivieren, Logs auf Fehler überprüfen.
Authentifizierungsfehler bei Redis beheben: leeres Passwort setzen und neu starten.
Web‑UI öffnen, Benutzerkonto anlegen und anmelden.
Dokumente per Drag‑&‑Drop oder über Consume‑Ordner hochladen; OCR erkennt Inhalt korrekt.
Überprüfung im Dashboard, dass das Dokument gespeichert und durchsuchbar ist.

Fazit und nächste Schritte

Voll funktionsfähiges Paperless NGX System von Grund auf aufgebaut.
Empfehlung: offizielle Dokumentation für Tagging, Dokumenttypen und Feineinstellungen lesen.
Ausblick auf Teil 2: Aktivierung von Gotenberg & Apache Tika, erweiterte Office‑Dokumentenverarbeitung und automatisierte Workflows.

Paperless-ngx Part 2: Unlock the Features You Didn't Know Existed

The Uncast Show, 06.02.2026

Paperless NGX ist ein Open‑Source‑Dokumentenmanagementsystem, das physische Dokumente in vollständig durchsuchbare digitale Dokumente umwandelt. In Teil 2 dieser Serie konzentrieren wir uns auf Automatisierung und reale Arbeitsabläufe: die vollständige Unterstützung von Office‑Dokumenten mit Gotenberg + Tika hinzufügen, verschachtelte Tags erstellen, intelligente Schlüsselwort‑Abgleichsregeln für automatisches Tagging entwickeln und die automatische E‑Mail‑Importfunktion einrichten, sodass Ihr Posteingang Paperless freihändig versorgen kann.

Intro und Roadmap

Vorstellung des Kanals und Teil 2 der Paperless‑Server‑Einrichtung.
Kernsystem läuft bereits, PDFs werden manuell abgelegt.
Ziel: Spezialcontainer für Office‑Dokumente einrichten, E‑Mail‑Import automatisieren und Dokumenterkennung verbessern.
PDF‑Unterstützung vorhanden, Word/Excel benötigen Gotenberg.
Apache Tika wird zur besseren Textextraktion eingesetzt.

The Paperless Problem (Office files)

Wechsel zum Apps‑Tab, Suche nach Paperless und Anzeige von Gotenberg.

Installation Gotenberg + Tika (Unraid Apps)

Installation von Gotenberg: stateless Container, keine App‑Daten nötig.
Versuch, Apache Tika zu installieren, scheitert wegen privatem Repository.
Lösung: offizielles apache/tika:latest Image von DockerHub verwenden.
Beide Container laufen, Hinweis auf fehlende UI‑Benachrichtigung für Tika.

Aktivierung Tika

Aktivierung der Tika‑ und Gotenberg‑Variablen (0 → off, 1 → on).
Eingabe von Unraid‑Server‑IP und Ports (3000, 98) in den Variablen.
Anwendung speichern, Logs prüfen – keine Fehler.

Test der DOCX Konvertierung

Upload eines Word‑Dokuments über die Web‑UI.
Dokument wird korrekt angezeigt, Text wird extrahiert.
Original‑DOCX bleibt im originals‑Ordner, Gotenberg konvertiert zu PDF für Vorschau.
Tika liefert bessere Textextraktion als OCR; Extraktion erfolgt einmalig beim Upload.

Verschachtelte Tags einrichten

Erstellung eines neuen Tags 'server' mit orangefarbener Kennzeichnung.
Auswahl des Matching‑Algorithmus: zunächst 'any' (ein Wort genügt), später mögliche Optionen ('all', automatisches Lernen).
Hinweis, dass bereits hochgeladene Dokumente nicht retroaktiv getaggt werden.

Smart‑Keyword‑Matching‑Regeln (Auto‑Tagging)

Anzeige von Tags als farbige Badges in der Dokumentenübersicht.
Manuelles Taggen von Dokumenten ohne Schlüsselwort möglich.
Nach ausreichender Menge an Trainingsdaten kann auf automatisches Lernen umgestellt werden.
Demonstration des Erstellens eines Unter‑Tags 'motherboard' unter dem Eltern‑Tag 'server'.

Automatisierter E‑Mail‑Import (E‑Mail‑Konten + Regeln)

Einrichtung eines Test‑Gmail‑Accounts mit IMAP und App‑Passwort.
Verbindungstest erfolgreich, Account speichern.
Erstellung einer Mail‑Regel: Name, Konto, Reihenfolge 1, Ordner Inbox, Filter nach Absender, maximale Alterseinstellung.

Vollständiger Arbeitsablauf: E‑Mail → Papierlos

Versand einer Test‑E‑Mail mit Word‑Anhang.
Manuelles Auslösen der Mail‑Verarbeitung in Paperless.
Dokument wird importiert, Tags 'email' und 'server' werden automatisch zugewiesen.

Install Ollama & AI Models for Paperless NGX | Local Document Intelligence (Part 3)

The Uncast Show, 20.02.2026

In Teil 3 der Paperless‑NGX‑Reihe fügen wir unserer Dokumentenverwaltung lokale KI hinzu. Alles läuft auf Ihrer eigenen Hardware, nichts verlässt Ihr Netzwerk. Paperless AI übernimmt automatisches Tagging, die Erkennung von Korrespondenten, Dokumenttypen, die Titelerstellung und bietet sogar einen RAG‑Chat, sodass Sie Fragen zu Ihren Dokumenten stellen können! Paperless GPT fügt vision‑basiertes OCR hinzu, sodass gescannte Dokumente, Fotos und sogar handschriftliche Notizen korrekt von einem lokalen Vision‑Modell gelesen werden.

Einführung

Überblick über die vorherigen Teile der Paperless‑Serie (Grundlagen, Gotenberg, Apache Tika, E‑Mail‑Import, Tagging).
Ziel dieses Videos: KI‑Integration für automatisches Lesen, Taggen, Dokumenttyp‑Bestimmung und Titelgenerierung.
Vision‑basiertes OCR ermöglicht das Auslesen von Fotos und handschriftlichen Notizen.
Zwei Container werden eingerichtet: Paperless AI (klassifiziert Texte) und Paperless GPT (Vision‑OCR).
Paperless AI bietet RAG‑Chat, um Fragen zu Dokumenten zu beantworten.

Hardwareanforderungen & GPU

Eine GPU ist nötig; CPU‑Ausführung wäre sehr langsam.
Empfohlene Mindest‑VRAM: 12 GB (z. B. RTX 3060), besser mehr (RTX 3090, 4060 Ti, 5070 Ti).
Cloud‑KI‑Dienste sind teuer und potenziell unsicher für sensible Dokumente; lokale Ausführung wird bevorzugt.

Installation des NVIDIA‑Treibers & Ollama

Nvidia‑Treiber installieren, ggf. Open‑Source‑Treiber für 50er‑Serie GPUs wählen.
Zwei Container installieren: KI‑Modelle und Open Web UI (Ollama‑Frontend).
Verbindung zwischen Containern und GPU‑Server herstellen.

Herunterladen von KI‑Modellen

Modelle herunterladen: Qwen 3‑14B (Allzweck, 9 GB) und Mini CPM‑V (Vision‑OCR, 5 GB).
Beide passen in 12–16 GB VRAM; nur ein Modell wird gleichzeitig geladen.

Installation & Konfiguration von Paperless AI

Paperless‑AI‑Container installieren, Port anpassen (z. B. 3030).
API‑Token aus Paperless holen und in Paperless‑AI eintragen.
Lokales LLM (Alarm) auswählen, Modelle konfigurieren.
Einstellungen für Tagging‑Strategie, Scan‑Intervall und AI‑Prompt festlegen.

Ergebnisse des KI‑Taggings & RAG‑Chat‑Demo

KI hat Dokumente automatisch getaggt und neue Tags hinzugefügt.
RAG‑Chat ermöglicht Fragen zu einzelnen Dokumenten (z. B. CPU‑Empfehlung).
Indexierung aller Dokumente für globale Abfragen; Beispiel: Telefonnummer aus Versicherungsdokument extrahieren.

Installation & Konfiguration von Paperless GPT

Paperless‑GPT‑Container installieren, API‑Token und Basis‑URL eintragen.
LLM‑Provider (Alarm) und Vision‑Modell (Mini CPM) konfigurieren.
Auto‑OCR‑Tagging aktivieren, aber automatische Titel‑/Tag‑Generierung deaktivieren.

Vision‑OCR‑Demo

OCR‑Job für ein Bild (Energydrink‑Dose) starten, Ergebnis in Paperless speichern.
Verbesserte Inhaltsextraktion ermöglicht weiterführende Fragen via Paperless‑AI.

Automatische OCR mit 'consume'-Unterordnern

Automatisches OCR durch Tag‑basiertes Ordner‑Monitoring möglich.
Einrichtung von Unterordnern im 'consume'-Verzeichnis und entsprechenden Umgebungsvariablen.

Handschriftlicher Notiztest

Handschriftliche Notiz erfolgreich von Paperless‑GPT gelesen und getaggt.
Nach dem Verarbeiten entfernt Paperless‑GPT sein eigenes Tag, um Doppelverarbeitung zu vermeiden.

Grundlagen paperless-ngx: Das papierlose Büro

Digitalisierung mit Kopf, 31.01.2024

Paperless-ngx ist ein kostenloses Dokumentenmanagementsystem, das gescannte Dokumente mittels Volltexterkennung (OCR) durchsuchbar macht und eine organisierte Verwaltung über ein Webinterface ermöglicht. Technisch basiert die Anwendung auf einer Container-Struktur mit Docker, wobei verschiedene Komponenten wie Webserver, Datenbank und Broker zusammenarbeiten, um Dokumente automatisiert zu verarbeiten und zu archivieren. Der typische Workflow sieht vor, dass ein Netzwerkscanner Dateien in einen überwachten Ordner legt, woraufhin das System diese erfasst, indexiert und sicher auf einem NAS oder Server speichert.

Häufigste Fehler mit paperless-ngx

Digitalisierung mit Kopf, 19.04.2026

Paperless NGX scheitert häufig an unvollständigen KI‑gestützten Installationen, falscher Nutzung des Document-Exporters als Backup und zu komplexen Anfangskonfigurationen. Zusätzlich verursachen externe KI‑Tools Unsicherheit und viele Nutzer übersehen die hilfreichen kostenlosen Community‑Ressourcen. Empfohlen wird die Nutzung offizieller Dokumentation, regulärer Backups mit Restore‑Tests sowie ein einfacher Start ohne überflüssige Strukturierung.

Einleitung

Tägliche Probleme und Fehler im Umgang mit Paperless NGX aus Kundenprojekten.
Es werden die fünf häufigsten Fehler vorgestellt, die aktuell vermehrt auftreten.

Fehler 1: Installation über KI‑Assistenten

Viele Nutzer versuchen, Paperless NGX oder Docker‑Compose‑Skripte via ChatGPT zu installieren.
Diese Installationen sind oft unvollständig, fehlen Backups und verursachen schwer findbare Fehler.
Ein Neuaufbau durch Experten ist später meist entspannter und günstiger als die Fehlersuche in KI‑generierten Skripten.

Fehler 2: Unzuverlässige Backups via Document Exporter

Der Paperless NGX Document Exporter wird oft fälschlich als Backup‑Tool genutzt, ist aber eher ein Exportwerkzeug.
Er benötigt sehr viel RAM und bricht bei der geringsten Inkonsistenz komplett ab.
Empfohlene Alternative: Datenbankordner und Medien direkt im Dateisystem speichern und in reguläre Backups integrieren, idealerweise nach kurzem Herunterfahren der Instanz.

Fehler 3: Übermässige Systemkomplexität

Nutzer neigen dazu, das System von Anfang an mit vielen Tags, Dokumententypen und Workflows zu überladen.
Diese interne Komplexität wächst Nutzern oft schnell über den Kopf und erschwert die Handhabung.
Das Problem tritt besonders bei Privatpersonen auf und lässt sich durch einen simplen Start ohne unnötige Strukturierung vermeiden.

Fehler 4: Abhängigkeit von externen KI‑Tools

Der Hype um externe Cloud‑ oder lokale KI‑Tools führt zu ständigen Toolchain‑Aktualisierungen und Projektunsicherheit.
Viele Nutzer leiden unter „KI‑Fatigue“ und wollen stattdessen ein stabiles, einmalig eingerichtetes System.
Eigene Automatisierung mit No‑Code‑Tools wie N8N bietet oft mehr Kontrolle und Zuverlässigkeit als externe KI‑Suiten.

Fehler 5: Zögern, kostenlose Hilfe zu nutzen

Viele scheuen sich davor, zunächst kostenlose Ressourcen zu nutzen, bevor sie bezahlte Beratung buchen.
Das Community‑Forum von Paperless bietet tausende Mitglieder und eine hohe Dichte an gut dokumentierten Anfängerfragen.
Professionelle Hilfe ist oft erst nötig, wenn die kostenlosen Foren nicht weiterhelfen.

Empfehlungen & Gegenmassnahmen

Zur Installation: Offizielle Dokumentation nutzen oder kuratierte Anleitungen/Kurse wählen; bei Bedarf IT‑Dienstleister beauftragen.
Backups: Regelmässig Restore‑Tests durchführen (Installation löschen und wiederherstellen), erst dann produktiv nutzen.
Komplexität vermeiden: Erst ohne Klassifizierung starten, Tags und Dokumententypen nur bei tatsächlichem Bedarf anlegen.
KI‑Nutzung steuern: Falls externe KI genutzt wird, strikte Regeln für erlaubte Tags/Dokumententypen definieren, um Chaos zu verhindern.

Quellen

Paperless-ngx

https://docs.paperless-ngx.com/

Paperless-ngx Docling Consume Script

BoxcarFields
https://github.com/BoxcarFields/paperless-ngx-docling-consume
Bring the power of Docling to your Paperless-ngx instance!
This project provides a post-consume script for Paperless-ngx that automatically processes incoming documents (PDF, Images, Office Docs, HTML) using a local Docling server. It extracts high-quality text and structure (Markdown) and directly updates the document content in Paperless-ngx via the API, bypassing standard OCR limitations.

Dokumentenschlucker

c't Magazin 9/2024
www.heise.de/select/ct/2024/9/2401011512156952145

Papierloses Büro mit paperless-ngx
Mit der Open-Source-Anwendung paperless-ngx auf einem Server, Raspi oder NAS sowie einem Einzugscanner gehört Dokumentenchaos der Vergangenheit an. Lesen Sie unseren Mehrstufenplan zum papierarmen Büro – selbstlernende Systeme und Langzeitarchiv inklusive.