paperless

Paperless - Tutorials

Von peter portmann,

Veröffentlicht am 18. Apr. 2026   â€”   9 min Lesezeit

dokumentationselfhostedtools
đź“‘
Hier die wichtigsten Tutorials, welche ich als Grundlage fĂĽr meine Installation verwendet habe.

Paperless-ngx Blogbeiträge


YouTube

Die Zusammenfassungen wurde mithilfe von KI‑Tools erstellt. Web Clipper → Obsidian → Copilot, unter lokaler Verwendung von gpt‑oss:120b auf einem Mac Studio.
YouTube hat kürzlich die Codierung geändert, der bisherige Code für das Transkript funktioniert nicht mehr. Diesen habe ich nun angepasst. Siehe hier:


Paperless-ngx + Local AI (Optional): Better OCR, Self-Hosted, No Cloud

Techno Tim, 27.01.2026

Baue einen vollständigen Paperless-ngx-Stack in Docker auf und übernimm die Kontrolle über deine Dokumente. Wir bringen zuerst Paperless zum Laufen (funktioniert auch alleine hervorragend), fügen dann optional lokale KI mit Ollama + Open WebUI hinzu und verbessern die OCR mittels Paperless-GPT und Paperless-AI für genaueren, durchsuchbaren Text – keine Cloud erforderlich.

Intro - Self-hosted, privat, KI optional

  • Paperless-NGX ist ein selbst gehosteter Posteingang fĂĽr Dokumente, der PDFs automatisch per OCR verarbeitet, organisiert und durchsuchbar macht.
  • Durch das Self-Hosting behält man die volle Kontrolle ĂĽber seine Daten ohne Uploads in externe Cloud-Dienste oder ChatGPT.

Was ist in diesem Paperless-NGX-Stack enthalten?

  • Der Setup nutzt Docker fĂĽr eine reproduzierbare Installation von Paperless-NGX und optionaler lokaler KI mit Ollama.
  • Die Komponenten umfassen Paperless-NGX (Ablage), Ollama (lokale KI-Engine), paperless-ai (fĂĽr Tags, Titel und Metadaten) sowie paperless-gpt (fĂĽr verbesserte OCR durch Vision-Modelle).

Paperless-Architektur (Paperless ↔ KI ↔ Ollama)

  • Die Architektur nutzt Add-ons wie paperless-ai und paperless-gpt zur Verbesserung von Metadaten und OCR.
  • Die Nutzung der KI ist rein optional; Paperless-NGX funktioniert auch ohne diese Erweiterungen einwandfrei.

Stack-Übersicht - Alle Dienste erklärt

  • Der Stack verwendet Postgres statt SQLite fĂĽr bessere Skalierbarkeit bei grossen Bibliotheken.
  • Weitere Dienste sind Redis (In-Memory-Datenbank), Gotenberg (PDF-Konvertierung), Tika (Metadaten-Extraktion), Ollama und OpenWebUI zur Verwaltung der LLMs sowie Dozzle zur Ăśberwachung der Container-Logs.

Ordnerlayout + Ports + .env-Dateien

  • Jeder Dienst nutzt eigene Ports (z. B. Paperless auf 8000, paperless-ai auf 3000) und separate .env-Dateien, um die Sicherheit durch begrenzte Zugriffsberechtigungen zu erhöhen.

Docker Compose up

  • Der gesamte Stack lässt sich einfach mit dem Befehl docker compose up -d starten und ĂĽber Dozzle oder docker ps ĂĽberwacht werden.

Ollama + Open WebUI Setup (Port 3001)

  • Ăśber OpenWebUI kann ein Admin-Account erstellt und Modelle direkt von Ollama heruntergeladen werden (z. B. Llama 3.2 3b als guter Startpunkt).

NVIDIA GPU Schnelltest

  • Die Nutzung der GPU lässt sich durch Tools wie nvtop verifizieren, was fĂĽr die effiziente AusfĂĽhrung der lokalen KI-Modelle entscheidend ist.

Erster Login: Paperless-ngx Setup (Port 8000)

  • Nach dem ersten Start muss ein Admin-Account in Paperless-NGX erstellt werden.

Paperless API Token erstellen

  • FĂĽr die Integration von paperless-ai muss ein API-Token im Paperless-Profil generiert und in der entsprechenden .env-Datei hinterlegt werden.

Paperless-AI Setup + Einstellungen (Port 3000)

  • In paperless-ai mĂĽssen die API-URL, der Token und der Benutzername konfiguriert werden.
  • Es lassen sich fortgeschrittene Funktionen wie automatische Tag-Zuweisung, Korrespondenten-Erkennung und benutzerdefinierte Felder (z. B. Rechnungsbeträge) einrichten.

Dokumente hochladen + Basis-OCR und Metadaten-Ergebnisse

  • Standard-OCR in Paperless-NGX kann bei komplexen Bildern oder schlechter Qualität ungenau sein und liefert oft nur einfache Dateinamen als Titel.

Dokumente mit Paperless-AI verarbeiten

  • paperless-ai scannt die Dokumente und verbessert Metadaten wie Titel, Tags und Korrespondenten durch die Analyse mittels LLM.

Aktualisierte Metadaten durch Paperless-AI

  • Die KI erkennt automatisch Themen (z. B. "Elektronik"), erstellt präzisere Titel und kann sogar Informationen aus dem Text extrahieren.
  • Eine spannende Funktion ist das "RAG Chat", bei dem man Fragen zu den eigenen dokumentierten Inhalten stellen kann (z. B. "Wie hoch war mein Einkommen?").

OCR ist immer noch nicht gut

  • Da herkömmliche OCR-Bibliotheken oft an Pixel-Erkennung scheitern, wird paperless-gpt als Lösung eingesetzt, das Vision-Modelle nutzt, um Inhalte wirklich zu "verstehen".

Paperless GPT ersetzt OCR durch ein Vision-Modell

  • paperless-gpt nutzt LLMs (wie Llama) und Vision-Modelle (wie minicpm-v), um Text aus Bildern wesentlich präzakter zu extrahieren.

minicpm-v - Ein Open-Source Multimodales Vision-Modell

  • Minicpm-v ist ein leistungsstarkes, kleines Modell, das sowohl Bilder als auch Text verarbeiten kann und ideal fĂĽr die Extraktion von Daten aus Scans ist.

Paperless-GPT Workflow (Port 3002)

  • paperless-gpt bietet Funktionen zur manuellen oder automatisierten Analyse von Dokumenten anhand von IDs oder Tags.

Vision OCR Demo (Vorher/Nachher)

  • Der Test zeigt, dass das Vision-Modell selbst schwierige Texte (z. B. Seriennummern auf Fotos) und Tabellen in sauberem Markdown formatieren kann, was weit ĂĽber die Leistung klassischer OCR hinausgeht.

Automatisierung mit Paperless Workflows (Auto-Tags)

  • Durch die Einrichtung von Workflows in Paperless-NGX können Dokumente beim Hochladen automatisch mit Tags versehen werden, die wiederum den Prozess in paperless-gpt auslösen.

Test des automatisierten Workflows mit Vision OCR

  • Ein Test mit einem Diagramm zeigt, dass das System selbst komplexe visuelle Strukturen (Pfeile, Boxen) beschreiben und korrekt kategorisieren kann.

Fazit: PaperlessNGX mit lokaler KI

  • Die Kombination aus Paperless-NGX als Kern, Ollama fĂĽr die Intelligenz und paperless-gpt fĂĽr präzise Vision-OCR bietet ein mächtiges, privates und hochautomatisiertes Dokumentenmanagement.

Paperless NGX Complete Setup Guide - Never Lose Important Documents Again (part 1)

The Uncast Show, 31.01.2026

Paperless NGX ist ein Open‑Source Dokumentenmanagementsystem, das physische Dokumente in vollständig durchsuchbare digitale Dokumente umwandelt. In Teil 1 dieser Serie gehen wir über die einfache Ein‑Klick‑Installation hinaus und bauen einen professionellen Paperless‑ngx‑Stack auf Unraid auf. Wir verzichten auf die standardmässige SQLite‑Datenbank und setzen stattdessen ein Hochleistungs‑Postgres 16‑ und Redis‑Setup für maximale Stabilität und Geschwindigkeit ein.

EinfĂĽhrung in Paperless NGX

  • Video stellt Paperless NGX als digitale Lösung fĂĽr chaotische Papierablage vor.
  • Dokumente werden gescannt, Text wird gelesen und alles ist durchsuchbar.
  • Ziel: Kernsystem einrichten, damit sofort ein funktionierendes Archiv bereitsteht.
  • Benötigte Komponenten: Paperless NGX Container, PostgreSQL Datenbank, Redis (Reddus) fĂĽr Hintergrundaufgaben.
  • Weitere Schritte: Installation von Gotenberg & Apache Tika fĂĽr Dokumenten‑Parsing und später KI‑Funktionen (Tagging, Zusammenfassung).

Kernsystem einrichten

  • Netzwerkshare 'paperless' auf Unraid anlegen, nicht als Cache‑Share nutzen.
  • Drei Ordner im Share erstellen: consume, media, export.
  • Consume‑Ordner kann per SMB gemappt oder direkt vom Scanner verwendet werden.
  • Hinweis zu Nexcloud/Nextcloud Integration und mobilen Zugriffsmöglichkeiten.
  • PostgreSQL‑Container (Version 16) mit einfachen Zugangsdaten einrichten, automatischer Start aktivieren.
  • Redis‑Container (Bitnami) installieren, leeres Passwort zulassen, erforderliche Berechtigungen setzen.

Erforderliche Container installieren

  • Redis‑Konfiguration anpassen: leeres Passwort erlauben, falsches Passwort entfernen.
  • Terminalbefehl ausfĂĽhren, um Ordnerberechtigungen zu korrigieren und Container starten.
  • Paperless‑Container installieren, Pfade fĂĽr media, consume und export auf den Share verweisen.
  • IP‑Adresse des Unraid‑Servers ermitteln, statische IP sicherstellen, Redis‑Endpoint konfigurieren (IP:6379).
  • OCR‑Sprache setzen (Englisch), weitere Optionen unverändert lassen.

Paperless NGX konfigurieren

  • Standard‑SQLite deaktivieren und PostgreSQL nutzen.
  • Datenbankvariablen hinzufĂĽgen: paperless_dbhost, port (5432), name, user, password.
  • Platzhalter‑Variablen fĂĽr zukĂĽnftige Gotenberg‑ und Tika‑Endpoints anlegen, zunächst deaktiviert (Wert 0).
  • Alle Bind‑Mounts, Sprache, Zeitzone und Datenbankparameter prĂĽfen.

Einrichtung abschliessen und testen

  • Container starten, Auto‑Start aktivieren, Logs auf Fehler ĂĽberprĂĽfen.
  • Authentifizierungsfehler bei Redis beheben: leeres Passwort setzen und neu starten.
  • Web‑UI öffnen, Benutzerkonto anlegen und anmelden.
  • Dokumente per Drag‑&‑Drop oder ĂĽber Consume‑Ordner hochladen; OCR erkennt Inhalt korrekt.
  • ĂśberprĂĽfung im Dashboard, dass das Dokument gespeichert und durchsuchbar ist.

Fazit und nächste Schritte

  • Voll funktionsfähiges Paperless NGX System von Grund auf aufgebaut.
  • Empfehlung: offizielle Dokumentation fĂĽr Tagging, Dokumenttypen und Feineinstellungen lesen.
  • Ausblick auf Teil 2: Aktivierung von Gotenberg & Apache Tika, erweiterte Office‑Dokumentenverarbeitung und automatisierte Workflows.

Paperless-ngx Part 2: Unlock the Features You Didn't Know Existed

The Uncast Show, 06.02.2026

Paperless NGX ist ein Open‑Source‑Dokumentenmanagementsystem, das physische Dokumente in vollständig durchsuchbare digitale Dokumente umwandelt. In Teil 2 dieser Serie konzentrieren wir uns auf Automatisierung und reale Arbeitsabläufe: die vollständige Unterstützung von Office‑Dokumenten mit Gotenberg + Tika hinzufügen, verschachtelte Tags erstellen, intelligente Schlüsselwort‑Abgleichsregeln für automatisches Tagging entwickeln und die automatische E‑Mail‑Importfunktion einrichten, sodass Ihr Posteingang Paperless freihändig versorgen kann.

Intro und Roadmap

  • Vorstellung des Kanals und Teil 2 der Paperless‑Server‑Einrichtung.
  • Kernsystem läuft bereits, PDFs werden manuell abgelegt.
  • Ziel: Spezialcontainer fĂĽr Office‑Dokumente einrichten, E‑Mail‑Import automatisieren und Dokumenterkennung verbessern.
  • PDF‑UnterstĂĽtzung vorhanden, Word/Excel benötigen Gotenberg.
  • Apache Tika wird zur besseren Textextraktion eingesetzt.

The Paperless Problem (Office files)

  • Wechsel zum Apps‑Tab, Suche nach Paperless und Anzeige von Gotenberg.

Installation Gotenberg + Tika (Unraid Apps)

  • Installation von Gotenberg: stateless Container, keine App‑Daten nötig.
  • Versuch, Apache Tika zu installieren, scheitert wegen privatem Repository.
  • Lösung: offizielles apache/tika:latest Image von DockerHub verwenden.
  • Beide Container laufen, Hinweis auf fehlende UI‑Benachrichtigung fĂĽr Tika.

Aktivierung Tika

  • Aktivierung der Tika‑ und Gotenberg‑Variablen (0 → off, 1 → on).
  • Eingabe von Unraid‑Server‑IP und Ports (3000, 98) in den Variablen.
  • Anwendung speichern, Logs prĂĽfen – keine Fehler.

Test der DOCX Konvertierung

  • Upload eines Word‑Dokuments ĂĽber die Web‑UI.
  • Dokument wird korrekt angezeigt, Text wird extrahiert.
  • Original‑DOCX bleibt im originals‑Ordner, Gotenberg konvertiert zu PDF fĂĽr Vorschau.
  • Tika liefert bessere Textextraktion als OCR; Extraktion erfolgt einmalig beim Upload.

Verschachtelte Tags einrichten

  • Erstellung eines neuen Tags 'server' mit orangefarbener Kennzeichnung.
  • Auswahl des Matching‑Algorithmus: zunächst 'any' (ein Wort genĂĽgt), später mögliche Optionen ('all', automatisches Lernen).
  • Hinweis, dass bereits hochgeladene Dokumente nicht retroaktiv getaggt werden.

Smart‑Keyword‑Matching‑Regeln (Auto‑Tagging)

  • Anzeige von Tags als farbige Badges in der DokumentenĂĽbersicht.
  • Manuelles Taggen von Dokumenten ohne SchlĂĽsselwort möglich.
  • Nach ausreichender Menge an Trainingsdaten kann auf automatisches Lernen umgestellt werden.
  • Demonstration des Erstellens eines Unter‑Tags 'motherboard' unter dem Eltern‑Tag 'server'.

Automatisierter E‑Mail‑Import (E‑Mail‑Konten + Regeln)

  • Einrichtung eines Test‑Gmail‑Accounts mit IMAP und App‑Passwort.
  • Verbindungstest erfolgreich, Account speichern.
  • Erstellung einer Mail‑Regel: Name, Konto, Reihenfolge 1, Ordner Inbox, Filter nach Absender, maximale Alterseinstellung.

Vollständiger Arbeitsablauf: E‑Mail → Papierlos

  • Versand einer Test‑E‑Mail mit Word‑Anhang.
  • Manuelles Auslösen der Mail‑Verarbeitung in Paperless.
  • Dokument wird importiert, Tags 'email' und 'server' werden automatisch zugewiesen.

Install Ollama & AI Models for Paperless NGX | Local Document Intelligence (Part 3)

The Uncast Show, 20.02.2026

In Teil 3 der Paperless‑NGX‑Reihe fügen wir unserer Dokumentenverwaltung lokale KI hinzu. Alles läuft auf Ihrer eigenen Hardware, nichts verlässt Ihr Netzwerk. Paperless AI übernimmt automatisches Tagging, die Erkennung von Korrespondenten, Dokumenttypen, die Titelerstellung und bietet sogar einen RAG‑Chat, sodass Sie Fragen zu Ihren Dokumenten stellen können! Paperless GPT fügt vision‑basiertes OCR hinzu, sodass gescannte Dokumente, Fotos und sogar handschriftliche Notizen korrekt von einem lokalen Vision‑Modell gelesen werden.

EinfĂĽhrung

  • Ăśberblick ĂĽber die vorherigen Teile der Paperless‑Serie (Grundlagen, Gotenberg, Apache Tika, E‑Mail‑Import, Tagging).
  • Ziel dieses Videos: KI‑Integration fĂĽr automatisches Lesen, Taggen, Dokumenttyp‑Bestimmung und Titelgenerierung.
  • Vision‑basiertes OCR ermöglicht das Auslesen von Fotos und handschriftlichen Notizen.
  • Zwei Container werden eingerichtet: Paperless AI (klassifiziert Texte) und Paperless GPT (Vision‑OCR).
  • Paperless AI bietet RAG‑Chat, um Fragen zu Dokumenten zu beantworten.

Hardwareanforderungen & GPU

  • Eine GPU ist nötig; CPU‑AusfĂĽhrung wäre sehr langsam.
  • Empfohlene Mindest‑VRAM: 12 GB (z. B. RTX 3060), besser mehr (RTX 3090, 4060 Ti, 5070 Ti).
  • Cloud‑KI‑Dienste sind teuer und potenziell unsicher fĂĽr sensible Dokumente; lokale AusfĂĽhrung wird bevorzugt.

Installation des NVIDIA‑Treibers & Ollama

  • Nvidia‑Treiber installieren, ggf. Open‑Source‑Treiber fĂĽr 50er‑Serie GPUs wählen.
  • Zwei Container installieren: KI‑Modelle und Open Web UI (Ollama‑Frontend).
  • Verbindung zwischen Containern und GPU‑Server herstellen.

Herunterladen von KI‑Modellen

  • Modelle herunterladen: Qwen 3‑14B (Allzweck, 9 GB) und Mini CPM‑V (Vision‑OCR, 5 GB).
  • Beide passen in 12–16 GB VRAM; nur ein Modell wird gleichzeitig geladen.

Installation & Konfiguration von Paperless AI

  • Paperless‑AI‑Container installieren, Port anpassen (z. B. 3030).
  • API‑Token aus Paperless holen und in Paperless‑AI eintragen.
  • Lokales LLM (Alarm) auswählen, Modelle konfigurieren.
  • Einstellungen fĂĽr Tagging‑Strategie, Scan‑Intervall und AI‑Prompt festlegen.

Ergebnisse des KI‑Taggings & RAG‑Chat‑Demo

  • KI hat Dokumente automatisch getaggt und neue Tags hinzugefĂĽgt.
  • RAG‑Chat ermöglicht Fragen zu einzelnen Dokumenten (z. B. CPU‑Empfehlung).
  • Indexierung aller Dokumente fĂĽr globale Abfragen; Beispiel: Telefonnummer aus Versicherungsdokument extrahieren.

Installation & Konfiguration von Paperless GPT

  • Paperless‑GPT‑Container installieren, API‑Token und Basis‑URL eintragen.
  • LLM‑Provider (Alarm) und Vision‑Modell (Mini CPM) konfigurieren.
  • Auto‑OCR‑Tagging aktivieren, aber automatische Titel‑/Tag‑Generierung deaktivieren.

Vision‑OCR‑Demo

  • OCR‑Job fĂĽr ein Bild (Energydrink‑Dose) starten, Ergebnis in Paperless speichern.
  • Verbesserte Inhaltsextraktion ermöglicht weiterfĂĽhrende Fragen via Paperless‑AI.

Automatische OCR mit 'consume'-Unterordnern

  • Automatisches OCR durch Tag‑basiertes Ordner‑Monitoring möglich.
  • Einrichtung von Unterordnern im 'consume'-Verzeichnis und entsprechenden Umgebungsvariablen.

Handschriftlicher Notiztest

  • Handschriftliche Notiz erfolgreich von Paperless‑GPT gelesen und getaggt.
  • Nach dem Verarbeiten entfernt Paperless‑GPT sein eigenes Tag, um Doppelverarbeitung zu vermeiden.

Grundlagen paperless-ngx: Das papierlose BĂĽro

Digitalisierung mit Kopf, 31.01.2024

Paperless-ngx ist ein kostenloses Dokumentenmanagementsystem, das gescannte Dokumente mittels Volltexterkennung (OCR) durchsuchbar macht und eine organisierte Verwaltung über ein Webinterface ermöglicht. Technisch basiert die Anwendung auf einer Container-Struktur mit Docker, wobei verschiedene Komponenten wie Webserver, Datenbank und Broker zusammenarbeiten, um Dokumente automatisiert zu verarbeiten und zu archivieren. Der typische Workflow sieht vor, dass ein Netzwerkscanner Dateien in einen überwachten Ordner legt, woraufhin das System diese erfasst, indexiert und sicher auf einem NAS oder Server speichert.


Quellen

Paperless-ngx

https://docs.paperless-ngx.com/

Paperless-ngx Docling Consume Script

BoxcarFields
https://github.com/BoxcarFields/paperless-ngx-docling-consume
Bring the power of Docling to your Paperless-ngx instance!
This project provides a post-consume script for Paperless-ngx that automatically processes incoming documents (PDF, Images, Office Docs, HTML) using a local Docling server. It extracts high-quality text and structure (Markdown) and directly updates the document content in Paperless-ngx via the API, bypassing standard OCR limitations.

Dokumentenschlucker

c't Magazin 9/2024
www.heise.de/select/ct/2024/9/2401011512156952145

Papierloses BĂĽro mit paperless-ngx
Mit der Open-Source-Anwendung paperless-ngx auf einem Server, Raspi oder NAS sowie einem Einzugscanner gehört Dokumentenchaos der Vergangenheit an. Lesen Sie unseren Mehrstufenplan zum papierarmen Büro – selbstlernende Systeme und Langzeitarchiv inklusive.


Auf Facebook teilen Auf Linkedin teilen Auf Twitter teilen Per E-Mail senden

Newsletter abonnieren

Abonnieren Sie den Newsletter fĂĽr die neusten Nachrichten direkt in Ihrem Postfach.

einschreiben