Paperless-ngx (Open-Source-Dokumentenmanagementsystem)
Paperless-ngx ist ein quelloffenes Dokumentenmanagementsystem, das physische und digitale Dokumente mittels OCR-Texterkennung in ein durchsuchbares digitales Archiv überführt und sich selbst hosten lässt.
Ausführliche Erklärung
Paperless-ngx ist der aktuelle Community-Nachfolger der ursprünglichen Open-Source-Projekte Paperless und Paperless-ng. Seit 2022 wird die Software von einem internationalen Entwicklerteam aktiv weiterentwickelt und hat sich zu einer ausgereiften Lösung für digitales Dokumentenmanagement entwickelt. Das System läuft auf eigener Infrastruktur – sei es auf einem lokalen Server, einem NAS-System oder einem gemieteten virtuellen Server – und benötigt keine Lizenzen oder Abonnements.
Das technische Herzstück bildet eine Verarbeitungspipeline: Dokumente werden über überwachte Verzeichnisse, E-Mail-Postfächer oder direkt per Drag-and-Drop ins System eingespielt. Die integrierte OCR-Engine Tesseract erkennt Text in über 100 Sprachen und macht gescannte Dokumente vollständig durchsuchbar. Die Software speichert Dokumente im langzeitarchivierungsfähigen PDF/A-Format und behält stets auch das unveränderte Original. Auf Basis von Machine-Learning-Algorithmen schlägt Paperless-ngx automatisch Tags, Korrespondenten und Dokumenttypen vor – die Genauigkeit steigt mit der Anzahl verarbeiteter Dokumente.
Für KMU bietet Paperless-ngx entscheidende Vorteile: vollständige Datenkontrolle ohne Abhängigkeit von Cloud-Anbietern, DSGVO-konforme Datenhaltung auf eigenen Systemen und die technische Grundlage für GoBD-konforme Archivierung. Die REST-API ermöglicht die Integration in bestehende ERP- oder CRM-Systeme, etwa für automatisierte Rechnungsverarbeitung oder Vertragsmanagement. Mehrbenutzer-Unterstützung, Berechtigungsverwaltung und mobile Apps machen das System auch für Teams mit mehreren Standorten nutzbar.
Die Installation erfolgt typischerweise über Docker-Container, was Updates und Wartung vereinfacht. Als technische Basis dient eine Python/Django-Anwendung mit PostgreSQL-Datenbank und Redis für asynchrone Verarbeitung. Die Einrichtung erfordert Grundkenntnisse in Linux-Serveradministration, alternativ bieten spezialisierte Dienstleister Managed-Hosting-Lösungen an. Für KMU ohne eigene IT-Abteilung kann die initiale Einrichtung durch einen IT-Dienstleister sinnvoll sein, der laufende Betrieb ist danach jedoch weitgehend wartungsarm.
Praxisbeispiel
Eine Steuerberatungskanzlei mit 12 Mitarbeitenden setzt Paperless-ngx ein, um Mandantenbelege zu digitalisieren. Scanner im Büro legen eingescannte Rechnungen direkt in überwachte Verzeichnisse. Die OCR-Texterkennung macht alle Belege durchsuchbar, automatische Regeln ordnen Dokumente anhand von Mandantennummern zu. Über die REST-API werden erfasste Rechnungen automatisch an die DATEV-Buchhaltung übermittelt. Die Kanzlei spart pro Woche etwa 6 Stunden Ablagezeit und erfüllt gleichzeitig GoBD-Anforderungen durch revisionssichere PDF/A-Archivierung.
Code-Beispiel
version: "3.8"
services:
webserver:
image: ghcr.io/paperless-ngx/paperless-ngx:latest
restart: unless-stopped
ports:
- "8000:8000"
environment:
PAPERLESS_REDIS: redis://broker:6379
PAPERLESS_DBHOST: db
PAPERLESS_OCR_LANGUAGE: deu+eng
PAPERLESS_TIME_ZONE: Europe/Vienna
volumes:
- ./data:/usr/src/paperless/data
- ./media:/usr/src/paperless/media
- ./consume:/usr/src/paperless/consume