KI-Tools einsteiger

Paperless-ngx (Open-Source-Dokumentenmanagementsystem)

Paperless-ngx ist ein quelloffenes Dokumentenmanagementsystem, das physische und digitale Dokumente mittels OCR-Texterkennung in ein durchsuchbares digitales Archiv überführt und sich selbst hosten lässt.

Ausführliche Erklärung

Paperless-ngx ist der aktuelle Community-Nachfolger der ursprünglichen Open-Source-Projekte Paperless und Paperless-ng. Seit 2022 wird die Software von einem internationalen Entwicklerteam aktiv weiterentwickelt und hat sich zu einer ausgereiften Lösung für digitales Dokumentenmanagement entwickelt. Das System läuft auf eigener Infrastruktur – sei es auf einem lokalen Server, einem NAS-System oder einem gemieteten virtuellen Server – und benötigt keine Lizenzen oder Abonnements.

Das technische Herzstück bildet eine Verarbeitungspipeline: Dokumente werden über überwachte Verzeichnisse, E-Mail-Postfächer oder direkt per Drag-and-Drop ins System eingespielt. Die integrierte OCR-Engine Tesseract erkennt Text in über 100 Sprachen und macht gescannte Dokumente vollständig durchsuchbar. Die Software speichert Dokumente im langzeitarchivierungsfähigen PDF/A-Format und behält stets auch das unveränderte Original. Auf Basis von Machine-Learning-Algorithmen schlägt Paperless-ngx automatisch Tags, Korrespondenten und Dokumenttypen vor – die Genauigkeit steigt mit der Anzahl verarbeiteter Dokumente.

Für KMU bietet Paperless-ngx entscheidende Vorteile: vollständige Datenkontrolle ohne Abhängigkeit von Cloud-Anbietern, DSGVO-konforme Datenhaltung auf eigenen Systemen und die technische Grundlage für GoBD-konforme Archivierung. Die REST-API ermöglicht die Integration in bestehende ERP- oder CRM-Systeme, etwa für automatisierte Rechnungsverarbeitung oder Vertragsmanagement. Mehrbenutzer-Unterstützung, Berechtigungsverwaltung und mobile Apps machen das System auch für Teams mit mehreren Standorten nutzbar.

Die Installation erfolgt typischerweise über Docker-Container, was Updates und Wartung vereinfacht. Als technische Basis dient eine Python/Django-Anwendung mit PostgreSQL-Datenbank und Redis für asynchrone Verarbeitung. Die Einrichtung erfordert Grundkenntnisse in Linux-Serveradministration, alternativ bieten spezialisierte Dienstleister Managed-Hosting-Lösungen an. Für KMU ohne eigene IT-Abteilung kann die initiale Einrichtung durch einen IT-Dienstleister sinnvoll sein, der laufende Betrieb ist danach jedoch weitgehend wartungsarm.

Praxisbeispiel

Eine Steuerberatungskanzlei mit 12 Mitarbeitenden setzt Paperless-ngx ein, um Mandantenbelege zu digitalisieren. Scanner im Büro legen eingescannte Rechnungen direkt in überwachte Verzeichnisse. Die OCR-Texterkennung macht alle Belege durchsuchbar, automatische Regeln ordnen Dokumente anhand von Mandantennummern zu. Über die REST-API werden erfasste Rechnungen automatisch an die DATEV-Buchhaltung übermittelt. Die Kanzlei spart pro Woche etwa 6 Stunden Ablagezeit und erfüllt gleichzeitig GoBD-Anforderungen durch revisionssichere PDF/A-Archivierung.

Code-Beispiel

version: "3.8"
services:
  webserver:
    image: ghcr.io/paperless-ngx/paperless-ngx:latest
    restart: unless-stopped
    ports:
      - "8000:8000"
    environment:
      PAPERLESS_REDIS: redis://broker:6379
      PAPERLESS_DBHOST: db
      PAPERLESS_OCR_LANGUAGE: deu+eng
      PAPERLESS_TIME_ZONE: Europe/Vienna
    volumes:
      - ./data:/usr/src/paperless/data
      - ./media:/usr/src/paperless/media
      - ./consume:/usr/src/paperless/consume

Quellen

Zuletzt aktualisiert: 1. Juni 2026