Dokumentenarchiv für die OwnCloud

Ich suche schon seit einer Weile nach einer eleganten Möglichkeit eingescannte Dokumente auf einfache Weise zu archivieren und schnell wiederzufinden.

Meine Suche führte mich dabei über diverse Document Management Systeme über Asset Management Systeme und große Content Management Systeme, aber keines der Systeme erfüllte meine eigentlich geringen Anforderungen an eine Dokumentenverwaltung in vollem Maße:

  1. Ressourcen schonend sollte es sein. So, dass es auf einem kleinen ARM-System gut und flüssig einsetzbar ist.
  2. Wenig Abhängigkeiten um auf meinem OwnCloud-System nicht unkalkulierbar große Scheunentore aufzureißen. Insbesondere möchte ich auf meinem Gentoo-System auf OpenOffice/LibreOffice und X11 verzichten.
  3. Einigermaßen gut sollte es auch aussehen und den Benutzer nicht mit überfrachteten Benutzerschnittstellen konfrontieren.
  4. Zur Dokumentenerfassung und zum Handling darf keine (Windows-)PC-Desktopsoftware nötig sein, da ich oft mit Android oder Linux unterwegs bin. Wenn ein Client für alle relevanten Systeme vorhanden sein sollte, wäre dies akzeptabel, aber die Suche und das „Entnehmen“ von Dokumenten muss auf jeden Fall Web-basiert sein.
  5. Idealerweise sollte eine OwnCloud-Integration vorhanden sein.
  6. Einmal archivierte Dokumenten sollen binnen kürzester Zeit wiederfindbar sein.
  7. Das Datenformat ist PDF und die Daten werden zu fast 100% mit Hilfe eines Flachbettscanners erfasst.

Dies brachte mich zu der Frage: Warum sollte ich nicht OwnCloud direkt verwenden? Durch die integrierte Suche sind meine anderen Dateien schon jetzt binnen Sekunden gefunden. Es gibt Clients für so ziemlich jede Plattform und eine Versionsverwaltung ist quasi gratis auch schon enthalten. Ein Ordner der zwischen den Benutzers der OwnCloud geteilt wird regelt einfach die Zugriffsrechte.

Aber wie kommen die Daten komfortabel in die OwnCloud? Ich habe dies so umgesetzt:

  1. Das sane-backends-Paket mit dem Programm scanimage kümmert sich um die Erfassung der Dokumente.
  2. Ein Scan wird durch das Programm scanbd angestoßen, wenn auf die Scan-Taste des Scanners gedrückt wird.
  3. Mittels „convert“ aus dem ImageMagick-Projekt wird das erfasste Bild in eine PDF-Datei umgewandelt.
  4. Die fertige PDF-Datei wird in das OwnCloud-Datenverzeichnis eines eigens angelegten OwnCloud-Benutzers kopiert, welches für die entsprechenden Nutzer der OwnCloud freigegeben wurde.
  5. Mittels OwnCloud Maintenance Console wird ein Dateisystem-Scan nach dem kopieren angestoßen, um die Änderungen sofort zu übernehmen. Da ich nicht via Samba oder andere Wege auf meine OwnCloud-Daten zugreife, habe ich aus Performance-Gründen ‚filesystem_check_changes‘ => 0 gesetzt.
  6. Die mit Datum und Uhrzeit gekennzeichneten PDF-Dateien können dann über die OwnCloud-GUI komfortabel benannt und in Unterverzeichnisse verschoben werden.

Die entsprechenden Zeilen in meinem Scan-Script sehen so aus:


filename=/home/owncloud/data/scanuser/files/Dokumentenarchiv/`date +"%Y%m%d_%H%M%S"`.pdf
scanimage -p --mode Gray --resolution 100 -x 215 -y 296 > /tmp/scanimage.pnm
convert /tmp/scanimage.pnm $filename
chown -R nginx:nginx $filename
php /var/www/localhost/htdocs/owncloud/console.php files:scan scanuser

Die Lösung ist natürlich noch sehr ausbaufähig. Speziell das Zusammenfassen von mehrseitigen Dokumenten möchte ich noch umsetzen. Später stehen das Schreiben der PDF-Metadaten und wo möglich eine Texterkennung via OCR für die Volltextsuche auf dem Plan. Aber alle der Reihe nach. 😉

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

dreizehn − zehn =