staging.inyokaproject.org

djvubind

Dieser Artikel wurde für die folgenden Ubuntu-Versionen getestet:

Dieser Artikel ist mit keiner aktuell unterstützten Ubuntu-Version getestet! Bitte teste diesen Artikel für eine Ubuntu-Version, welche aktuell unterstützt wird. Dazu sind die Hinweise zum Testen von Artikeln zu beachten.

Wiki/Icons/terminal.png djvubind ist ein in Python verfasstes Kommandozeilen-Werkzeug, um aus selbsterstellten tiff-Vorlagen (z.B. Scan Tailor-Bearbeitungen) e-books im DjVu-Format zu erstellen. Das Programm setzt dabei zur Encodierung der DjVu-Daten minidjvu ein, für die durchsuchbare Textebene können tesseract-ocr oder Cuneiform-Linux verwendet werden; auch lassen sich djvused 🇬🇧 Skript-Ausgaben verwenden, um Inhaltsverzeichnisse und Metadaten einzubinden. Zum Einsatz kommen außerdem djvulibre-bin und ImageMagick.

Installation

Das Paket ist in Version 1.2.1 in den Quellen vorhanden,

  • djvubind

Befehl zum Installieren der Pakete:

sudo apt-get install djvubind 

Oder mit apturl installieren, Link: apt://djvubind

Bedienung

djvubind ist ein reines Kommandozeilenwerkzeug, die allgemeine Syntax im Terminal[4] lautet:

djvubind [OPTIONEN] /ZU/VERARBEITENDES/VERZEICHNIS 

Wenn der Aufruf direkt im Vorlagen-Verzeichnis selbst erfolgt, ist die Pfadangabe nicht nötig. djvubind verarbeitet dann alle im Verzeichnis vorhandenen schwarz-weißen tif/tiff-Dateien, die in durchnummerierter Form vorliegen müssen. Neben den Textseiten kann auch ein Cover und eine Rückseite integriert werden, diese sollten im jpg-Format als cover_front.jpg bzw. cover_back.jpg vorliegen. Das Ergebnis wird dann als book.djvu-Datei ausgegeben; falls eine solche Datei schon vorliegt, wird entsprechend book(1).djvu etc. ausgegeben. Djvubind verwendet automatisch mehrere Prozesse parallel (standardmäßig einen pro CPU-Kern), wenn es auf einem Mehrkern-Rechner läuft (in der Konfigurationsdatei anpassbar).

Konfigurationsdatei

Ab Version 1.0.0 ist der Einsatz einer eigenen Konfigurationsdatei implementiert, in der etliche Optionen (auch für das standardmäßig verwendete minidjvu) angegeben werden können. Die Datei wird im Verzeichnis /home/<benutzer>/.config/djvubind unter dem Namen config abgelegt. Im Quellverzeichnis unter /doc/config oder unter /etc/djvubind/config findet sich eine Beispielversion , die umfassend kommentiert ist. Diese kann in einem Editor[5] den eigenen Bedürfnissen entsprechend angepasst werden. Angaben auf der Kommandozeile werden aber bevorzugt, sodass zum temporären Ändern der Optionen die Konfigurationsdatei nicht editiert werden muss.

Optionen

djvubind
Option Funktion
--bookmarks=DATEINAME Zu verwendende Bookmark-Datei. Das Format sollte dem entsprechen, was djvused -e 'print-out‐line ausgibt. Standardmäßig wird bookmark verwendet, wenn vorhanden.
--cover-front=DATEINAME Zu verwendendes Cover, Standardmäßig wird cover_front.jpg verwendet, wenn vorhanden
--cover-back=DATEINAME Zu verwendende Rückseite; Standardmäßig wird cover_back.jpg verwendet, wenn vorhanden
--metadata=DATEINAME Zu verwendende Metadata-Datei. Das Format sollte dem entsprechen, was djvused -e 'print-meta' ausgibt. Standardmäßig wird die Datei metadata verwendet, wenn vorhanden
--no-ocr Keine Erstellung von Textebenen
--ocr-engine=(tesseract|cuneiform) Zu verwendendes OCR-Programm; Standard ist Tesseract
-q | --quiet Keine Ausgabe von Status-Informationen
--cuneiform-options="OPTION(EN)" Option, um andere Cuneiform-Optionen zu verwenden, z.B. Sprach-Optionen, Optionen müssen in " " gesetzt werden
--tesseract-options="OPTION(EN)" Option, um andere Tesseract-Optionen zu verwenden, z.B. Sprach-Optionen, Optionen müssen in " " gesetzt werden

Andere OCR-Engines verwenden

Wer andere Programme zur Texterkennung verwenden möchte, sollte djvubind mit der --no-ocr-Option verwenden. Die Texterkennung kann dann für das erstellte Dokument mit ocrodjvu erfolgen, was sehr detailliert konfigurierbar ist, und verlässliche Unterstützung für tesseract-ocr, OCRopus, Cuneiform-Linux, GOCR und Ocrad liefert.

Probleme

Wenn es Probleme mit Cuneiform-Linux (z.B einen "buffer-overflow-Error") gibt, greift das Programm automatisch auf tesseract zurück, ohne allerdings eine ggf. gewählte Sprachangabe mit zu übernehmen. Das lässt sich das mit Verwendung einer tesseract-options-Sprachangabe in der Konfigurationsdatei umgehen.

Die Verwendung der Sprachoption für Cuneiform funktioniert unter Ubuntu 18.04 nicht, zumindest werden keine Umlaute erkannt.

Die Einbeziehung der Buchdeckel cover_front und cover_back erfolgt nur mit der Endung .jpg, Dateien mit der Endung .jpeg werden nicht integriert.

Alternativen

  • xsane2djvu erlaubt ein direktes Verarbeiten der Scans in das DjVu-Format mit Texterkennung aus XSane heraus; dabei können auch farbige Vorlagen verwendet werden.

  • pct-scanner-script liefert auch "automatisch" erstellte Zusammenführung von Scans im DjVu- oder PDF-Format, Texterkennung für DjVu-Dokumente ist möglich.

Diese Revision wurde am 26. Januar 2020 12:16 von Heinrich_Schwietering erstellt.
Die folgenden Schlagworte wurden dem Artikel zugewiesen: djvu, Büro, Grafik, Kommunikation, Bildung, Texterkennung, OCR, Python, eBook, ungetestet