(23.Oktober 2008 ga/dk) Viele Verleger, die gerne die Bücher ihrer Backlist digitalisieren würden, schrecken aufgrund zahlreicher Probleme bei der resultierenden Datei davor zurück. Pagina hat nun einen Ansatz entwickelt, der an dieser Stelle Abhilfe schaffen soll.
Oftmals existieren Bücher, die vor mehr als zehn Jahren erschienen sind nicht in digitaler Form. Das heißt Verleger können diese Bücher zwar wieder drucken, jedoch ist es nicht möglich Teile davon für andere Zwecke zu verwenden oder das Buch als eBook zu publizieren.
Es ist möglich das Buch für OCR (Texterkennung) zu scannen. Daraus resultiert eine relativ nützliche Textdatei, die eventuell Fehler durch die automatische Texterkennung beinhaltet. Zumindest die Durchsuchung des Textes ist dann möglich. Problematisch ist jedoch, dass die Struktur des Textes (beispielsweise Hierarchie der Überschriften) verloren geht. Zudem muss jedes getrennte Wort überprüft werden, um zu testen ob die Trennung sicher entfernt werden kann.
Pagina vermeidet mit seinem Ansatz viele dieser Probleme: Zunächst wird OCR eingesetzt, jedoch handelt es sich hier um einen anspruchsvolleren Prozess aus dem eine XML-Datei resultiert. Diese beinhaltet Tags für Überschriften, Kapitel und vieles mehr. Zusätzlich werden Tags eingefügt, die Layout-Eigenschaften, wie Zeilen- und Seitenumbrüche identifiziert. Damit ist Pagina in der Lage das ursprüngliche Buch Zeile für Zeile in digitaler Form zu rekonstruieren. Das heißt die Silbentrennung bleibt erhalten, Fußnoten bleiben an ihrem Platz und Seitenzahlen sind korrekt.
Es ist ebenfalls möglich die Schriftart zu verändern ohne die Typographie zu sehr zu zerstören. Dies ist sogar bei bündigen Texten möglich: Pagina hat dazu ein Tool entwickelt, dass für jede Schriftart die beste Schriftgröße kalkuliert, um den geeignetsten Wort-Abstand zu erzeugen.
Die resultierende Datei ist zum Durchsuchen und zur Wiederverwendung bestimmter Teile geeignet. Möchte der Verleger jedoch eine Datei erzeugen, die vollständig neu formatiert werden kann, ist mehr Arbeit notwendig. Zumindest ist es mit dem Ansatz von Pagina möglich eine nützliche „Zwischen-Datei“ zu erzeugen.
www.pagina-online.de