Google bringt Licht ins dunkle Web

0

(05. November 2008 – dk) Im Internet ist sehr schwer Informationen aus eingescannten Textdokumenten herauszufiltern. Google gab nun bekannt, dass es möglich ist gescannte Dateien, die als PDF vorliegen, mithilfe von OCR (Optical Character Recognition) durchsuchbar zu machen und erschließt somit einen weiteren großen Teil des Webs.

Tag für Tag werden unzählige Texte eingescannt, jedoch konnten diese bisher nicht in die Internetsuche miteinbezogen werden. Der Suchmaschinenbetreiber Google hat nun jedoch begonnen „gescannte“ PDFs zu indizieren und ist somit in der Lage noch umfassendere Inhalte zu durchsuchen.

Dazu nutzt Google eine OCR-Software, die es ermöglicht die gescannten Dateien durch Schrifterkennung in Text umzuwandeln. Anschließend ist es dann möglich den Text zu indizieren und somit durchsuchbar zu machen wie bei herkömmlichen Textdokumenten.

Weitere Informationen unter:

Link:

Googles Blog-Eintrag

Gründer und CEO von zipcon consulting GmbH, einem der führenden Beratungsunternehmen für die Druck- und Medienindustrie in Mitteleuropa. In den unterschiedlichsten Kundenprojekten begleiten der Technologie- und Strategieberater und sein Team aktiv die praktische Umsetzung. Er entwickelt Visionen, Konzepte und Strategien für die im Printerstellungsprozess beteiligten Akteure der unterschiedlichsten Branchen. Seine Fachgebiete sind u.a. Online-Print, Mass Customization, Strategie- und Technologie Assessment für Print, sowie die Entwicklung neuer Strategien im Print- und Mediaumfeld. Bernd Zipper ist Initiator und Vorsitzender der Initiative Online Print e.V. und neben seiner Beratertätigkeit Autor, Dozent sowie gefragter Referent, Redner und Moderator. Seine visionären Vorträge gelten weltweit als richtungsweisende Managementempfehlungen für die Druck- und Medienindustrie. (Profile auch bei Xing, LinkedIn).

Leave A Comment