(05. November 2008 – dk) Im Internet ist sehr schwer Informationen aus eingescannten Textdokumenten herauszufiltern. Google gab nun bekannt, dass es möglich ist gescannte Dateien, die als PDF vorliegen, mithilfe von OCR (Optical Character Recognition) durchsuchbar zu machen und erschließt somit einen weiteren großen Teil des Webs.
Tag für Tag werden unzählige Texte eingescannt, jedoch konnten diese bisher nicht in die Internetsuche miteinbezogen werden. Der Suchmaschinenbetreiber Google hat nun jedoch begonnen „gescannte“ PDFs zu indizieren und ist somit in der Lage noch umfassendere Inhalte zu durchsuchen.
Dazu nutzt Google eine OCR-Software, die es ermöglicht die gescannten Dateien durch Schrifterkennung in Text umzuwandeln. Anschließend ist es dann möglich den Text zu indizieren und somit durchsuchbar zu machen wie bei herkömmlichen Textdokumenten.
Weitere Informationen unter:
Googles Blog-Eintrag