Open Source Texterkennung (OCR)
8. Januar 2007 von dtLeider gibt es für OSX nur einige wenige sündhaft teure Texterkennungssysteme, die hier auch nicht weiter genannt werden sollen. Dabei gibt es mit Tesseract OCR bereits eine quelloffene OCR-Engine. Die Tesseract Engine wurde ursprünglich zwischen 1985 und 1995 von Hewlett Packard entwickelt. Nach 10 Jahren Projektstillstand haben Hewlett Packard und die Universität von Nevada, Las Vegas (UNLV) Tesseract dann als quelloffene Software veröffentlicht. Zwischenzeitlich arbeitet Google unter der Apache 2.0 Lizenz weiter an Tesseract.
Tesseract lässt sich mittels GCC für Linux kompilieren. In der Windows-Welt ist Tesseract mit Hilfe von Microsoft Visual C++ oder GCC via X11 zu Hause.
Derzeit ist Tesseract allerdings eine reine OCR-Engine ohne jegliche Benutzeroberfläche und damit für den Otto-Normal Nutzer nicht zu gebrauchen, aber mit ein wenig Glück findet sich ja jemand der Tesseract nach OSX portiert und eine nette GUI dazu mitliefert (sofern ein Port nach OSX möglich ist).
Tesseract OCR Projektseite: http://sourceforge.net/projects/tesseract-ocr
Technorati Tags: Mac OS X, Open Source, Tesseract, OCR


Am 3. Oktober 2009 um 18:44 Uhr
kennt jemand eine anleitung, wie man tesseract auf einem mac zum laufen bekommt?
Am 27. Oktober 2009 um 19:26 Uhr
Ja, einfach das tar.gz runterladen und entpacken. dann ins terminal und “tesseract [-l ]” (siehe readme) starten. dabei sollte die datei weder komprimiert, noch tiff als endung besitzen, sondern tif. Es gibt da auch eine Testdatei und es geht wunderbar