Stoppt die Vorratsdatenspeicherung! Jetzt klicken &handeln! Willst du auch an der Aktion teilnehmen? Hier findest du alle relevanten Infos und Materialien:

Open Source Texterkennung (OCR)

8. Januar 2007 von dt

Leider gibt es für OSX nur einige wenige sündhaft teure Texterkennungssysteme, die hier auch nicht weiter genannt werden sollen. Dabei gibt es mit Tesseract OCR bereits eine quelloffene OCR-Engine. Die Tesseract Engine wurde ursprünglich zwischen 1985 und 1995 von Hewlett Packard entwickelt. Nach 10 Jahren Projektstillstand haben Hewlett Packard und die Universität von Nevada, Las Vegas (UNLV) Tesseract dann als quelloffene Software veröffentlicht. Zwischenzeitlich arbeitet Google unter der Apache 2.0 Lizenz weiter an Tesseract.

Tesseract lässt sich mittels GCC für Linux kompilieren. In der Windows-Welt ist Tesseract mit Hilfe von Microsoft Visual C++ oder GCC via X11 zu Hause.

Derzeit ist Tesseract allerdings eine reine OCR-Engine ohne jegliche Benutzeroberfläche und damit für den Otto-Normal Nutzer nicht zu gebrauchen, aber mit ein wenig Glück findet sich ja jemand der Tesseract nach OSX portiert und eine nette GUI dazu mitliefert (sofern ein Port nach OSX möglich ist).

Tesseract OCR Projektseite: http://sourceforge.net/projects/tesseract-ocr

Technorati Tags: , , Tesseract, OCR

Share & Enjoy:
  • Slashdot
  • Digg
  • Reddit
  • del.icio.us
  • Facebook
  • Technorati
  • StumbleUpon
  • Webnews.de
  • MisterWong
  • Yigg

2 Reaktionen zu “Open Source Texterkennung (OCR)”

  1. Jakob

    kennt jemand eine anleitung, wie man tesseract auf einem mac zum laufen bekommt?

  2. Martin

    Ja, einfach das tar.gz runterladen und entpacken. dann ins terminal und “tesseract [-l ]” (siehe readme) starten. dabei sollte die datei weder komprimiert, noch tiff als endung besitzen, sondern tif. Es gibt da auch eine Testdatei und es geht wunderbar :)

Einen Kommentar schreiben