Bei der Suche nach einem OCR-Programm für den Mac bin ich auf das Open-Source Programm tesseract gestossen. In einem Blog las ich, dass man eine ältere Version verwenden soll, da die neue (2.03) nicht kompilierbar sei. Mutig schnappte ich mir gleich die allerneueste (2.04), entpackte das Archiv und legte gleich los…
Als normaler Benutzer:
./configure -prefix=/usr/local/tesseract make
Und dann als root:
make install ln -s /usr/local/tesseract/bin/tesseract /usr/local/bin
Anschließend noch die Sprachpakete installieren (entpacken der Dateien tesseract-2.00.xxx.tar.gz mit xxx=deu für deutsch etc. in das Verzeichnis /usr/local/tesseract/share) und der erste Test lieferte gleich gute Ergebnisse.
Benutzung: tesseract test-bild.tif test-text -l deu
Grafische Front-Ends habe ich auch 2 gefunden, die mich aber beide nicht vom Hocker gehauen haben. Das erste Paket enthält bereits ein kompiliertes tesseract und funktioniert auch, nur stürzt es immer ab, wenn man eine Sprache einstellt (welche natürlich von der Standard-Sprache englisch abweicht). Nach einem kurzen Blick auf den Source-Code stellt sich heraus, dass auch nur die englischen Sprachpakete enthalten sind… also ist wieder Handarbeit angesagt.
Das zweite Werkzeug kommt in einem 42MB großen Paket und nennt sich TakOCR. Wow denke ich mir, in so einem großen Bündel ist bestimmt jede Menge zum ausprobieren vorhanden. Weit gefehlt, dass Programm bietet einem lediglich ein Droplet an, also ein Icon, auf welches man seine Grafik-Dateien zieht. Diese werden in das TIF-Format umgewandelt (das einzige Format, welches tesseract von Haus aus versteht) und dann wird die Texterkennung von tesseract angeworfen. Die Größe erklärt sich durch die enthaltenen Pakete: Ghostscript, ImageMagick, OCRopus, Tesseract, IU, Leptonica, libjpeg, libpng, libtiff, zlib und OpenFST. Naja, wer’s braucht… ich habe es installiert und getestet, wollte es im Anschluß rausschmeißen (mit Hilfe des Uninstall-Skriptes von der Website). Danach lief jedenfalls nicht mehr viel: tesseract ging nicht mehr. Neu installiert – immer noch nichts. Dieses Mal gab es Fehler wegen fehlender dyld-Bibliotheken. Wie sich herausstellt, hat das Uninstall-Skript diese freundlicherweise ausradiert. Mal schauen, ob das Kombo-Update von SnowLeopard mir aus dieser misslichen Lage helfen kann, ansonsten habe ich ja immer noch meine halbwegs frische TimeMachine-Sicherung.
Update:
Das Problem mit der Fehlenden libpng wurde gelöst. Während das MacOS X Combo Update die fehlenden Dateien leider nicht installiert hat und ich das TimeMachine-Laufwerk nicht zur Hand hatte, habe ich mal die TakOCR.pkg-Datei mit Pacifist angeschaut und siehe da, sämtlich libs, die der Uninstaller gelöscht hat, liegen fein sortiert drin. Und nach dem Kopieren in das korrekte Verzeichnis läuft auch tesseract wieder!
Weitere Tests mit tesseract lieferten wirklich sehr gute Ergebnisse, ich kann es jedem, der sich ein wenig im Terminal von MacOS X auskennt, nur empfehlen.