Herzlich Willkommen im Blog! Link zur Hauptseite des Blogs

Hier berichten wir von den großen und kleinen Erlebnissen unserer Ausbildungsreise – von Exkursionen in alte und neue Bibliotheken, von Studienfahrten und Praktika in fernen und nicht ganz so fernen Städten, von Vorträgen, Konferenzen und natürlich dem Studienleben in München.

Herzlich Willkommen im Blog! Link zur Hauptseite des Blogs

Weltkarte




OCRopy - Dein eigenes neuronales Netz trainieren!

Avatar of Student/in Student/in | 13. Januar 2019 | Fachliches



OCRopy - Dein eigenes neuronales Netz trainieren!

Die Abbildung zeigt ein Netz

Als OCR (Optical Character Recognition) werden Verfahren der automatisierten Texterkennung verstanden. Dafür werden oft Methoden des Template Matchings, des Mustervergleichs, angewandt. OCR bezog sich ursprünglich nur auf die reine Texterkennung. Mittlerweile steckt aber auch zum Beispiel die Korrektur der falsch erkannten Zeichen und Wörter mittels eines hinterlegten Wörterbuchs dahinter.
Es existieren verschiedene Ansätze der praktischen Umsetzung. Einer davon ist das „Training“ eines neuronalen Netzes! Und das kann man auch selbst ausprobieren ;)

Es gibt verschiedene OCR-Software, das ist eine kleine Auswahl:

Ich finde das Thema im Zusammenspiel mit neuronalen Netzen super spannend und möchte ein paar Worte über OCRopy verlieren!
OCRopy ist ein reines Kommandozeilenprogramm, das am besten auf einem Linuxsystem läuft.
Es zerlegt die Bilddateien in Zeilen und analysiert diese einzeln.

Was du dafür brauchst?

  • Wenn du keinen „Linuxrechner“ besitzt, kannst du zum Beispiel „Virtualbox“ installieren - ein Programm, mit dem du auf deinem Rechner einfach ein anderes Betriebssystem simulieren kannst! Auf deiner virtuellen Maschine kann dann z.B. "Ubuntu" verwendet werden. Hier findest du eine kurze Anleitung zur Installation: Ubuntu in Virtualbox installieren ;)
  • Natürlich OCRopy! Das kannst du ganz einfach über GitHub herunterladen und benutzen :)

Los geht's!

Nach dem Download von OCRopy kannst du einen neuen Ordner in deinem Homeverzeichnis erstellen und die Dateien dort entpacken. Installieren kannst du das Programm mit diesen Zeilen im Terminal, nachdem du in deinen neu erstellten Ordner gewechselt bist:

 

$ sudo apt-get install $(cat PACKAGES)
$ wget -nd http://www.tmbdev.net/en-default.pyrnn.gz
$ mv en-default.pyrnn.gz models/
$ sudo python setup.py install

 

  • Diese Befehle findest du in der README.md-Datei auf GitHub
  • Eine schöne Erklärung für die Installation findest du auch hier: OCRopus - Installation

Einen Testdurchlauf startest du mit folgender Zeile (der Text, der dabei erschlossen wird, ist übrigens auch ganz schön ;)):

 

./run-test

 

Nach der Installation kannst du nun beginnen, dein neuronales Netz zu trainieren!
Hier findest du ein kleines Tutorial, das auch die Funktionsweise von OCRocis und OCRopy sehr anschaulich erkärt: Ocrocis: A high accuracy OCR method to convert early printings into digital text - A Tutorial aus dem Jahr 2015.

Nach einigen Trainingsschritten pendelt sich dein neuronales Netz auf einer gewissen Fehlerquote ein und weiteres Training ist nicht mehr sinnvoll. Zum Training benötigst du mindestens 300 Zeilen Text!

So und nun viel Erfolg, ich bin auch noch am werkeln! ;)

 

 

(Bild: CC0 Pixabay)

Meinungen?

0 Kommentar(e)