Skip to content
Old book and magnifying glass

Dokumentenerkennung aus Fotoaufnahmen: 9 Herausforderungen

In unseren doch sehr unterschiedlichen Kundenprojekten, in denen PRISM Classify & Content (zur Erkennung von Inhalten) eingesetzt werden, haben wir ein breites Spektrum an Dokumenten kennengelernt.

Vor ganz besondere Herausforderungen stellen uns Dokumente, die mit einer Handykamera aufgenommen wurden. Ob verschwommen, schräg, verzerrt, zerknittert: Hier kann vieles zum Störfaktor werden. Um dieses Quellmaterial verarbeiten zu können, haben wir eine Pipeline entwickelt, die uns bei der zuverlässigen Interpretation hilft. Sie wird natürlich je nach Projekt angepasst, besteht aber in der Regel aus folgenden neun Schritten:

  1. Schwarz/Weiß-Wandlung
    Als Grundlage für die bessere Texterkennung werden Farbtöne entfernt (natürlich nur, sofern farbliche Markierungen für das jeweilige Projekt irrelevant sind).
  2. Helligkeit- und Kontrastkorrektur
    Damit sich der Text deutlich vom Untergrund abhebt, werden beide Werte angepasst.
  3. Schärfe
    Sind die Kanten der Schrift nicht überall eindeutig genug, helfen wir nach.
  4. Horizontale Ausrichtung (Drehung)
    V.a. bei Kundenfotos sind Dokumente oft nicht korrekt horizontal oder vertikal ausgerichtet. Dann drehen wir sie so, damit Textzeilen zuverlässig gefunden werden können.
  5. Entfernung von Rauschartefakten
    Durch Kamera- oder Dateiformatkomprimierung beeinflusste Bilder können vor der Erkennung verbessert werden, indem Artefakte durch eine KI reduziert werden.

Die Reihenfolge dieser Schritte wird jeweils variiert und die beste Variante für Kunden eingesetzt.

Die vier weiteren Schritte sind die komplexesten; weshalb wir sie im Detail beleuchten.

6. Korrektur der Schärfentiefe

blank
Korrektur der Schärfentiefe

Wird ein Dokument aus einem bestimmten Winkel fotografiert, so kann es passieren, dass nur ein Teil davon im Fokus der Kamera liegt. Das Beispiel rechts ist natürlich ein Extremfall (du würdest dich jedoch wundern, welche Kundenfotos wir bereits gesehen haben), veranschaulicht das Problem jedoch gut:

Die Schärfentiefe bei dieser Aufnahme ist sehr gering, und deshalb konnte nur der vordere oder hintere Teil scharf aufgenommen werden. Die Wahl fiel auf den vorderen (grün) – der hintere (rot) ist damit unleserlich geworden.

Im gezeigten Beispiel wird es sehr schwierig, hier noch Informationen herauszuholen. Bei weniger übertriebenen Fällen gelingt es unserer KI jedoch sehr gut, nur den betroffenen Teil der Aufnahme korrekt zu bearbeiten. Es muss hier eine fließende Korrektur mit zunehmenden Schärfefiltern erfolgen. Im Endeffekt kann diesem Aufnahmefehler so gut entgegengewirkt werden.

blank
Perspektivenkorrektur

7. Perspektivenkorrektur

In einer ähnlichen Situation wie zuvor kann es vorkommen, dass der Winkel zwar sehr schlecht gewählt wurde, der Inhalt aber zumindest scharf ist (bzw. von Schritt 6 geschärft wurde).

Dennoch steht die Texterkennung bei so einem Foto dann noch vor einer ganz anderen Hürde: Der Text läuft nach rechts hin trapezförmig zusammen; die Schrift ist auf der linken Seite viel größer als am Ende jeder Zeile.

Auch hier haben wir eine KI darauf trainiert, entsprechende geometrische Gegenmaßnahmen einzuleiten. So bekommen die strahlenförmig zusammenlaufenden Schriftzeilen ihre Ordnung zurück, und das Dokument kann anhand der erkannten Zeilen-Geometrie insgesamt wieder korrekt umgeformt werden.

8. Korrektur verzerrter Bereiche

blank
Korrektur verzerrter Bereiche

Die Herausforderung von Punkt 7 hat noch eine Steigerung: Auf dem Bild rechts siehst du, dass das Papier ab einer gewissen Stelle von einer Tischkante hängt. Dadurch beginnt dort eine Biegung – und erschwerend kann auch nochmal die Tiefenunschärfe hinzukommen.

Ein gezieltes Training der KI auf solche Spezialfälle lieferte uns überraschend sichere Ergebnisse. Vor allem die Erkennung von Textzeilen spielt hier ihren großen Vorteil aus: Für eine gut trainierte KI ist die Behebung der ungewohnten Verformung ein Klacks. Eine Herausforderung, die mit herkömmlicher, logischer Programmierung noch eine Sisyphos-Arbeit wäre, zeigt ganz deutlich die Vorteile von selbstlernenden KI-Netzen.

blank

9. Korrektur der Zerknitterung (Dewarping)

Manche Kunden tragen ihre Dokumente scheinbar gerne in der Hosentasche mit sich herum, bevor sie sie zur Weiterverarbeitung einreichen. Fotografierte Dokumente wie links abgebildet kommen tatsächlich vor. Und auch wenn sie zuerst den Anschein erwecken, als wären sie für die Texterkennung ein unüberwindbares Hindernis, können wir dich beruhigen: Es klappt!

Es klappt sogar so gut, dass wir selbst von der Ergebnissen unserer KI ziemlich überrascht waren. Und dies werden wir in einem weiteren Blog-Beitrag näher beleuchten, wo wir ein paar Vorher/Nachher-Bilder vorstellen werden.

Wir hoffen, dass wir dir damit einen kurzweiligen Einblick in unserer KI-gestützte Dokumentenverarbeitung aus Fotoaufnahmen gewähren konnten. Wenn du selbst vor ähnlichen Herausforderungen stehst, oder jetzt das Gefühl hast, dass wir deine komplexen Projekte meistern können, dann schreib uns gerne!

Harald Kerschhofer

Harald Kerschhofer

Harald war einer der ersten Entwickler bei LinkThat und produziert seit Abschluss seines Medienstudiums kreativen Content für und über unsere Produkte.

Du willst mehr erfahren?