Skip to content
Millennial remote woman designer take photo of document on smartphone to send plan to client or boss

Wie Künstliche Intelligenz den Weg für Texterkennung ebnet

Wie die Texterkennung mit KI funktioniert und was Künstliche Intelligenz in der Dokumenten- und Texterkennung alles möglich macht.

Um die Qualität unserer KI-gestützten Dokumenten- und Texterkennung zu überprüfen und laufend zu verbessern, haben wir große Testvektoren angelegt. Mit diesen lassen sich auch die einzelnen Schritte zur Vorbereitung von Dokumenten genau analysieren (hier erfährst du mehr darüber).

Einsendungen von der Smartphone-Kamera

Wenn Kunden darum gebeten werden, selbst Fotos von Dokumenten einzusenden, gibt es oft Überraschungen: Verzerrungen, geknicktes oder zerknülltes Papier, Unschärfe, Drehungen, usw.

Wir zeigen nachfolgend besonders abenteuerliche Aufnahmen, die wir natürlich selbst für Tests angefertigt haben. Dazu wurde eine öffentlich verfügbare Vertragsvorlage der BVAEB (Versicherungsanstalt öffentlich Bediensteter) ausgedruckt und besonders kreativ wieder mit dem Smartphone digitalisiert.

Aufbereitung mit künstlicher Intelligenz

Auf den Bildern siehst du links jeweils unsere Handyfotos, rechts das Resultat aus unserer Pipeline mit mehreren KI-Netzen, die das Bild bestmöglich korrigiert haben. Diese Version kann dann durch die eigentliche Texterkennung laufen – mit viel besseren Ergebnissen als von der Ursprungsaufnahme.

blank

Unser Pre-Processing schafft es, den Text zu straffen und in gerade Zeilen zu bringen – eine sehr wichtige Vorbereitung, damit der Text anschließend maschinell gelesen werden kann.

blank

Auch sehr extreme Falten im Papier werden gemeistert.

blank

Zwei oder mehrere, sowie horizontale und vertikale Knicke werden ebenfalls „ausgebügelt“.

blank

Hier sind zwei Pre-Processing-Schritte relevant: Das zerknüllte Papier muss überwunden werden, aber auch die Biegung des gesamten Blattes. Wie du sehen kannst, funktioniert das überraschend gut. Die Schatten des Papiers sehen zwar intensiver aus (da wir den Kontrast erhöhen); damit kann die Texterkennung aber gut umgehen.

blank

Hier haben wir es mit dem absoluten Extremfall zu tun: Dass Kunden so ihre Papiere einschicken, ist hoffentlich die Ausnahme. Dennoch gelingt es noch recht gut, die Zeilen des Texts wiederherzustellen. Die Schrift an sich wird dabei zwar kursiv, aber das ist für die Texterkennung im Anschluss ein Klacks.

blank

Die gebogene Seite resultiert auch hier in einem kursiv geschriebenen, aber sehr gut lesbaren, neuen Bild.

blank

Und hier noch ein zweiter Extremfall: Wir haben es zwar eindeutig übertrieben, denn dieser Versuch, ein Blatt zu fotografieren, ist ein Witz, aber wir waren dennoch sehr positiv überrascht, was unsere KI daraus gezaubert hat.

blank

Dieses Bild wurde mit sehr niedriger Qualität hochgeladen, wodurch die ersten paar Sätze auf dem Papier eigentlich fast unleserlich sind. Auf der verbesserten Version inklusive Begradigung und De-Blurring sieht das schon deutlich besser aus, und das Ergebnis unserer Texterkennung (unter den Bildern zu sehen) hat uns dann doch sehr positiv überrascht.

Probier es selbst

Wenn du selbst viele Dokumente zu bewältigen hast, oder diese spannende Technologie einfach selbst in Aktion sehen willst, dann schreib uns einfach eine kurze Nachricht. Die Texterkennung ist übrigens Teil von link|that Prism.

Harald Kerschhofer

Harald Kerschhofer

Harald war einer der ersten Entwickler bei LinkThat und produziert seit Abschluss seines Medienstudiums kreativen Content für und über unsere Produkte.

Du willst mehr erfahren?