Skip to content

Wie Künstliche Intelligenz den Weg für Texterkennung ebnet

Um die Qualität unserer KI-gestützten Dokumenten- und Texterkennung zu überprüfen und laufend zu verbessern, haben wir große Testvektoren angelegt. Mit diesen lassen sich auch die einzelnen Schritte zur Vorbereitung von Dokumenten genau analysieren (hier erfährst du mehr darüber).

Einsendungen von der Smartphone-Kamera

Wenn Kunden darum gebeten werden, selbst Fotos von Dokumenten einzusenden, gibt es oft Überraschungen: Verzerrungen, geknicktes oder zerknülltes Papier, Unschärfe, Drehungen, usw.

Wir wollen dir nachfolgend besonders abenteuerliche Aufnahmen zeigen, die wir natürlich selbst für Tests angefertigt haben. Dazu haben wir eine öffentlich verfügbare Vertragsvorlage der BVAEB (Versicherungsanstalt öffentlich Bediensteter) ausgedruckt und besonders kreativ wieder mit dem Smartphone digitalisiert.

Aufbereitung mit künstlicher Intelligenz

Auf den Bildern siehst du links jeweils unsere Handyfotos, rechts das Resultat aus unserer Pipeline mit mehreren KI-Netzen, die das Bild bestmöglich korrigiert haben. Diese Version kann dann durch die eigentliche Texterkennung laufen – mit viel besseren Ergebnissen als von der Ursprungsaufnahme.

Unser Pre-Processing schafft es, den Text zu straffen und in gerade Zeilen zu bringen – eine sehr wichtige Vorbereitung, damit der Text anschließend maschinell gelesen werden kann.

Auch sehr extreme Falten im Papier können gemeistert werden.

Zwei oder mehrere, sowie horizontale und vertikale Knicke werden ebenfalls „ausgebügelt“.

Hier sind zwei Pre-Processing-Schritte relevant: Das zerknüllte Papier muss überwunden werden, aber auch die Biegung des gesamten Blattes. Wie du sehen kannst, funktioniert das überraschend gut. Die Schatten des Papiers sehen zwar intensiver aus (da wir den Kontrast erhöhen); damit kann die Texterkennung aber gut umgehen.

Hier haben wir es mit dem absoluten Extremfall zu tun: Dass Kunden so ihre Papiere einschicken, ist hoffentlich die Ausnahme. Dennoch gelingt es noch recht gut, die Zeilen des Texts wiederherzustellen. Die Schrift an sich wird dabei zwar kursiv, aber das ist für die Texterkennung im Anschluss ein Klacks.

Die gebogene Seite resultiert auch hier in einem kursiv geschriebenen, aber sehr gut lesbaren, neuen Bild.

Und hier noch ein zweiter Extremfall: Wir haben es zwar eindeutig übertrieben, denn dieser Versuch, ein Blatt zu fotografieren, ist ein Witz, aber wir waren dennoch sehr positiv überrascht, was unsere KI daraus gezaubert hat.

Dieses Bild haben wir mit sehr niedriger Qualität hochgeladen, wodurch die ersten paar Sätze auf dem Papier eigentlich fast unleserlich sind. Auf der verbesserten Version inklusive Begradigung und De-Blurring sieht das schon deutlich besser aus, und das Ergebnis unserer Texterkennung (unter den Bildern zu sehen) hat uns dann doch sehr positiv überrascht.

Probier es selbst

Wenn du selbst viele Dokumente zu bewältigen hast, oder diese spannende Technologie einfach selbst in Aktion sehen willst, dann schreib uns einfach eine kurze Nachricht. Die Texterkennung ist übrigens Teil von link|that Prism.

Share on linkedin
Share on xing
Share on email
Share on twitter
Share on facebook

Entdecke mehr in unserem Blog

Stories unserer Kunden

Du willst mehr erfahren?