Skip to content
Old book and magnifying glass

Dokumentenerkennung aus Fotoaufnahmen: 9 Herausforderungen

Die automatische Dokumentenerkennung ist aus modernen Geschäftsprozessen kaum wegzudenken. Doch was passiert, wenn Dokumente nicht als sauber gescannte PDFs vorliegen, sondern als Fotos – aufgenommen mit dem Smartphone, oft unter ungünstigen Bedingungen? Genau hier beginnen die Dokumentenerkennung-Herausforderungen, die wir in unseren Projekten mit PRISM tagtäglich lösen.

Letztes Update: 02.07.2025

In diesem Beitrag zeigen wir dir die neun Schritte unserer Verarbeitungs-Pipeline mit PRISM, mit der wir auch schwierige Fotoaufnahmen so optimieren, dass wir Dokumente automatisch erkennen – und beleuchten die größten Herausforderungen ausführlich.

9 Schritte für eine erfolgreiche Dokumentenerkennung aus Fotoaufnahmen

PRISM
  1. Schwarz-Weiß-Wandlung

    Farbtöne werden entfernt, um die Texterkennung zu verbessern – es sei denn, farbliche Markierungen sind im Projekt relevant.

  2. Helligkeit- und Kontrastkorrektur

    Damit sich der Text klar vom Hintergrund abhebt, passen wir Helligkeit und Kontrast präzise an.

  3. Nachschärfen

    Unscharfe Kanten werden gezielt geschärft, um die Erkennungsqualität zu erhöhen.

  4. Korrektur der Ausrichtung

    Schief aufgenommene Dokumente werden neu ausgerichtet, damit Textzeilen zuverlässig erkannt werden.

  5. Entfernung von Rauschartefakten

    Störende Artefakte, die durch Kamera- oder Komprimierungsprozesse entstehen, werden mit KI reduziert.

Die größten Dokumentenerkennung-Herausforderungen im Detail

6. Schärfentiefe-Korrektur


Wenn man ein Dokument aus einem bestimmten Winkel fotografiert, so kann es passieren, dass nur ein Teil davon im Fokus der Kamera liegt.

Das Beispiel rechts ist natürlich ein Extremfall (du würdest dich wundern, welche Kundenfotos wir bereits gesehen haben), veranschaulicht das Problem jedoch gut.

Korrektur der Schärfentiefe

Die Schärfentiefe bei dieser Aufnahme ist sehr gering, und deshalb konnte nur der vordere oder hintere Teil scharf aufgenommen werden. Die Wahl fiel auf den vorderen (grün) – der hintere (rot) ist damit unleserlich.

Im gezeigten Beispiel ist es sehr schwierig, hier noch Informationen herauszuholen. Bei weniger übertriebenen Fällen gelingt es unserer KI jedoch sehr gut, nur den betroffenen Teil der Aufnahme korrekt zu bearbeiten. Es muss hier eine fließende Korrektur mit zunehmenden Schärfefiltern erfolgen. Im Endeffekt kann man diesem Aufnahmefehler so gut entgegenwirken.

7. Perspektivenkorrektur

In einer ähnlichen Situation wie zuvor kann es vorkommen, dass der Winkel zwar sehr schlecht gewählt ist, der Inhalt aber zumindest scharf ist (bzw. von Schritt 6 geschärft wurde).

Perspektivenkorrektur

Dennoch steht die Texterkennung bei so einem Foto dann noch vor einer ganz anderen Hürde: Der Text läuft nach rechts hin trapezförmig zusammen; die Schrift ist auf der linken Seite viel größer als am Ende jeder Zeile.

Auch hier haben wir die KI darauf trainiert, entsprechende geometrische Gegenmaßnahmen einzuleiten. So bekommen die strahlenförmig zusammenlaufenden Schriftzeilen ihre Ordnung zurück, und das Dokument kann anhand der erkannten Zeilen-Geometrie insgesamt wieder korrekt umgeformt werden.

Korrektur verzerrter Bereiche

8. Korrektur von verzerrten Bereichen

Die Herausforderung von Punkt 7 hat noch eine Steigerung: Auf dem Bild rechts siehst du, dass das Papier ab einer gewissen Stelle von einer Tischkante hängt. Dadurch beginnt dort eine Biegung – und erschwerend kann auch nochmal die Tiefenunschärfe hinzukommen.

 

Ein gezieltes Training der KI auf solche Spezialfälle lieferte uns überraschend sichere Ergebnisse. Vor allem die Erkennung von Textzeilen spielt hier ihren großen Vorteil aus: Für eine gut trainierte KI ist die Behebung der ungewohnten Verformung ein Klacks. Eine Herausforderung, die mit herkömmlicher, logischer Programmierung noch eine Sisyphos-Arbeit wäre, zeigt ganz deutlich die Vorteile von selbstlernenden KI-Netzen.

Korrektur der Verknitterung

9. Korrektur der Verknitterung

Manche Kunden tragen ihre Dokumente scheinbar gerne in der Hosentasche mit sich herum, bevor sie sie zur Weiterverarbeitung einreichen. Fotografierte Dokumente wie links abgebildet kommen tatsächlich vor. Und auch wenn sie zuerst den Anschein erwecken, als wären sie für die Texterkennung ein unüberwindbares Hindernis, können wir dich beruhigen: Es klappt!

Fazit: Dokumentenerkennung aus Fotoaufnahmen meistern

Die Dokumentenerkennung aus Fotoaufnahmen ist ein komplexes Feld mit vielen Stolpersteinen. Doch mit den richtigen KI-gestützten Methoden können wir auch schwierigste Aufnahmen so optimieren, dass wir Dokumente automatisch erkennen – und das zuverlässig und präzise.

Wenn auch du vor ähnlichen Dokumentenerkennung-Herausforderungen stehst, sprich uns an – wir unterstützen dich gerne!

Picture of Harald Kerschhofer

Harald Kerschhofer

Harald war einer der ersten Entwickler bei LinkThat und produziert seit Abschluss seines Medienstudiums kreativen Content für und über unsere Produkte.

Entdecke mehr in unserem Blog

blank

Agent Assist in jedem CRM-System: Webinar

In unserem Webinar am 25. Juni haben wir gezeigt, wie man mit Agent Assist das Beste aus jedem CRM-System holt.
blank

Weniger Frust, mehr Flow: Employee Experience im Contact Center verbessern

Motivierte Teams, weniger Stress und glücklichere Kunden: Wie intelligente Tools die Employee Experience im Kundenservice verbessern.
blank

Digitale Souveränität im Kundenservice

In einer Zeit, in der Digitalisierung den Kundenservice prägt, rückt eine zentrale Frage in den Fokus: Wo liegen unsere Daten – und wer hat letztlich die Kontrolle darüber?

Erfolge unserer Kunden

Das könnte dich auch interessieren

Du willst mehr erfahren?