Die automatische Dokumentenerkennung ist aus modernen Geschäftsprozessen kaum wegzudenken. Doch was passiert, wenn Dokumente nicht als sauber gescannte PDFs vorliegen, sondern als Fotos – aufgenommen mit dem Smartphone, oft unter ungünstigen Bedingungen? Genau hier beginnen die Dokumentenerkennung-Herausforderungen, die wir in unseren Projekten mit PRISM tagtäglich lösen.
Letztes Update: 02.07.2025
In diesem Beitrag zeigen wir dir die neun Schritte unserer Verarbeitungs-Pipeline mit PRISM, mit der wir auch schwierige Fotoaufnahmen so optimieren, dass wir Dokumente automatisch erkennen – und beleuchten die größten Herausforderungen ausführlich.
9 Schritte für eine erfolgreiche Dokumentenerkennung aus Fotoaufnahmen

-
Schwarz-Weiß-Wandlung
Farbtöne werden entfernt, um die Texterkennung zu verbessern – es sei denn, farbliche Markierungen sind im Projekt relevant. -
Helligkeit- und Kontrastkorrektur
Damit sich der Text klar vom Hintergrund abhebt, passen wir Helligkeit und Kontrast präzise an. -
Nachschärfen
Unscharfe Kanten werden gezielt geschärft, um die Erkennungsqualität zu erhöhen. -
Korrektur der Ausrichtung
Schief aufgenommene Dokumente werden neu ausgerichtet, damit Textzeilen zuverlässig erkannt werden. -
Entfernung von Rauschartefakten
Störende Artefakte, die durch Kamera- oder Komprimierungsprozesse entstehen, werden mit KI reduziert.
Die größten Dokumentenerkennung-Herausforderungen im Detail
6. Schärfentiefe-Korrektur
Wenn man ein Dokument aus einem bestimmten Winkel fotografiert, so kann es passieren, dass nur ein Teil davon im Fokus der Kamera liegt.
Das Beispiel rechts ist natürlich ein Extremfall (du würdest dich wundern, welche Kundenfotos wir bereits gesehen haben), veranschaulicht das Problem jedoch gut.

Die Schärfentiefe bei dieser Aufnahme ist sehr gering, und deshalb konnte nur der vordere oder hintere Teil scharf aufgenommen werden. Die Wahl fiel auf den vorderen (grün) – der hintere (rot) ist damit unleserlich.
Im gezeigten Beispiel ist es sehr schwierig, hier noch Informationen herauszuholen. Bei weniger übertriebenen Fällen gelingt es unserer KI jedoch sehr gut, nur den betroffenen Teil der Aufnahme korrekt zu bearbeiten. Es muss hier eine fließende Korrektur mit zunehmenden Schärfefiltern erfolgen. Im Endeffekt kann man diesem Aufnahmefehler so gut entgegenwirken.
7. Perspektivenkorrektur
In einer ähnlichen Situation wie zuvor kann es vorkommen, dass der Winkel zwar sehr schlecht gewählt ist, der Inhalt aber zumindest scharf ist (bzw. von Schritt 6 geschärft wurde).

Dennoch steht die Texterkennung bei so einem Foto dann noch vor einer ganz anderen Hürde: Der Text läuft nach rechts hin trapezförmig zusammen; die Schrift ist auf der linken Seite viel größer als am Ende jeder Zeile.
Auch hier haben wir die KI darauf trainiert, entsprechende geometrische Gegenmaßnahmen einzuleiten. So bekommen die strahlenförmig zusammenlaufenden Schriftzeilen ihre Ordnung zurück, und das Dokument kann anhand der erkannten Zeilen-Geometrie insgesamt wieder korrekt umgeformt werden.

8. Korrektur von verzerrten Bereichen
Die Herausforderung von Punkt 7 hat noch eine Steigerung: Auf dem Bild rechts siehst du, dass das Papier ab einer gewissen Stelle von einer Tischkante hängt. Dadurch beginnt dort eine Biegung – und erschwerend kann auch nochmal die Tiefenunschärfe hinzukommen.
Ein gezieltes Training der KI auf solche Spezialfälle lieferte uns überraschend sichere Ergebnisse. Vor allem die Erkennung von Textzeilen spielt hier ihren großen Vorteil aus: Für eine gut trainierte KI ist die Behebung der ungewohnten Verformung ein Klacks. Eine Herausforderung, die mit herkömmlicher, logischer Programmierung noch eine Sisyphos-Arbeit wäre, zeigt ganz deutlich die Vorteile von selbstlernenden KI-Netzen.

9. Korrektur der Verknitterung
Manche Kunden tragen ihre Dokumente scheinbar gerne in der Hosentasche mit sich herum, bevor sie sie zur Weiterverarbeitung einreichen. Fotografierte Dokumente wie links abgebildet kommen tatsächlich vor. Und auch wenn sie zuerst den Anschein erwecken, als wären sie für die Texterkennung ein unüberwindbares Hindernis, können wir dich beruhigen: Es klappt!
Fazit: Dokumentenerkennung aus Fotoaufnahmen meistern
Die Dokumentenerkennung aus Fotoaufnahmen ist ein komplexes Feld mit vielen Stolpersteinen. Doch mit den richtigen KI-gestützten Methoden können wir auch schwierigste Aufnahmen so optimieren, dass wir Dokumente automatisch erkennen – und das zuverlässig und präzise.
Wenn auch du vor ähnlichen Dokumentenerkennung-Herausforderungen stehst, sprich uns an – wir unterstützen dich gerne!