Dokumentenerkennung aus Fotoaufnahmen: 9 Herausforderungen

Die automatische Dokumentenerkennung ist aus modernen Geschäftsprozessen kaum wegzudenken. Doch was passiert, wenn Dokumente nicht als sauber gescannte PDFs vorliegen, sondern als Fotos – aufgenommen mit dem Smartphone, oft unter ungünstigen Bedingungen? Genau hier beginnen die Dokumentenerkennung-Herausforderungen, die wir in unseren Projekten mit PRISM tagtäglich lösen.

Letztes Update: 02.07.2025

In diesem Beitrag zeigen wir dir die neun Schritte unserer Verarbeitungs-Pipeline mit PRISM, mit der wir auch schwierige Fotoaufnahmen so optimieren, dass wir Dokumente automatisch erkennen – und beleuchten die größten Herausforderungen ausführlich.

9 Schritte für eine erfolgreiche Dokumentenerkennung aus Fotoaufnahmen

Schwarz-Weiß-Wandlung
Helligkeit- und Kontrastkorrektur
Nachschärfen
Korrektur der Ausrichtung
Entfernung von Rauschartefakten
Schärfentiefe-Korrektur
Perspektivenkorrektur
Korrektur von Verzerrungen durch Biegung
Zerknitterungskorrektur

Schwarz-Weiß-Wandlung
Farbtöne werden entfernt, um die Texterkennung zu verbessern – es sei denn, farbliche Markierungen sind im Projekt relevant.
Helligkeit- und Kontrastkorrektur
Damit sich der Text klar vom Hintergrund abhebt, passen wir Helligkeit und Kontrast präzise an.
Nachschärfen
Unscharfe Kanten werden gezielt geschärft, um die Erkennungsqualität zu erhöhen.
Korrektur der Ausrichtung
Schief aufgenommene Dokumente werden neu ausgerichtet, damit Textzeilen zuverlässig erkannt werden.
Entfernung von Rauschartefakten
Störende Artefakte, die durch Kamera- oder Komprimierungsprozesse entstehen, werden mit KI reduziert.

Die größten Dokumentenerkennung-Herausforderungen im Detail

6. Schärfentiefe-Korrektur

Wenn man ein Dokument aus einem bestimmten Winkel fotografiert, so kann es passieren, dass nur ein Teil davon im Fokus der Kamera liegt.

Das Beispiel rechts ist natürlich ein Extremfall (du würdest dich wundern, welche Kundenfotos wir bereits gesehen haben), veranschaulicht das Problem jedoch gut.

Die Schärfentiefe bei dieser Aufnahme ist sehr gering, und deshalb konnte nur der vordere oder hintere Teil scharf aufgenommen werden. Die Wahl fiel auf den vorderen (grün) – der hintere (rot) ist damit unleserlich.

Im gezeigten Beispiel ist es sehr schwierig, hier noch Informationen herauszuholen. Bei weniger übertriebenen Fällen gelingt es unserer KI jedoch sehr gut, nur den betroffenen Teil der Aufnahme korrekt zu bearbeiten. Es muss hier eine fließende Korrektur mit zunehmenden Schärfefiltern erfolgen. Im Endeffekt kann man diesem Aufnahmefehler so gut entgegenwirken.

7. Perspektivenkorrektur

In einer ähnlichen Situation wie zuvor kann es vorkommen, dass der Winkel zwar sehr schlecht gewählt ist, der Inhalt aber zumindest scharf ist (bzw. von Schritt 6 geschärft wurde).

Dennoch steht die Texterkennung bei so einem Foto dann noch vor einer ganz anderen Hürde: Der Text läuft nach rechts hin trapezförmig zusammen; die Schrift ist auf der linken Seite viel größer als am Ende jeder Zeile.

Auch hier haben wir die KI darauf trainiert, entsprechende geometrische Gegenmaßnahmen einzuleiten. So bekommen die strahlenförmig zusammenlaufenden Schriftzeilen ihre Ordnung zurück, und das Dokument kann anhand der erkannten Zeilen-Geometrie insgesamt wieder korrekt umgeformt werden.

8. Korrektur von verzerrten Bereichen

Die Herausforderung von Punkt 7 hat noch eine Steigerung: Auf dem Bild rechts siehst du, dass das Papier ab einer gewissen Stelle von einer Tischkante hängt. Dadurch beginnt dort eine Biegung – und erschwerend kann auch nochmal die Tiefenunschärfe hinzukommen.

Ein gezieltes Training der KI auf solche Spezialfälle lieferte uns überraschend sichere Ergebnisse. Vor allem die Erkennung von Textzeilen spielt hier ihren großen Vorteil aus: Für eine gut trainierte KI ist die Behebung der ungewohnten Verformung ein Klacks. Eine Herausforderung, die mit herkömmlicher, logischer Programmierung noch eine Sisyphos-Arbeit wäre, zeigt ganz deutlich die Vorteile von selbstlernenden KI-Netzen.

9. Korrektur der Verknitterung

Manche Kunden tragen ihre Dokumente scheinbar gerne in der Hosentasche mit sich herum, bevor sie sie zur Weiterverarbeitung einreichen. Fotografierte Dokumente wie links abgebildet kommen tatsächlich vor. Und auch wenn sie zuerst den Anschein erwecken, als wären sie für die Texterkennung ein unüberwindbares Hindernis, können wir dich beruhigen: Es klappt!

Fazit: Dokumentenerkennung aus Fotoaufnahmen meistern

Die Dokumentenerkennung aus Fotoaufnahmen ist ein komplexes Feld mit vielen Stolpersteinen. Doch mit den richtigen KI-gestützten Methoden können wir auch schwierigste Aufnahmen so optimieren, dass wir Dokumente automatisch erkennen – und das zuverlässig und präzise.

Wenn auch du vor ähnlichen Dokumentenerkennung-Herausforderungen stehst, sprich uns an – wir unterstützen dich gerne!

Harald Kerschhofer

Harald war einer der ersten Entwickler bei LinkThat und produziert seit Abschluss seines Medienstudiums kreativen Content für und über unsere Produkte.

Dokumentenerkennung aus Fotoaufnahmen: 9 Herausforderungen

Letztes Update: 02.07.2025

9 Schritte für eine erfolgreiche Dokumentenerkennung aus Fotoaufnahmen

Schwarz-Weiß-Wandlung

Helligkeit- und Kontrastkorrektur

Nachschärfen

Korrektur der Ausrichtung

Entfernung von Rauschartefakten

Die größten Dokumentenerkennung-Herausforderungen im Detail

6. Schärfentiefe-Korrektur

7. Perspektivenkorrektur

8. Korrektur von verzerrten Bereichen

9. Korrektur der Verknitterung

Fazit: Dokumentenerkennung aus Fotoaufnahmen meistern

Harald Kerschhofer

Entdecke mehr in unserem Blog

Agent Assist in jedem CRM-System: Webinar

Weniger Frust, mehr Flow: Employee Experience im Contact Center verbessern

Digitale Souveränität im Kundenservice

Erfolge unserer Kunden

Die automatische Vermittlung der Österreichischen Gesundheitskasse

Vom Pflichtversicherten zum Kunden: Das Customer Care Center der ITSV

Die vollautomatische Verarbeitung des Dienstleistungsschecks

Das könnte dich auch interessieren

Integriere Salesforce CRM und dein Telefonie-System

Integriere zendesk CRM und dein Telefonie-System

Integriere Microsoft Dynamics 365 und dein Telefonie-System

Du willst mehr erfahren?

Unsere Produkte

Kontakt