Skip to content

Interview: Spracherkennung in der Telefonie

Peter Kugler, CEO YouCon GmbH

Viele Menschen nutzen bereits Sprachassistenten wie Alexa, Siri oder Cortana. Auch automatische Transkriptionen von gesprochenen Inhalten zu geschriebenem Text funktionieren mittlerweile fast fehlerlos. In der Telefonie scheinen solche Systeme und künstliche Intelligenzen aber noch nicht so weit entwickelt zu sein. Sprachbefehle in Service Lines diverser Anbieter werden oft unzureichend erkannt und führen zu frustrierten Anrufern. Auch die Funktionalität beschränkt sich meist auf sehr simple Auswahlmöglichkeiten. Um herauszufinden, woran das liegt, welche technischen Lösungen es in dieser Hinsicht heute bereits gibt und was für Möglichkeiten diese Technologien bieten, haben wir mit Peter Kugler, dem Geschäftsführer von YouCon ein Interview geführt.

Hallo Peter, teilst du die Wahrnehmung vieler Menschen, dass Spracherkennung in der Telefonie oft weniger gut funktioniert als in anderen Bereichen?

Ja davon bin ich überzeugt, ich habe doch einige Erfahrung bei dem Thema – auch als Kunde – und die hat mich in den seltensten Fällen überzeugt.

Liegt das an den eingesetzten KI- und Spracherkennungslösungen, oder hat das andere Gründe?

Wenn wir von Telefonie sprechen, meinen wir meist Gespräche die mit dem Handy geführt werden. Die Information, die über diesen Kanal übertragen wird, ist viel geringer als z.B. bei der Internettelefonie, ganz zu schweigen von den Umgebungsgeräuschen. Die KI hat dann eigentlich keine Chance gute Arbeit zu leisten. Man kann es gut mit einem Bild von geringer Auflösung vergleichen, auch da wird es schwierig etwas zu erkennen.

Also ist die Telefonleitung selbst, eine Barriere?

Ja, die Auslastungen der Leitungen und Funkmasten verdoppelt sich das Datenvolumen betreffend jedes Jahr, die dahinter liegende Infrastruktur jedoch nicht. Die Provider sind daher bemüht, alles so gut es geht zu komprimieren, den Informationsgehalt zu verkleinern, um mehr Verbindungen über die bestehenden Leitungen zu bringen.

Gibt es dafür eine technische Lösung?

Die gibt es wirklich. Microsoft, Google usw. beginnen damit das vertextete Gespräch durch weitere Algorithmen laufen zu lassen, die den Text auf Grammatik untersucht und fehlende oder falsch verstandene Wörter ersetzt. Das ist natürlich sehr aufwendig.

Google z.B. hat bereits eine Funktion entwickelt, die telefonisch Termine vereinbaren kann. Liegt dem eine andere technische Lösung zugrunde?

Nein die ist gleiche. Man beschränkt sich hier auf eine sehr eingeschränkte Funktionalität und deshalb funktioniert es auch gut.

Ist das der Grund dafür, warum die meisten telefonischen Sprachsysteme nur sehr einfache Kommandos befolgen?

Genau, freie Gespräche ohne klarem Rahmen sind noch nicht in guter Qualität, mit zumutbaren wirtschaftlichen Kosten möglich. Die Systeme konzentrieren sich auf einzelne Keywords und daraus resultieren dann Folge Aktionen.

Was müsste sich ändern, damit künftig auch komplexere Themen am Telefon von einer künstlichen Intelligenz ausgeführt werden können?

Da muss sich noch sehr viel ändern. Es ist zwar heute schon möglich einer KI viele Spezialthemen beizubringen, bis sie jedoch ein komplexes Beschwerdegespräch führen kann wird noch ein paar Jahre vergehen. Die Grundlage dafür wird viel schnellere Hardware sein müssen, auf der die KI betrieben wird und die Kosten dafür müssen wirtschaftlich für den Betreiber sinn machen. Die KI muss individuell auf den Anrufer eingehen können und das gelernte „Situationselastisch“ anwenden.

Gibt es Anwendungsfälle, in denen das besonders sinnvoll wäre?

Jedes große Unternehmen das Konsumgüter produziert oder verkauft hat mit sehr vielen Kunden zu tun. Das sind je nach Unternehmen mehrere Millionen Kundenkontakte pro Jahr. Da liegt es auf der Hand das diese Unternehmen einen Großteil ihrer Kundenkontakte automatisieren wollen.

Vielen Dank für das Interview.

Wenn du an diesem Thema besonders großes Interesse hast und Peter gerne noch weitere Fragen zu diesem Thema stellen möchtest freuen wir uns über deine Kontaktaufnahme.