Voice-Web in den USA auf dem Vormarsch

Voice Web

Immer mehr US-Firmen setzen Sprachsoftware ein, um ihre Kunden schneller zu bedienen und Kosten zu sparen. Dank dem Standard Voice XML können Datenbankeinträge problemlos in Lautsprache umgewandelt und telefonisch mitgeteilt werden.

Die Zeiten, in denen Anrufer sich durch komplizierte und frustrierende Zahlenmenus drücken mussten, sind zumindest in Amerika vorbei. Wer bei Federal Express den Verbleib seines Pakets in Erfahrung bringen will, kann die sogenannte Tracking-Nummer in den Hörer sprechen und von einer freundlichen Dame den letzten Aufenthaltsort erfahren oder sich den Namen der Personbuchstabieren lassen, die für das Paket unterschrieben hat. America Online und Yahoo locken ihre Kunden mit der Möglichkeit, sich ihre E-Mails von jedem Telefon vorlesen zu lassen. Wer den Kartendienst MapQuest anruft, spricht die Zieladresse und bekommt die Wegbeschreibung wahlweise vorgelesen, via E-Mail gesendet oder gefaxt.

Mit Voice-Web Kosten sparen

Die Vorteile liegen für Firmen auf der Hand. Ein Anruf, den ein Mensch beantwortet, kostet zwischen $ 3.50 und $ 5.50 pro Minute; ein Computer erledigt simple Anfragen für einen Zehntel der Kosten. Die Wartezeit am Telefon reduziert sich stark, und Call-Center müssen nur noch jene Fragen entgegennehmen, die wirklich menschliche Intelligenz erfordern. Continental Airlines etwa berichtet, dass die Zahl der an menschliche Kundenbetreuer weitergeleiteten Anrufe seit Einführung eines Sprachsystems um die Hälfte gesunken sei. Zur Kostenreduktion kommt eine «Friedensdividende» hinzu: Der Ärger vieler Anrufer verpufft, wenn sie es mit einer freundlichen Frauenstimme von der Festplatte zu tun haben. «Menschen bauen unwillkürlich sozialen Kontakt zu sprechenden Computern auf», sagt Stanford- Professor Clifford Nass. Wer vermeintlich spontane Ausrufe hört wie «Wenn Sie die Antwort wissen, unterbrechen Sie mich einfach!», könne unbewusste Reaktionen wie gegenüber einem echten Gesprächspartner nicht unterdrücken. «Unsere Hirne sind auf Sprache programmiert», sagt Nass, der an einem Buch über Sprachsynthese schreibt.

Diese Reaktionsweise macht sich eine US-Fluggesellschaft zunutze. Sie hat ihren Dienst für verlorene Gepäckstücke automatisiert. «Ein Computer mit einer Frauenstimme, welche sich entschuldigt und konkrete Fragen stellt, aber auf Wutoder Beleidigungen nicht eingeht, nimmt den Anrufern sofort den Anreiz, ausfällig zu werden. Esist, als ob man aus einem Ballon die Luft herauslässt», berichtet Steve Chambers, Mitarbeiter von Speechworks International. Das in Massachusetts beheimatete Unternehmen ist neben Nuance Communications einer der beiden führenden US- Anbieter von Sprachsoftware.

Sprachbefehle statt komplexe Menus

Was die wenigsten der rund vier Millionen Nutzer dieser Angebote wissen: Ihre Anliegen werden von vollständig automatisierter Software beantwortet, welche die nötigen Informationen aus Datenbanken extrahiert und in Echtzeit in Wörter und ganze Sätze umwandelt – ähnlich dem dynamischen Aufbau einer Website. Noch krankt die synthetische Kundenbetreuung an Verständnisproblemen, aber Grossfirmen von Hewlett-Packard bis General Motors setzen verstärkt auf das sogenannte Voice-Web. «Seit anderthalb Jahren ist diese Technologie im Kommen. Je mehr die Volkswirtschaft schwächelt, desto interessanter wird es für Unternehmen, Kosten in Call-Centern zu sparen und ihre Kunden an sich zu binden», sagt Chambers.

Rachel MacAulay vom Marktforscher Kelsey Group sieht ein Zusammenspiel von drei Faktoren, das den sprechenden Internet-Server vorantreiben wird. Aus Gewohnheit benutzen Menschen lieber das ihnen vertraute Telefon, als sich durch unleserliche Menus auf einem kleinen Handy-Bildschirm zu drücken oder ihren PC für eine Auskunft hochzufahren. «Verbraucher müssen diese Technik nicht einmal verstehen, um siebenutzen zu können», erklärt die Marktbeobachterin. Zweitens stossen immer mehr traditionelle Anbieter von Unternehmenssoftware in den Sprachverarbeitungsbereich vor, um so Personal- und Trainingskosten zu reduzieren. Ihre integrierten Lösungen für die Kundenbetreuung geniessen mehr Vertrauen als die unerprobte Technik einer Neugründung. Drittens setzen immer mehr Telekomanbieter in den USA und Europa auf dieneue Technik, um Kunden mit zusätzlichen, kontinuierlich erweiterten Angeboten zu animieren, das Telefon noch öfters zu benutzen.

Dennoch waren es in erster Linie Gründerunternehmen aus dem Silicon Valley, die das Voice-Web massenmarkttauglich machten. Tellme Networks und Bevocal lancierten vergangenes Jahr standardisierte Systeme, welche Hunderttausenden von Anrufern über eine gebührenfreie Nummer Fluginformationen oder den Wert ihres Wertschriftenkontos vorlesen. In herkömmlichen Telefonlabors wären diese Dienste viel zu teuer zu stehen gekommen. Deswegen bieten Tellme ebenso wie die Firma General Magic Komplettlösungen an, um den Telefondienst einer Firma innerhalb weniger Wochen zu automatisieren. Solche Baukastensysteme können Firmen in Europa und Amerika nach Bedarf mieten und in ihre Call-Center-Struktur einbinden. «Die meisten Leute rufen unseren Service aus dem Festnetz an – ein Beweis, dass selbst der Internetzugang zu Hause oder am Arbeitsplatz grundlegende Informationsbedürfnisse nicht ausreichend erfüllt», erklärt Tellme-Gründer und Geschäftsführer Mike McCue.

Erster Sprachgenerator 1939 entwickelt

Bis jemand mit der Wählscheibe und seiner Stimme «surfen» konnte, war langwierige Vorarbeit nötig. Der erste Sprachgenerator stammt aus dem Jahr 1939. Damals stellten die AT & T Bell Laboratories auf der Weltausstellung in New York den «Voder» vor – ein monströses Gerät, das von sechs Personen bedient werden musste, um simple Sätze wie «Guten Tag, liebe Zuhörer» zu erzeugen. Von natürlichem Klang und Interaktivität konnte lange Zeit keine Rede sein. Forscher feilten an der richtigen Analyse, Speicherung und Regeneration der Sprache, indem sieTonschnipsel speicherten. Bis zur Computerrevolution in den sechziger Jahren erwiesen sich diese Versuche als aussichtsloses Unterfangen. Plötzlich jedoch war es möglich, die Frequenz von Wörtern und Sätzen aufzuzeichnen und mittels eines Synthesizers neue Klänge zu erzeugen.

Spracherkennung und -synthese erfordern immense Programmierarbeit. Zuerst muss der Wunsch akustisch verstanden werden – egal, ob es sich um eine Flugnummer oder um einen Strassennamen handelt. Um Missverständnissen vorzubeugen, werden für eine normale Kundendienstlösung bis zu 2500 Fragen programmiert. Das System versucht die Töne und Wörter des Anrufers mit gespeicherten Daten abzugleichen. Im Gegensatz zum Menschen lässt sich ein Computer jedoch von Hintergrundgeräuschen odereinem Dialekt so ablenken, dass bei vielen Systemen oft die Antwort «Das habe ich leider nicht verstanden» zu hören ist. Hat das Programm die Frage verstanden, sucht die Software die Informationen in einer Datenbank und fügt anschliessendentweder vorher aufgezeichnete Wörter zusammen oder generiert komplette Sätze mittels einer Konkatenation genannten Methode. Um eine zehnstellige Telefonnummer in einem menschlich anmutenden Tonfall vorzulesen, sind 1200 unterschiedliche Tonaufnahmen der Ziffern 0 bis 9 erforderlich.

Ein neuer Standard namens Voice XML (VXML) erlaubt die Katalogisierung von Einträgen im gleichen Rechner, auf den ein Kundendienstmitarbeiter oder ein Kunde via Internet zugreift. «Firmen müssen ihre Datenbanken nichtändern, wenn sie Sprachfähigkeit hinzufügen wollen», erklärt Speechworks-Manager Chambers.Als eine Spielart der extensible Mark-Up Language ist VXML ein universell verständliches Etikett, das Programmen signalisiert, um welche Dateiart es sich handelt und wie sie für den Output auf Anwenderseite zu behandeln sind. Rund 500 Telekommunikations-, Hard- und Softwarefirmen von Lucent bis Motorola haben sich zum Voice-XML-Forum zusammengeschlossen, um den Standard zu propagieren.

Europas Sprachenvielfalt als Nachteil?

Auch wenn das Mobiltelefon in Europa weiter verbreitet ist, ist dagegen ein viel höherer Prozentsatz von US-Bürgern ans Internet als Kommunikationsmittel gewöhnt. Die Mehrzahl derAmerikaner benutzen halbautomatisierte Telefondienste seit Jahrzehnten im Alltag. Der alte Kontinent stellt zudem auf Grund der Sprachenvielfalt, von ausgeprägten Dialekten und kulturellen Differenzen besondere Anforderungen an US- Anbieter, die hier Fuss fassen wollen. Allein die Frage, ob eine Computerstimme männlich oder weiblich sein soll, welchen Grad von Freundlichkeit oder Vertraulichkeit man anschlägt, muss von Land zu Land anders beantwortet werden.

 

Leave a Reply

Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Ver
Privacidad