Wie moderne Spracherkennung funktioniert

Siri lebt im Server

von Boris Boden - 27.10.2015

Mit der Einführung von Apples Spracherkennung „Siri“ im Jahr 2011 änderte sich dann das grundsätzliche Arbeitsprinzip von Spracherkennung, denn das „Speech Interpretation and Recognition Interface“ funktionierte serverbasiert, also „offboard“ und nicht „onboard“.

Sprachsteuerung im Auto: Ford nutzt die Sprachsteuerung zum Beispiel für die Eingabe von Navi-Zielen.

(Quelle: Ford )

Das hat den Vorteil, dass ein leistungsfähiges zentrales System die Sprache verarbeiten kann, anstatt die Hardware-Kapazitäten im Gerät des Kunden zu gebrauchen. In der aktuellen Siri-Version für iOS 9 sind dabei sogar kontextabhängige Antworten auf ganze Sätze und Voicemail-Services möglich. Auch für Android und Windows gibt es ähnlich leistungsfähige Offboard-Lösungen, so zum Beispiel die Mobile Cloud des Sprachsoftware-Spezialisten Nuance, die im Monat mehr als 1,2 Milliarden Anfragen verarbeitet.

Technisch muss die Spracherkennung auf zwei Ebenen funktionieren: Einmal müssen die Worte des Anwenders im Gerät überhaupt erfasst werden, im zweiten Schritt erfolgt dann auf dem Server die logische Umsetzung der Daten.

Die Spracherkennung wurde früher zunächst durch einen Tastendruck aktiviert, heute sind viele Smartphones aber auch ständig auf Zuruf aktionsbereit, da ein Co-Prozessor permanent auf solche Signale wartet. Als Erstes erfolgt eine Vorverarbeitung der analogen Sprache in digitale Signale.

Einen erfassten Befehl muss das System dann aber im Zentralrechner im nächsten Schritt auch richtig interpretieren, zum Beispiel wenn es um Wörter geht, die gleich klingen, aber eine unterschiedliche Bedeutung haben: Bei den Wörtern „Meer“ oder „mehr“ ist das durch die meist im Satz verwendeten Präpositionen noch relativ einfach, doch in einigen Sprachen kann der gleiche Klang zum großen Problem werden.

Hier kommen zum Beispiel Formeln zum Einsatz, die etwa die statistisch größte Wahrscheinlichkeit eines Wortes berücksichtigen. Auch muss das System eventuelle grammatikalische Schwächen oder regionale Dialekte erkennen und tolerieren. Für das gesamte Vokabular entsteht bei den Anbietern so eine Datenbank, die immer weiter wächst und so leistungsfähiger wird.

Neue Geräte hören zu

Dass die Spracherkennung mit ihren Möglichkeiten noch eine große Zukunft hat, ist klar: Mit immer mehr Rechen- und Speicherkapazität wird sie leistungsfähiger. Schließlich werden immer mehr Geräte am besten per Sprache gesteuert. Bei Nuance sorgen vor allem smarte Fernseher und Uhren für eine rasante Zunahme der Anfragen an den Cloud-Server.

Seite

Wie moderne Spracherkennung funktioniert

Siri lebt im Server

Neue Geräte hören zu

Mehr zum Thema