Einsatzszenarien
Dienste zur Spracherkennung und -ausgabe kommen vor allem in automatisierten Konversations-Tools wie Chat- und Sprachbots oder digitalen Assistenten zum Einsatz. Bots beantworten automatisch Kundenanfragen, nehmen Bestellungen auf, liefern Nachrichten, tragen Termine ein und erinnern daran.
Für simple Chatbots, die nur Informationen liefern, reicht es, verschiedene Varianten einer Frage zu erkennen und entsprechende Antworten dafür zu definieren. So antwortet ein einfacher Wetter-Bot beispielsweise auf die Frage „Wie wird das Wetter morgen?“ mit „Die Regenwahrscheinlichkeit beträgt 80 Prozent“. Solche Konversationen sind allerdings schnell zu Ende und der Anwender merkt bald, dass er es nicht mit einem menschlichen Gegenüber zu tun hat. Entwickler kombinieren deshalb häufig die Services für Spracherkennung und -ausgabe (Speech) mit denen für das Sprachverständnis (Language). Ein so programmierter „intelligenter“ Bot erkennt die Absicht des Sprechers oder Texters, kann das Gesagte oder Geschriebene in einen Kontext einordnen und die Konversation über mehrere Stufen hinweg führen.
Ähnlich vielfältig sind die Möglichkeiten, Services zur Bildanalyse zu nutzen. Sie vereinfachen etwa die Suche nach Motiven in einer Bilddatenbank und erlauben es, diese automatisiert zu klassifizieren.
Allen KI-Services gemeinsam ist, dass sie sich einfach per REST-API (Representational State Transfer) und URI-Aufruf (Uniform Resource Identifier) in eine Applikation oder einen Bot integrieren lassen.
Die Wahl des jeweiligen Anbieters hängt deshalb stark vom bereits genutzten Ökosystem ab. So lassen sich beispielsweise die AWS-KI-Services nahtlos mit anderen Amazon-Diensten kombinieren. Für welche Plattform man sich entscheidet, ist also eng damit verknüpft, ob und in welchem Ausmaß bereits die
Cloud-Dienste eines Providers genutzt werden und ob diese integriert werden sollen.
Die folgenden Abschnitte beschreiben die KI-Services von Amazon Web Services (AWS), Google, IBM und Microsoft. Detaillierte Auflistungen der Funktionen sowie Angaben zu den Preisen liefern die dazugehörigen Tabellen.
Anbieter / Services |
Amazon Web Services / Amazon KI |
Google / Cloud AI |
IBM / Watson |
Microsoft / Azure Cognitive Services |
Sprachanalyse: Text to Speech /Speech to Text / Sprachverständ-nis / Übersetzung |
● / ● / ● / ○ |
● / ● / ● / ● |
● / ● / ● / ● |
● / ● / ● / ● |
Sonstige Sprachanalysefunktionen |
○ |
○ |
● (Sprecher-Erkennung) |
● (Sprecher-Erkennung) |
Bildanalyse: Erkennen von Objekten / Szenen / Gesichtern / Emotionen / anstößigen Inhalten |
● / ● / ● / ● / ● |
● / ● / ● / ● / ● |
● / ● / ● / ○ / ○ |
● / ● / ● / ● / ● |
Sonstige Bildanalysefunktionen |
● (Identifikation von Prominenten) |
○ |
● (Identifikation von Speisen, Texterkennung in Bildern) |
● (Identifikation von Prominenten, Gesichtsmerkmalen, Texterkennung in Bildern) |
Videoanalyse: Indizierung / Inhaltsidentifikation / Erkennen von Szenenwechseln |
○ / ○ / ○ |
● / ● / ● |
○ / ○ / ○ |
● / ● / ○ |
Sonstige Videoanalyse- funktionen |
○ |
● (regionalspezifische Indizierung) |
○ |
● (Wackeln reduzieren, Videominiaturen erzeugen, anstößige Inhalte, Gesichter, Bewegungen erkennen) |
Sonstige KI-Funktionen: Datenexploration / intelligente Suchfunktionen / Rechtschreibprüfung / Empfehlungen |
○ / ○ / ○ / ○ |
○ / ○ / ○ / ○ |
● / ○ / ○ / ● |
● / ● / ● / ● |
Weitere KI-Funktionen |
○ |
● (intelligente Job-Suche) |
● (Persönlichkeits- analyse) |
● (Entscheidungs-Unterstützung, FAQ-Erstellung) |