KI macht smarte Sprachanwendungen möglich

Linguistischer Abgrund

von Klaus Manhart - 15.05.2019

Große Bedeutung: Spracherkennung steht laut IDC an zweiter Stelle beim Einsatz von KI-Technologie in deutschen Unternehmen.

(Quelle: IDC 2018 (n=350) )

Aus Anwendersicht scheint die Funktionalität sprachverstehender Systeme sehr einfach. Dieser Schein trügt. Die Systeme beruhen auf technisch sehr komplexen Algorithmen und auf Forschungsergebnissen der letzten sechzig Jahre. Blickt man hinter den Glanz von Siri und Co., so öffnet sich ein Abgrund an Problemen. Das maschinelle Übersetzen etwa - einer der Paradedisziplinen der KI - kämpft heftig mit semantischen, syntaktischen und grammatikalischen Mehrdeutigkeiten. Woher soll der Computer wissen, ob „Bank“ ein Geldinstitut oder eine Sitzgelegenheit meint oder „Leiter“ einen Gegenstand oder eine berufliche Position. Solche Begriffe können erst im Kontext korrekt übersetzt werden. Bei gesprochener Sprache kommen weitere Herausforderungen hinzu. Hier sind - anders als bei Geschriebenem - Wörter nicht ohne Weiteres identifizierbar, sondern müssen aus einem kontinuierlichen Strom von Lauten erst isoliert werden. Unterschiedliche Aussprachen, Sprechweisen oder Dialekte erschweren das Ganze.

Durchbruch mit Deep Learning

Solche Schwierigkeiten haben Natural Language Processing den Ruf eingebracht, einer der kompliziertesten Bereiche der Informatik zu sein. Dennoch haben es Informatiker und Computerlinguisten geschafft, die Sprachverarbeitung immer weiter zu verbessern - erst langsam, in den vergangenen Jahren schneller. Im Lauf der Zeit haben sich vor allem zwei maschinelle Übersetzungsverfahren etabliert: regelbasierte und statistische Ansätze. Regelbasierte Ansätze haben vor allem Linguisten verfolgt. Hier analysiert das Programm zunächst die grammatikalische Struktur des Quelltexts. Danach werden Wörter und grammatische Regeln in die Zielsprache übertragen und ein neuer Text wird erzeugt. Das geschieht in drei Schritten: Analyse, Transfer, Generierung.

Bei statistischen Ansätzen sind Sprachwissenschaftler mit grammatischen Analysen nicht mehr gefragt. Vielmehr werden dem Computer hier nicht Regeln beigebracht, sondern bestehende Übersetzungen werden statistisch ausgewertet. Schließlich ist fast jede Phrase und jeder Satz bereits mehrfach übersetzt worden. Es gilt nur, diese Quellen anzuzapfen und auszuwerten. Doch auch hier waren die Ergebnisse zunächst eher mager.

Wesentliche Fortschritte wurden erst erzielt, als der Einsatz von KI und neuronalen Netzen einen gewissen Reifegrad erreicht hatte. Die erfolgreichsten Sprach- und Übersetzungsprogramme basieren heute auf Deep Learning, einem Machine-Learning-Verfahren, bei dem Algorithmen anhand von vielen Beispielen lernen, die Bedeutung eines Textes zu erkennen - ähnlich einem Kind, das sprechen lernt. Google etwa senkte die Fehlerquote seiner Android-Spracherkennung durch Deep Learning auf einen Schlag um 25 Prozent.

KI-Tools für Sprachverarbeitung

Unternehmen nutzen sprachbasierte Dienste am besten über die großen Cloud-Anbieter. Sie können deren Services anpassen, über APIs in eigene Anwendungen integrieren und diese um KI-Aspekte erweitern. Kleinere Dienstleister kommen am ehesten für spezielle Anforderungen infrage.

Amazon: „Amazon Transcribe“ dient zur Spracherkennung. Die erzeugten Audiodateien können weiter analysiert werden. Der NLP-Dienst „Amazon Comprehend“ bietet Analyse-Tools für Textmining. „Amazon Translate“ unterstützt 12 Sprachen und übersetzt aus dem Englischen oder ins Englische.

Google Cloud AI: „Dialogflow Enterprise Edition“ ermöglicht die Entwicklung von Sprachschnittstellen wie Chatbots. Die „Cloud Natural Language“-API analysiert die Struktur und Bedeutung des Textes mit Modulen zum maschinellen Lernen, die von Entwicklern erstellt und trainiert werden können. Diese API lässt sich verwenden, um Informationen zu extrahieren und Gefühle und Absichten aus Gesprächen zu erkennen. Mit „Cloud Translation“ lässt sich Google Translate in eigene Anwendungen integrieren.

IBM Watson: Der „Language Translator“ Service übersetzt 21 Sprachen. „Natural Language Understanding“ analysiert Texte nach Schlüsselwörtern, Entitäten, Relationen und Stimmung. Der „Tone Analyzer“ untersucht den Sprachton und die Emotionen eines Textes. Was die Konkurrenz nicht bietet: Mit „Personality Insights“ kann man durch Textanalyse eine Art Persönlichkeitstests des Autors durchführen, etwa um Tendenzen zum Konsumverhalten abzuleiten.

Microsoft Cognitive Services: Microsoft unterteilt seine Angebote in „Language“ (geschriebene Sprache) und „Speech“ (gesprochene Sprache). Modelle in „Language“ transkribieren gesprochenen Text in geschriebenen und umgekehrt. Spracherkennung identifiziert Personen an ihrer Stimme, was sich für die Authentifizierung einsetzen lässt. „Azure Language Understanding Intelligent Services“ erstellt Zusammenfassungen von längeren Texten. Mit dem „Bots Framework“ können Bots gebaut werden.

Neofonie: Der Dienstleister aus Berlin stellt mit der API „TXT Werk“ eine Auswahl wichtiger Textanalyse-Dienste für deutschsprachige Texte als JSON-REST-Service bereit.

Seite

KI macht smarte Sprachanwendungen möglich

Linguistischer Abgrund

Durchbruch mit Deep Learning

Mehr zum Thema