KI macht smarte Sprachanwendungen möglich
Linguistischer Abgrund
von Klaus Manhart - 15.05.2019
Aus Anwendersicht scheint die Funktionalität sprachverstehender Systeme sehr einfach. Dieser Schein trügt. Die Systeme beruhen auf technisch sehr komplexen Algorithmen und auf Forschungsergebnissen der letzten sechzig Jahre. Blickt man hinter den Glanz von Siri und Co., so öffnet sich ein Abgrund an Problemen. Das maschinelle Übersetzen etwa - einer der Paradedisziplinen der KI - kämpft heftig mit semantischen, syntaktischen und grammatikalischen Mehrdeutigkeiten. Woher soll der Computer wissen, ob „Bank“ ein Geldinstitut oder eine Sitzgelegenheit meint oder „Leiter“ einen Gegenstand oder eine berufliche Position. Solche Begriffe können erst im Kontext korrekt übersetzt werden. Bei gesprochener Sprache kommen weitere Herausforderungen hinzu. Hier sind - anders als bei Geschriebenem - Wörter nicht ohne Weiteres identifizierbar, sondern müssen aus einem kontinuierlichen Strom von Lauten erst isoliert werden. Unterschiedliche Aussprachen, Sprechweisen oder Dialekte erschweren das Ganze.
Durchbruch mit Deep Learning
Solche Schwierigkeiten haben Natural Language Processing den Ruf eingebracht, einer der kompliziertesten Bereiche der Informatik zu sein. Dennoch haben es Informatiker und Computerlinguisten geschafft, die Sprachverarbeitung immer weiter zu verbessern - erst langsam, in den vergangenen Jahren schneller. Im Lauf der Zeit haben sich vor allem zwei maschinelle Übersetzungsverfahren etabliert: regelbasierte und statistische Ansätze. Regelbasierte Ansätze haben vor allem Linguisten verfolgt. Hier analysiert das Programm zunächst die grammatikalische Struktur des Quelltexts. Danach werden Wörter und grammatische Regeln in die Zielsprache übertragen und ein neuer Text wird erzeugt. Das geschieht in drei Schritten: Analyse, Transfer, Generierung.
Bei statistischen Ansätzen sind Sprachwissenschaftler mit grammatischen Analysen nicht mehr gefragt. Vielmehr werden dem Computer hier nicht Regeln beigebracht, sondern bestehende Übersetzungen werden statistisch ausgewertet. Schließlich ist fast jede Phrase und jeder Satz bereits mehrfach übersetzt worden. Es gilt nur, diese Quellen anzuzapfen und auszuwerten. Doch auch hier waren die Ergebnisse zunächst eher mager.
Wesentliche Fortschritte wurden erst erzielt, als der Einsatz von KI und neuronalen Netzen einen gewissen Reifegrad erreicht hatte. Die erfolgreichsten Sprach- und Übersetzungsprogramme basieren heute auf Deep Learning, einem Machine-Learning-Verfahren, bei dem Algorithmen anhand von vielen Beispielen lernen, die Bedeutung eines Textes zu erkennen - ähnlich einem Kind, das sprechen lernt. Google etwa senkte die Fehlerquote seiner Android-Spracherkennung durch Deep Learning auf einen Schlag um 25 Prozent.