Herausforderung KI
KI-Hype zwischen Erfolg und enttäuschter Hoffnung
von
Thomas
Hafen - 03.07.2020

Foto: Sergej Tarasov / shutterstock.com
Algorithmen sind dümmer, als wir denken. KI-Systeme sind nur in ihrem eng begrenzten Einsatzgebiet höchst effizient. Weichen die Voraussetzungen jedoch ab, droht ein Scheitern.
Es war eine Sternstunde der KI-Forschung: Google-CEO Sundar Pichai demonstrierte live auf der Entwicklerkonferenz „Google I/O 2018“ einen Sprachbot, dessen Konversationsfähigkeiten sich nicht mehr von denen eines Menschen unterscheiden ließen. Der Google-Assistent unterhielt sich locker mit seinen Gesprächspartnern, buchte einen Friseurtermin und ließ sich selbst von einer begriffsstutzigen Restaurantmitarbeiterin nicht aus der Ruhe bringen, die seine Reservierungsversuche torpedierte. Sogar typisch menschliche Füllwörter wie „mh“ und „äh“ fügte der Assistent in seine Rede ein. Basis dieser Revolution sei die Technologie Google Duplex, so Pichai, an der das Unternehmen seit Jahren arbeite.
Doch schon bald nach der beeindruckenden Demo mehrten sich Zweifel an der Echtheit der vorgespielten Konversationen. Nach Ansicht der investigativen Nachrichtenseite Axios unterschieden sich die Aufnahmen deutlich von realistischen Anrufen bei Friseuren oder in Restaurants. Die Gesprächspartner nannten nicht wie üblich den Namen des Betriebs, es gab keinerlei Hintergrundgeräusche und es wurden keine Telefonnummern abgefragt. Google reagierte auf diese Vorwürfe mit Schweigen, Nachfragen wurden nicht beantwortet.
Egal ob die Aufnahmen echt waren oder nicht - die meisten Chatbots und Sprachassistenten sind nach wie vor viel dümmer als uns die Anbieter glauben machen wollen. „Niemand mag Chatbots“, sagt Pieter Buteneers, CTO des Bot-Entwicklers Chatlayer.ai auf der „ML Conference 2019“ in München. „Die Interaktion mit ihnen ist meist eine lausige Erfahrung.“ Bots scheitern oft schon daran, zu verstehen, was der Mensch von ihnen will. Um mit einem Menschen eine Unterhaltung zu führen, muss der Assistent nämlich zunächst einmal dessen Absicht (Intent) erkennen. Traditionelle regelbasierte Systeme stoßen hier schnell an ihre Grenzen, daher setzen Bot-Programmierer für die Intent-Erkennung heute meist auf maschinelles Lernen. Unternehmen wie Microsoft, Google oder IBM bieten dazu vorgefertigte NLU-Systeme (Natural Language Unterstanding), die auf das Verstehen menschlicher Sprache trainiert wurden. Buteneers Erfahrungen mit diesen Werkzeugen waren jedoch alles andere als berauschend. „Wir testeten als Erstes Microsoft LUIS“, berichtet er auf der ML Conference 2019, „aber wir stellten sehr schnell fest, dass die Performance wirklich schlecht war.“ Nach Tests von Chatlayer.ai erzielte LUIS nur eine Trefferquote von 80 Prozent. „Das klingt hoch“, so Buteneer, „aber es bedeutet im Umkehrschluss, dass jede fünfte Konversation falsch klassifiziert wird.“ Google DialogFlow und IBM Watson leisteten sich deutlich weniger Fehler, irrten aber immer noch in 10 bis 15 Prozent der Fälle.
Ein zweiter Grund für die schlechte Erkennungsrate liegt in der Wahl des Trainingsmaterials. „Wenn die für das Training verwendeten Ausdrücke zu ähnlich sind, lernt das System die falschen Zusammenhänge“, erklärt Buteneers. Es sei daher wichtig, auf eine möglichst große Variation in der Wortreihenfolge zu achten und für Schlüsselwörter so viele Synonyme wie möglich einzubeziehen. Viele Unternehmen vergessen laut Buteneers außerdem, den Chatbot kontinuierlich zu verbessern. „Das liegt wahrscheinlich daran, dass viele Bots erst gar nicht in den produktiven Einsatz gelangen.“