Intelligente Assistenten

Das leistet Sprach- und Gesichtserkennung

von - 13.10.2016
Sprach- und Gesichtserkennung
Foto: vectorstockstoker / Shutterstock.com
Moderne Sprach- und Gesichtserkennungs-Lösungen wollen die Nutzererfahrung revolutionieren. Auf einem Event der IT-Dienstleistungsfirma ti&m diskutierten Experten in Zürich nun über die Möglichkeiten der Technologien.
Ende des Monats kommt Amazon Echo in den deutschsprachigen Handel. Besitzer können dann ihre Internet-Dienste per Sprache steuern, sich die Wikipedia vorlesen lassen und natürlich auf Zuruf bei dem Online-Versender einkaufen. Amazon Echo könnte nach Meinung von Experten einen Durchbruch für die computerbasierte Sprachverarbeitung bedeuten. Einige Spezialisten für Sprach- und Gesichtserkennung trafen sich nun auf einem Event der IT-Dienstleistungsfirma ti&m in Zürich, um die Chancen der Technologie auszuloten.
Jürg Schleier, Spitch
Jürg Schleier von Spitch will Personen anhand ihrer Aussprache identifizieren können.
So beschäftigt sich etwa die Firma Spitch mit der Identifikation des Sprechers. Anhand einer Sprachprobe von circa einer Minute Länge können Personen künftig eindeutig identifiziert werden. Bei Banken und Betreibern von Call Centern stoße die Technologie auf großes Interesse. Auch unerwünschte Personen oder Betrüger könnten vom Algorithmus erkannt und schon vom Computer abgewiesen werden, bevor sie zu einem Agenten durchgestellt werden.
Bis zur Marktreife entwickelt ist mittlerweile auch die Gesichtserkennung. Das Start-up KeyLemon hat auf der Basis einer eigens entwickelten Technologie eine Sicherheitslösung für Online-Banken im Portfolio. Kunden können sich auf dem Handy durch einen Gesichts-Scan beim Internet-Banking anmelden oder auch Zahlungen freigeben. Dabei scannt KeyLemon das Gesicht des Benutzers, überträgt und speichert aber nur ein individuell typisches Muster von Merkmalen, sagte CEO Gilles Florey. "Gesicht, Gestik und Sprache sind natürliche Identifikationsmerkmale. Ich erkenne niemanden am Fingerabdruck", betonte er die Vorzüge der Technologien.
Neu arbeitet KeyLemon an einer Adaptation der Gesichtserkennung für schwierige Umgebungsbedingungen. Denn die Videolösung benötigt ein gut ausgeleuchtetes Motiv. Kameras mit Infrarotsensoren könnten auch eine Gesichtserkennung in dunklen Umgebungen erlauben. Dann stünden den nächtlichen Bankgeschäften nichts mehr im Wege.

Lächeln für einen Brausedrink

Eine Geschäftsanwendung mit Sprach- oder Gesichtserkennung ist nach den Worten von René Konrad, Product Sales bei ti&m, kein kostspieliges Großprojekt mehr. Beide Technologien stünden vielmehr für kleines Geld auf Abruf zur Verfügung. So haben die Zürcher einen Prototyp eines Verkaufsautomaten entwickelt, der per Sprache bedient wird und ein Lächeln als Bezahlung akzeptiert. Dabei kommen nach Aussage Konrads hauptsächlich Standard-Technologien zum Einsatz, die via Cloud bezogen werden können.
Konkret hat ti&m für Gesichts- und Spracherkennung die Cortana-Technologie von Microsoft angezapft. Bei der Lächel-Erkennung und der Produktauswahl wurden zusätzlich Google-Kapazitäten genutzt. Nach den Worten Konrads waren für die gesamte Verkaufsapplikation fünf API-Calls notwendig. Der Prototyp sei zwar rudimentär, er demonstriere aber, dass eine Variante von Amazon Echo durchaus ohne Millioneninvestitionen realisierbar sei, sagte der ti&m-Manager.
Verwandte Themen