com!-Academy-Banner

KI-Algorithmen im praktischen Einsatz

Gesichtserkennung

von - 11.10.2018
Der Name der Funktion ist Programm. Es geht um das Erkennen von Gesichtern auf Bildern. Über die API bekommt man die Koordinaten des umgebenden Rechtecks für das identifizierte Gesicht. Bei mehreren Bildern kann man prüfen, ob es sich um dasselbe Gesicht handelt. Dazu wird die statistische Genauigkeit für eine Übereinstimmung zurückgegeben.
Gesichtserkennung: Politisch umstritten ist die Möglichkeit, menschliche Gesichter auf Übereinstimmung zu überprüfen.
Dazu ein allgemeiner Hinweis: KI-Dienste beruhen zu weiten Teilen auf statistischen Verfahren. Hypothesen – wie die Übereinstimmung von Gesichtern – werden geprüft und das Ergebnis wird als berechnete Kennzahl im Intervall von 0 bis 1 zurückgegeben. Bei einem Wert von 0 kann man die Hypothese als nicht akzeptiert ansehen. Bei einem Wert von 1 würde die Hypothese als vollständig bestätigt gelten. Beide Werte sind Extremwerte und damit in der Praxis nicht üblich. Daher muss man festlegen, wie man die Höhe des Schwellenwertes bestimmt, um eine Hypothese als bestätigt anzusehen.
Das ist individuell für jeden Anwendungsfall auszutarieren. KI-Dienste können damit auch mal falsch liegen. Um bei dem Beispiel zu bleiben: Die KI Gesichtserkennung kann eine Übereinstimmung von zwei Bildern annehmen und sich letztendlich doch irren. Einem menschlichen Beurteiler kann es jedoch nicht anders ergehen.
Die Gesichtserkennung liefert noch weitere Attribute wie Alter, Emotion, Geschlecht, Haltung, Lächeln und Gesichtsbehaarung im Bild. Laden Sie für einen Test zwei Bilder auf die Webseite und sehen Sie sich die Ergebnisse an.
Falls Sie sich jetzt fragen, wo man diesen KI-Dienst anwenden kann, dann lautet die Antwort: Überall dort, wo eine Identifikation von Gesichtern auf Bildern benötigt wird, beispielsweise bei der Personenidentifikation in der Kriminalistik. Dabei wird das zu untersuchende Bild gegen die Bildressourcen einer Datenbank abgeglichen.

Spracheingabe-API

Diesen KI-Dienst führt Microsoft im Bereich Spracherkennung. Man kann damit Sprache in Text umwandeln. Die API kann so eingerichtet werden, dass sie Folgendes erkennt: Audioeingaben aus dem Mikrofon in Echtzeit, Audioeingaben aus einer anderen Echtzeitaudioquelle oder Audioeingaben aus einer Datei. In allen Fällen ist Echtzeit-Streaming möglich. Dabei werden die Audioinhalte an den Server gesendet und Teilergebnisse zurückgegeben.
Die Anwendungsmöglichkeiten für diese API sind schier unendlich. Ein gesprochener Satz wird in einen Datenstrom umgewandelt. Spracherkennung wird damit für den Alltag nutzbar. Jede App kann davon theoretisch profitieren. Die Art der Mensch-Maschine-Kommunikation wird auf ein neues Niveau gehoben. Gerade für mobile Apps und Webseiten kann die Spracherkennung die Tastatureingabe künftig teilweise oder ganz ersetzen. Ausprobieren kann man das unter dieser Azure-Webseite. Doch wird mich der Computer auch verstehen? Ohne Konfiguration und Übung wird das nicht passieren.

Preisbeispiel (Microsoft Cognitive Services)

Tarif

Entwickeln

Preis

Gesichtserkennung-API – Free

Bis zu 20 Transaktionen pro Minute

30.000 kostenlose Transaktionen pro Monat

Gesichtserkennungs-API – Standard

Bis zu 10 Transaktionen pro Sekunde

0–1.000.000 Transkationen

0,844 Euro pro 1000 Transaktionen

1.000.001–5.000.000 Transaktionen

0,675 Euro pro 1000 Transaktionen

5.000.000–100.000.000 Transaktionen

0,338 Euro pro 1000 Transaktionen

Über 100.000.000.000 Transaktionen

0,211 Euro pro 1000 Transaktionen

Gesichtsspeicher

Bilder mit bis zu 4 MByte speichern

0,211 Euro pro 1000 Bilder pro Monat

Verwandte Themen