Kluge Maschinen sind auf dem Vormarsch

So funktioniert Machine Learning

von Thomas Hafen - 05.01.2017
Maschinen spielen immer dann ihre Stärke aus, wenn der Mensch selbst nicht so genau weiß, was er berechnen und wie er es berechnen möchte. „Mit selbstlernenden Advanced-Analytics-Lösungen können Data Scientists effektiver strukturierte und unstrukturierte Daten verarbeiten“, sagt Christoph Hartmann, Business Expert Manufacturing bei SAS. Der Spezialist für Big-Data-Analysen setzt auf seiner Plattform Viya Machine Learning ein, um Anwender bei der Aufbereitung und Auswertung von Daten zu unterstützen.
„Machine-Learning-Verfahren erlauben es, Muster in großen Datenmengen zu identifizieren, ohne dass die Struktur der Muster explizit vor­gegeben sein muss“, ergänzt Ralf Herbrich, Director Machine Learning Science bei Amazon Web Services (AWS). Lernende Systeme können aber nicht nur Gesetzmäßigkeiten in großen Datenmengen erkennen und daraus Regeln zur Klassifizierung ableiten. Sie treffen auch Vorhersagen über zukünftige Ereignisse, bereiten wissensbasiert Entscheidungen vor oder treffen diese sogar ohne menschliches Zutun.
Christoph Hartmann
Business Expert
Manufacturing bei SAS
„Mit selbstlernenden Advanced-Analytics-Lösungen können Data Scientists effektiver strukturierte und unstrukturierte Daten verarbeiten.“
Die verschiedenen Machine-Learning-Ansätze lassen sich grob in zwei Kategorien einteilen: das Unsupervised Learning, bei dem die Systeme ohne menschliches Zutun lernen, und das Supervised Learning, bei dem ein menschlicher „Trainer“ oder „Lehrer“ die Lernergebnisse bewertet.
Prinzipiell läuft das Lernen aber in beiden Kategorien nach einem ähnlichen Schema ab: Das System erhält zunächst Trainingsdaten, anhand derer es ein Modell ableitet. Dieses wird mit Hilfe von Testdaten überprüft und optimiert. Nach einigen Durchgängen kann das Verfahren dann auf Daten angewandt werden, deren Klassifikation unbekannt ist, um Muster oder Assoziationen zu finden.
Unsupervised Learning ist vor allem dann sinnvoll, wenn die für eine Klassifikation notwendigen Informationen nicht von vornherein ersichtlich sind. Laut Olivia Klose, Technical Evangelist bei Microsoft, wird diese Methode zum Beispiel eingesetzt, um Daten zu segmentieren, der sogenannten Clusteranalyse, oder auch um in riesigen Datenmengen mit vielen Tausend Attributen relevante Zusammenhänge zu finden, der sogenannten Hauptkomponentenanalyse. Überwachte Lernmethoden eignen sich dagegen eher für Anwendungen, in denen der mensch­liche Trainer die unterschied­lichen Klassen kennt und die Trainingsdaten entsprechend kennzeichnen kann, etwa bei der Bild­erkennung.

Shallow Learning und Deep Learning

Häufig kommen beim maschinellen Lernen künstliche neuronale Netze (KNN) zum Einsatz, die die Informationsverarbeitung im Gehirn zum Vorbild haben. Wie dort lernen diese Netze, indem Verbindungen zwischen Neuronen verstärkt oder unterdrückt werden, sich die Gewichtung der Neuronen ändert, neue Neuronen hinzukommen oder inaktive abgebaut werden. Je nach Komplexität der verwendeten neuronalen Netze spricht man dabei von Shallow Learning oder Deep Learning. Beim Shallow Learning kommen nur ein oder wenige Neuronen zum Einsatz, Deep-Learning-Verfahren wie rekurrente oder „gefaltete“ neuronale Netze, sogenannte Convolutional Neural Networks, basieren auf komplexeren, mehrschichtigen Strukturen und können mehr als 1000 Neuronenschichten enthalten.
Neuronale Netze sind aber nicht die einzige Methode für maschinelles Lernen. Lernende Filter, etwa zur Spam-Erkennung, basieren beispielsweise meist auf dem Satz von Bayes (Bayes-Theorem), mit dem sich bedingte Wahrscheinlichkeiten berechnen lassen. So zieht die Machine auch mit unsicherem Wissen Schlussfolgerungen.
Bei Klassifizierungen oder Kategorisierungen beispielsweise von Texten, Bildern oder numerischen Werten kommen häufig weitere Machine-Learning-Methoden wie die logistische Regression, Support Vector Machine (SVM), Relevance Vector Maschine (RVM), Entscheidungsbäume (Decision Trees), Bootstrap Aggregating (Bagging), Stochastic Gradient Descent (SGD) oder Random Forests zum Einsatz.