Malware-Prävention mit Machine Learning

Lernen & Klassifizieren

von - 05.09.2017
Während des maschinellen Lernprozesses kristallisiert sich gleichzeitig das dafür am besten geeignete Modell heraus. Dabei werden zahlreiche Modelle parallel ausprobiert, einige verworfen und nur die effektivsten Modelle weiterent­wickelt. Dazu trainiert man die Modelle mit bekannten Malware-Dateien; Rückkopplungseffekte in diesem Lernprozess sorgen für weitere Verbesserungen.
Das finale Modell wird dann aus der Testumgebung in die Produktionsumgebung überführt. Die für die Modellbildung eingesetzten Algorithmen veröffentlichen die Anbieter dieser Methode allerdings nicht.
Die Tausenden von Eigenschaften jeder Datei werden nun überprüft, um Malware von erwünschten Dateien zu unterscheiden. Durch das Machine Learning entstehen Muster, die auch dann erkennbar bleiben, wenn es Abweichungen gibt, beispielsweise durch das Zippen einer Datei. Unerkannt bliebe hier nur ein Angreifer, der völlig neue Verfahren und ganz neue Werkzeuge verwenden würde, aber auch das nur bis zur ersten Identifikation.

Klassifizieren

Sind die Modelle vorhanden, so können sie in einer Engine, die der Anbieter lokal oder via Cloud bereitstellt, in Echtzeit zur Klassifizierung unbekannter Dateien vor der Ausführung verwendet werden. Das Ergebnis ist ein „Confidence Score“ für jede untersuchte Datei – ein Prozentwert, der angibt, wie verlässlich beziehungsweise gefährlich die Datei ist. Mit diesem Score kann ein Administrator über das weitere Schicksal der Datei entscheiden, sie also beispielsweise blockieren, überwachen oder freigeben. Eine derartige Analyse dauert nur Millisekunden und benötigt erheblich weniger Ressourcen – hinsichtlich RAM und CPU – als herkömmliche Analyseverfahren. Auch die täglichen Signatur-Updates entfallen hier.
Es stellt sich die Frage, was mit den Einschätzungen der Machine-Learning-Modelle geschehen soll. Als Richtlinie gilt: Sobald der Confidence Score niedriger als 20 Prozent ist, handelt es sich um Software, die man weiter untersuchen sollte. Bei gefährlichen Files muss es sich nicht unbedingt um Malware handeln – es können auch Administrations-Tools sein, die benutzt werden, um Sicherheitsrichtlinien oder Mechanismen zu umgehen oder auch, um Systeme zu missbrauchen. Mit dem Machine-Learning-Verfahren gibt es also auch keine Grauzone zwischen echter Malware und dem, was auf den Whitelists steht.

Mehrstufiger Prozess

Der Begriff Machine Learning zur Charakterisierung dieses Verfahrens ist etwas missverständlich, da das Lernen nur ein Schritt im ganzen Prozess ist. Der eigentliche Kern ist die Entwicklung merkmalgesteuerter Modelle. Model Based Protection wäre wohl ein treffenderer Begriff gewesen, aber Machine Learning ist nun mal eingeführt. Und worauf es ankommt, ist schließlich, dass die Sache funktioniert.
In der Praxis wird man signaturbasierte Methoden nicht einfach durch Machine Learning ersetzen, sondern einen mehrstufigen Prozess einrichten. Dabei kann eine signaturbasierte Vorfilterung etwa mit Windows Defender erfolgen –  was dabei nicht erkannt wurde, wird vom ML-Verfahren übernommen. Das Schutzniveau lässt sich so deutlich erhöhen, auch Ransomware hat in diesem Umfeld kaum eine Chance.
Verwandte Themen