Die dunkle Seite der Künstlichen Intelligenz

Tod von Captcha und Passwort

von Thomas Hafen - 09.04.2019

Captcha (Completely Automated Public Turing Test to Tell Computers and Humans Apart) sollen automatisierte Zugriffe auf Webseiten, Formulare und Suchdienste durch Bots und Crawler verhindern oder zumindest erschweren. Sie zeigen Buchstaben- und Zahlenkombinationen oder verschwommene Bilder, die zumindest theoretisch nur von Menschen erkannt werden können. Captchas stellen allerdings die KI nicht vor allzu große Probleme. „Machine Learning wird bereits häufig zum Knacken von Captchas eingesetzt“, beobachtet Max Heinemeyer. Bereits 2012 publizierten Claudia Cruz-Perez und ihre Kollegen von der Universidad de las Américas Puebla im mexikanischen Cholula eine KI-basierte Methode zur Captcha-Überwindung. Mit Hilfe der SVM-Methode (Support Vector Machine) ließen sich die Rätsel mit einer Erkennungsrate von 82 Prozent knacken. Durch den Einsatz von Deep Learning erhöhte sich der Erfolg sogar auf über 90 Prozent.

Falsche URLs und Bot-Netze

Ein weiteres Einsatzgebiet für KI könnte die automatisierte Erstellung von gefälschten Webadressen sein. Angreifer kreieren kontinuierlich neue Fake-URLs für ihre Phishing- und Malware-Kampagnen, die ebenso kontinuierlich geblockt werden. „2018 produzierten Kriminelle im Monat durchschnittlich 17 Millionen solcher bösartigen Adressen, die meist nur eine Lebensdauer von wenigen Minuten oder Stunden hatten“, rechnet Rajarshi Gupta, Head of AI beim Sicherheitsanbieter Avast, vor.

Die Kriminellen stehen dabei nicht nur vor der Herausforderung, möglichst viele Domains in kurzer Zeit zu produzieren, sondern diese auch echt wirken zu lassen. „Zufällig aus Buchstaben und Zahlen zusammengewürfelte oder aus Wörterbucheinträgen generierte Domain-Names sind leicht zu erkennen“, erklärt Gupta. „Der Einsatz von KI könnte zu realistischer klingenden URLs führen, die schwerer zu entdecken sind.“

Auch Bot-Netze ließen sich laut dem Avast-Experten effizienter betreiben. Traditionell nutzen Kriminelle bekannte Schwachstellen und Backdoors, etwa in IP-fähigen Überwachungskameras oder Routern, um Heimnetze und IoT-Umgebungen zu infizieren. Von diesen Einstiegspunkten aus scannen sie skriptbasiert das Inventar auf weitere Infektionsmöglichkeiten.

Machine-Learning-Methoden im Cybercrime

Convolutional Neural Network (CNN): Zwei- oder dreidimensionales Netzwerk, bei dem die Aktivität eines Neurons über eine diskrete Faltung (Convolution) berechnet wird. In mehreren aufeinanderfolgenden Faltungsebenen (Convolutional Layer) reagieren die Neuronen im Sinne eines rezeptiven Felds nur auf Reize aus der lokalen Umgebung des vorherigen Layers. Cybercrime-Einsatzgebiete: Bild- und Spracherkennung, Klassifikation und Identifikation potenzieller Opfer.

Deep Residual Network: Ähnlich wie LSTM-Netze können Deep Residual Networks weiter zurückliegende Erfahrungen berücksichtigen. Sie tun dies, indem Schichten im Netzwerk übersprungen und direkte Verbindungen über mehrere Layer hinweg hergestellt werden. Cybercrime-Einsatzgebiete: Überwindung von Captchas.

Generative Adversarial Network (GAN): GANs bestehen aus zwei neuronalen Netzen, die versuchen, sich gegenseitig auszutricksen. Das Generator-Netzwerk erzeugt möglichst realistische Artefakte, beispielsweise Bilder, das Diskriminator-Netz versucht, diese von echten Ereignissen zu unterscheiden. Im Zusammenspiel werden die Ergebnisse des Generators immer besser, bis das Diskriminator-Netz sie nicht mehr von der Realität unterscheiden kann. Cybercrime-Einsatzgebiete: Fälschung von Fotos, Videos und Audiodaten (Deepfakes), Knacken von Passwörtern, Erzeugung echt wirkender Domain-Namen.

Hidden Markow Model (HMM): Das nach dem russischen Mathematiker A. A. Markow benannten stochastische Modell beschreibt den zufälligen Übergang eines Zustands in einen anderen, wobei die Zustände in der Markow-Kette nicht oder nur zum Teil beobachtet werden können und die Wahrscheinlichkeit des Übergangs nur von aktuellen, nicht aber von vorhergehenden Zuständen abhängt. Cybercrime-Einsatzgebiete: Erzeugung von Spam-Mails, die nicht von Spam-Filtern erkannt werden, Generierung von Passwörtern und Social-Media-Posts.

K-Means: Ein Verfahren zur Ähnlichkeitsanalyse, bei der Objekte so in Cluster eingeteilt werden, dass die Summe der Varianzen minimiert wird. Cybercrime-Einsatzgebiete: Klassifikation und Identifikation potenzieller Opfer.

Long Short-Term Memory (LSTM): Herkömmliche Rekurrente Neuronale Netze (RNN) haben das Problem, dass Informationen um so unzuverlässiger zum Ergebnis einer Berechnung beitragen, je weiter sie zurückliegen. Es kann zum Verschwinden beziehungsweise zum Aufblähen („Explodieren“) von Fehlerwerten kommen.

LSTM-Netze können sich dagegen an frühere Zustände „erinnern“, Informationen gezielt bewerten und so auch weit zurückliegende Ereignisse in die Entscheidungsfindung miteinbeziehen. Cybercrime-Einsatzgebiete: Spracherkennung, Spear Phishing, Domain-Generierung.

Random Forest: Klassifikationsverfahren, das aus mehreren, nicht korrelierten Entscheidungsbäumen besteht. Für eine Klassifikation darf jeder Baum eine Entscheidung treffen, die Klasse mit den meisten Stimmen entscheidet über die endgültige Einordnung. Cybercrime-Einsatzgebiete: Klassifikation und Identifikation potenzieller Opfer.

Support Vector Machine (SVM): Eine weitere Methode zur Klassifikation von Objekten. Ziel der SVM ist es, Objekte so einzuteilen, dass zwischen den Klassen ein möglichst großer objektfreier Bereich liegt. Cybercrime-Einsatzgebiete: Klassifikation und Identifikation potenzieller Opfer, Überwindung von Captchas.

Seite

Die dunkle Seite der Künstlichen Intelligenz

Tod von Captcha und Passwort

Falsche URLs und Bot-Netze

Mehr zum Thema