Maschinelles Lernen (ML) in der Cybersicherheit

8. September 2023

In diesem Artikel über maschinelles Lernen in der Cybersicherheit erläutern wir die zentralen Elemente des maschinellen Lernens, einschließlich Definition, Arten und Herausforderungen. Wir behandeln die Rolle des maschinellen Lernens in der Cybersicherheit und geben Leitlinien für die Bewertung von maschinellen Lernmodellen. Dieser Artikel enthält außerdem einen Überblick über Vorteile und Anwendungsfälle.

Erfahren Sie, warum KI, ML und Automatisierung für die proaktive Erkennung von Risiken erforderlich sind und wie sie IT-Teams und Interessengruppen helfen, fundierte Entscheidungen zu treffen.

Was ist Machine Learning bzw. maschinelles Lernen?

Maschinelles Lernen ist ein Teilbereich der künstlichen Intelligenz (KI), der Systemen das automatische Erkennen von Merkmalen, die Klassifizierung von Informationen, das Erfassen von Mustern in Daten, das Treffen von Feststellungen und Vorhersagen sowie die Gewinnung von Erkenntnissen ermöglicht. Historische Daten werden an Systeme übermittelt, die mithilfe von Algorithmen Modelle des maschinellen Lernens erstellen, die die Systeme zur Erhöhung der Genauigkeit kontinuierlich trainieren.

Die Qualität eines maschinellen Lernmodells hängt von zwei wesentlichen Aspekten ab, die für Machine Learning im Bereich der Cybersicherheit besonders wichtig sind:

Qualität der Eingabedaten („Wo man Müll hineinsteckt, kommt auch Müll heraus.”)
Abstimmung des Algorithmus auf den Anwendungsfall

Die Wahl des Algorithmus für Machine-Learning-Modelle hängt von der Art der zur Verfügung stehenden Daten und der spezifischen Aufgabe ab.

Beispiele für den Einsatz von Algorithmen für das maschinelle Lernen in der Cybersicherheit sind:

Entscheidungsbaum-Algorithmus – zur Erkennung und Klassifizierung von Angriffen
Algorithmen zur Dimensionalitätsreduktion – zur Entfernung verrauschter und irrelevanter Daten
K-Means-Clustering – zur Erkennung von Malware
K-Nächste-Nachbarn-Klassifikator (kNN) – für die Gesichtserkennung bei der Authentifizierung
Lineare Regression – zur Vorhersage von Netzwerksicherheitsergebnissen
Logistische Regression – zur Betrugsaufdeckung
Naïve-Bayes-Algorithmus – zur Erkennung von Eindringlingen
Random-Forest-Algorithmus – zur Klassifizierung von Phishing-Angriffen
SVM-Algorithmus (Support Vector Machine) – zur Klassifizierung, Erkennung und Vorhersage von IP-Adressen und Port-Adressen auf der schwarzen Liste

Ursprung des Begriffs maschinelles Lernen

Der amerikanische Wissenschaftler Arthur Samuel prägte 1959 den Begriff maschinelles Lernen. Er definierte ihn als „das Forschungsgebiet, das Computern die Fähigkeit verleiht, zu lernen, ohne ausdrücklich programmiert zu werden”. Er entwickelte eines der weltweit ersten erfolgreichen maschinellen Lernprogramme, das Samuel Checkers-playing Program, das besser Dame spielen konnte als der Entwickler des Programms.

Arten des maschinellen Lernens

Überwachtes maschinelles Lernen in der Cybersicherheit

Überwachtes maschinelles Lernen in der Cybersicherheit wird zur Klassifizierung von Daten oder zur Vorhersage von Ergebnissen verwendet. Dabei werden gelabelte Datensätze verwendet, um Algorithmen zu trainieren und die Variablen zu definieren, die auf Korrelationen geprüft werden sollen, wobei die Eingaben und Ausgaben festgelegt werden. Im Rahmen des Kreuzvalidierungsverfahrens passt das Modell bei der Eingabe von Eingabedaten seine Gewichtungen an, bis es entsprechend angepasst ist, um eine Über- oder Unteranpassung zu vermeiden.

Überwachtes maschinelles Lernen wird in der Cybersicherheit auf verschiedene Weise eingesetzt, unter anderem:

Identifizierung eindeutiger Labels für Netzwerkrisiken wie Scanning und Spoofing
Vorhersage oder Klassifizierung einer Zielvariable für eine bestimmte Sicherheitsbedrohung (z. B. einen verteilten Denial-of-Service- bzw. DDoS-Angriff)
Training von Modellen mit gutartigen und böswilligen Stichproben, damit sie vorhersagen können, ob neue Stichproben böswillig sind

Neben dem maschinellen Lernen in der Cybersicherheit kann überwachtes maschinelles Lernen auch für andere Zwecke eingesetzt werden:

Binäre Klassifizierung – Unterteilung von Daten in zwei Kategorien
Klassifizierung nach mehreren Klassen – Auswahl zwischen mehr als zwei Antworttypen
Regressionsmodelle – Vorhersage von kontinuierlichen Werten
Ensemble-Lernen – Kombinieren der Vorhersagen mehrerer maschineller Lernmodelle, um eine genaue Vorhersage zu treffen

Beispiele für Techniken des überwachten maschinellen Lernens in der Cybersicherheit:

Adaptives Boosten und logistische Regression
Lineare Regression
Logistische Regression
Naïve Bayes
Neuronale Netze
Random Forest
Support Vector Machines (SVM)

Bestärkendes maschinelles Lernen in der Cybersicherheit

Bestärkendes maschinelles Lernen bzw. Reinforcement Machine Learning ist ein Modell für maschinelles Lernen im Bereich der Cybersicherheit, das dem überwachten maschinellen Lernen ähnelt. Beim bestärkenden maschinellen Lernen wird der Algorithmus jedoch nicht anhand von Stichprobendaten, sondern durch Versuch und Irrtum trainiert. Dabei werden positive oder negative Hinweise gegeben und registriert, wobei der Algorithmus so programmiert ist, dass er Bestätigung sucht und Sanktionen vermeidet.

Reinforcement Machine Learning wird häufig eingesetzt, um einer Maschine beizubringen, einen mehrstufigen Prozess durchzuführen, bei dem die Regeln klar definiert sind, z. B. beim Training von Robotern.

In der Cybersicherheit wird bestärkendes maschinelles Lernen auf verschiedene Weise genutzt, unter anderem:

Simulation von Angriffen zum Trainieren von ML-Modellen für die Erkennung von und Reaktion auf Angriffe in Echtzeit
Autonome Erkennung von Eindringlingen
Cyberphysische Systeme
Abwehr von verteilten Denial-of-Service-Attacken (DDoS)

Neben dem maschinellen Lernen für die Cybersicherheit wird Reinforcement Machine Learning häufig in Situationen eingesetzt, in denen:

Ein Modell der Umgebung bekannt ist, aber eine analytische Lösung nicht verfügbar ist
Lediglich ein Simulationsmodell der Umgebung gegeben ist
Die einzige Möglichkeit für die Erfassung von Umgebungsdaten in der Interaktion mit der Umgebung besteht

Beispiele für Techniken des bestärkenden maschinellen Lernens im Bereich der Cybersicherheit:

Deep Deterministic
Deep Q Network (DQN)
Policy Gradient (DDPG)

Unüberwachtes maschinelles Lernen in der Cybersicherheit

Unüberwachtes maschinelles Lernen in der Cybersicherheit wird zur Analyse und Gruppierung von nicht gelabelten Datensätzen (z. B. Fotos, Audio- und Videoaufnahmen, Artikel oder Social-Media-Beiträge) verwendet. Es kann versteckte Muster oder Datengruppierungen ohne menschliches Eingreifen erkennen.

Der Algorithmus durchsucht Datensätze nach Mustern, die zur Gruppierung von Informationen in Teilmengen verwendet werden. Unüberwachtes maschinelles Lernen wird am häufigsten für Deep Learning verwendet.

Unüberwachtes maschinelles Lernen in der Cybersicherheit kann auf verschiedene Weise eingesetzt werden, unter anderem:

Erkennen von ungewöhnlichem Verhalten
Identifizieren von neuen Angriffsmustern
Entschärfen von Zero-Day-Angriffen

Neben dem maschinellen Lernen für die Cybersicherheit kann das unüberwachte maschinelle Lernen auch für andere Zwecke verwendet werden:

Erkennung von Anomalien
Association Mining
Clusterbildung
Dimensionalitätsreduktion (d. h. Verringerung der Anzahl der Variablen in einem Datensatz)

Beispiele für Techniken des unüberwachten maschinellen Lernens in der Cybersicherheit:

K-Means-Clustering
Neuronale Netze
Hauptkomponentenanalyse (Principal Component Analysis, PCA)
Probabilistisches Clustering
Singulärwertzerlegung (Singular Value Decomposition, SVD)

Halbüberwachtes maschinelles Lernen in der Cybersicherheit

Halbüberwachtes maschinelles Lernen in der Cybersicherheit kombiniert überwachtes und unüberwachtes maschinelles Lernen. Es zieht einen kleinen gelabelten Datensatz aus einem größeren, nicht gelabelten Datensatz zur Klassifizierung und Merkmalsextraktion heran, wenn nicht genügend gelabelte Daten für einen überwachten Lernalgorithmus vorhanden sind. Es wird auch verwendet, wenn das Labeln eines Datensatzes unverhältnismäßig teuer ist.

Halbüberwachtes maschinelles Lernen für die Cybersicherheit kann für Folgendes verwendet werden:

Adversarische neuronale Netze
Identifizierung von böswilligen und gutartigen Bots
Erkennung von Malware
Erkennung von Ransomware

Neben maschinellem Lernen für die Cybersicherheit kann halbüberwachtes Lernen auch für andere Zwecke eingesetzt werden:

Betrugsaufdeckung
Datenlabeling
Maschinelle Übersetzung

Beispiele für Techniken für halbüberwachtes Lernen in der Cybersicherheit:

Regularisierung der Konsistenz
Label Propagation
Pseudo-Labeling
Selbsttraining

Vorteile des maschinellen Lernens in der Cybersicherheit

Ermöglicht die sichere Umsetzung von BYOD (Bring Your Own Device) und CYOD (Choose Your Own Device)
Automatisiert Cybersecurity-Prozesse
Erkennt Bedrohungen im Frühstadium
Ermöglicht anpassungsfähige und proaktive Verteidigungssysteme
Beschleunigt die Bedrohungserkennung und Reaktionszeiten
Identifiziert schwer zu findende Netzwerkschwachstellen
Zieht Lehren aus früheren Angriffen, um zukünftige Angriffe auf der Grundlage ähnlicher Profile zu verhindern
Vereinfacht die schnelle Identifizierung, Priorisierung und Behebung von Angriffen für Sicherheitsanalysten
Minimiert menschliche Fehler
Verfügt über hochentwickelte Authentifizierungsmechanismen wie Gesichtserkennung, Fingerabdruckerkennung, Bewegungsverfolgung, Netzhautscanner und Spracherkennung
Unterstützt die Abwehr von Sicherheitsbedrohungen gegen Endpunkte
Bietet Einblicke in fortschrittliche Bedrohungen
Reduziert die Arbeitsbelastung
Scannt enorme Datenmengen zur Identifizierung von Malware
Versteht Nuancen des normalen Verhaltens, um kleinste Abweichungen zu erkennen

Anwendungsfälle für maschinelles Lernen in der Cybersicherheit

Erkennung und Verhinderung von DDoS-Angriffen und Botnets

Modelle können so trainiert werden, dass sie den umfangreichen Datenverkehr zwischen verschiedenen Endpunkten analysieren, um DDoS-Angriffe (z. B. Anwendungs-, Protokoll- und volumetrische Angriffe) und Botnets proaktiv zu erkennen und vorherzusagen.

Erkennung von Web-Shells

Modelle des maschinellen Lernens können so trainiert werden, dass sie Web-Shells trotz ausgeklügelter Umgehungstechniken erkennen.

Es hat sich gezeigt, dass die Erkennung von Web-Shells mit maschinellem Lernen weitaus genauer ist als mit anderen Systemen, da die Modelle vollständige Vorhersagen für unbekannte Seiten deutlich verbessern können.

Erkennung und Klassifizierung von Bedrohungen

Maschinelles Lernen wird in Anwendungen eingesetzt, um die Erkennung von und die Reaktion auf Angriffe zu unterstützen und zu beschleunigen. Große Datensätze von Sicherheitsereignissen werden analysiert, um Muster böswilliger Aktivitäten zu erkennen.

Wenn ein Vorfall erkannt wird, ergreift das maschinelle Lernmodell automatisch Maßnahmen. Die Datensätze stammen aus verschiedenen Quellen, z. B. aus Kompromittierungsindikatoren (Indicators of Compromise, IOCs) und aus Protokolldateien von Sicherheitssystemen.

Bekämpfung von Malware

Modelle können so trainiert werden, dass sie Antivirenlösungen bei der Bekämpfung aller Arten von Malware wie Adware, Backdoors, Ransomware, Spyware und Trojanern unterstützen.

Netzwerk-Risiko-Scoring

Mithilfe von maschinellem Lernen können Datensätze früherer Cyberangriffe analysiert werden, um Bereiche zu ermitteln, die Ziel bestimmter Angriffe waren, und genaue Risiko-Scores zuzuweisen, die den Ort, die Wahrscheinlichkeit und die Auswirkungen eines Angriffs quantifizieren. Diese Daten helfen Unternehmen bei der Priorisierung der Ressourcenzuweisung und bei der Steuerung von Reaktionsmaßnahmen im Falle eines weitreichenden Angriffs.

Schutz vor Angriffen auf Anwendungen

Durch maschinelles Lernen können Modelle zur Erkennung von Anomalien bei HTTP/S-, SQL- und XSS-Angriffen trainiert werden, um Anwendungen zu schützen, die für verschiedene Layer-7-Angriffe anfällig sind.

Sicherung mobiler Endgeräte

Maschinelles Lernen wird in verschiedenen Erkennungs- und Reaktionsanwendungen eingesetzt, um Bedrohungen für mobile Geräte zu bekämpfen. Ein weiterer Einsatzbereich für hochentwickeltes maschinelles Lernen ist der Schutz vor Angriffen mit sprachbasierten Befehlen, indem Modelle trainiert werden, die zwischen der Stimme des Besitzers und der Stimme von Hackern unterscheiden können.

Sicherheitsoperationszentren (SOCs)

Dieser Anwendungsfall für maschinelles Lernen unterstützt die Überwachung und Erkennung von Sicherheitsbedrohungen und die Reaktion darauf, indem die Analyse umfangreicher, in großen Mengen generierter Daten automatisiert wird.

Vorbeugung von Phishing-Angriffen

Mithilfe von maschinellem Lernen lassen sich Daten in Echtzeit analysieren und Phishing-E-Mails erkennen und stoppen. Durch das Trainieren von Modellen des maschinellen Lernens auf E-Mail-Kopfzeilen, Textkörper und Zeichensetzungsmuster können sie lernen, zwischen schädlichen und harmlosen E-Mails zu unterscheiden und Muster zu erkennen, um mögliche Phishing-Angriffe einzuordnen und aufzudecken. Die Modelle können auch so trainiert werden, dass sie böswillige URLs erkennen, die in harmlos erscheinenden E-Mails eingebettet sind.

Aufgabenautomatisierung

Maschinelles Lernen eignet sich hervorragend zur Automatisierung zeitaufwändiger, sich wiederholender und fehleranfälliger Sicherheitsaufgaben wie der Analyse von Netzwerkprotokollen, der Bedrohungsanalyse, der Bewertung von Informationen und der Beurteilung von Schwachstellen. Zusätzlich zur Automatisierung kann maschinelles Lernen Bedrohungen und Anomalien schneller und effektiver identifizieren, als Menschen dies könnten.

Analyse des Benutzer- und Entitätsverhaltens (UEBA)

UEBA nutzt maschinelles Lernen, um vollständige Transparenz über Benutzer und Entitäten zu bieten, Kontokompromittierungen zu erkennen und böswillige oder anomale Insideraktivitäten zu erkennen und zu entschärfen. Mithilfe von ML-Algorithmen werden Basislinien für normale Verhaltensmuster erstellt und zur Erkennung ungewöhnlicher Aktivitäten genutzt, z. B. Anmeldung durch einen Mitarbeiter spät in der Nacht, ein inkonsistenter Fernzugriff oder eine ungewöhnlich hohe Anzahl von Downloads.

E-Mail-Überwachung und -Sicherheit

Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), eine Art des maschinellen Lernens, ist äußerst effektiv bei der Überwachung und Bewertung von E-Mails auf Malware und Viren, ohne die Nachricht zu öffnen.

Bewertung von Modellen des maschinellen Lernens

In Fällen, in denen ein maschinelles Lernmodell nicht bereits in eine Lösung integriert ist, muss eine sorgfältige Bewertung und Auswahl von Modellen für maschinelles Lernen in der Cybersicherheit erfolgen. Bei der Suche nach einem maschinellen Lernmodell, das für den Anwendungsfall und die Daten geeignet ist, sind unter anderem folgende Punkte zu beachten:

Bestimmen, welche Ressourcen zur Unterstützung von Modellen des maschinellen Lernens zur Verfügung stehen (z. B. Training, Überwachung, Wartung und Erfolgsmessung)
Ziel festlegen und potenzielle Dateneingaben ermitteln
Ergebnisse von maschinellen Lernmodellen für ähnliche Anwendungsfälle evaluieren
Verstehen, wie viele Daten das Modell benötigt, um effektiv zu sein

Herausforderungen des maschinellen Lernens

Maschinelles Lernen in der Cybersicherheit ist zweifelsohne ein leistungsstarker, wirkungsvoller Fortschritt. Dennoch birgt maschinelles Lernen in der Cybersicherheit auch Herausforderungen.

Zu den am häufigsten genannten Herausforderungen im Zusammenhang mit maschinellem Lernen gehören:

Algorithmen, die auf Datensätzen trainiert wurden, die bestimmte Informationen ausschließen oder Fehler enthalten, können zu ungenauen Modellen führen.
Overfitting and underfitting degrade machine learning models:
- Überanpassung tritt auf, wenn ein maschinelles Lernmodell mit zu vielen Daten trainiert wird und zunehmend Rauschen und ungenaue Daten in den Trainingsdatensatz einfließen, was sich negativ auf seine Leistung auswirkt.
- Unteranpassung liegt vor, wenn ein Modell die Muster in den Trainingsdaten nicht vollständig erlernen kann und keine genauen Ergebnisse liefert.
Damit Modelle des maschinellen Lernens optimal funktionieren, sind Überwachung und Wartung erforderlich.

Mythen über maschinelles Lernen

Mythos	Realität
Maschinelles Lernen im Bereich der Cybersicherheit kann menschliche Experten vollständig ersetzen.	Obwohl maschinelles Lernen sehr leistungsfähig ist, kann es qualifizierte Cybersicherheitsexperten nicht ersetzen, die über kontextbezogenes Wissen, Kreativität, kritisches Denken, Intuition und ein differenziertes Verständnis der komplexen Angriffsvektoren und der Denkweise von Cyberkriminellen verfügen.
Maschinelles Lernen kann alle Bedrohungen und Schwachstellen erfassen.	Bestimmte Arten von Angriffen wie Zero-Day-Exploits oder sehr gezielte und ausgeklügelte Angriffe können von maschinellen Lernmodellen übersehen werden, die in diesem Bereich nicht ausgebildet sind.
Maschinelle Lernmodelle in der Cybersicherheit machen keine Fehler.	Modelle des maschinellen Lernens sind nur so gut wie die Datensätze, mit denen sie gespeist werden. Wenn die Daten unvollständig oder ungenau sind, werden die Ergebnisse unzureichend oder falsch sein.
Maschinelles Lernen macht Angriffe unwirksam.	Während Modelle des maschinellen Lernens die Verteidigungsmaßnahmen zur Abwehr von Cyberangriffsvektoren anpassen können, passen Kriminelle ihre Vorgehensweisen kontinuierlich und mit einem hohen Maß an Effektivität an.
Maschinelles Lernen in der Cybersicherheit ist gegenüber feindlichen Angriffen resistent.	Leider ist maschinelles Lernen für feindliche Angriffe anfällig. Wenn ein Angreifer irreführende oder falsche Daten in einen Trainingsdatensatz einspeisen kann, erzeugt das maschinelle Lernmodell ungenaue Ergebnisse oder macht fehlerhafte Vorhersagen.
Maschinelles Lernen ist nur für große Unternehmen verfügbar.	Maschinelles Lernen ist verfügbar und weit verbreitet. Jedes Unternehmen kann maschinelles Lernen auf einem gewissen Niveau nutzen und davon profitieren, indem es benutzerfreundliche Sicherheitstools, cloudbasierte Sicherheitsdienste und vorgefertigte Modelle einsetzt.
Maschinelles Lernen in der Cybersicherheit erfordert große Datensätze, um einen Mehrwert zu bieten.	Die Effizienz des maschinellen Lernens verbessert sich mit der Menge der bereitgestellten Daten, aber Modelle können auch mit kleineren Mengen hochwertiger Daten trainiert und eingesetzt werden.

Maschinelles Lernen in der Cybersicherheit stärkt Lösungen zur Bekämpfung von Bedrohungen

Maschinelles Lernen verschafft Cybersecurity-Lösungen einen Vorsprung, sodass sie sich mit der Zeit und gesammelter Erfahrung anpassen und wirksamer werden können. Die durch maschinelles Lernen gewonnenen Erkenntnisse über Bedrohungen unterstützen nicht nur den proaktiven Schutz vor Bedrohungen, sondern tragen auch dazu bei, die Lösungen noch besser zu machen. Maschinelles Lernen ist allgegenwärtig und wird voraussichtlich zu einem Standardbestandteil vieler Lösungen werden.

Ergreifen Sie die Kontrolle über Ihre Cloud-Plattform.

Erfahren Sie mehr über SailPoint Identity Security.

(Link)