Maschinelles Lernen ist mittlerweile auch in der Cybersicherheit angekommen. In diesem Artikel gehen wir genauer darauf an, welche zentralen Elemente maschinelles Lernen ausmachen, welche Arten und Herausforderungen es gibt und wie Maschinelles Lernen gewinnbringend in der Cybersecurity eingesetzt werden kann.
Erfahren Sie, warum KI, ML und Automatisierung für die proaktive Erkennung von Risiken erforderlich sind und wie sie IT-Teams und Interessengruppen helfen, fundierte Entscheidungen zu treffen.
Was ist Machine Learning (maschinelles Lernen)?
Maschinelles Lernen ist ein Teilbereich der künstlichen Intelligenz (KI). ML-Systeme erkennen Merkmale von Daten, klassifizieren Informationen, erfassen Muster in Daten, treffen Schlussfolgerungen und Vorhersagen und gewinnen Erkenntnisse. Zum Trainieren der Systeme kommen historische Daten zum Einsatz, um die Genauigkeit der Modelle weiter zu erhöhen.
Die Qualität eines maschinellen Lernmodells hängt von zwei wesentlichen Aspekten ab, die für Machine Learning im Bereich der Cybersicherheit besonders wichtig sind:
- Qualität der Eingabedaten („Wo man Müll hineinsteckt, kommt auch Müll heraus.”)
- Abstimmung des Algorithmus auf den Anwendungsfall
Die Wahl des Algorithmus für Machine-Learning-Modelle hängt von der Art der zur Verfügung stehenden Daten und der spezifischen Aufgabe ab.
Beispiele für den Einsatz von Algorithmen für das maschinelle Lernen in der Cybersicherheit sind:
- Entscheidungsbaum-Algorithmus – zur Erkennung und Klassifizierung von Angriffen
- Algorithmen zur Dimensionalitätsreduktion – zur Entfernung verrauschter und irrelevanter Daten
- K-Means-Clustering – zur Erkennung von Malware
- K-Nächste-Nachbarn-Klassifikator (kNN) – für die Gesichtserkennung bei der Authentifizierung
- Lineare Regression – zur Vorhersage von Netzwerksicherheitsergebnissen
- Logistische Regression – zur Betrugsaufdeckung
- Naïve-Bayes-Algorithmus – zur Erkennung von Eindringlingen
- Random-Forest-Algorithmus – zur Klassifizierung von Phishing-Angriffen
- SVM-Algorithmus (Support Vector Machine) – zur Klassifizierung, Erkennung und Vorhersage von IP-Adressen und Port-Adressen auf der schwarzen Liste.
Ursprung des Begriffs maschinelles Lernen |
---|
Der amerikanische Wissenschaftler Arthur Samuel prägte den Begriff maschinelles Lernen im Jahr 1959. Er definierte ihn als „das Forschungsgebiet, das Computern die Fähigkeit verleiht, zu lernen, ohne ausdrücklich programmiert zu werden”. Er entwickelte eines der weltweit ersten erfolgreichen maschinellen Lernprogramme, das Samuel Checkers-playing Program, das besser Dame spielen konnte als der Entwickler des Programms. |
Einsatzgebiete von Machine Learning in der Cybersecurity
Überwachtes maschinelles Lernen
Überwachtetes machinelles Lernen eignet sich für folgende Anwendungsfälle:
- Binäre Klassifizierung – Unterteilung von Daten in zwei Kategorien
- Klassifizierung nach mehreren Klassen – Auswahl zwischen mehr als zwei Antworttypen
- Regressionsmodelle – Vorhersage von kontinuierlichen Werten
- Ensemble-Lernen – Kombinieren der Vorhersagen mehrerer maschineller Lernmodelle, um eine genaue Vorhersage zu treffen
In der Cybersicherheit wird überwachtes maschinelles Lernen ebenfalls zur Klassifizierung von Daten oder zur Vorhersage von Ergebnissen verwendet. Dabei werden gelabelte Datensätze verwendet, um Algorithmen zu trainieren und die Variablen zu definieren, die auf Korrelationen geprüft werden sollen, wobei die Eingaben und Ausgaben festgelegt werden. Im Rahmen des Kreuzvalidierungsverfahrens passt das Modell bei der Eingabe von Eingabedaten seine Gewichtungen an, bis es entsprechend angepasst ist, um eine Über- oder Unteranpassung zu vermeiden.
Geeignete Einsatzgebiete in der Cybersicherheit sind:
- Identifizierung eindeutiger Labels für Netzwerkrisiken wie Scanning und Spoofing
- Vorhersage oder Klassifizierung einer Zielvariable für eine bestimmte Sicherheitsbedrohung (z. B. einen verteilten Denial-of-Service- bzw. DDoS-Angriff)
- Training von Modellen mit gutartigen und böswilligen Stichproben, damit sie vorhersagen können, ob neue Stichproben böswillig sind
Beispiele für Techniken des überwachten maschinellen Lernens, die in der Cybersecurity eingesetzt werden:
- Adaptives Boosten und logistische Regression
- Lineare Regression
- Logistische Regression
- Naïve Bayes
- Neuronale Netze
- Random Forest
- Support Vector Machines (SVM)
Bestärkendes maschinelles Lernen (Reinforcement Machine Learning)
Bestärkendes maschinelles Lernen bzw. Reinforcement Machine Learning ist ein Modell für maschinelles Lernen, das dem überwachten maschinellen Lernen ähnelt. Beim bestärkenden maschinellen Lernen wird der Algorithmus jedoch nicht anhand von Stichprobendaten, sondern durch Versuch und Irrtum trainiert. Dabei werden positive oder negative Hinweise gegeben und registriert, wobei der Algorithmus so programmiert ist, dass er Bestätigung sucht und Sanktionen vermeidet.
Reinforcement Machine Learning wird häufig eingesetzt, um einer Maschine beizubringen, einen mehrstufigen Prozess durchzuführen, bei dem die Regeln klar definiert sind, z. B. beim Training von Robotern.
In der Cybersicherheit wird bestärkendes maschinelles Lernen auf verschiedene Weise genutzt, unter anderem:
- Simulation von Angriffen zum Trainieren von ML-Modellen für die Erkennung von und Reaktion auf Angriffe in Echtzeit
- Autonome Erkennung von Eindringlingen
- Cyberphysische Systeme
- Abwehr von verteilten Denial-of-Service-Attacken (DDoS)
Neben dem maschinellen Lernen für die Cybersicherheit wird Reinforcement Machine Learning häufig in Situationen eingesetzt, in denen:
- Ein Modell der Umgebung bekannt ist, aber eine analytische Lösung nicht verfügbar ist
- Lediglich ein Simulationsmodell der Umgebung gegeben ist
- Die einzige Möglichkeit für die Erfassung von Umgebungsdaten in der Interaktion mit der Umgebung besteht
Beispiele für Techniken des bestärkenden maschinellen Lernens im Bereich der Cybersicherheit:
- Deep Deterministic
- Deep Q Network (DQN)
- Policy Gradient (DDPG)
Unüberwachtes maschinelles Lernen
Unüberwachtes maschinelles Lernen wird zur Analyse und Gruppierung von nicht gelabelten Datensätzen (z. B. Fotos, Audio- und Videoaufnahmen, Artikel oder Social-Media-Beiträge) verwendet. Es kann versteckte Muster oder Datengruppierungen ohne menschliches Eingreifen erkennen.
Der Algorithmus durchsucht Datensätze nach Mustern, die zur Gruppierung von Informationen in Teilmengen verwendet werden. Unüberwachtes maschinelles Lernen wird am häufigsten für Deep Learning verwendet.
Unüberwachtes maschinelles Lernen kann in der Cybersicherheit auf verschiedene Weise eingesetzt werden, unter anderem:
- Erkennen von ungewöhnlichem Verhalten
- Identifizieren von neuen Angriffsmustern
- Entschärfen von Zero-Day-Angriffen
Neben dem maschinellen Lernen für die Cybersicherheit kann das unüberwachte maschinelle Lernen auch für andere Zwecke verwendet werden:
- Erkennung von Anomalien
- Association Mining
- Clusterbildung
- Dimensionalitätsreduktion (d. h. Verringerung der Anzahl der Variablen in einem Datensatz)
Beispiele für Techniken des unüberwachten maschinellen Lernens in der Cybersicherheit sind:
- K-Means-Clustering
- Neuronale Netze
- Hauptkomponentenanalyse (Principal Component Analysis, PCA)
- Probabilistisches Clustering
- Singulärwertzerlegung (Singular Value Decomposition, SVD)
Halbüberwachtes maschinelles Lernen in der Cybersicherheit
Halbüberwachtes maschinelles Lernen in der Cybersicherheit kombiniert überwachtes und unüberwachtes maschinelles Lernen. Es zieht einen kleinen gelabelten Datensatz aus einem größeren, nicht gelabelten Datensatz zur Klassifizierung und Merkmalsextraktion heran, wenn nicht genügend gelabelte Daten für einen überwachten Lernalgorithmus vorhanden sind. Es wird auch verwendet, wenn das Labeln eines Datensatzes unverhältnismäßig teuer ist.
Halbüberwachtes maschinelles Lernen für die Cybersicherheit kann für Folgendes verwendet werden:
- Adversarische neuronale Netze
- Identifizierung von böswilligen und gutartigen Bots
- Erkennung von Malware
- Erkennung von Ransomware
Neben maschinellem Lernen für die Cybersicherheit kann halbüberwachtes Lernen auch für andere Zwecke eingesetzt werden:
- Betrugsaufdeckung
- Datenlabeling
- Maschinelle Übersetzung
Beispiele für Techniken für halbüberwachtes Lernen in der Cybersicherheit:
- Regularisierung der Konsistenz
- Label Propagation
- Pseudo-Labeling
- Selbsttraining
Diese Vorteile bringt Machine Learning für die Cybersecurity
- Ermöglicht die sichere Umsetzung von BYOD (Bring Your Own Device) und CYOD (Choose Your Own Device)
- Automatisiert Cybersecurity-Prozesse
- Erkennt Bedrohungen im Frühstadium
- Ermöglicht anpassungsfähige und proaktive Verteidigungssysteme
- Beschleunigt die Bedrohungserkennung und Reaktionszeiten
- Identifiziert schwer zu findende Netzwerkschwachstellen
- Zieht Lehren aus früheren Angriffen, um zukünftige Angriffe auf der Grundlage ähnlicher Profile zu verhindern
- Vereinfacht die schnelle Identifizierung, Priorisierung und Behebung von Angriffen für Sicherheitsanalysten
- Minimiert menschliche Fehler
- Verfügt über hochentwickelte Authentifizierungsmechanismen wie Gesichtserkennung, Fingerabdruckerkennung, Bewegungsverfolgung, Netzhautscanner und Spracherkennung
- Unterstützt die Abwehr von Sicherheitsbedrohungen gegen Endpunkte
- Bietet Einblicke in fortschrittliche Bedrohungen
- Reduziert die Arbeitsbelastung
- Scannt enorme Datenmengen zur Identifizierung von Malware
- Versteht Nuancen des normalen Verhaltens, um kleinste Abweichungen zu erkennen
Anwendungsfälle für maschinelles Lernen in der Cybersicherheit
Erkennung und Verhinderung von DDoS-Angriffen und Botnets
Modelle können so trainiert werden, dass sie den umfangreichen Datenverkehr zwischen verschiedenen Endpunkten analysieren, um DDoS-Angriffe (z. B. Anwendungs-, Protokoll- und volumetrische Angriffe) und Botnets proaktiv zu erkennen und vorherzusagen.
Erkennung von Web-Shells
Modelle des maschinellen Lernens können so trainiert werden, dass sie Web-Shells trotz ausgeklügelter Umgehungstechniken erkennen.
Es hat sich gezeigt, dass die Erkennung von Web-Shells mit maschinellem Lernen weitaus genauer ist als mit anderen Systemen, da die Modelle vollständige Vorhersagen für unbekannte Seiten deutlich verbessern können.
Erkennung und Klassifizierung von Bedrohungen
Maschinelles Lernen wird in Anwendungen eingesetzt, um die Erkennung von und die Reaktion auf Angriffe zu unterstützen und zu beschleunigen. Große Datensätze von Sicherheitsereignissen werden analysiert, um Muster böswilliger Aktivitäten zu erkennen.
Wenn ein Vorfall erkannt wird, ergreift das maschinelle Lernmodell automatisch Maßnahmen. Die Datensätze stammen aus verschiedenen Quellen, z. B. aus Kompromittierungsindikatoren (Indicators of Compromise, IOCs) und aus Protokolldateien von Sicherheitssystemen.
Bekämpfung von Malware
Modelle können so trainiert werden, dass sie Antivirenlösungen bei der Bekämpfung aller Arten von Malware wie Adware, Backdoors, Ransomware, Spyware und Trojanern unterstützen.
Netzwerk-Risiko-Scoring
Mithilfe von maschinellem Lernen können Datensätze früherer Cyberangriffe analysiert werden, um Bereiche zu ermitteln, die Ziel bestimmter Angriffe waren, und genaue Risiko-Scores zuzuweisen, die den Ort, die Wahrscheinlichkeit und die Auswirkungen eines Angriffs quantifizieren. Diese Daten helfen Unternehmen bei der Priorisierung der Ressourcenzuweisung und bei der Steuerung von Reaktionsmaßnahmen im Falle eines weitreichenden Angriffs.
Schutz vor Angriffen auf Anwendungen
Durch maschinelles Lernen können Modelle zur Erkennung von Anomalien bei HTTP/S-, SQL- und XSS-Angriffen trainiert werden, um Anwendungen zu schützen, die für verschiedene Layer-7-Angriffe anfällig sind.
Sicherung mobiler Endgeräte
Maschinelles Lernen wird in verschiedenen Erkennungs- und Reaktionsanwendungen eingesetzt, um Bedrohungen für mobile Geräte zu bekämpfen. Ein weiterer Einsatzbereich für hochentwickeltes maschinelles Lernen ist der Schutz vor Angriffen mit sprachbasierten Befehlen, indem Modelle trainiert werden, die zwischen der Stimme des Besitzers und der Stimme von Hackern unterscheiden können.
Sicherheitsoperationszentren (SOCs)
Dieser Anwendungsfall für maschinelles Lernen unterstützt die Überwachung und Erkennung von Sicherheitsbedrohungen und die Reaktion darauf, indem die Analyse umfangreicher, in großen Mengen generierter Daten automatisiert wird.
Vorbeugung von Phishing-Angriffen
Mithilfe von maschinellem Lernen lassen sich Daten in Echtzeit analysieren und Phishing-E-Mails erkennen und stoppen. Durch das Trainieren von Modellen des maschinellen Lernens auf E-Mail-Kopfzeilen, Textkörper und Zeichensetzungsmuster können sie lernen, zwischen schädlichen und harmlosen E-Mails zu unterscheiden und Muster zu erkennen, um mögliche Phishing-Angriffe einzuordnen und aufzudecken. Die Modelle können auch so trainiert werden, dass sie böswillige URLs erkennen, die in harmlos erscheinenden E-Mails eingebettet sind.
Aufgabenautomatisierung
Maschinelles Lernen eignet sich hervorragend zur Automatisierung zeitaufwändiger, sich wiederholender und fehleranfälliger Sicherheitsaufgaben wie der Analyse von Netzwerkprotokollen, der Bedrohungsanalyse, der Bewertung von Informationen und der Beurteilung von Schwachstellen. Zusätzlich zur Automatisierung kann maschinelles Lernen Bedrohungen und Anomalien schneller und effektiver identifizieren, als Menschen dies könnten.
Analyse des Benutzer- und Entitätsverhaltens (UEBA)
UEBA nutzt maschinelles Lernen, um vollständige Transparenz über Benutzer und Entitäten zu bieten, Kontokompromittierungen zu erkennen und böswillige oder anomale Insideraktivitäten zu erkennen und zu entschärfen. Mithilfe von ML-Algorithmen werden Basislinien für normale Verhaltensmuster erstellt und zur Erkennung ungewöhnlicher Aktivitäten genutzt, z. B. Anmeldung durch einen Mitarbeiter spät in der Nacht, ein inkonsistenter Fernzugriff oder eine ungewöhnlich hohe Anzahl von Downloads.
E-Mail-Überwachung und -Sicherheit
Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), eine Art des maschinellen Lernens, ist äußerst effektiv bei der Überwachung und Bewertung von E-Mails auf Malware und Viren, ohne die Nachricht zu öffnen.
So werden Machine-Learning-Modelle bewertet
In Fällen, in denen ein maschinelles Lernmodell nicht bereits in eine Lösung integriert ist, muss eine sorgfältige Bewertung und Auswahl von Modellen für maschinelles Lernen in der Cybersicherheit erfolgen. Bei der Suche nach einem maschinellen Lernmodell, das für den Anwendungsfall und die Daten geeignet ist, sind unter anderem folgende Schritte zu beachten:
- Bestimmen, welche Ressourcen zur Unterstützung von Modellen des maschinellen Lernens zur Verfügung stehen (z. B. Training, Überwachung, Wartung und Erfolgsmessung).
- Ziel festlegen und potenzielle Dateneingaben ermitteln.
- Ergebnisse von maschinellen Lernmodellen für ähnliche Anwendungsfälle evaluieren.
- Verstehen, wie viele Daten das Modell benötigt, um effektiv zu sein.
Herausforderungen
Maschinelles Lernen in der Cybersicherheit ist zweifelsohne ein leistungsstarker, wirkungsvoller Fortschritt. Dennoch birgt maschinelles Lernen in der Cybersicherheit auch Herausforderungen.
Zu den am häufigsten genannten Herausforderungen im Zusammenhang mit maschinellem Lernen gehören:
- Algorithmen, die auf Datensätzen trainiert wurden, die bestimmte Informationen ausschließen oder Fehler enthalten, können zu ungenauen Modellen führen.
- Overfitting and underfitting degrade machine learning models:
- Damit Modelle des maschinellen Lernens optimal funktionieren, sind Überwachung und Wartung erforderlich.
- Überanpassung tritt auf, wenn ein maschinelles Lernmodell mit zu vielen Daten trainiert wird und zunehmend Rauschen und ungenaue Daten in den Trainingsdatensatz einfließen, was sich negativ auf seine Leistung auswirkt.
- Unteranpassung liegt vor, wenn ein Modell die Muster in den Trainingsdaten nicht vollständig erlernen kann und keine genauen Ergebnisse liefert.
Mythen über maschinelles Lernen
Mythos | Realität |
---|---|
Maschinelles Lernen im Bereich der Cybersicherheit kann menschliche Experten vollständig ersetzen. | Obwohl maschinelles Lernen sehr leistungsfähig ist, kann es qualifizierte Cybersicherheitsexperten nicht ersetzen, die über kontextbezogenes Wissen, Kreativität, kritisches Denken, Intuition und ein differenziertes Verständnis der komplexen Angriffsvektoren und der Denkweise von Cyberkriminellen verfügen. |
Maschinelles Lernen kann alle Bedrohungen und Schwachstellen erfassen. | Bestimmte Arten von Angriffen wie Zero-Day-Exploits oder sehr gezielte und ausgeklügelte Angriffe können von maschinellen Lernmodellen übersehen werden, die in diesem Bereich nicht ausgebildet sind. |
Maschinelle Lernmodelle in der Cybersicherheit machen keine Fehler. | Modelle des maschinellen Lernens sind nur so gut wie die Datensätze, mit denen sie gespeist werden. Wenn die Daten unvollständig oder ungenau sind, werden die Ergebnisse unzureichend oder falsch sein. |
Maschinelles Lernen macht Angriffe unwirksam. | Während Modelle des maschinellen Lernens die Verteidigungsmaßnahmen zur Abwehr von Cyberangriffsvektoren anpassen können, passen Kriminelle ihre Vorgehensweisen kontinuierlich und mit einem hohen Maß an Effektivität an. |
Maschinelles Lernen in der Cybersicherheit ist gegenüber feindlichen Angriffen resistent. | Leider ist maschinelles Lernen für feindliche Angriffe anfällig. Wenn ein Angreifer irreführende oder falsche Daten in einen Trainingsdatensatz einspeisen kann, erzeugt das maschinelle Lernmodell ungenaue Ergebnisse oder macht fehlerhafte Vorhersagen. |
Maschinelles Lernen ist nur für große Unternehmen verfügbar. | Maschinelles Lernen ist verfügbar und weit verbreitet. Jedes Unternehmen kann maschinelles Lernen auf einem gewissen Niveau nutzen und davon profitieren, indem es benutzerfreundliche Sicherheitstools, cloudbasierte Sicherheitsdienste und vorgefertigte Modelle einsetzt. |
Maschinelles Lernen in der Cybersicherheit erfordert große Datensätze, um einen Mehrwert zu bieten. | Die Effizienz des maschinellen Lernens verbessert sich mit der Menge der bereitgestellten Daten, aber Modelle können auch mit kleineren Mengen hochwertiger Daten trainiert und eingesetzt werden. |
Maschinelles Lernen stärkt die Bedrohungsbekämpfung
Maschinelles Lernen verschafft Cybersecurity-Lösungen einen Vorsprung, sodass sie sich mit der Zeit und gesammelter Erfahrung anpassen und wirksamer werden können. Die durch maschinelles Lernen gewonnenen Erkenntnisse über Bedrohungen unterstützen nicht nur den proaktiven Schutz vor Bedrohungen, sondern tragen auch dazu bei, die Lösungen noch besser zu machen. Maschinelles Lernen ist allgegenwärtig und wird voraussichtlich zu einem Standardbestandteil vieler Lösungen werden.