Unüberwachtes Lernen
Ob bei Online-Shops, der Medizin oder der Datenanalyse — unüberwachtes Lernen findet in vielen Bereichen Anwendung. Was diese Methode so besonders macht, zeigen wir dir hier!
Inhaltsübersicht
Was ist unüberwachtes Lernen?
Unüberwachtes Lernen (engl.: Unsupervised Learning) ist eine Methode aus dem Bereich der künstlichen Intelligenz (KI) und des maschinellen Lernens (Machine Learning). Dabei versucht ein Computeralgorithmus, Muster oder Strukturen in Daten zu erkennen, ohne dass ihm vorher gesagt wird, worauf er achten soll. Er muss also selbst herausfinden, wie die Daten zusammenhängen oder wie sie zu sortieren sind — als würde dir jemand tausende Puzzle-Teile aus verschiedenen Puzzles vorlegen und du musst entdecken, welches Teil zu welchem Puzzle gehört.
Dadurch ist unüberwachtes Lernen besonders nützlich, wenn wenig über die Daten bekannt ist. Es hilft dabei, neue Erkenntnisse zu gewinnen und Muster zu entdecken, die einem Menschen nicht sofort auffallen würden. Daher findet diese Methode in vielen Bereichen Anwendung: von der Kundensegmentierung im Marketing bis hin zur Anomalieerkennung in der Medizin.
Damit unterscheidet sich das unüberwachte Lernen stark vom überwachten: Denn beim überwachten Lernen werden beschriftete Daten verwendet. Das heißt, dem Computer wird konkret gezeigt, was richtig ist oder wonach er suchen soll, sodass er aus diesen Beispielen lernen kann. Beim Unsupervised Learning gibt es solche Vorgaben nicht. Daher ist auch im Vorhinein nicht klar, was für ein Ergebnis der Algorithmus liefern wird.
Wie funktioniert unüberwachtes Lernen?
Beim unüberwachten Lernen erhält ein Algorithmus eine große Menge an Rohdaten, wie z. B. Bilder, Texte oder Zahlen. Der Algorithmus durchsucht dann selbstständig die Daten nach Ähnlichkeiten, Unterschieden oder Mustern, um sie sinnvoll zu gruppieren und zu ordnen.
Zum Beispiel könnte ein Algorithmus eine Sammlung von Kundendaten analysieren. Welche Kundengruppen es gibt oder wie sie einzuteilen sind, werden ihm nicht gesagt. Stattdessen sucht er nach Gemeinsamkeiten im Verhalten, wie häufige Kaufmuster oder ähnliche Vorlieben und teilt die Kunden in Gruppen ein, die sich ähneln.
Das Ergebnis dieser Analyse kann dann dazu verwendet werden, um Schlussfolgerungen zu ziehen oder Entscheidungen zu treffen — etwa, welche Produkte für welche Kundengruppe relevant sind.
Arten von unüberwachtem Lernen
Bei der Analyse der unbeschrifteten Daten gibt es drei verschiedene Ansätze: Das Unsupervised Learning kann …
- Daten gruppieren (Clustering),
- Verbindungen zwischen Datenpunkten herstellen (Assoziation) oder
- die Datenmenge vereinfachen (Dimensionsreduktion).
Je nachdem, welcher Ansatz erwünscht ist, gibt es verschiedene Algorithmen.
Clustering
Die häufigste Art des unüberwachten Lernens ist das Clustering. Dabei werden Daten in Gruppen, die sogenannten „Cluster“, eingeteilt — wie bei unserem Kundengruppen-Beispiel von eben. Die Unterteilung basiert auf Ähnlichkeiten zwischen den Datenpunkten. Dadurch entstehen Gruppen, in denen die Datenpunkte innerhalb einer Gruppe möglichst ähnlich sind, während die Unterschiede zwischen den Gruppen möglichst groß sind.
Algorithmen, die häufig für das Clustering verwendet werden, sind zum Beispiel k-Means, Fuzzy-c-Means oder hierarchisches Clustering.
Das ist nicht zu verwechseln mit einer Klassifizierung des überwachten Lernens: Dabei werden Daten anhand bestimmter Merkmale in vordefinierte Kategorien eingeteilt. Beim Clustering entdeckt der Algorithmus die Gruppierungen selbst.
Assoziation
Bei der Assoziation geht es darum, Verbindungen zwischen verschiedenen Datenpunkten zu entdecken. Ziel ist es, Regeln zu finden, die beschreiben, wie bestimmte Daten miteinander verknüpft sind.
Das ist z. B. die Methode, mit der der Hinweis „Andere Kunden haben sich auch angesehen“ in Online-Shops erstellt wird. Hier hat ein Assoziations-Algorithmus vorher herausgefunden, welche Produkte häufig miteinander gekauft werden und dir somit vorgeschlagen. Algorithmen, die sowas herausfinden, sind z. B. der Apriori- oder der Eclat-Algorithmus.
Dimensionsreduktion
Mit dem Aufschwung von Big Data wird auch die Dimensionsreduktion immer bedeutender. Bei dieser Art des unüberwachten Lernens muss ein Algorithmus große Datensätze vereinfachen, indem er unwichtige oder redundante Merkmale entfernt — ohne die Kerninformationen zu verlieren.
Das ist beispielsweise in der Marktforschung relevant, wenn große Umfragen zu Produkteigenschaften gemacht werden. Darin nennen Teilnehmer z. B. über 300 verschiedenen Merkmale, was schwer zu analysieren ist. Ein Dimensionsreduktions-Algorithmus würde diese 300 Merkmale auf eine viel kleinere Anzahl von entscheidenden Faktoren reduzieren, ohne dabei wichtige Einschätzungen zum Produkt zu verlieren. So sind die Daten übersichtlicher und umgänglicher.
Für die Dimensionsreduktion werden z. B. die Hauptkomponentenanalyse (PCA) oder der Autoencoder verwendet.
Unüberwachtes Lernen — Beispiele
Unüberwachtes Lernen wird in vielen Bereichen eingesetzt. Hier sind einige Beispiele, wie diese Methode aktuell in der Praxis verwendet wird:
-
Marktsegmentierung: Clustering hilft dabei, Kunden und Konkurrenten in Gruppen einzuteilen, die sich in ihrem Verhalten, ihren Präferenzen bzw. Angeboten oder in demografischen Merkmalen ähneln. So können Unternehmen identifizieren, welche Kundengruppen womöglich noch nicht bedient werden und damit Marktlücken entdecken.
-
Anomalieerkennung: Durch die Identifizierung von Datenpunkten, die nicht in ein Cluster passen, können Anomalien oder Ausreißer erkannt werden. Das ist in Bereichen wie Betrugserkennung, Qualitätskontrolle und Netzwerküberwachung von Bedeutung.
- Feature-Engineering: Feature-Engineering ist ein Prozess, bei dem Rohdaten so bearbeitet und transformiert werden, dass sie für ein Machine-Learning-Modell leichter zu handhaben sind. Das kann bedeuten, unnötige Merkmale zu entfernen oder bestehende zu kombinieren — und dabei kann Dimensionsreduktion helfen. Es reduziert die Anzahl der Merkmale und sorgt dafür, dass das Modell allgemein anwendbar ist (kein „Overfitting“).
Unterschiede zwischen überwachtem & unüberwachtem Lernen
Überwachtes und unüberwachtes Lernen sind zwei wichtige Methoden des maschinellen Lernens und werden oft zusammen genannt. Doch sie unterscheiden sich deutlich in ihrer Arbeitsweise. Alle Unterschiede sind hier in der Tabelle zusammengefasst:
Überwachtes Lernen | Unüberwachtes Lernen | |
menschlicher Eingriff | hoher Eingriff — der Mensch muss Daten kategorisieren und beschriften | geringer Eingriff — Algorithmus kann mit unbeschrifteten Daten arbeiten |
Trainingsdaten | gelabelte Daten, d. h. Daten sind bereits mit der richtigen Antwort (Label) versehen | unbeschriftete Daten, d. h. keine Kategorien oder Labels vorhanden |
Trainingsprozess | Algorithmus lernt, indem er auf Basis von gelabelten Beispielen die richtige Antwort vorhersagt | Algorithmus sucht selbstständig nach Mustern, Ähnlichkeiten und Strukturen |
Anwendungsgebiete | Klassifizierung (z. B. Bild-/Textkategorisierung), Regression (z. B. Vorhersage von Preisen) | Clustering (z. B. Kundensegmentierung), Assoziation (z. B. Warenkorbanalyse), Dimensionsreduktion (z. B. Datensimplifizierung) |
Vor- und Nachteile von unüberwachtem Lernen
Unüberwachtes Lernen bietet einige klare Vorteile, insbesondere in Situationen, in denen Daten unstrukturiert sind oder ständig aktualisiert werden. Denn unüberwachtes Lernen kann in Echtzeit auf neue Daten reagieren. Das ist ideal für dynamische Umgebungen wie die Überwachung von Netzwerken oder E-Commerce-Plattformen, wo sich Daten kontinuierlich ändern.
Der größte Vorteil von unüberwachtem Lernen ist aber, dass es deutlich weniger zeit- und kostenintensiv ist. Denn der Algorithmus arbeitet eigenständig, ohne dass ein Mensch die Daten vorab beschriften muss.
Herausforderungen beim unüberwachtem Lernen
Doch trotz seiner Vorteile bringt unüberwachtes Lernen auch einige Herausforderungen mit sich. Da die Algorithmen oft komplex sind, erfordert die Berechnung eine leistungsstarke Hardware und kann viel Zeit in Anspruch nehmen — vor allem bei großen Datensätzen. Dabei besteht außerdem die Gefahr, dass der Algorithmus irrelevante Muster erkennt oder die Daten falsch gruppiert.
Daraus ergibt sich ein weiteres Risiko: Die Ergebnisse können ungenau oder schwer zu interpretieren sein. Schließlich müssen die gefundenen Gruppen im Nachhinein durch einen Menschen eingeordnet und bewertet werden. Da der Algorithmus aber nicht preisgibt, wie er zu seinem Ergebnis gekommen ist, kann das sehr aufwendig sein.
Unüberwachtes Lernen — häufigste Fragen
-
Was ist unüberwachtes Lernen? Unüberwachtes Lernen, auch „unsupervised learning“ genannt, ist eine Methode des maschinellen Lernens. Dabei analysiert ein Algorithmus unbeschriftete Daten und versucht eigenständig Muster, Zusammenhänge oder Strukturen darin zu erkennen. Anweisungen oder Beispiele erhält er dafür nicht. -
Was sind unüberwachte Lernalgorithmen? Unüberwachte Lernalgorithmen sind Clustering-, Assoziations- und Dimensionsreduktions-Algorithmen. Sie können eigenständig Muster und Gruppen in Datensätzen identifizieren, um Zusammenhänge und Strukturen zu erkennen. -
Was ist der Unterschied zwischen überwachtem und unüberwachtem Lernen? Überwachtes Lernen nutzt gelabelte Daten, um Vorhersagen zu treffen oder Klassifizierungen vorzunehmen. Unüberwachtes Lernen hingegen arbeitet mit unbeschrifteten Daten und erkennt Muster selbstständig, ohne vorgegebene Kategorien oder Anweisungen.
Reinforcement Learning
Neben dem unüberwachtem Lernen ist auch das Reinforcement Learning (verstärkendes Lernen) eine Methode des maschinellen Lernens. In unserem Video zeigen wir dir, wie das funktioniert und wo das verstärkende Lernen angewendet wird!