Überwachtes Lernen
Hast du dich schon einmal gefragt, wie dein Smartphone deine E-Mails sortiert oder wie Online-Shops dir Produkte vorschlagen? Dahinter steckt das überwachte Lernen. Wie das funktioniert, zeigen wir dir hier!
Inhaltsübersicht
Was ist überwachtes Lernen?
Überwachtes Lernen (engl.: Supervised Learning) ist eine Methode im Bereich des maschinellen Lernens, die dazu verwendet wird, eine künstliche Intelligenz (KI) zu formen. Dabei wird ein Computeralgorithmus mit einer großen Menge von Daten gefüttert, die bereits korrekt beschriftet (gelabelt) sind.
Durch diese Labels wird dem Algorithmus quasi vorgegeben, welches Ergebnis er bei einer bestimmten Eingabe liefern soll. Das Ziel ist es, dass er aus diesen Beispielen lernt, welche Zusammenhänge zwischen den Daten und den Beschriftungen bestehen. Diese Muster soll er dann bei neuen, unbekannten Daten richtig anwenden.
Die Methode des überwachten Lernens wird häufig eingesetzt, wenn Vorhersagen getroffen oder Daten automatisch klassifiziert werden sollen. Beispiele sind die Erkennung von E-Mails als „Spam“ oder „kein Spam“, die Analyse von Bildern, um Gesichter zu erkennen, oder die Vorhersage von Umsätzen.
Wie funktioniert überwachtes Lernen?
Wie bei allen Formen des maschinellen Lernens basiert das überwachte Lernen auf einer Trainingsphase. Dabei wird der Algorithmus mit einer großen Menge an Eingabedaten gefüttert, die auch die gewünschten Ausgabedaten (Label) enthalten.
Wollen wir zum Beispiel ein Modell erstellen, dass verschiedene Obstsorten klassifiziert, können die Eingabedaten viele Bilder von Obstsorten sein, die bereits mit „Apfel“, „Banane“ oder „Birne“ beschriftet (gelabelt) sind.
Übrigens: Eingabedaten müssen aber nicht immer Bilder sein — auch Text oder Datensätze sind möglich.
Während des Trainings sucht der Algorithmus nun in den Daten nach Mustern und Zusammenhängen zwischen den Eingabedaten und den Ausgabedaten — bspw. den Obstsorten. Dabei wird der Algorithmus so lange angepasst und optimiert, bis er die zugrunde liegenden Beziehungen möglichst genau abbilden kann.
Testphase
Um sicherzustellen, dass der Algorithmus die Muster nicht nur für den speziellen Datensatz auswendig lernt, folgt nach der Trainingsphase eine Testphase. Dabei erhält er einen neuen Datensatz, bei denen das Label (Ausgangsdaten) zwar vorhanden, aber für ihn nicht direkt ersichtlich ist. Er muss eine eigene Entscheidung treffen, um welches Obst es sich handelt und vergleicht seine Vorhersage mit dem tatsächlichen Ergebnis.
Während dieses Prozesses wird die Genauigkeit des Algorithmus ständig gemessen und optimiert. Ziel ist es, dass der Algorithmus nach der Testphase in der Lage ist, auf völlig neue, unbekannte Daten möglichst präzise Vorhersagen zu treffen — in unserem Beispiel die korrekte Identifizierung der Obstsorte.
Überwachtes Lernen — Anwendung
Überwachtes Lernen wird hauptsächlich für zwei Arten von Problemstellungen eingesetzt: Klassifizierung und Regression.
Klassifizierung
Bei der Klassifikation geht es darum, Objekte oder Daten in bestimmte Kategorien einzuordnen. Ein Klassifizierungsalgorithmus analysiert dabei die Eingabedaten und teilt sie in vorab festgelegte Kategorien ein — wie in unserem Obst-Beispiel von eben. Weitere Beispiele für solch eine Problemstellung wäre die Diagnose von Patienten als „gesund“ oder „krank“ oder die Unterteilung von Kundenfeedback in „positiv“ oder „negativ“.
Zu den Klassifizierungsalgorithmen, die für solche Aufgaben eingesetzt werden, gehören:
-
Entscheidungsbäume (Decision Tree):
Beim Entscheidungsbaum werden Entscheidungen basierend auf einer Reihe von Ja-/Nein-Fragen getroffen. Jede Frage teilt die Daten weiter auf, bis eine Klassifikation erreicht ist. Im Patienten-Beispiel könnte eine Entscheidung aussehen wie: „Ist der Cholesterinspiegel höher als ein bestimmter Wert?“, gefolgt von weiteren Fragen.
-
K-Nearest Neighbors
(KNN): Dieser Algorithmus klassifiziert einen neuen Datenpunkt basierend auf den Kategorien der „nächstgelegenen“ Datenpunkte in seinem Umfeld. Bei einem Patienten mit bestimmten Gesundheitswerten würde der Algorithmus also schauen, wie ähnliche Patienten zuvor kategorisiert wurden, und daraus eine Entscheidung ableiten.
-
Support Vector Machines (SVM): Der SVM-Lernalgorithmus sucht nach einer Grenzlinie, die die Daten am besten in ihre jeweiligen Klassen trennt. Er versucht, den Abstand zwischen den Klassen möglichst groß zu halten, um eine klare Unterscheidung zu treffen.
- Neuronale Netze: Neuronale Netze sollen die Funktionsweise des menschlichen Gehirns nachahmen und bestehen aus miteinander verbundenen Knoten. Die eingegebenen Daten werden verarbeitet, indem sie mehrere Schichten dieser Knoten durchlaufen.
Regression
Neben der Klassifizierung ist die Regression die zweite wichtige Problemstellung. Sie beschäftigt sich mit der Vorhersage kontinuierlicher Werte. Das bedeutet, dass der Algorithmus nicht eine Klasse auswählt, sondern einen genauen Zahlenwert vorhersagt. Daher wird die Regression oft für Prognosen oder Trends verwendet. Ein Beispiel wäre die Vorhersage eines Verkaufspreises für ein Haus oder die Schätzung zukünftiger Umsätze.
Auch hier gibt es bestimmte Lernalgorithmen, die bei Regressionen zum Einsatz kommen:
-
Lineare Regression:
Hier versucht der Algorithmus, eine gerade Linie zu finden, die die Beziehung zwischen den Eingabedaten und den Ausgabewerten beschreibt. Sie kann aber nur angewendet werden, wenn es nur eine unabhängige Variable gibt. Zum Beispiel könnte der Preis eines Hauses linear mit seiner Wohnfläche steigen.
-
Multiple lineare Regression:
In der Realität beeinflussen jedoch oft mehrere Faktoren den Preis eines Hauses, und die multiple lineare Regression berücksichtigt das. So könnte der Preis nicht nur von der Wohnfläche, sondern auch von der Lage, der Anzahl der Zimmer und der Nähe zu Schulen abhängen.
- Random Forest: Dieser Algorithmus nutzt mehrere unkorrelierte Entscheidungsbäume, die jeweils mit einem anderen Teil des Datensatzes trainiert wurden. Schließlich werden deren Ergebnisse kombiniert, um eine präzisere Vorhersage zu treffen.
Gut zu wissen: Einige Lernmethoden können für die Klassifizierung und für die Regression verwendet werden. Dazu gehören die neuronalen Netze, die Support Vector Machines und der Random Forest.
Überwachtes Lernen — Beispiele
Überwachtes Lernen spielt in vielen Bereichen eine zentrale Rolle. Denn es kann riesige Mengen komplexer Daten schneller und genauer analysieren als ein Mensch es könnte.
Beispiele für die Einsatzbereiche von überwachtem Lernen sind:
-
Medizinische Diagnostik:
In der Medizin werden mit überwachtem Lernen trainierte Programme eingesetzt, um Krankheiten frühzeitig zu erkennen oder Diagnosen zu verbessern. Die Algorithmen werden anhand medizinischer Bilder wie Röntgenaufnahmen oder MRTs dazu trainiert, bestimmte Krankheiten wie Krebs zu erkennen.
-
Marketing:
Im Bereich des Marketings wird überwachtes Lernen verwendet, um personalisierte Werbung zu erstellen. Online-Shops und Streamingdienste nutzen sie, um das Verhalten von Nutzern auf Webseiten oder in Apps zu analysieren. Auf Basis von Informationen wie bisheriges Suchverhalten, angeklickte Artikel oder frühere Käufe werden dem Nutzer passende Produkte vorgeschlagen.
-
Finanzwesen:
Auch im Finanzwesen spielt überwachtes Lernen eine Rolle, insbesondere bei der Betrugserkennung. Kreditkartenunternehmen und Banken identifizieren damit verdächtige Transaktionen. Hier analysiert der Algorithmus Eingabedaten wie den Ort, an dem die Karte verwendet wurde, die Höhe der Transaktion, das Kaufmuster des Nutzers und weitere Faktoren.
Überwachtes Lernen — Herausforderungen
Trotz seiner vielen Vorteile steht das überwachte Lernen auch vor einer Reihe von Herausforderungen, die bei der Entwicklung und Anwendung von solchen Modellen berücksichtigt werden müssen:
Eine der größten Herausforderungen ist die Notwendigkeit einer großen Menge an gut gekennzeichneten Daten. Diese müssen oft von Menschen manuell vorbereitet werden, was zeitaufwändig und teuer sein kann.
Zudem gibt es noch das sogenannte Overfitting. Das tritt auf, wenn sich der Algorithmus zu stark an die Trainingsdaten anpasst. Die Folge: Das Modell kann keine neuen, unbekannten Daten korrekt klassifizieren. Daher ist es wichtig, dass sich Trainings- und Testdaten unterscheiden, um eine Generalisierbarkeit des Modells zu ermöglichen.
Aber auch das Gegenteil kann passieren — Underfitting. Hier ist das Modell zu einfach und kann die zugrundeliegenden Muster in den Daten nicht richtig erfassen. Das bedeutet, dass der Algorithmus sowohl auf den Trainingsdaten als auch auf neuen Daten schlecht abschneidet. Um das zu verhindern, sollte der Algorithmus ausreichend komplex gestaltet werden, damit er die relevanten Muster in den Daten erkennen kann.
Überwachtes, unüberwachtes & halbüberwachtes Lernen
Das Gegenstück zum überwachten Lernen ist das unüberwachte Lernen. Hier erhält der Algorithmus im Training ungelabelte Daten. Das heißt, es sind keine Ausgabewerte vorhanden. Der Algorithmus muss daher selbstständig herausfinden, wie die Daten sinnvoll zu strukturieren sind. Das Ziel ist es, die Daten in Gruppen (Cluster) zu unterteilen oder verborgene Strukturen zu entdecken. Das unüberwachte Lernen wird z. B. für die Kundensegmentierung, Dimensionsreduktion oder Anomalieerkennung angewandt.
Neben dem überwachten und dem unüberwachten Lernen gibt es auch noch das halbüberwachte Lernen — eine Mischung aus beiden. Dabei ist nur ein Teil der Trainingsdaten beschriftet. Der Algorithmus nutzt dann die gekennzeichneten Daten, um ein grundlegendes Modell zu erstellen. Anschließend versucht er, Muster in den unbeschrifteten Daten zu erkennen, um sein Wissen zu erweitern. Diese Methode wird ebenfalls in den Bereichen des überwachten Lernens eingesetzt wie der Gesichtserkennung oder der Text- und Bildklassifizierung. Es spart aber Zeit und Kosten, da nicht alle Trainingsdaten beschriftet werden müssen.
Deep Learning
Ein weiterer wichtiger Teil des maschinellen Lernens ist das sogenannte Deep Learning. Dort spielt auch der Lernalgorithmus der neuronalen Netzwerke eine große Rolle. Mehr zum Thema Deep Learning und wie es funktioniert, erfährst du hier!
Überwachtes Lernen — häufigste Fragen
-
Was ist überwachtes Lernen? Überwachtes Lernen (Supervised Learning) ist eine Art des maschinellen Lernens, bei der ein Algorithmus anhand von bereits beschrifteten Daten lernt, neue Daten zuzuordnen oder vorherzusagen. Dabei werden dem Algorithmus sowohl Eingabedaten als auch die dazugehörigen korrekten Ausgaben (Labels) bereitgestellt. -
Was ist überwachtes Lernen beim Machine Learning? Beim überwachten Lernen im Bereich des Machine Learning wird ein Algorithmus so trainiert, dass er Vorhersagen treffen oder Daten klassifizieren kann. Das erfolgt auf Basis von Trainingsdaten, für die bereits bekannt ist, welche Ergebnisse zu erwarten sind. -
Was ist der Unterschied zwischen überwachtes und unüberwachtes Lernen? Der Hauptunterschied liegt in den Trainingsdaten. Beim überwachten Lernen sind die Daten mit Labels versehen, während sie beim unüberwachten Lernen ungelabelt sind. Überwachtes Lernen dient zur Vorhersage oder Klassifizierung, während unüberwachtes Lernen Muster und Cluster in den Daten findet.