Natural Language Processing (NLP)
Hast du dich schon einmal gefragt, wie Chatbots es schaffen, unsere Sprache zu verstehen und mit uns zu kommunizieren? Dahinter steckt Natural Language Processing. Wie das funktioniert, zeigen wir dir hier und im Video !
Inhaltsübersicht
Was ist Natural Language Processing?
Natural Language Processing, kurz NLP, ist ein Teilbereich der künstlichen Intelligenz (KI). Es ermöglicht Computern, gesprochene und geschriebene Sprache zu verstehen, zu verarbeiten und zu erzeugen.
NLP ist dadurch eine Art Schnittstelle zwischen Mensch und Maschine, die uns die Möglichkeit gibt, mit Computern zu interagieren. Das machen wir sogar mittlerweile täglich: Wenn wir unser Smartphone nach dem Wetter fragen oder ChatGPT bitten eine Zusammenfassung zu erstellen — überall steckt NLP dahinter.
Durch Natural Language Processing können Maschinen den Inhalt und Kontext von Sprache erkennen. Es übersetzt unsere komplexe Sprache in eine für Computer verständliche Form und wandelt die Computerantworten wieder in eine für uns Menschen verständliche Sprache um.
Wie funktioniert Natural Language Processing?
Damit Computer die komplexe Struktur unserer Sprache analysieren können, durchläuft NLP 7 Schritte:
-
Spracherkennung: Diese Aufgabe wird oft auch als Speech-to-Text bezeichnet und besteht darin, gesprochene Sprache in Text umzuwandeln. Dabei muss das System gesprochene Wörter trotz verschiedener Akzente, Sprechgeschwindigkeiten und Betonungen präzise erkennen und in Textform übertragen. Wenn die Eingabe schon in Textform vorliegt, wird dieser Schritt übersprungen.
-
Tokenisierung: Hier unterteilt NLP den Text zuerst in einzelne Sätze und anschließend in Wörter. Falls Satz- und Leerzeichen zwischen einzelnen Wörtern verwendet werden, ist das relativ einfach.
-
Standardisierung: Anschließend standardisiert die Maschine den Text indem alle Zeichen in Kleinbuchstaben umgewandelt werden. Das ist beispielsweise in der Kundenfeedback-Analyse wichtig: Wenn Nutzer ihre Feedbacks unterschiedlich formatieren, etwa mit „Gut“ oder „gut“, könnte ein unstandardisiertes System diese Bewertungen unterschiedlich behandeln.
-
Stopwort-Analyse: Bei diesem Schritt entfernt NLP sogenannte Stopwörter aus dem Text. Stopwörter sind häufig vorkommende Wörter wie „der“, „und“, „in“, „auf“, die wenig bis keine Bedeutung für die Analyse des Textinhalts haben. Sie werden vorübergehend entfernt, um den Fokus auf wichtigere Wörter zu legen und die Effizienz der Analyse zu verbessern. Zum Beispiel wird der Satz „Die Katze schläft auf dem Sofa.“ zu: „Katze schläft Sofa“.
-
Lemmatisierung: Das ist eine Technik im NLP, bei der ein Wort auf seine Grundform, das sogenannte Lemma, zurückgeführt wird. Zum Beispiel werden die Wörter „geht“, „ging“ und „gegangen“ alle auf das Lemma „gehen“ zurückgeführt. Das macht es Maschinen leichter, die Bedeutung und Struktur eines Textes zu analysieren, da verschiedene Formen eines Wortes vereinheitlicht werden.
-
Part-of-Speech-Tagging: Bei diesem Prozess ordnet der Computer den einzelnen Wörtern Wortarten
zu, wie zum Beispiel Nomen. Verb oder Adjektiv.
Überwachtes und unüberwachtes Lernen
Um die Wortarten zu bestimmen, nutzen Computer zwei Arten von maschinellem Lernen: überwachtes und unüberwachtes Lernen.
Beim überwachten Lernen lernt der Computer anhand von Beispielen, die Wortarten zu bestimmen. Zum Beispiel bekommt er einen Satz wie „Der Hund läuft schnell“ bei dem „Hund“ als Nomen, „läuft“ als Verb und „schnell“ als Adverb markiert sind. Anhand dieser markierten Sätze erkennt der Computer Muster und kann diese auf neue Texte anwenden.
Beim unüberwachten Lernen bekommt der Computer Texte ohne solche Markierungen. Er findet selbstständig Muster und erstellt eigene Kategorien für Wortarten.
-
Parsing: Im letzten Schritt geht es darum, die Beziehungen zwischen den Wörtern und Satzteilen zu verstehen. Dieser Vorgang heißt Parsing und spielt eine entscheidende Rolle, um die Syntax und Bedeutung der Sprache zu entschlüsseln. Es werden zwei zentrale Methoden eingesetzt: Constituency Parsing und Dependency Parsing.
- Beim Constituency Parsing wird ein Satz in hierarchische Strukturen zerlegt — ähnlich wie ein Baumdiagramm, das Haupt- und Nebensätze sowie Wortgruppen wie Subjekte und Prädikate zeigt. Der Beispielsatz „Der Hund läuft schnell“ wird aufgeteilt in die Nominalphrase „Der Hund“ und die Verbphrase „läuft schnell“. Innerhalb dieser Phrasen gibt es wiederum einzelne Wörter als Bestandteile.
- Dependency Parsing geht einen Schritt weiter, indem es die Beziehungen und Abhängigkeiten zwischen den Wörtern eines Satzes analysiert. Statt nur die Satzstruktur zu betrachten, legt es den Fokus darauf, wie Wörter miteinander verbunden sind und welche grammatikalischen Funktionen sie erfüllen. Beispielsweise zeigt Dependency Parsing, dass das Subjekt „Hund“ von dem Verb „läuft“ abhängt, während „schnell“ das Verb näher beschreibt.
%dreiklang, vllt fällt die ja noch etwas 4. ein
%fragt man sich hier am Anfang evtl ob das jetzt schon die ZF ist oder nicht? vllt sollten wirs kurz einordnen. Bevor wir zu den einzelnen Kapitel kommen… oder wir ziehen den Absatz mit der Grundlage hoch und formulieren es leicht um
%fragt man sich hier am Anfang evtl ob das jetzt schon die ZF ist oder nicht? vllt sollten wirs kurz einordnen. Bevor wir zu den einzelnen Kapitel kommen… oder wir ziehen den Absatz mit der Grundlage hoch und formulieren es leicht um
%FS Main KW & Google Frage
%FS Main KW bzw Google Frage
%Google Frage$
Ja, ChatGPT ist ein NLP-Modell. Es verwendet Natural Language Processing, um menschliche Sprache zu verstehen und darauf zu antworten. Dabei nutzt es Deep Learning, um natürliche und sinnvolle Antworten zu erzeugen.
Reinforcement Learning
Eine wichtige Methode des maschinellen Lernens, die auch im Bereich NLP genutzt wird ist Reinforcement Learning. Wie dieser Ansatz funktioniert, erfährst du in unserem Video dazu!
[caption id="attachment_656916" align="aligncenter" width="525"] Zum Video: Reinforcement Learning