RLHF
RLHF ist die Methode hinter Chatbots wie ChatGPT. Was RLHF genau ist und wie es funktioniert, erfährst du hier im Beitrag!
Inhaltsübersicht
Was ist RLHF?
RLHF steht für „Reinforcement Learning from Human Feedback“ — auf Deutsch „verstärkendes Lernen aus menschlichem Feedback“. Dabei handelt es sich um eine Methode des maschinellen Lernens, bei der ein Computer oder eine Software, durch Rückmeldungen von Menschen lernt, wie sie sich verhalten oder Entscheidungen treffen sollen.
Eingesetzt wird RLHF vor allem in generativer künstlicher Intelligenz, die Texte verfasst oder Fragen beantwortet. Dazu gehören Sprachassistenten wie Alexa oder große Sprachmodelle wie ChatGPT. Denn RLHF hilft bei Aufgaben, die komplex oder schwer zu definieren sind.
Wie zum Beispiel bei Fragen wie „Was ist lustig?“ oder „Wie schafft man eine angenehme Stimmung?“ — das sind Dinge, die wir Menschen intuitiv verstehen, aber sie logisch einem Computer zu erklären, ist fast unmöglich. Doch RLHF kann einer KI „menschliches Feingefühl“ antrainieren und ihr beibringen, unsere Wünsche, Werte und Normen besser zu erfüllen.
Die Idee des Reinforcement Learning from Human Feedback (RLHF) wurde erstmals im Jahr 2017 in einer Studie von Paul Christiano und weiteren Forschern von OpenAI und DeepMind vorgestellt. Sie zeigten, dass ein KI-Modell auch mit direktem menschlichen Feedback trainiert werden kann.
Diese Methode ermöglichte es, Modelle zu entwickeln, die sich natürlicher und menschenähnlicher verhalten. Die Studie legte damit den Grundstein für die Entwicklung von Sprachmodellen wie ChatGPT.
Das Grundprinzip: Reinforcement Learning (RL)
Um RLHF zu verstehen, schauen wir zuerst das zugrundeliegende Konzept des Reinforcement Learning (RL) an. Das funktioniert ähnlich wie ein Lernprozess durch Erfahrung: Ein „Agent“ (das KI-System) findet durch Interaktion mit seiner Umgebung heraus, welche Aktionen ihn näher an sein Ziel bringen.
Dabei hilft ihm eine sogenannte Belohnungsfunktion. Diese Funktion bewertet jede Aktion des Agenten, indem sie entweder eine Belohnung oder eine Strafe zuweist — abhängig davon, wie gut die Aktion zum Erreichen des Ziels beigetragen hat. Ziel des Agenten ist es, seine Belohnungen zu maximieren.
Beispiel: Ein Roboter soll lernen, einen Ball in ein Tor zu schießen. Die Belohnungsfunktion gibt ihm eine hohe Punktzahl (Belohnung), wenn er das Tor trifft, und eine niedrige oder gar keine Belohnung, wenn er daneben schießt. Durch dieses „Belohnungssystem“ entwickelt der Agent eine Strategie — in der Fachsprache „Policy“ — die ihm sagt, welche Aktionen er ausführen muss, um seine Belohnungen zu maximieren. Je mehr der Agent lernt, desto besser wird seine Policy.
Die Belohnungsfunktion ist dabei zentral für das Lernen im RL: Sie übersetzt die Aufgabe oder das Ziel in messbare Kriterien, anhand derer der Agent seine Aktionen bewerten kann. Die Belohnung ist also wie ein „Leitfaden“, der ihm zeigt, welche Richtung er einschlagen soll.
Im klassischen Reinforcement Learning wird die Belohnungsfunktion oft von den Entwicklern der KI festgelegt. Das funktioniert gut bei Aufgaben mit einfachen Zielen, wie etwa das Tor-Schießen. Doch bei komplexen Aufgaben, bei denen menschliche Faktoren wie Kreativität, Humor oder Nützlichkeit ins Spiel kommen, ist es schwer, eine klare mathematische Regel festzulegen, was eine „Belohnung“ verdient.
Bei RLHF funktioniert der Lernprozess ähnlich wie beim RL. Der Unterschied ist jedoch, dass menschliches Feedback in die Belohnungsfunktion eingebaut wird. So können KI-Systeme auch in komplexen und vielschichtigen Situationen lernen, was als „richtig“ oder „gut“ angesehen wird.
Wie funktioniert RLHF?
Da „Reinforcement Learning from Human Feedback“ hauptsächlich für große Sprachmodelle (Large Language Model, LLM) verwendet wird, schauen wir uns dessen Funktionsweise auch am Beispiel eines LLM an:
Der Ausgangspunkt für RLHF ist meist ein bereits vortrainiertes großes Sprachmodell. Für die Entwicklung von GPT-3.5 war z. B. der Ausgangspunkt das Modell GPT-3. Diese LLMs wurden zuvor durch riesige Mengen an Texten trainiert, sodass sie lernen, wie Sprache aufgebaut ist.
Damit ist das Ausgangsmodell bereits in der Lage, erstaunlich gut Texte zu generieren, Fragen zu beantworten und komplexe Informationen zusammenzufassen. Allerdings entstehen oft Antworten, die zwar technisch korrekt, aber nicht immer sinnvoll, hilfreich oder wahrheitsgemäß sind.
Hier kommt RLHF ins Spiel: Es wird nun verwendet, um dieses bereits trainierte Modell noch besser zu machen, sodass es auf Nutzerwünsche besser eingehen kann. RLHF läuft dabei in drei Schritten ab:
- Überwachte Feinabstimmung
- Belohnungsmodell trainieren
- Policy optimieren
1. Überwachte Feinabstimmung
Bevor das eigentliche Verstärkungslernen beginnt, wird das Modell zuerst mit „überwachter Feinabstimmung“ (Supervised Fine-Tuning = SFT) trainiert. Das heißt, menschliche Experten zeigen dem Modell durch Beispiele, wie es auf bestimmte Anfragen antworten soll (= überwachtes Lernen).
Das geschieht im Format „Eingabeaufforderung → gewünschte Antwort“. Zum Beispiel:
- Eingabeaufforderung: „Wie schreibe ich eine Bewerbung?“
- Gewünschte Antwort: „Eine Bewerbung besteht in der Regel aus einem Anschreiben, einem Lebenslauf und eventuellen Zeugnissen. Beginne mit der Kopfzeile, die deine Kontaktdaten enthält. […]“
Das Modell wird mit zahlreichen solcher Beispiele gefüttert. An ihnen lernt es, welche Antworten als „gut“ gelten. Schließlich passt das LLM selbstständig seine Parameter an, um zukünftig Antworten zu generieren, die mit den von den Menschen gegebenen Beispielen übereinstimmen.
2. Belohnungsmodell trainieren
Jetzt kommt das menschliche Feedback ins Spiel: Im zweiten Schritt folgt das Trainieren eines Belohnungsmodells (Reward Model = RM). Das ist wichtig, um später das menschliche Feedback in die Belohnungsfunktion beim Reinforcement Learning zu integrieren. Dadurch können Werte wie „nützlich“ und „hilfreich“, die sich mathematisch kaum ausdrücken lassen, in die Belohnungsfunktion aufgenommen werden.
Ein Reward Model ist im Wesentlichen ein separates Lernmodell, das darauf trainiert wird, die Qualität der Antworten eines LLMs mit einer Nummer zu bewerten. Die funktioniert dann als eine Art „Belohnung“, wobei höhere Werte für bessere Antworten stehen.
Um das RM zu trainieren, beantworten verschiedene LLMs dieselbe Aufforderung. Diese verschiedenen Antworten werden dann von Experten bewertet. Doch anstatt jede Antwort direkt mit einer Punktzahl zu versehen (z. B. auf einer Skala von 1 bis 10), erstellen die Bewerter eine Rangordnung (Ranking). Ein Vergleichsansatz ist nämlich oft effektiver, weil es einfacher ist, zwischen Alternativen zu wählen, als eine einzelne Antwort objektiv zu bewerten.
Diese Rangordnung wird dann in eine „skalare Belohnung“ umgerechnet — das ist die Nummer, die die Qualität einer Antwort bewertet. Das Belohnungsmodell wird mit diesen Datenpaaren (Antwort + menschliche Bewertung als Nummer) trainiert. Es lernt dabei, die Merkmale zu identifizieren, die von Menschen bevorzugt werden und entsprechend höhere Bewertungen zuzuweisen.
Dadurch kann das Belohnungsmodell nach dem Training selbstständig einschätzen, welche Antworten ein Mensch besser oder schlechter bewerten würde und das in ein Belohnungssignal für das LLM umwandeln. So kann das Sprachmodell dieses Training intern fortsetzen, ohne dass ein Mensch ständig eingreifen muss.
3. Policy optimieren
Im letzten Schritt von RLHF geht es darum, die Entscheidungen bzw. die Antworten des „fein abgestimmten“ Sprachmodells aus Schritt 1 zu optimieren. Dafür wird nun Reinforcement Learning in Kombination mit dem Belohnungsmodell aus Schritt 2 als Belohnungsfunktion eingesetzt.
Das funktioniert so: Das Sprachmodell erzeugt in mehreren Trainings-Runden Antworten und erhält dafür eine Bewertung von dem Belohnungsmodell — es signalisiert dem Sprachmodell also, ob ein Mensch die Antwort als nützlich empfinden würde oder nicht. Je nachdem, wie die Bewertung ausfiel (belohnend oder bestrafend), passt es seine Policy an.
Zur Erinnerung: Die Policy im Reinforcement Learning ist die Strategie, die das Modell entwickelt, um für jede Anfrage die Antwort auszuwählen, die am wahrscheinlichsten menschlichen Vorlieben entspricht und somit maximale Belohnung (Bewertung) liefert.
Um die Policy anzupassen, wird ein bestimmter Algorithmus verwendet: Proximal Policy Optimization (PPO). PPO sorgt dafür, dass die Strategie des Modells schrittweise verbessert wird, ohne das Modell zu sehr zu verändern und dadurch Fehler oder merkwürdige Antworten zu riskieren.
Ein Problem bei der Optimierung der Policy ist nämlich, dass das Modell, wenn es zu schnell oder zu drastisch lernt, „überoptimieren“ könnte. Das bedeutet, es könnte versuchen, das Belohnungsmodell zu „überlisten“, indem es Antworten gibt, die zwar hohe Belohnungen versprechen, aber am Ende unnatürlich oder fehlerhaft sind.
Beispielsweise hat das Sprachmodell in einer Trainings-Runde gelernt, dass kreative Antworten hohe Belohnungen verschaffen. Wird das Modell nun gefragt, wie man gesund bleibt, könnte es eine Antwort wie „Trinke einen Zaubertrank“ höher bewerten als „Iss Obst und Gemüse“, da es zuvor seine Policy zu stark in Richtung „Kreativität“ geändert hat.
Um das zu verhindern, setzt PPO sogenannte Leitplanken ein. Das heißt, PPO begrenzt die Veränderungen, die das Modell in jeder Trainings-Runde an seiner Policy vornimmt.
Am Ende dieses Schritts hat das Modell gelernt, auf eine optimierte Weise zu handeln: Es wählt die Antworten aus, die am besten zu menschlichen Vorlieben passen und macht das auf eine stabile und zuverlässige Art. Das Ergebnis ist ein Modell, das nicht nur Sprachfähigkeiten besitzt, sondern auch in der Lage ist, auf menschliche Bedürfnisse einzugehen.
Bedeutung von RLHF
„Reinforcement Learning from Human Feedback“ spielt eine entscheidende Rolle bei der Entwicklung moderner KI-Modelle. Denn das ultimative Ziel von KI-Systemen wie ChatGPT oder Alexa ist es, menschliche Intelligenz, Verhaltensweisen und Entscheidungen zu imitieren. Und RLHF ist ein mächtiges Werkzeug, um sie menschlicher erscheinen zu lassen.
Mithilfe von RLHF können KI-Modelle nicht nur Informationen korrekt vermitteln, sondern auch in einer Art und Weise kommunizieren, die für den Menschen angenehm und verständlich ist.
Außerdem macht RLHF subjektive Parameter greifbarer. Dinge wie „kreativ“, „hilfreich“ oder „klar“ sind für Menschen leicht einzuschätzen, aber für Computer nicht. RLHF kann hingegen diese menschlichen Erwartungen in das Verhalten der KI integrieren. Dadurch wird die KI ebenfalls „menschlicher“.
Ein weiterer Vorteil ist, dass sie durch das gezielte Einbeziehen menschlicher Rückmeldungen genauer und zuverlässiger werden. Ein häufiges Problem von Sprachmodellen sind nämlich sogenannte Halluzinationen — das sind Antworten, die zwar sprachlich korrekt erscheinen, inhaltlich aber frei erfunden sind. Mit RLHF wird dieses Problem reduziert, weil das Modell besser lernt, was „richtig“ oder „wahr“ ist.
Übrigens: Neben Sprachmodellen und -assistenten kommt RLHF auch bei der Bild- und Musikgenerierung zum Einsatz.
Herausforderungen mit RLHF
Auch wenn RLHF viele Vorteile mit sich bringt, ist es nicht fehlerfrei. Eine der größten Schwierigkeiten ist die Subjektivität des menschlichen Feedbacks. Was die Entwickler als „hilfreich“ oder „angemessen“ empfinden, kann für die Nutzer des Modells ganz anders aussehen. Das führt womöglich dazu, dass das Modell nur auf die spezifischen Präferenzen der Entwickler angepasst ist und andere Nutzergruppen vernachlässigt (= Überanpassung).
Ein weiteres Problem liegt in der Qualität des menschlichen Feedbacks. Denn es besteht die Gefahr, unbeabsichtigt Vorurteile, feindselige oder falsche Informationen in das Modell zu integrieren. Die Entwickler müssen daher gut geschult sein, damit sie keine schädlichen Stereotype oder Fehler in den Trainingsprozess einfließen lassen.
Außerdem ist der Prozess des Supervised Fine-Tuning (SFT) sehr kosten- und zeitaufwändig. Schließlich müssen viele Ein- und Ausgabedaten gesammelt werden, um mit ihnen das Sprachmodell zu trainieren.
RLHF — häufigste Fragen
-
Was ist RLHF? RLHF steht für „Reinforcement Learning from Human Feedback“. Es ist eine Methode, bei der ein künstliches Intelligenzmodell mithilfe von menschlichem Feedback trainiert wird. Das Modell lernt, welche Antworten oder Aktionen vom Menschen bevorzugt werden und optimiert sich entsprechend selbst. -
Was ist RLHF LLM? RLHF (Reinforcement Learning from Human Feedback) ist eine Methode, bei der ein ML-Modell mit menschlichem Feedback trainiert wird. Das findet vor allem bei großen Sprachmodellen (LLM) Anwendung, die dadurch besser an die Bedürfnisse und Vorlieben von Menschen anpassen können.
Machine Learning
RLHF bzw. RL sind nur eine Methode des maschinellen Lernens (Machine Learning). Daneben gibt es auch das überwachte Lernen, wie es für die überwachte Feinabstimmung verwendet wird, und das unüberwachte Lernen. Wie sich die verschiedenen Methoden unterscheiden und was maschinelles Lernen auszeichnet, zeigen wir dir hier in unserem Video!