RLHF
RLHF ist die Methode hinter Chatbots wie ChatGPT. Was RLHF genau ist und wie es funktioniert, erfährst du hier im Beitrag und im Video !
Inhaltsübersicht
Was ist RLHF?
RLHF steht für „Reinforcement Learning from Human Feedback“ — auf Deutsch „verstärkendes Lernen aus menschlichem Feedback“. Dabei handelt es sich um eine Methode des maschinellen Lernens, bei der ein Computer oder eine Software, durch Rückmeldungen von Menschen lernt, wie sie sich verhalten oder Entscheidungen treffen sollen.
Eingesetzt wird RLHF vor allem in generativer künstlicher Intelligenz, die Texte verfasst oder Fragen beantwortet. Dazu gehören Sprachassistenten wie Alexa oder große Sprachmodelle wie ChatGPT. Denn RLHF hilft bei Aufgaben, die komplex oder schwer zu definieren sind.
Wie zum Beispiel bei Fragen wie „Was ist lustig?“ oder „Wie schafft man eine angenehme Stimmung?“ — das sind Dinge, die wir Menschen intuitiv verstehen, aber sie logisch einem Computer zu erklären, ist fast unmöglich. Doch RLHF kann einer KI „menschliches Feingefühl“ antrainieren und ihr beibringen, unsere Wünsche, Werte und Normen besser zu erfüllen.
Die Idee des Reinforcement Learning from Human Feedback (RLHF) wurde erstmals im Jahr 2017 in einer Studie von Paul Christiano und weiteren Forschern von OpenAI und DeepMind vorgestellt. Sie zeigten, dass ein KI-Modell auch mit direktem menschlichen Feedback trainiert werden kann.
Diese Methode ermöglichte es, Modelle zu entwickeln, die sich natürlicher und menschenähnlicher verhalten. Die Studie legte damit den Grundstein für die Entwicklung von Sprachmodellen wie ChatGPT.
Das Grundprinzip: Reinforcement Learning (RL)
Um RLHF zu verstehen, schauen wir zuerst das zugrundeliegende Konzept des Reinforcement Learning (RL) an. Das funktioniert ähnlich wie ein Lernprozess durch Erfahrung: Ein „Agent“ (das KI-System) findet durch Interaktion mit seiner Umgebung heraus, welche Aktionen ihn näher an sein Ziel bringen.
Dabei hilft ihm eine sogenannte Belohnungsfunktion. Diese Funktion bewertet jede Aktion des Agenten, indem sie entweder eine Belohnung oder eine Strafe zuweist — abhängig davon, wie gut die Aktion zum Erreichen des Ziels beigetragen hat. Ziel des Agenten ist es, seine Belohnungen zu maximieren.
Beispiel: Ein Roboter soll lernen, einen Ball in ein Tor zu schießen. Die Belohnungsfunktion gibt ihm eine hohe Punktzahl (Belohnung), wenn er das Tor trifft, und eine niedrige oder gar keine Belohnung, wenn er daneben schießt. Durch dieses „Belohnungssystem“ entwickelt der Agent eine Strategie — in der Fachsprache „Policy“ — die ihm sagt, welche Aktionen er ausführen muss, um seine Belohnungen zu maximieren. Je mehr der Agent lernt, desto besser wird seine Policy.
Die Belohnungsfunktion ist dabei zentral für das Lernen im RL: Sie übersetzt die Aufgabe oder das Ziel in messbare Kriterien, anhand derer der Agent seine Aktionen bewerten kann. Die Belohnung ist also wie ein „Leitfaden“, der ihm zeigt, welche Richtung er einschlagen soll.
Im klassischen Reinforcement Learning wird die Belohnungsfunktion oft von den Entwicklern der KI festgelegt. Das funktioniert gut bei Aufgaben mit einfachen Zielen, wie etwa das Tor-Schießen. Doch bei komplexen Aufgaben, bei denen menschliche Faktoren wie Kreativität, Humor oder Nützlichkeit ins Spiel kommen, ist es schwer, eine klare mathematische Regel festzulegen, was eine „Belohnung“ verdient.
Bei RLHF funktioniert der Lernprozess ähnlich wie beim RL. Der Unterschied ist jedoch, dass menschliches Feedback in die Belohnungsfunktion eingebaut wird. So können KI-Systeme auch in komplexen und vielschichtigen Situationen lernen, was als „richtig“ oder „gut“ angesehen wird.
Studyflix vernetzt: Hier ein Video aus einem anderen Bereich
Wie funktioniert RLHF?
Da „Reinforcement Learning from Human Feedback“ hauptsächlich für große Sprachmodelle (Large Language Model, LLM) verwendet wird, schauen wir uns dessen Funktionsweise auch am Beispiel eines LLM an:
%dreiklang, vllt fällt die ja noch etwas 4. ein
%fragt man sich hier am Anfang evtl ob das jetzt schon die ZF ist oder nicht? vllt sollten wirs kurz einordnen. Bevor wir zu den einzelnen Kapitel kommen… oder wir ziehen den Absatz mit der Grundlage hoch und formulieren es leicht um
%fragt man sich hier am Anfang evtl ob das jetzt schon die ZF ist oder nicht? vllt sollten wirs kurz einordnen. Bevor wir zu den einzelnen Kapitel kommen… oder wir ziehen den Absatz mit der Grundlage hoch und formulieren es leicht um
%FS rlhf
%PAA$
RLHF (Reinforcement Learning from Human Feedback) ist eine Methode, bei der ein ML-Modell mit menschlichem Feedback trainiert wird. Das findet vor allem bei großen Sprachmodellen (LLM) Anwendung, die dadurch besser an die Bedürfnisse und Vorlieben von Menschen anpassen können.
Machine Learning
RLHF bzw. RL sind nur eine Methode des maschinellen Lernens (Machine Learning). Daneben gibt es auch das überwachte Lernen, wie es für die überwachte Feinabstimmung verwendet wird, und das unüberwachte Lernen. Wie sich die verschiedenen Methoden unterscheiden und was maschinelles Lernen auszeichnet, zeigen wir dir hier in unserem Video!
[caption id="attachment_657246" align="aligncenter" width="525"] Zum Video: Machine Learning