Darmstadt: Bachelorarbeit: Messung der Alignment Tax
Jetzt bewerbenStellenbeschreibung
Das Fraunhofer-Institut für Sichere Informationstechnologie SIT gehört zu den führenden Forschungs- und Entwicklungseinrichtungen für Cyber-Sicherheit in Deutschland und Europa und ist Teil von ATHENE, dem nationalen Forschungszentrum für angewandte Cybersicherheit. ATHENE ist eine Kooperation der Fraunhofer-Gesellschaft mit der TU Darmstadt, der Hochschule Darmstadt und der Goethe-Universität Frankfurt. Unser gemeinsames Ziel: die Welt von morgen sicherer zu machen.
Was Du bei uns tust
LLMs haben in den letzten Jahren viel Aufmerksamkeit erregt. Modelle verfügen heutzutage über viele Fähigkeiten. Allerdings sind Modelle nicht dafür gedacht, auf jede Eingabe zu antworten, da diese nach schädlichen oder gefährlichen Informationen fragen könnte. Deshalb durchlaufen LLMs einen umfassenden "Alignmentprozess". Während dieses Prozesses werden einige Neuronen umfunktioniert, um Sicherheitsneuronen zu werden, die schädliche Anfragen stoppen. Nach der Ausrichtung wird eine verringerte Performance der LLMs beobachtet. Dieser Trade-off wird als "Alignment Tax" bezeichnet. Zur Messung der Sicherheit und Performance von Modellen werden Benchmarks verwendet. Allerdings können Benchmarks nur eine begrenzte Konzeptualisierung der Fähigkeiten eines LLMs bieten. Daher soll im Rahmen dieser Arbeit die Alignment Tax mit verschiedenen Benchmarks auf unterschiedlichen Modellen verglichen und gemessen werden, um die Messung der Alignment Tax zu verallgemeinern und zu vereinheitlichen.
Ziel: Ziel dieser Arbeit ist es zu zeigen, dass je nach verwendeten Benchmarks und Modellen Alignment Taxes unterschiedlicher Größenordnung bei beliebigen, alignten/nicht alignten Modellpaaren beobachten zu sind. Dazu soll ein Framework implementiert werden, dass die Alignment Tax auf verschiedenen Modellen mit unterschiedlichen Benchmarks misst. Dabei soll gezeigt werden, dass der Trade-off zwischen Sicherheit und Performance abhängig von den gewählten Benchmarks ist.
Ergebnisse: Die Ergebnisse dieser Arbeit tragen zu einer besseren Konzeptualisierung von Benchmarks und einem besseren Verständnis der Alignment Tax bei. Mithilfe des Frameworks können Aussagen über den Sicherheits-Performance Trade-off getätigt werden, die von speziellen Benchmarks losgelöst sind und daher allgemeiner anwendbar sind. Die gefunden Ergebnisse werden über empirisch über eine Deaktivierung der gefunden Neuronen im Vergleich zu zufällig ausgewählten Neuronen verifiziert.
Der Umfang der Arbeit kann für eine Masterarbeit entsprechend erweitert werden.
Was Du bei uns tust:
- Forschen und Implementieren von neuartigen Machine Learning Ansätzen, die die Sicherheit von LLMs steigern
- Selbstkritische Evaluierung der gefundenen Ergebnisse
- Präsentieren der Ergebnisse
- Anfertigen eines Projektberichts in Form einer Masterarbeit
Was Du mitbringst
- Kenntnisse im Bereich Machine Learning darunter Training, Inferenz und Optimierung von Transformerarchitekturen
- Kenntnisse im Bereich ML-Security sind wünschenswert
- Gute Python Kenntnisse im speziellen mit Pytorch
- Wissenschaftliches Interesse und Interesse an aktuellen Forschungsprojekten
Was Du erwarten kannst
- Selbstständige Arbeitszeiteinteilung
- Einblicke in das Schnittfeld von akademischer Forschung und industrieller Anwendung
Verwandte Arbeiten:
- (Relevante Abschnitte: 2.2, 2.7, 3.1, 3.2)
Wir wertschätzen und fördern die Vielfalt der Kompetenzen unserer Mitarbeitenden und begrüßen daher alle Bewerbungen – unabhängig von Alter, Geschlecht, Nationalität, ethnischer und sozialer Herkunft, Religion, Weltanschauung, Behinderung sowie sexueller Orientierung und Identität. Schwerbehinderte Menschen werden bei gleicher Eignung bevorzugt eingestellt.
Mit ihrer Fokussierung auf zukunftsrelevante Schlüsseltechnologien sowie auf die Verwertung der Ergebnisse in Wirtschaft und Industrie spielt die Fraunhofer-Gesellschaft eine zentrale Rolle im Innovationsprozess. Als Wegweiser und Impulsgeber für innovative Entwicklungen und wissenschaftliche Exzellenz wirkt sie mit an der Gestaltung unserer Gesellschaft und unserer Zukunft.
Haben wir Dein Interesse geweckt? Dann bewirb Dich jetzt online mit Deinen aussagekräftigen Bewerbungsunterlagen. Wir freuen uns darauf, Dich kennenzulernen!
Fraunhofer-Institut für Sichere Informationstechnologie SIT
Kennziffer: 81214 Bewerbungsfrist: