Darmstadt: Masterarbeit: Über den Zweck von Sicherheitsneuronen in LLMs
Jetzt bewerbenStellenbeschreibung
Das Fraunhofer-Institut für Sichere Informationstechnologie SIT gehört zu den führenden Forschungs- und Entwicklungseinrichtungen für Cyber-Sicherheit in Deutschland und Europa und ist Teil von ATHENE, dem nationalen Forschungszentrum für angewandte Cybersicherheit. ATHENE ist eine Kooperation der Fraunhofer-Gesellschaft mit der TU Darmstadt, der Hochschule Darmstadt und der Goethe-Universität Frankfurt. Unser gemeinsames Ziel: die Welt von morgen sicherer zu machen.
Was Du bei uns tust
LLMs haben in den letzten Jahren große Aufmerksamkeit erlangt. Aufgrund ihrer bemerkenswerten Fähigkeiten wurde ein "Alignment", also Ausrichtung, eingeführt, damit Modelle keine schädlichen Anfragen verarbeiten. Jüngste Forschungen deuten darauf hin, dass einige Neuronen während des Alignments umfunktioniert werden, um schädliche Anfragen zu blockieren. Alignte Modelle sind zwar weniger schädlich, schneiden jedoch schlechter ab als ihre nicht alignten Pendants. Dies liegt vermutlich daran, dass einige Neuronen während des Alignmentprozesses umfunktioniert werden. Dieses Phänomen wird als "Alignment Tax" bezeichnet.
Ziel: In der Arbeit sollen Sicherheitsneuronen identifiziert und deren mögliche weitere Zwecke untersucht werden. Im Rahmen der Arbeit wird ein Ansatz aus dem Multilingualen Kontext angepasst und implementiert, um herauszufinden welche weiteren Fähigkeiten Sicherheitsneuronen noch haben. Im Speziellen ist dabei interessant ob Sicherheitsneuronen eher generalisierend oder memorisierend sind oder auch möglicherweise multilingual. Um Generalisierbarkeit von Neuronen sicher nachweisen zu können, wird ein Benchmark erstellt mit Aufgaben die auf den Nachweisen dieser Fähigkeit abzielen. Die Methoden werden an gängigen Stand-der-Technik Modellen erprobt, um die Relevanz unsere Ergebnisse hervorzuheben.
Ergebnisse: Ziel der Arbeit ist es, den Zweck von Sicherheitsneuronen zu konzeptualisieren und zu klären, wie sie innerhalb des Netzwerks umfunktioniert oder neu verteilt werden könnten, um einen zuverlässigeren, schnelleren und billigeren Alignmentprozess der Modelle zu gewährleisten. Dazu wird ein Framework entwickelt, um die Modelle schnell und gründlich auf die oben genannten Eigenschaften zu prüfen. Den Zweck der Sicherheitsneuronen werden mit gezieltem benchmarking durchgeführt. Zum Verifizieren der Ergebnisse werden die Neuronen deaktiviert. Dadurch erwarten wir eine schlechte Performance beim benchmarking.
Was Du bei uns tust:
- Forschen und Implementieren von neuartigen Machine Learning Ansätzen, die die Sicherheit von LLMs steigern
- Selbstkritische Evaluierung der gefundenen Ergebnisse
- Präsentieren der Ergebnisse
- Anfertigen eines Projektberichts in Form einer Masterarbeit
Was Du mitbringst
- Kenntnisse im Bereich Machine Learning darunter Training, Inferenz und Optimierung von Transformerarchitekturen
- Kenntnisse im Bereich ML-Security sind wünschenswert
- Gute Python Kenntnisse im Speziellen mit Pytorch
- Wissenschaftliches Interesse und Interesse an aktuellen Forschungsprojekten
Was Du erwarten kannst
- Selbstständige Arbeitszeiteinteilung
- Einblicke in das Schnittfeld von akademischer Forschung und industrieller Anwendung
Verwandte Arbeiten:
- (Relevante Abschnitte: 2.7, 3.1, 3.2)
Wir wertschätzen und fördern die Vielfalt der Kompetenzen unserer Mitarbeitenden und begrüßen daher alle Bewerbungen – unabhängig von Alter, Geschlecht, Nationalität, ethnischer und sozialer Herkunft, Religion, Weltanschauung, Behinderung sowie sexueller Orientierung und Identität. Schwerbehinderte Menschen werden bei gleicher Eignung bevorzugt eingestellt.
Mit ihrer Fokussierung auf zukunftsrelevante Schlüsseltechnologien sowie auf die Verwertung der Ergebnisse in Wirtschaft und Industrie spielt die Fraunhofer-Gesellschaft eine zentrale Rolle im Innovationsprozess. Als Wegweiser und Impulsgeber für innovative Entwicklungen und wissenschaftliche Exzellenz wirkt sie mit an der Gestaltung unserer Gesellschaft und unserer Zukunft.
Haben wir Dein Interesse geweckt? Dann bewirb Dich jetzt online mit Deinen aussagekräftigen Bewerbungsunterlagen. Wir freuen uns darauf, Dich kennenzulernen!
Fraunhofer-Institut für Sichere Informationstechnologie SIT
Kennziffer: 81220 Bewerbungsfrist: