direkt zum Inhalt springen

direkt zum Hauptnavigationsmenü

Sie sind hier

TU Berlin

Inhalt des Dokuments

Habilitationen 2006

Habilitationsvortrag

Risiko-sensitive Ansätze beim Reinforcement Learning
Dr. rer. nat. Peter Geibel, Universität Osnabrück
Freitag, 17. Februar 2006 um 12.00 Uhr, Raum FR 5516

Reinforcement Learning (RL) ist ein Teilgebiet des Maschinellen Lernens, das sich mit dem Finden von optimalen Regelungs- und Steuerungsstrategien (sog. Policies) befasst. Risiko hängt hierbei mit der Tatsache zusammen, dass auch eine optimale Policy in manchen Fällen schlechte Ergebnisse erzielen kann. Dies ist auf die stochastische Natur des Regelungsproblems zurückzuführen, das als Markov-Entscheidungsprozess (MDP) modelliert wird, was zu einer Variabilität des sog. Returns führt. Alternativ hierzu kann man Risiko im Zusammenhang mit Fehlerzuständen des Prozesses betrachten. Im Vortrag werde ich auf ein Verfahren zum Lernen von Policies mit beschränktem Risiko, also beschränkter Fehlerwahrscheinlichkeit, eingehen und entsprechende Anwendungen vorstellen.

Im Rahmen von dynamischen Systemen, wie sie in der Regelungstechnik betrachtet werden, hat Risiko häufig mit Constraints für die Parameter des Zustandsraums zu tun. Solche Fehlerzustände sowie die Zielzustände können mit Hilfe von Potential- oder Lyapunovfunktionen modelliert werden. Diese können mit Hilfe von sogenannten Shaping-Techniken zur Beschleunigung von RL-Verfahren verwendet werden. Dies stellt den zweiten von mir diskutierten Aspekt von Risiko dar.

Beim Klassifizierungslernen entspricht Risiko entweder dem Fehler des gelernten Klassifikators oder den durch ihn verursachten Kosten. Beim RL kann ein solcher Klassifikator zur Repräsentation des sog. Actors verwendet werden, welcher eine Abbildung von Zuständen auf die jeweils optimalen Aktionen darstellt. Da die Kosten für die fälschliche Wahl einer suboptimalen Aktion i. A. zusätzlich von den Merkmalen des Zustands abhängen, stellt die Entwicklung von Verfahren zur Einbeziehung solcher beispielabhängier Kosten und ihre Einbeziehung in den RL-Lernprozess einen dritten Schwerpunkt meiner Habilitationsschrift dar.

Zusatzinformationen / Extras

Direktzugang

Schnellnavigation zur Seite über Nummerneingabe

Diese Seite verwendet Matomo für anonymisierte Webanalysen. Mehr Informationen und Opt-Out-Möglichkeiten unter Datenschutz.