|
ADDQ: adaptive distributional double Q-learning
Döring, Leif
;
Wille, Benedikt
;
Birr, Maximilian
;
Bîrsan, Mihail
;
Slowik, Martin
|
URL:
|
https://proceedings.mlr.press/v267/doring25a.html
|
|
URN:
|
urn:nbn:de:bsz:180-madoc-719430
|
|
Dokumenttyp:
|
Konferenzveröffentlichung
|
|
Erscheinungsjahr:
|
2025
|
|
Buchtitel:
|
Proceedings of the 42nd International Conference on Machine Learning, PMLR
|
|
Titel einer Zeitschrift oder einer Reihe:
|
Proceedings of Machine Learning Research : PMLR
|
|
Band/Volume:
|
267
|
|
Seitenbereich:
|
14344-14390
|
|
Veranstaltungstitel:
|
International Conference on Machine Learning
|
|
Veranstaltungsort:
|
Vancouver, Canada
|
|
Veranstaltungsdatum:
|
13.-19.07.2025
|
|
Herausgeber:
|
Singh, Aarti
;
Fazel, Maryam
;
Hsu, Daniel
;
Lacoste-Julien, Simon
;
Berkenkamp, Felix
;
Maharaj, Tegan
;
Wagstaff, Kiri
;
Zhu, Jerry
|
|
Ort der Veröffentlichung:
|
Red Hook, NY
|
|
Verlag:
|
Curran Associates, Inc.
|
|
ISSN:
|
2640-3498
|
|
Verwandte URLs:
|
|
|
Sprache der Veröffentlichung:
|
Englisch
|
|
Einrichtung:
|
Fakultät für Wirtschaftsinformatik und Wirtschaftsmathematik > Stochastics (Junioprofessur) (Slowik 2021-)
|
|
Fachgebiet:
|
004 Informatik
|
|
Abstract:
|
Bias problems in the estimation of Q-values are a well-known obstacle that slows down convergence of Q-learning and actor-critic methods. One of the reasons of the success of modern RL algorithms is partially a direct or indirect overestimation reduction mechanism. We introduce an easy to implement method built on top of distributional reinforcement learning (DRL) algorithms to deal with the overestimation in a locally adaptive way. Our framework ADDQ is simple to implement, existing DRL implementations can be improved with a few lines of code. We provide theoretical backup and experimental results in tabular, Atari, and MuJoCo environments, comparisons with state-of-the-art methods, and a proof of convergence in the tabular case.
|
 | Dieser Eintrag ist Teil der Universitätsbibliographie. |
 | Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt. |
Suche Autoren in
BASE:
Döring, Leif
;
Wille, Benedikt
;
Birr, Maximilian
;
Bîrsan, Mihail
;
Slowik, Martin
Google Scholar:
Döring, Leif
;
Wille, Benedikt
;
Birr, Maximilian
;
Bîrsan, Mihail
;
Slowik, Martin
ORCID:
Döring, Leif ORCID: 0000-0002-4569-5083 ; Wille, Benedikt ; Birr, Maximilian ; Bîrsan, Mihail ; Slowik, Martin ORCID: 0000-0001-5373-5754
Sie haben einen Fehler gefunden? Teilen Sie uns Ihren Korrekturwunsch bitte hier mit: E-Mail
Actions (login required)
 |
Eintrag anzeigen |
|
|