Reinforcement Learning reinforcement learning Satinder Singh Baveja's Home Page

Intersection of Meta Learning and Reinforcement Learning

Discovering Reinforcement Learning Algorithms
by Junhyuk Oh, Matteo Hessel, Wojciech Czarnecki, Zhongwen Xu, Hado van Hasselt, Satinder Singh, and David Silver.
In Thirty Fourth Conference on Neural Information Processing Systems (NeurIPS), 2020
arXiv version.

Meta-Gradient Reinforcement Learning with an Objective Discovered Online
by Zhongwen Xu, Hado van Hasselt, Matteo Hessel, Junhyuk Oh, Satinder Singh, and David Silver.
In Thirty Fourth Conference on Neural Information Processing Systems (NeurIPS), 2020
arXiv version.

A Self-Tuning Actor-Critic Algorithm
by Tom Zahavy, Zhongwen Xu, Vivek Veeriah, Matteo Hessel, Junhyuk Oh, Hado van Hasselt, David Silver, and Satinder Singh.
In Thirty Fourth Conference on Neural Information Processing Systems (NeurIPS), 2020
arXiv version.

What can Learned Intrinsic Rewards Capture?
by Zeyu Zheng, Junhyuk Oh, Matteo Hessel, Zhongwen Xu, Manuel Kroiss, Hado van Hasselt, David Silver, and Satinder Singh.
In International Conference on Machine Learning (ICML), 2020.
arxiv version.

How Should An Agent Practice?
by Janarthanan Rajendran, Richard Lewis, Vivek Veeriah, Honglak Lee, and Satinder Singh.
In Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI), 2020.
pdf.

Discovery of Useful Questions as Auxiliary Tasks
by Vivek Veeriah, Matteo Hessel, Zhongwen Xu, Richard Lewis, Janarthanan Rajendran, Junhyuk Oh, Hado van Hsselt, David Silver, and Satinder Singh.
In Neural Information Processing Systems (NeurIPS), 2019.
arxiv version.

On Learning Intrinsic Rewards for Policy Gradient Methods
by Zeyu Zheng, Junhyuk Oh, and Satinder Singh.
In Neural Information Processing Systems (NIPS), 2018.
arXiv version.