Cargando…

Entropic Regularization of Markov Decision Processes

An optimal feedback controller for a given Markov decision process (MDP) can in principle be synthesized by value or policy iteration. However, if the system dynamics and the reward function are unknown, a learning agent must discover an optimal controller via direct interaction with the environment...

Descripción completa

Detalles Bibliográficos
Autores principales:	Belousov, Boris, Peters, Jan
Formato:	Online Artículo Texto
Lenguaje:	English
Publicado:	MDPI 2019
Materias:	Article
Acceso en línea:	https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7515171/ https://www.ncbi.nlm.nih.gov/pubmed/33267388 http://dx.doi.org/10.3390/e21070674

Internet

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7515171/
https://www.ncbi.nlm.nih.gov/pubmed/33267388
http://dx.doi.org/10.3390/e21070674

Entropic Regularization of Markov Decision Processes

Internet

Ejemplares similares