Taula de continguts
5 les relacions: Aprenentatge per diferències temporals, Equació de Bellman, Principi de Pontryagin, Richard Bellman, Teoria del control òptim.
Aprenentatge per diferències temporals
L'aprenentatge per diferències temporals (amb acrònim anglès TD) fa referència a una classe de mètodes d'aprenentatge de reforç sense models que aprenen arrancant a partir de l'estimació actual de la funció de valor.
Veure Equació de Hamilton-Jacobi-Bellman і Aprenentatge per diferències temporals
Equació de Bellman
Diagrama de flux de Bellman. Una equació de Bellman, anomenada després de Richard E. Bellman, és una condició necessària per a l'optimitat associada al mètode d'optimització matemàtica conegut com a programació dinàmica.
Veure Equació de Hamilton-Jacobi-Bellman і Equació de Bellman
Principi de Pontryagin
El principi màxim o mínim de Pontryagin s'utilitza en la teoria del control òptim per trobar el millor control possible per portar un sistema dinàmic d'un estat a un altre, especialment en presència de restriccions per als controls d'estat o d'entrada.
Veure Equació de Hamilton-Jacobi-Bellman і Principi de Pontryagin
Richard Bellman
fou un matemàtic aplicat, la major contribució va ser la metodologia anomenada programació dinàmica.
Veure Equació de Hamilton-Jacobi-Bellman і Richard Bellman
Teoria del control òptim
Punt de referència del problema de control òptim (Luus) amb un objectiu integral, desigualtat i restricció diferencial. La teoria del control òptim és una branca de l'optimització matemàtica que s'ocupa de trobar un control per a un sistema dinàmic durant un període tal que s'optimitzi una funció objectiu.
Veure Equació de Hamilton-Jacobi-Bellman і Teoria del control òptim