Pessoal,
Vi toda a unit sobre MDP e fiquei com uma dúvida.
Ele assume em alguns casos que o valor de R(s) = -3, mas como se chegou a esse valor?
No final da unit ele mostra casos para diferentes valores de R(s), sendo assim o agente toma rumos diferentes.
Então, como se chega ao valor ideal de R(s)???
Abel