Markov Decision Process

9 views

Skip to first unread message

Abel Corrêa

unread,

Nov 13, 2011, 1:39:34 PM11/13/11

to ai-cl...@googlegroups.com

Pessoal,

Vi toda a unit sobre MDP e fiquei com uma dúvida.

Ele assume em alguns casos que o valor de R(s) = -3, mas como se chegou a esse valor?

No final da unit ele mostra casos para diferentes valores de R(s), sendo assim o agente toma rumos diferentes.

Então, como se chega ao valor ideal de R(s)???

Abel

Allan Douglas R. de Oliveira

unread,

Nov 13, 2011, 8:12:53 PM11/13/11

to ai-cl...@googlegroups.com

Esse -3 é inventado e dado por quem conhece o domínio do problema. Por exemplo, no mundo real para um agente que se move usando gasolina, esse valor seria o custo (em reais) do combustível utilizado para mover de posição a posição. Aí o 100 para chegar no destino seria, supondo que o agente é um taxista, o premio por chegar no lugar certo.

2011/11/13 Abel Corrêa <phd....@gmail.com>

--
Allan Douglas R. de Oliveira

Reply all

Reply to author

Forward

0 new messages