Markov Decision Process

9 views
Skip to first unread message

Abel Corrêa

unread,
Nov 13, 2011, 1:39:34 PM11/13/11
to ai-cl...@googlegroups.com
Pessoal,

Vi toda a unit sobre MDP e fiquei com uma dúvida.
Ele assume em alguns casos que o valor de R(s) = -3, mas como se chegou a esse valor?
No final da unit ele mostra casos para diferentes valores de R(s), sendo assim o agente toma rumos diferentes.
Então, como se chega ao valor ideal de R(s)???

Abel

Allan Douglas R. de Oliveira

unread,
Nov 13, 2011, 8:12:53 PM11/13/11
to ai-cl...@googlegroups.com
Esse -3 é inventado e dado por quem conhece o domínio do problema. Por exemplo, no mundo real para um agente que se move usando gasolina, esse valor seria o custo (em reais) do combustível utilizado para mover de posição a posição. Aí o 100 para chegar no destino seria, supondo que o agente é um taxista, o premio por chegar no lugar certo.

2011/11/13 Abel Corrêa <phd....@gmail.com>



--
Allan Douglas R. de Oliveira
Reply all
Reply to author
Forward
0 new messages