Iteration par politique

21 views
Skip to first unread message

JC Charbonneau

unread,
Jul 4, 2013, 7:37:35 PM7/4/13
to ift-61...@googlegroups.com
Bonjour,

Dans notre devoir sur le MDP, dans la fonction calcul_plan, on n'a pas acces au plan courant, alors je me demandais comment on fait pour: 

[ R(s) + γ Σ s’ ∈ S P(s’|s,a) V(π,s’) ] > V(π,s)
    alors π’(s):= a
    sinon π’(s):= π(s)        <--------- CETTE LIGNE


Merci,
JC

Hugo Larochelle

unread,
Jul 4, 2013, 8:15:27 PM7/4/13
to JC Charbonneau, ift-61...@googlegroups.com
En fait, t'a pas besoin du plan courant: tu n'as qu'à prendre l'action avec la valeur de R(s) + γ Σ s’ ∈ S P(s’|s,a) V(π,s’) la plus élevée.

Effectivement, si tu y penses un peu, tu verras que c'est équivalent.

Si tu ne vois pas pourquoi, ça me fera plaisir d'élaborer...

Hugo


2013/7/4 JC Charbonneau <jc.jay...@gmail.com>

--
Vous recevez ce message, car vous êtes abonné au groupe Google Groupes IFT 615 E2013.
Pour vous désabonner de ce groupe et ne plus recevoir d'e-mails le concernant, envoyez un e-mail à l'adresse ift-615-e201...@googlegroups.com.
Pour plus d'options, visitez le site https://groups.google.com/groups/opt_out .
 
 

Reply all
Reply to author
Forward
0 new messages