###Markov Decision Processes

<S, A, P, R, r>

 

1. A set of states S = {s1, s2, .... , sn}

2. A set of actions A = {a1, a2, ..., am}

3. Transition funcion P:S * A -> S, P^a_ss' = P[S_t+1 = s'[S_t = s, A_t = a]

4. Reward function R: S * A -> R, R^a_s = E[R_t+1|S_t = s,At = a]

5. Discount factor r ∈ [0,1]

좀더 알아보자 잘 모르 겠다

 

@@@ Policy

π(a|s) = P[A_t = a|S_t = s]

 

### Value Functions

@@@ state 

V_π(s) = E_π[G_t|S_t = s]

 

@@@ action 

Q_π(s, a) = E_π[G_t|S_t=s,A_t=a]

 

음... 점점 이 단어들을 이해하기 힘들어진다

일단 비중을 주고 그것에대한 가보치를 산출하는 듯한 느낌이다

비중은 얼마나 접해졌나 

가보치는 내가 그냥 주는 듯한 느낌이다

 

### Prediction and Control

@@@ Prediction: evaluate the future

MDP {S, A, P, R, r} and a policy π

Output : a value fuction V_π

Iterative policy evaluation!

 

@@@ Control : optimize the future

MDP { S, A, P, R, r }

Output : optimal policy π, (and optimal value  function V.)

 

### Iterative Policy Evaluation

1.Problem : evaluate a given policy π

2.Solution: iteratively apply Bellman expectation backup

   1) Converge to a real V_π (V_1 -> V_2 -> ... -> V_π)

   2) At each iteration k + 1, for all states s∈S, update V_k+1 (s) from 

       V_k (s') where s' is a successor state of s

3.Iteratively compute until convergence

     V^k+1 = R^π + rP^πV^k

    Matrix form of Bellman expectation equation

      V_π(s) = ∑_[a∈A] *π(a|s)(R^a_s+r∑_[s^r∈S]*P^a_ss'*V_π*(s'))

 

아 솔찍히 이거 모르겟어

리마인더 라고 하는데 메이트릭스 형태로 보여주는데 음 모르겟음

 

일단 모두 0 으로 메트릭스한다

그리고 한번만에 값나오는거 하나 값주고 다음으로 -1 하나씩 추가해서 더한다

다음으로도 그런식으로 값을 구하는 듯하나 그러나 비중과 퍼센트가 좀 달라지는 느낌이다

 

 

 

'K-MOOC > 인공지능 기초' 카테고리의 다른 글

7주차 자연어 처리  (0) 2020.04.18
6주차 게임이론  (0) 2020.04.09
4주차 강화학습  (0) 2020.03.28
3주차 휴리스틱 탐색  (0) 2020.03.24
2주차 트리 써치  (0) 2020.03.22
블로그 이미지

Or71nH

,