###Markov Decision Processes
<S, A, P, R, r>
1. A set of states S = {s1, s2, .... , sn}
2. A set of actions A = {a1, a2, ..., am}
3. Transition funcion P:S * A -> S, P^a_ss' = P[S_t+1 = s'[S_t = s, A_t = a]
4. Reward function R: S * A -> R, R^a_s = E[R_t+1|S_t = s,At = a]
5. Discount factor r ∈ [0,1]
좀더 알아보자 잘 모르 겠다
@@@ Policy
π(a|s) = P[A_t = a|S_t = s]
### Value Functions
@@@ state
V_π(s) = E_π[G_t|S_t = s]
@@@ action
Q_π(s, a) = E_π[G_t|S_t=s,A_t=a]
음... 점점 이 단어들을 이해하기 힘들어진다
일단 비중을 주고 그것에대한 가보치를 산출하는 듯한 느낌이다
비중은 얼마나 접해졌나
가보치는 내가 그냥 주는 듯한 느낌이다
### Prediction and Control
@@@ Prediction: evaluate the future
MDP {S, A, P, R, r} and a policy π
Output : a value fuction V_π
Iterative policy evaluation!
@@@ Control : optimize the future
MDP { S, A, P, R, r }
Output : optimal policy π, (and optimal value function V.)
### Iterative Policy Evaluation
1.Problem : evaluate a given policy π
2.Solution: iteratively apply Bellman expectation backup
1) Converge to a real V_π (V_1 -> V_2 -> ... -> V_π)
2) At each iteration k + 1, for all states s∈S, update V_k+1 (s) from
V_k (s') where s' is a successor state of s
3.Iteratively compute until convergence
V^k+1 = R^π + rP^πV^k
Matrix form of Bellman expectation equation
V_π(s) = ∑_[a∈A] *π(a|s)(R^a_s+r∑_[s^r∈S]*P^a_ss'*V_π*(s'))
아 솔찍히 이거 모르겟어
리마인더 라고 하는데 메이트릭스 형태로 보여주는데 음 모르겟음
일단 모두 0 으로 메트릭스한다
그리고 한번만에 값나오는거 하나 값주고 다음으로 -1 하나씩 추가해서 더한다
다음으로도 그런식으로 값을 구하는 듯하나 그러나 비중과 퍼센트가 좀 달라지는 느낌이다
'K-MOOC > 인공지능 기초' 카테고리의 다른 글
7주차 자연어 처리 (0) | 2020.04.18 |
---|---|
6주차 게임이론 (0) | 2020.04.09 |
4주차 강화학습 (0) | 2020.03.28 |
3주차 휴리스틱 탐색 (0) | 2020.03.24 |
2주차 트리 써치 (0) | 2020.03.22 |