5주차 강화학습

K-MOOC/인공지능 기초 2020. 4. 2. 00:11

###Markov Decision Processes

<S, A, P, R, r>

1. A set of states S = {s1, s2, .... , sn}

2. A set of actions A = {a1, a2, ..., am}

3. Transition funcion P:S * A -> S, P^a_ss' = P[S_t+1 = s'[S_t = s, A_t = a]

4. Reward function R: S * A -> R, R^a_s = E[R_t+1|S_t = s,At = a]

5. Discount factor r ∈ [0,1]

좀더 알아보자 잘 모르 겠다

@@@ Policy

π(a|s) = P[A_t = a|S_t = s]

### Value Functions

@@@ state

V_π(s) = E_π[G_t|S_t = s]

@@@ action

Q_π(s, a) = E_π[G_t|S_t=s,A_t=a]

음... 점점 이 단어들을 이해하기 힘들어진다

일단 비중을 주고 그것에대한 가보치를 산출하는 듯한 느낌이다

비중은 얼마나 접해졌나

가보치는 내가 그냥 주는 듯한 느낌이다

### Prediction and Control

@@@ Prediction: evaluate the future

MDP {S, A, P, R, r} and a policy π

Output : a value fuction V_π

Iterative policy evaluation!

@@@ Control : optimize the future

MDP { S, A, P, R, r }

Output : optimal policy π, (and optimal value function V.)

### Iterative Policy Evaluation

1.Problem : evaluate a given policy π

2.Solution: iteratively apply Bellman expectation backup

1) Converge to a real V_π (V_1 -> V_2 -> ... -> V_π)

2) At each iteration k + 1, for all states s∈S, update V_k+1 (s) from

V_k (s') where s' is a successor state of s

3.Iteratively compute until convergence

V^k+1 = R^π + rP^πV^k

Matrix form of Bellman expectation equation

V_π(s) = ∑_[a∈A] *π(a|s)(R^a_s+r∑_[s^r∈S]*P^a_ss'*V_π*(s'))

아 솔찍히 이거 모르겟어

리마인더 라고 하는데 메이트릭스 형태로 보여주는데 음 모르겟음

일단 모두 0 으로 메트릭스한다

그리고 한번만에 값나오는거 하나 값주고 다음으로 -1 하나씩 추가해서 더한다

다음으로도 그런식으로 값을 구하는 듯하나 그러나 비중과 퍼센트가 좀 달라지는 느낌이다

'K-MOOC > 인공지능 기초' 카테고리의 다른 글

7주차 자연어 처리 (0)	2020.04.18
6주차 게임이론 (0)	2020.04.09
4주차 강화학습 (0)	2020.03.28
3주차 휴리스틱 탐색 (0)	2020.03.24
2주차 트리 써치 (0)	2020.03.22

Or71nH

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31