'K-MOOC/인공지능 기초'에 해당되는 글 8건

컴퓨터에게 정의를 하기위한 여러가지 인간의 생각을 인지해야한다

 

하지만 환각이나 오류등은 컴퓨터가 분간을 잘한다

 

예를들어 사람은 공포에서 한각을 보지만 컴퓨터는 환각을 보지않고 실제를 분석한다

 

 

지금은 텍스트는 인식이 쉽지만 

이미지는 아직 발전단계이다

 

'K-MOOC > 인공지능 기초' 카테고리의 다른 글

7주차 자연어 처리  (0) 2020.04.18
6주차 게임이론  (0) 2020.04.09
5주차 강화학습  (0) 2020.04.02
4주차 강화학습  (0) 2020.03.28
3주차 휴리스틱 탐색  (0) 2020.03.24
블로그 이미지

Or71nH

,

언어라는 것은 세밀하게 말하는 것이아니라 두글 잡아서 예기해도 이해를 해야하는데 컴퓨터는 그것이 어럽다

'K-MOOC > 인공지능 기초' 카테고리의 다른 글

8주차 컴퓨터 비전  (0) 2020.04.27
6주차 게임이론  (0) 2020.04.09
5주차 강화학습  (0) 2020.04.02
4주차 강화학습  (0) 2020.03.28
3주차 휴리스틱 탐색  (0) 2020.03.24
블로그 이미지

Or71nH

,

### 게임이론의 중점

서로의 최대의 이익을 보는것이 아니라

서로의 최악의 경우를 피하는 것으로 중점을 둠

 

2  0  1

4 -3  2

1 -2 -2 

 

이런 값에서 행은 1플레이어

열은 2플레이어이다

이중 1은 값이 높은게 이득

2는 값이 낮은게 이득

그럼 1은 2 0 1 의 행을 선택하고

열은 0 -3 -2 를 선택해야 

서로의 최대의 이득을 받을 수 있다

 

2  0  1

4 -3  2

1 -2 -2

이렇게 되어 0 이 산출 된다

왜냐면  2가 절대로 손해보는 1 은 선택을 하지 않을 것이다 ㅇ

그리고 3는 손해될 확률이 높음으로 안한다 1플레이어가 3을 선택할 확율은 없기 때문이다

 

즉  2 입장에선 저건 눈에 안들어온다 

X  0  1

X -3  2

X -2 -2

다음 1 입장에선 

2  0  1

4 -3  2

X  X  X

이것이 안들어온다

결과로 

X  0  1

X -3  2

X  X  X 

이이중에 이득을 볼 수 있는 것은 

2입장에선 

X  0  X

X -3  X

X  X  X

왜냐면 3번쨰는 이득되는게 없음

그럼으로 서로의 이득을 찾다가 0 이 되는 거임

최악으 조건만 피하는 경우로 예상하여 플레이 한 결과 

1은 첫줄 

2는 둘째줄 이선택된다

 

부부상황 

남자는 풋볼을 보고싶고 여자는 발레를 보고싶을때는 서로 양보하면 불이득인 반대인 경우가 나온다

그리고 한명만 양보하면 최고의 이득을 받는다 

이런것도있고

 

치킨게임

서로 양보하거나 서로 같으면 충돌이 나서 안좋다 부부상황에 비슷하지만 같은 경우를 선택한 경우가 손해이다 

 

'K-MOOC > 인공지능 기초' 카테고리의 다른 글

8주차 컴퓨터 비전  (0) 2020.04.27
7주차 자연어 처리  (0) 2020.04.18
5주차 강화학습  (0) 2020.04.02
4주차 강화학습  (0) 2020.03.28
3주차 휴리스틱 탐색  (0) 2020.03.24
블로그 이미지

Or71nH

,

###Markov Decision Processes

<S, A, P, R, r>

 

1. A set of states S = {s1, s2, .... , sn}

2. A set of actions A = {a1, a2, ..., am}

3. Transition funcion P:S * A -> S, P^a_ss' = P[S_t+1 = s'[S_t = s, A_t = a]

4. Reward function R: S * A -> R, R^a_s = E[R_t+1|S_t = s,At = a]

5. Discount factor r ∈ [0,1]

좀더 알아보자 잘 모르 겠다

 

@@@ Policy

π(a|s) = P[A_t = a|S_t = s]

 

### Value Functions

@@@ state 

V_π(s) = E_π[G_t|S_t = s]

 

@@@ action 

Q_π(s, a) = E_π[G_t|S_t=s,A_t=a]

 

음... 점점 이 단어들을 이해하기 힘들어진다

일단 비중을 주고 그것에대한 가보치를 산출하는 듯한 느낌이다

비중은 얼마나 접해졌나 

가보치는 내가 그냥 주는 듯한 느낌이다

 

### Prediction and Control

@@@ Prediction: evaluate the future

MDP {S, A, P, R, r} and a policy π

Output : a value fuction V_π

Iterative policy evaluation!

 

@@@ Control : optimize the future

MDP { S, A, P, R, r }

Output : optimal policy π, (and optimal value  function V.)

 

### Iterative Policy Evaluation

1.Problem : evaluate a given policy π

2.Solution: iteratively apply Bellman expectation backup

   1) Converge to a real V_π (V_1 -> V_2 -> ... -> V_π)

   2) At each iteration k + 1, for all states s∈S, update V_k+1 (s) from 

       V_k (s') where s' is a successor state of s

3.Iteratively compute until convergence

     V^k+1 = R^π + rP^πV^k

    Matrix form of Bellman expectation equation

      V_π(s) = ∑_[a∈A] *π(a|s)(R^a_s+r∑_[s^r∈S]*P^a_ss'*V_π*(s'))

 

아 솔찍히 이거 모르겟어

리마인더 라고 하는데 메이트릭스 형태로 보여주는데 음 모르겟음

 

일단 모두 0 으로 메트릭스한다

그리고 한번만에 값나오는거 하나 값주고 다음으로 -1 하나씩 추가해서 더한다

다음으로도 그런식으로 값을 구하는 듯하나 그러나 비중과 퍼센트가 좀 달라지는 느낌이다

 

 

 

'K-MOOC > 인공지능 기초' 카테고리의 다른 글

7주차 자연어 처리  (0) 2020.04.18
6주차 게임이론  (0) 2020.04.09
4주차 강화학습  (0) 2020.03.28
3주차 휴리스틱 탐색  (0) 2020.03.24
2주차 트리 써치  (0) 2020.03.22
블로그 이미지

Or71nH

,

### 정의 단어

Policy = 에이전트가 어떤행동을 할지 정해주는것

Value function = 어디가 좋은 길인지

Model = 환경을 어떻게 표현하고 있는지   

 

간단히   

뭐할까

좋은건뭘까

어떤게임인가?

 

 

Policy 와 Value function 은 밀접도를 가지고 있다

 

###Markov Processes

S 스테이트

P Transition function

 

스테이트에서 다음 스테이트로 가는 확율 

스텍구조 반복으로 결과 찾는 듯한 느낌임

'K-MOOC > 인공지능 기초' 카테고리의 다른 글

6주차 게임이론  (0) 2020.04.09
5주차 강화학습  (0) 2020.04.02
3주차 휴리스틱 탐색  (0) 2020.03.24
2주차 트리 써치  (0) 2020.03.22
1주차 인공지능 소개  (0) 2020.03.20
블로그 이미지

Or71nH

,