4주차 강화학습

K-MOOC/인공지능 기초 2020. 3. 28. 02:27

### 정의 단어

Policy = 에이전트가 어떤행동을 할지 정해주는것

Value function = 어디가 좋은 길인지

Model = 환경을 어떻게 표현하고 있는지

간단히

뭐할까

좋은건뭘까

어떤게임인가?

Policy 와 Value function 은 밀접도를 가지고 있다

###Markov Processes

S 스테이트

P Transition function

스테이트에서 다음 스테이트로 가는 확율

음

스텍구조 반복으로 결과 찾는 듯한 느낌임

Or71nH

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

티스토리툴바