기초 딴딴 강화학습 w/ cs234 와 sutton
CS234, sutton, 강화학습
시작일
20200714
진행일시
매주 월 / 19:30
모집현황
진행장소
강남캠퍼스
시작일
20200714
진행일시
매주 월 / 19:30
모집현황
진행장소
강남캠퍼스
사회적 거리두기 2단계 이상일 경우, ZOOM을 활용하여 온라인으로 진행될 수 있습니다.
학습대상
cs234 강의를 처음부터 끝까지 다 완강하고 싶으신 분들, cs234 영어강의를 듣는 것에 부담이 없으신 분들, sutton 강화학습 책을 추가적으로 더 공부하는데 열의가 있으신 분들! 언제든지 환영입니다.
과목난이도
쉬움 (1단계) ~ 어려움(5단계)
☘️☘️: 기초를 탄탄히 해보아요.
학습목표
cs234와 sutton 강화학습 책 완강과 완독을 목표로 합니다.
운영방식
첫 2주동안은 2개의 강의씩 사전강의로 들어오셔야 하며, 퍼실이의 강의로 진행할 예정입니다(~Lecture 4까지 진행). 그 후, 매주 1강씩 돌아가며 발표하며 발표 준비하실 때는 cs234 강의와 더불어 해당 강의와 관련된 sutton책 부분을 기반으로 발표를 준비하셔야 합니다.
assignment 과제는 cs 234 curriculum에 있는 총 3개의 과제를 수행할 예정이며, curriculum에 있는 것과 같이 3주차, 7주차, 10주차에 사전과제로 진행할 예정입니다.
선수지식
기본적인 통계나 선형대수 지식(강의를 수강하는데 어려움이 없는 정도??)과 딥러닝 기초지식이 필요합니다. 그 밖에 수학적인 부분은 같이 학습을 통해 배워가면 될 것 같습니다.
학습 및 참고자료
cs 234 YouTube Videos
cs 234 curriculum and slides material : https://web.stanford.edu/class/cs234/CS234Win2019/schedule.html
Reinforcement Learning : An Introduction : https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf
커리큘럼
사전학습 / 이론+실습
주차 | 학습내용 | 학습자료 |
---|---|---|
1 주차 | Introduction to Reinforcement Learning / Given a Model of the world | (주)CS234 Lecture 1-2 (부)Sutton교재 Ch.1-4 |
2 주차 | Model-Free Policy Evaluation / Model Free Control / Sutton교재 Ch. 5-6 | (주)CS234 Lecture 3-4 (부)Sutton교재 Ch.5-6 |
3 주차 | Value Function Approximation | (주)CS234 Lecture 5 (부)Sutton교재 Ch.9-11 |
4 주차 | CNNs and Deep Q Learning | (주)CS234 Lecture 6 (부)Human-level control through deep reinforcement learning, Playing Atari with Deep Reinforcement Learning |
5 주차 | Imitation Learning | (주)CS234 Lecture 7 (부)Maximum Entropy Inverse Reinforcement Learning, Apprenticeship Learning via Inverse Reinforcement Learning |
6 주차 | Policy Gradient I | (주)CS234 Lecture 8 (부)Sutton교재 Ch.13 |
7 주차 | Policy Gradient II & III | (주)CS234 Lecture 9, 10 (부)Sutton교재 Ch.13 |
8 주차 | Fast Reinforcement Learning I & II | (주)CS234 Lecture 11, 12 (부) Bandit Algorithms Book Ch. 7, 34, 37 |
9 주차 | Fast Reinforcement Learning III | (주)CS234 Lecture 13 (부)An analysis of model-based Interval Estimation for Markov Decision Processes |
10 주차 | Batch Reinforcement Learning | (주)CS234 Lecture 14 |
11 주차 | Monte Carlo Tree Search | (주)CS234 Lecture 15 (부) Sutton교재 Ch 8. |
퍼실소개
이선화
안녕하세요 :) 저는 현재 회사에서 데이터분석가로 여러 산업체 데이터를 분석하는 일을 하고 있습니다. 이번 풀잎스쿨 12기를 통해 강화학습을 다지고 싶습니다.
안녕하세요 :) 저는 현재 회사에서 데이터분석가로 여러 산업체 데이터를 분석하는 일을 하고 있습니다. 이번 풀잎스쿨 12기를 통해 강화학습을 다지고 싶습니다.
본 과정은 11주동안 standford cs234 reinforcement learning 2019 강의 기반으로 공부합니다. 사전학습으로 매주 강의를 듣고 오며, 발표자는 해당 주차 강의와 Sutton의 강화학습 책 중 관련 부분을 함께 발표합니다. 발표가 끝난 후, 토론이나 질문으로 그 주차 공부를 함께 복습합니다. cs234에 있는 assignment도 함께 풀어봅니다.