DeepMind 따라가기

학습개요
학습대상
학습목표
커리큘럼
신청정보

DeepMind 따라가기

model-free, RL, 강화학습

시작일

20200718

진행일시

매주 토 / 10:30

모집현황

진행장소

온라인캠퍼스

시작일

20200718

진행일시

매주 토 / 10:30

모집현황

진행장소

온라인캠퍼스

온라인 only
- 본 과정은 "ZOOM"을 활용하여 온라인으로 진행됩니다.
- 온라인 풀잎 첫 참가자에게는 온라인 풀잎 전용 키트를 배송해드립니다.
(이어폰, 리액션 카드, 온라인 참여 가이드, 모두연 굿즈)
- 마지막 주는 오프라인으로 진행됩니다.
- 풀잎스쿨은 소통으로 함께 만들어나가는 모임입니다. 노트북 혹은 웹캠을 이용하여 비디오를 꼭 켜주세요.

학습대상

논문리뷰와 구현을 할 수 있으며, 강화학습에 관심이 많은 누구나. DeepMind 관점에서 알고리즘 발전 흐름을 느끼고 싶은 분.

과목난이도

쉬움 (1단계) ~ 어려움(5단계)

☘️☘️☘️☘️: 충분한 선수지식과 구현 경험을 바탕으로 응용해봅시다.

학습목표

DQN부터 NGU까지의 강화학습 문제 파악, 해결법과 알고리즘 구현 능력 습득.

운영방식

각자 사전 학습과 구현, 매주 1명씩 발표자를 선정하여 논문리뷰와 코드리뷰를 진행합니다.

선수지식

최대한 10여개의 논문에만 집중할 예정입니다. 기본적인 강화학습 배경지식을 익히고 참여하시길 권장합니다. Pytorch, Tensorflow 등을 사용하여 강화학습 알고리즘 구현해 보신분 or 매주 진도를 따라 가실 수준의 구현능력을 가지신분. 논문을 읽고 리뷰 하실 수 있는 분.

학습 및 참고자료

https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark Agent57 ancestry 부분.

커리큘럼

사전학습 / 이론+실습

주차	학습내용	학습자료
1 주차	Introduction and Overview.	스터디 소개 및 10개 논문 key points overview.
2 주차	Deep Q networks (DQN).	https://web.stanford.edu/class/psych209/Readings/MnihEtAlHassibis15NatureControlDeepRL.pdf \| https://arxiv.org/abs/1312.5602
3 주차	Deep Reinforcement Learning with Double Q-learning (Double DQN), Multi-step TD.	https://arxiv.org/abs/1509.06461
4 주차	Dueling Network Architectures for Deep Reinforcement Learning (Dueling DQN).	https://arxiv.org/abs/1511.06581
5 주차	Prioritized Experience Replay (PER).	https://arxiv.org/abs/1511.05952
6 주차	Noisy Networks for Exploration (Noisy Network).	https://arxiv.org/abs/1706.10295
7 주차	A Distributional Perspective on Reinforcement Learning (C51).	https://arxiv.org/abs/1707.06887
8 주차	Rainbow: Combining Improvements in Deep Reinforcement Learning (Rainbow).	https://arxiv.org/abs/1710.02298
9 주차	Distributed Prioritized Experience Replay (Apex)	https://arxiv.org/abs/1803.00933
10 주차	RECURRENT EXPERIENCE REPLAY IN DISTRIBUTED REINFORCEMENT LEARNING (R2D2)	https://openreview.net/pdf?id=r1lyTjAqYX
11 주차	Never Give Up: Learning Directed Exploration Strategies (NGU)	https://arxiv.org/abs/2002.06038

퍼실소개

이정우

강화학습에 많은 관심을 가지고 있는 이정우 입니다. 최근 cs285와 강화학습 기초 스터디를 하며, 비슷해 보이는 수식과 알고리즘들이 중요한 이유들을 가지고 유도되었다는 점을 알게되었습니다. DeepMind가 Agent57까지 어떤 문제들을 정의하고 해결해 왔는 지, 그들의 paper를 따라가며 강화학습의 주요 문제점들과 발전 방향을 함께 공부하며 성장하고 싶습니다.

시작일 : 20200718
총11주 * 2시간 진행
231,000원

잠시만 기다려 주세요

풀잎스쿨 신청 및 결제를 위해서 로그인을 해주세요