본과정은 DQN부터 NGU까지 Agent57  lineage에 해당하는 10개의 논문과 알고리즘 구현을 매주 다룹니다. 논문리뷰를 통해 문제정의와 주요 해결법들을 파악하고 Pytorch, Tensorflow 등을 통해 구현을 진행합니다.
DeepMind 따라가기
model-free, RL, 강화학습
시작일
20200718
진행일시
매주 토 / 10:30
모집현황

진행장소
온라인캠퍼스
시작일
20200718
진행일시

매주 토 / 10:30

모집현황

진행장소

온라인캠퍼스

온라인 only
- 본 과정은 "ZOOM"을 활용하여 온라인으로 진행됩니다.
- 온라인 풀잎 첫 참가자에게는 온라인 풀잎 전용 키트를 배송해드립니다.
(이어폰, 리액션 카드, 온라인 참여 가이드, 모두연 굿즈)
- 마지막 주는 오프라인으로 진행됩니다.
- 풀잎스쿨은 소통으로 함께 만들어나가는 모임입니다. 노트북 혹은 웹캠을 이용하여 비디오를 꼭 켜주세요.
학습대상
논문리뷰와 구현을 할 수 있으며, 강화학습에 관심이 많은 누구나. DeepMind 관점에서 알고리즘 발전 흐름을 느끼고 싶은 분.
과목난이도

쉬움 (1단계) ~ 어려움(5단계)

☘️☘️☘️☘️: 충분한 선수지식과 구현 경험을 바탕으로 응용해봅시다.

학습목표
DQN부터 NGU까지의 강화학습 문제 파악, 해결법과 알고리즘 구현 능력 습득.
운영방식
각자 사전 학습과 구현, 매주 1명씩 발표자를 선정하여 논문리뷰와 코드리뷰를 진행합니다.
선수지식
최대한 10여개의 논문에만 집중할 예정입니다. 기본적인 강화학습 배경지식을 익히고 참여하시길 권장합니다. Pytorch, Tensorflow 등을 사용하여 강화학습 알고리즘 구현해 보신분 or 매주 진도를 따라 가실 수준의 구현능력을 가지신분. 논문을 읽고 리뷰 하실 수 있는 분.
커리큘럼
사전학습 / 이론+실습
주차 학습내용 학습자료
1 주차 Introduction and Overview. 스터디 소개 및 10개 논문 key points overview.
2 주차 Deep Q networks (DQN). https://web.stanford.edu/class/psych209/Readings/MnihEtAlHassibis15NatureControlDeepRL.pdf | https://arxiv.org/abs/1312.5602
3 주차 Deep Reinforcement Learning with Double Q-learning (Double DQN), Multi-step TD. https://arxiv.org/abs/1509.06461
4 주차 Dueling Network Architectures for Deep Reinforcement Learning (Dueling DQN). https://arxiv.org/abs/1511.06581
5 주차 Prioritized Experience Replay (PER). https://arxiv.org/abs/1511.05952
6 주차 Noisy Networks for Exploration (Noisy Network). https://arxiv.org/abs/1706.10295
7 주차 A Distributional Perspective on Reinforcement Learning (C51). https://arxiv.org/abs/1707.06887
8 주차 Rainbow: Combining Improvements in Deep Reinforcement Learning (Rainbow). https://arxiv.org/abs/1710.02298
9 주차 Distributed Prioritized Experience Replay (Apex) https://arxiv.org/abs/1803.00933
10 주차 RECURRENT EXPERIENCE REPLAY IN DISTRIBUTED REINFORCEMENT LEARNING (R2D2) https://openreview.net/pdf?id=r1lyTjAqYX
11 주차 Never Give Up: Learning Directed Exploration Strategies (NGU) https://arxiv.org/abs/2002.06038
퍼실소개
이정우

이정우

강화학습에 많은 관심을 가지고 있는 이정우 입니다. 최근 cs285와 강화학습 기초 스터디를 하며, 비슷해 보이는 수식과 알고리즘들이 중요한 이유들을 가지고 유도되었다는 점을 알게되었습니다. DeepMind가 Agent57까지 어떤 문제들을 정의하고 해결해 왔는 지, 그들의 paper를 따라가며 강화학습의 주요 문제점들과 발전 방향을 함께 공부하며 성장하고 싶습니다.

강화학습에 많은 관심을 가지고 있는 이정우 입니다. 최근 cs285와 강화학습 기초 스터디를 하며, 비슷해 보이는 수식과 알고리즘들이 중요한 이유들을 가지고 유도되었다는 점을 알게되었습니다. DeepMind가 Agent57까지 어떤 문제들을 정의하고 해결해 왔는 지, 그들의 paper를 따라가며 강화학습의 주요 문제점들과 발전 방향을 함께 공부하며 성장하고 싶습니다.

시작일 : 20200718
총11주 * 2시간 진행
231,000원

풀잎스쿨 신청 및 결제를 위해서 로그인을 해주세요