강화학습 - 모두의연구소

어떤 모임인가요?

강화학습을 활용하여 현실에 적용할 수 있는 부분이 상당히 많습니다.
막상 논문을 구현하려면 복잡한 수식들로 주저하는 분들이 있을텐데요. 이번 스터디를 통해서 같이 막힌 부분을 속 시원하게 해결할 수 있었으면 합니다.
더 나아가 각자의 domain에서 강화학습이 어떻게 활용되고 있는지 함께 토론해보려고 합니다. (option)

모임이 더 궁금하다면 모두의연구소 커뮤니티(https://join.slack.com/t/modulabs/shared_invite/zt-24wqh8x3q-N4AzqCVF_qD1x4RQeqFzAQ) 채널 #04_풀잎스쿨 에서 퍼실이에게 직접 질문할 수 있어요!

무엇을 얻을 수 있나요?

- 강화학습 대표적인 알고리즘들을 이해할 수 있습니다.
- PyTorch와 OpenAI Gym (environment)를 활용하여 코드를 구현할 수 있습니다.
- 다양한 application에서 강화학습이 적용되는 사례를 알 수 있습니다.

무엇을 공부하나요?

강화학습을 이해하는데 필요한 기본 개념 : MDP, dynamic programming, Monte-Carlo Methods, Temporal Difference Methods, ...
Value based 강화학습 알고리즘 이론 및 코드 구현
Policy based 강화학습 알고리즘 이론 및 코드 구현

어떤 사전지식이 필요한가요?

pytorch를 사용하여 neural network (e.g. vanilla neural network) 를 구현할 수 있어야 합니다.
기댓값, 정규분포(normal distribution) 등 확률에 대한 기본 개념을 이해하고 있어야 합니다.

이런 분들이 들으면 좋아요!

- 강화학습 알고리즘에 대해 호기심을 가지고 구현해보고 싶으신 분
- 확률 및 수학 에 대한 관심이 많으신 분
- 제어(Application)에 관심이 많으신 분

이런 분들은 신청하기 전 다시 한 번 고민해보세요!

- 사전 학습을 하기 어려우신 분
- 공유와 토론을 매우 어려워하거나 안 좋아하시는 분

학습유형

사전학습

모임 운영 방식

- 3주차 까지는 이론 부분은 제가 진행을 할 예정입니다.
- 4주차부터는 각 주차마다 발표자로 선정된 분이 돌아가며 논문 발표, 코드를 공유해주시고, Q&A 시간을 가집니다.
(발표 종료 후에는 각자 논문에 대한 기타 궁금한 부분 및 느낀점을 공유하는 시간을 짧게 가질 예정입니다.)

커리큘럼

Ch1. Introduction

1주차 : 강화학습 개념과 구성요소 정리

Ch2. The Bellman Equation and Dynamic Programming

2주차 : Dynamic Programming (Value Iteration/Policy Iteration) 이론 및 코드 구현

Ch3. Monte Carlo Method and Temporal Difference Learning

3주차 : Monte Carlo Method, Temporal Difference Learning, Q-Learning 이론 및 코드 구현

Ch4. Value Optimization Methods

4주차 : DQN, double DQN, dueling DQN (Option : Exploration Strategies)

Ch5. Policy Optimization Methods

5주차 : REINFORCE
6주차 : Actor-Critic Methods (A2C/A3C), DDPG (Deep Deterministic Policy Gradient)
7주차 : TD3 (Twin Delayed DDPG)
8주차 : SAC (Soft Actor-Critic)
9주차 : TRPO (Trust Region Policy Optimization)
10주차 : PPO (Proximal Policy Optimization Algorithms)
11주차 : ACER (Sample Efficient Actor-Critic with Experience Replay)

교재 / 학습자료 / 준비물

참고 교재 및 논문

참고 교재 : Richard S. Sutton and Andrew G. Barto Reinforcement Learning : An Introduction
논문 링크 :
1. DQN : https://arxiv.org/abs/1312.5602
2. double DQN : https://arxiv.org/abs/1509.06461
3. dueling DQN : https://arxiv.org/abs/1511.06581
4. REINFORCE : https://papers.nips.cc/paper/1999/file/464d828b85b0bed98e80ade0a5c43b0f-Paper.pdf
5. Actor-Critic Methods : (https://arxiv.org/abs/1602.01783
6. DDPG : https://arxiv.org/abs/1509.02971
7. TD3 : https://arxiv.org/pdf/1802.09477.pdf
8. SAC : https://arxiv.org/abs/1801.01290
9. TRPO : https://arxiv.org/abs/1502.05477
10. PPO : https://arxiv.org/abs/1707.06347
11. ACER : https://arxiv.org/abs/1611.01224

첫 시간 전 준비사항

강화학습으로 어떤것을 구현할 수 있을지 생각해 오기
Reinforcement Learning : An Introduction (Richard S. Sutton and Andrew G. Barto) 의 1. Introduction 가볍게 읽어 오기 (option)

퍼실이 소개

이해중

#강화학습 #에너지

자기 소개 및 개설 동기

안녕하세요.
energy domain에 강화학습을 접목하여 연구하고 있는 대학원생입니다. 취미는 라이딩(자전거)입니다.
여러분들과 함께한다면, 어려워 보이는 논문도 쉽게 이해하고, 여러 domain에서 다양한 관점으로 논문을 바라볼 수 있을것 같아 개설하게 되었습니다.
11주간 전반적인 강화학습 알고리즘 이론 및 코드를 정리하고 더 나아가 종료후에는 각자의 domain에 강화학습을 접목할 수 있었으면 합니다.

소속

서강대학교

풀잎스쿨 / LAB 참여 이력

LAB Intelligent Agent Lab 참여

풀잎18기 강화학습 퍼실

풀잎18기 Weakly Supervised Semantic Segmentation 논문으로 입문하기 참여

풀잎17기 Anomaly Detection 논문으로 입문하기 참여

풀잎16기 Semantic Segmentation 논문으로 입문하기 2기 참여

풀잎14기 Semantic Segmenation 논문으로 입문하기 참여

풀잎13기 모두를 위한 컨벡스 최적화 (기본편) 참여

풀잎스쿨 참여 주의사항

Q. 풀잎스쿨은 강의인가요?
풀잎스쿨은 학원식 강의가 아닌, 플립러닝(flipped learning) 방식으로 참여자들이 함께 만들어 나가는 스터디 모임이에요. 따라서 출석과 사전 학습을 성실히 수행하고, 공부한 것을 함께 나눌 의지가 있으시다면 그 어디보다 많은 것을 얻어가실 수 있답니다!

Q. '퍼실이'는 누구인가요?
퍼실이는 함께 공부하는 스터디 리더예요. 강사가 아니어서 강의를 하지는 않지만, 커리큘럼을 기획하고 모임을 진행한답니다. 선의와 공유의 마음으로 기꺼이 지원해 모임을 이끌어 주시는 만큼, 퍼실이와 함께 따뜻한 모임을 함께 만들어 주세요. :)
부득이하게 모임 참석이 어렵거나 모임에 늦는 경우처럼, 원활한 참여가 어려운 경우에는 퍼실이가 미리 인지하고 준비하실 수 있도록 반드시 알려주세요!

Q. 사회적 거리두기 단계에 따라 안전하게 진행되나요?
모두의연구소는 사회적 거리두기 단계별 방역 조치를 지켜, 모든 연구원들이 안전한 환경에서 편안히 활동하실 수 있도록 노력하고 있습니다.
오프라인 모임 또한 사회적 거리두기 단계별 방역 조치에 따라 온라인으로 진행될 수 있습니다. 다만, 방역 조치상 오프라인 모임이 가능한 경우 오프라인 진행을 원칙으로 합니다. 추가적으로, 모임의 질을 위해 온•오프라인 병행은 '지양'하고 있습니다.
풀잎스쿨에는 온라인으로 진행되는 다양한 과정이 있답니다. 시간적•거리적 제약으로 오프라인 참여가 어려우신 분들은 온라인 과정을 주목해 주세요! :)

Q. 온라인 모임에 참여할 때 캠과 마이크를 반드시 켜야 하나요?
네. 모두의연구소는 연구원 분들이 최적의 환경에서 학습과 연구에 몰입하실 수 있는 환경 조성을 최우선으로 하고 있습니다. 따라서, 온라인 모임 시에는 토론과 질문이 빈번한 학습 환경에서의 몰입과 매끄러운 진행을 위해, 반드시 캠과 마이크를 켜서 대화에 참여하도록 안내하고 있습니다.
캠과 마이크를 켤 수 없는 경우에는 아쉽지만 참여를 제한하고 있으니, 반드시 캠과 마이크 기능이 포함된 도구를 준비해 주세요. 원활한 의사소통을 위해 자택 등의 조용한 공간에서 참여해 주시면 감사드리겠습니다.

환불정책

첫 모임 시작 전날까지 취소 및 전액 환불이 가능합니다.
환불 신청은 홈페이지 상단의 “문의글 작성” 에서 가능합니다.

강화학습

모임시작

2022년 01월 13일

모임일시

매주 목요일 19:30 ~ 21:30

모임장소

온라인캠퍼스

모집기간

2021년 12월 20일 ~ 2022년 01월 11일

모집인원

10명

모집방법

신청 후 선발

165,000원

잠시만 기다려 주세요

📢 브라우저 창이나 탭을 동시에 한 개 이상 열어서 모임을 신청하는 경우 결제 오류가 발생할 수 있으니 하나씩 신청 부탁드려요!

모집 마감된 모임의 경우 '공석 알림 신청'을 해주시면, 추후 취소하는 참여자가 있는 경우에 이메일로 알림을 보내드립니다.

"모임이 더 궁금하다면 모두의연구소 커뮤니티 채널 #04_풀잎스쿨 에서 퍼실이에게 직접 질문할 수 있어요!"