막상 논문을 구현하려면 복잡한 수식들로 주저하는 분들이 있을텐데요. 이번 스터디를 통해서 같이 막힌 부분을 속 시원하게 해결할 수 있었으면 합니다.
더 나아가 각자의 domain에서 강화학습이 어떻게 활용되고 있는지 함께 토론해보려고 합니다. (option)
- PyTorch와 OpenAI Gym (environment)를 활용하여 코드를 구현할 수 있습니다.
- 다양한 application에서 강화학습이 적용되는 사례를 알 수 있습니다.
- 강화학습을 이해하는데 필요한 기본 개념 : MDP, dynamic programming, Monte-Carlo Methods, Temporal Difference Methods, ...
- Value based 강화학습 알고리즘 이론 및 코드 구현
- Policy based 강화학습 알고리즘 이론 및 코드 구현
- pytorch를 사용하여 neural network (e.g. vanilla neural network) 를 구현할 수 있어야 합니다.
- 기댓값, 정규분포(normal distribution) 등 확률에 대한 기본 개념을 이해하고 있어야 합니다.
- 확률 및 수학 에 대한 관심이 많으신 분
- 제어(Application)에 관심이 많으신 분
- 공유와 토론을 매우 어려워하거나 안 좋아하시는 분
- 4주차부터는 각 주차마다 발표자로 선정된 분이 돌아가며 논문 발표, 코드를 공유해주시고, Q&A 시간을 가집니다.
(발표 종료 후에는 각자 논문에 대한 기타 궁금한 부분 및 느낀점을 공유하는 시간을 짧게 가질 예정입니다.)
Ch2. The Bellman Equation and Dynamic Programming
Ch3. Monte Carlo Method and Temporal Difference Learning
Ch4. Value Optimization Methods
Ch5. Policy Optimization Methods
6주차 : Actor-Critic Methods (A2C/A3C), DDPG (Deep Deterministic Policy Gradient)
7주차 : TD3 (Twin Delayed DDPG)
8주차 : SAC (Soft Actor-Critic)
9주차 : TRPO (Trust Region Policy Optimization)
10주차 : PPO (Proximal Policy Optimization Algorithms)
11주차 : ACER (Sample Efficient Actor-Critic with Experience Replay)
- 참고 교재 : Richard S. Sutton and Andrew G. Barto Reinforcement Learning : An Introduction
- 논문 링크 :
- DQN : https://arxiv.org/abs/1312.5602
- double DQN : https://arxiv.org/abs/1509.06461
- dueling DQN : https://arxiv.org/abs/1511.06581
- REINFORCE : https://papers.nips.cc/paper/1999/file/464d828b85b0bed98e80ade0a5c43b0f-Paper.pdf
- Actor-Critic Methods : (https://arxiv.org/abs/1602.01783
- DDPG : https://arxiv.org/abs/1509.02971
- TD3 : https://arxiv.org/pdf/1802.09477.pdf
- SAC : https://arxiv.org/abs/1801.01290
- TRPO : https://arxiv.org/abs/1502.05477
- PPO : https://arxiv.org/abs/1707.06347
- ACER : https://arxiv.org/abs/1611.01224
Reinforcement Learning : An Introduction (Richard S. Sutton and Andrew G. Barto) 의 1. Introduction 가볍게 읽어 오기 (option)
이해중
#강화학습 #에너지
자기 소개 및 개설 동기
안녕하세요.
energy domain에 강화학습을 접목하여 연구하고 있는 대학원생입니다. 취미는 라이딩(자전거)입니다.
여러분들과 함께한다면, 어려워 보이는 논문도 쉽게 이해하고, 여러 domain에서 다양한 관점으로 논문을 바라볼 수 있을것 같아 개설하게 되었습니다.
11주간 전반적인 강화학습 알고리즘 이론 및 코드를 정리하고 더 나아가 종료후에는 각자의 domain에 강화학습을 접목할 수 있었으면 합니다.
소속
서강대학교
풀잎스쿨 / LAB 참여 이력
LAB Intelligent Agent Lab 참여
풀잎18기 강화학습 퍼실
풀잎18기 Weakly Supervised Semantic Segmentation 논문으로 입문하기 참여
풀잎17기 Anomaly Detection 논문으로 입문하기 참여
풀잎16기 Semantic Segmentation 논문으로 입문하기 2기 참여
풀잎14기 Semantic Segmenation 논문으로 입문하기 참여
풀잎13기 모두를 위한 컨벡스 최적화 (기본편) 참여
풀잎스쿨은 학원식 강의가 아닌, 플립러닝(flipped learning) 방식으로 참여자들이 함께 만들어 나가는 스터디 모임이에요. 따라서 출석과 사전 학습을 성실히 수행하고, 공부한 것을 함께 나눌 의지가 있으시다면 그 어디보다 많은 것을 얻어가실 수 있답니다!
Q. '퍼실이'는 누구인가요?
퍼실이는 함께 공부하는 스터디 리더예요. 강사가 아니어서 강의를 하지는 않지만, 커리큘럼을 기획하고 모임을 진행한답니다. 선의와 공유의 마음으로 기꺼이 지원해 모임을 이끌어 주시는 만큼, 퍼실이와 함께 따뜻한 모임을 함께 만들어 주세요. :)
부득이하게 모임 참석이 어렵거나 모임에 늦는 경우처럼, 원활한 참여가 어려운 경우에는 퍼실이가 미리 인지하고 준비하실 수 있도록 반드시 알려주세요!
Q. 사회적 거리두기 단계에 따라 안전하게 진행되나요?
모두의연구소는 사회적 거리두기 단계별 방역 조치를 지켜, 모든 연구원들이 안전한 환경에서 편안히 활동하실 수 있도록 노력하고 있습니다.
오프라인 모임 또한 사회적 거리두기 단계별 방역 조치에 따라 온라인으로 진행될 수 있습니다. 다만, 방역 조치상 오프라인 모임이 가능한 경우 오프라인 진행을 원칙으로 합니다. 추가적으로, 모임의 질을 위해 온•오프라인 병행은 '지양'하고 있습니다.
풀잎스쿨에는 온라인으로 진행되는 다양한 과정이 있답니다. 시간적•거리적 제약으로 오프라인 참여가 어려우신 분들은 온라인 과정을 주목해 주세요! :)
Q. 온라인 모임에 참여할 때 캠과 마이크를 반드시 켜야 하나요?
네. 모두의연구소는 연구원 분들이 최적의 환경에서 학습과 연구에 몰입하실 수 있는 환경 조성을 최우선으로 하고 있습니다. 따라서, 온라인 모임 시에는 토론과 질문이 빈번한 학습 환경에서의 몰입과 매끄러운 진행을 위해, 반드시 캠과 마이크를 켜서 대화에 참여하도록 안내하고 있습니다.
캠과 마이크를 켤 수 없는 경우에는 아쉽지만 참여를 제한하고 있으니, 반드시 캠과 마이크 기능이 포함된 도구를 준비해 주세요. 원활한 의사소통을 위해 자택 등의 조용한 공간에서 참여해 주시면 감사드리겠습니다.
환불 신청은 홈페이지 상단의 “문의글 작성” 에서 가능합니다.
모임시작
2022년 01월 13일
모임일시
매주 목요일 19:30 ~ 21:30
모임장소
온라인캠퍼스
모집기간
2021년 12월 20일 ~ 2022년 01월 11일
모집인원
10명
모집방법
신청 후 선발
165,000원
📢 브라우저 창이나 탭을 동시에 한 개 이상 열어서 모임을 신청하는 경우 결제 오류가 발생할 수 있으니 하나씩 신청 부탁드려요!
모집 마감된 모임의 경우 '공석 알림 신청'을 해주시면, 추후 취소하는 참여자가 있는 경우에 이메일로 알림을 보내드립니다.
"모임이 더 궁금하다면 모두의연구소 커뮤니티 채널 #04_풀잎스쿨 에서 퍼실이에게 직접 질문할 수 있어요!"
모임시작
2022년 01월 13일
모임일시
매주 목요일 19:30 ~ 21:30
모임장소
온라인캠퍼스
모집기간
2021년 12월 20일 ~ 2022년 01월 11일
모집인원
10명
모집방법
신청 후 선발
165,000원
📢 브라우저 창이나 탭을 동시에 한 개 이상 열어서 모임을 신청하는 경우 결제 오류가 발생할 수 있으니 하나씩 신청 부탁드려요!
모집 마감된 모임의 경우 '공석 알림 신청'을 해주시면, 추후 취소하는 참여자가 있는 경우에 이메일로 알림을 보내드립니다.
"모임이 더 궁금하다면 모두의연구소 커뮤니티 채널 #04_풀잎스쿨 에서 퍼실이에게 직접 질문할 수 있어요!"
막상 논문을 구현하려면 복잡한 수식들로 주저하는 분들이 있을텐데요. 이번 스터디를 통해서 같이 막힌 부분을 속 시원하게 해결할 수 있었으면 합니다.
더 나아가 각자의 domain에서 강화학습이 어떻게 활용되고 있는지 함께 토론해보려고 합니다. (option)
- PyTorch와 OpenAI Gym (environment)를 활용하여 코드를 구현할 수 있습니다.
- 다양한 application에서 강화학습이 적용되는 사례를 알 수 있습니다.
- 강화학습을 이해하는데 필요한 기본 개념 : MDP, dynamic programming, Monte-Carlo Methods, Temporal Difference Methods, ...
- Value based 강화학습 알고리즘 이론 및 코드 구현
- Policy based 강화학습 알고리즘 이론 및 코드 구현
- pytorch를 사용하여 neural network (e.g. vanilla neural network) 를 구현할 수 있어야 합니다.
- 기댓값, 정규분포(normal distribution) 등 확률에 대한 기본 개념을 이해하고 있어야 합니다.
- 확률 및 수학 에 대한 관심이 많으신 분
- 제어(Application)에 관심이 많으신 분
- 공유와 토론을 매우 어려워하거나 안 좋아하시는 분
- 4주차부터는 각 주차마다 발표자로 선정된 분이 돌아가며 논문 발표, 코드를 공유해주시고, Q&A 시간을 가집니다.
(발표 종료 후에는 각자 논문에 대한 기타 궁금한 부분 및 느낀점을 공유하는 시간을 짧게 가질 예정입니다.)
Ch2. The Bellman Equation and Dynamic Programming
Ch3. Monte Carlo Method and Temporal Difference Learning
Ch4. Value Optimization Methods
Ch5. Policy Optimization Methods
6주차 : Actor-Critic Methods (A2C/A3C), DDPG (Deep Deterministic Policy Gradient)
7주차 : TD3 (Twin Delayed DDPG)
8주차 : SAC (Soft Actor-Critic)
9주차 : TRPO (Trust Region Policy Optimization)
10주차 : PPO (Proximal Policy Optimization Algorithms)
11주차 : ACER (Sample Efficient Actor-Critic with Experience Replay)
- 참고 교재 : Richard S. Sutton and Andrew G. Barto Reinforcement Learning : An Introduction
- 논문 링크 :
- DQN : https://arxiv.org/abs/1312.5602
- double DQN : https://arxiv.org/abs/1509.06461
- dueling DQN : https://arxiv.org/abs/1511.06581
- REINFORCE : https://papers.nips.cc/paper/1999/file/464d828b85b0bed98e80ade0a5c43b0f-Paper.pdf
- Actor-Critic Methods : (https://arxiv.org/abs/1602.01783
- DDPG : https://arxiv.org/abs/1509.02971
- TD3 : https://arxiv.org/pdf/1802.09477.pdf
- SAC : https://arxiv.org/abs/1801.01290
- TRPO : https://arxiv.org/abs/1502.05477
- PPO : https://arxiv.org/abs/1707.06347
- ACER : https://arxiv.org/abs/1611.01224
Reinforcement Learning : An Introduction (Richard S. Sutton and Andrew G. Barto) 의 1. Introduction 가볍게 읽어 오기 (option)
energy domain에 강화학습을 접목하여 연구하고 있는 대학원생입니다. 취미는 라이딩(자전거)입니다.
여러분들과 함께한다면, 어려워 보이는 논문도 쉽게 이해하고, 여러 domain에서 다양한 관점으로 논문을 바라볼 수 있을것 같아 개설하게 되었습니다.
11주간 전반적인 강화학습 알고리즘 이론 및 코드를 정리하고 더 나아가 종료후에는 각자의 domain에 강화학습을 접목할 수 있었으면 합니다.
LAB Intelligent Agent Lab 참여
풀잎18기 강화학습 퍼실
풀잎18기 Weakly Supervised Semantic Segmentation 논문으로 입문하기 참여
풀잎17기 Anomaly Detection 논문으로 입문하기 참여
풀잎16기 Semantic Segmentation 논문으로 입문하기 2기 참여
풀잎14기 Semantic Segmenation 논문으로 입문하기 참여
풀잎13기 모두를 위한 컨벡스 최적화 (기본편) 참여
풀잎스쿨은 학원식 강의가 아닌, 플립러닝(flipped learning) 방식으로 참여자들이 함께 만들어 나가는 스터디 모임이에요. 따라서 출석과 사전 학습을 성실히 수행하고, 공부한 것을 함께 나눌 의지가 있으시다면 그 어디보다 많은 것을 얻어가실 수 있답니다!
Q. '퍼실이'는 누구인가요?
퍼실이는 함께 공부하는 스터디 리더예요. 강사가 아니어서 강의를 하지는 않지만, 커리큘럼을 기획하고 모임을 진행한답니다. 선의와 공유의 마음으로 기꺼이 지원해 모임을 이끌어 주시는 만큼, 퍼실이와 함께 따뜻한 모임을 함께 만들어 주세요. :)
부득이하게 모임 참석이 어렵거나 모임에 늦는 경우처럼, 원활한 참여가 어려운 경우에는 퍼실이가 미리 인지하고 준비하실 수 있도록 반드시 알려주세요!
Q. 사회적 거리두기 단계에 따라 안전하게 진행되나요?
모두의연구소는 사회적 거리두기 단계별 방역 조치를 지켜, 모든 연구원들이 안전한 환경에서 편안히 활동하실 수 있도록 노력하고 있습니다.
오프라인 모임 또한 사회적 거리두기 단계별 방역 조치에 따라 온라인으로 진행될 수 있습니다. 다만, 방역 조치상 오프라인 모임이 가능한 경우 오프라인 진행을 원칙으로 합니다. 추가적으로, 모임의 질을 위해 온•오프라인 병행은 '지양'하고 있습니다.
풀잎스쿨에는 온라인으로 진행되는 다양한 과정이 있답니다. 시간적•거리적 제약으로 오프라인 참여가 어려우신 분들은 온라인 과정을 주목해 주세요! :)
Q. 온라인 모임에 참여할 때 캠과 마이크를 반드시 켜야 하나요?
네. 모두의연구소는 연구원 분들이 최적의 환경에서 학습과 연구에 몰입하실 수 있는 환경 조성을 최우선으로 하고 있습니다. 따라서, 온라인 모임 시에는 토론과 질문이 빈번한 학습 환경에서의 몰입과 매끄러운 진행을 위해, 반드시 캠과 마이크를 켜서 대화에 참여하도록 안내하고 있습니다.
캠과 마이크를 켤 수 없는 경우에는 아쉽지만 참여를 제한하고 있으니, 반드시 캠과 마이크 기능이 포함된 도구를 준비해 주세요. 원활한 의사소통을 위해 자택 등의 조용한 공간에서 참여해 주시면 감사드리겠습니다.
환불 신청은 홈페이지 상단의 “문의글 작성” 에서 가능합니다.