
한 줄 소개
Open Reinforcement Learning Fine-Tuning
분야
ENGINEERING
목표 결과물
OPEN_SOURCE, BOOK
랩 소개
본 모임에서는 LLM에서 post training에 사용되는 RLHF, RLAIF, RLVR 등의 Reinforcement Learning Fine-Tuning (a.k.a RLFT) 방법론을 이론과 코드레벨에서 정리하고, GPT4.1, DEEPSEEK, QWEN 등 SOTA 수준의 LLM을 학습하는 데 활용된 RLFT 방법론을 파악하고 재현하는 것에 목적을 두고 있습니다.
운영 방식
🧠 무엇을 하나요? - 현대의 RLFT 방법론을 간략하게 정리하고, 바로 실행가능한 예시 코드를 작성합니다. - 이를 기반으로 간략한 오픈소스 도서를 만들어보고자합니다. 아래는 예상하는 결과물의 예시입니다. - 모두를 위한 컨벡스 최적화: https://convex-optimization-for-all.github.io/ - The Ultra-Scale Playbook: Training LLMs on GPU Clusters: https://huggingface.co/spaces/nanotron/ultrascale-playbook 🛠 어떻게 운영되나요? - 최소 20주 활동을 수행하는 것에 있습니다. - 첫 n주는 여러 자료를 기반으로 스터디를 수행할 예정입니다. (아래는 고려중인 자료) - Reinforcement Learning from Human Feedback (https://rlhfbook.com/) - Reinforcement Learning: An Overview (https://arxiv.org/abs/2412.05265) - 매 주 토요일 오전에 1회 오프라인 모임을 수행합니다.
커리큘럼
1주차: 오리엔테이션, 연구 주제 및 모임 목적 소개, 참여자 상호 소개
2~13주차: RLFT 스터디
14~20주차: 오픈소스 도서를 위한 자료 정리 및 예시 코드 개발
참여 요건
- 정리 및 발표가 가능하신 지 궁금합니다. - 꾸준히 참여가 가능하신 지 궁금합니다.
사전 질문
pre-training과 post-training의 차이를 설명해주실 수 있나요?
LLM post-training에서 Instruction Following과 Alignment 차이를 설명해주실 수 있나요?
Reward model과 Verifiable reward의 차이를 설명해주실 수 있나요?
랩장 소개

김보섭
카카오에서 카나나 언어모델 시리즈를 만들고 있습니다.
OpenRLFT LAB
모임 기간
2025.07.05 - 2025.11.29
모임 일시
매주 토요일 10:30 ~ 12:30
장 소
모두의연구소 강남캠퍼스
모집 기간
2025.06.07 - 2025.06.21
모집 인원
8명
선발 방식
사전 질문 기반 심사 + 온라인 커피챗