랩 썸네일
LAB
OpenRLFT LAB
7월 5일 - 11월 29일
10:30 - 12:30
WEEKLYSAT요일
모두의연구소 강남캠퍼스
8
현재 이 랩은 모집 중이 아닙니다. 랩원들과 소통하고 싶다면 랩 피드에 댓글을 남겨보세요!

한 줄 소개

Open Reinforcement Learning Fine-Tuning

분야

ENGINEERING

목표 결과물

OPEN_SOURCE, BOOK

랩 소개

본 모임에서는 LLM에서 post training에 사용되는 RLHF, RLAIF, RLVR 등의 Reinforcement Learning Fine-Tuning (a.k.a RLFT) 방법론을 이론과 코드레벨에서 정리하고, GPT4.1, DEEPSEEK, QWEN 등 SOTA 수준의 LLM을 학습하는 데 활용된 RLFT 방법론을 파악하고 재현하는 것에 목적을 두고 있습니다.

#llm
#rlhf
#rlaif
#rlvr
#rlft
#preference

운영 방식

🧠 무엇을 하나요? - 현대의 RLFT 방법론을 간략하게 정리하고, 바로 실행가능한 예시 코드를 작성합니다. - 이를 기반으로 간략한 오픈소스 도서를 만들어보고자합니다. 아래는 예상하는 결과물의 예시입니다. - 모두를 위한 컨벡스 최적화: https://convex-optimization-for-all.github.io/ - The Ultra-Scale Playbook: Training LLMs on GPU Clusters: https://huggingface.co/spaces/nanotron/ultrascale-playbook 🛠 어떻게 운영되나요? - 최소 20주 활동을 수행하는 것에 있습니다. - 첫 n주는 여러 자료를 기반으로 스터디를 수행할 예정입니다. (아래는 고려중인 자료) - Reinforcement Learning from Human Feedback (https://rlhfbook.com/) - Reinforcement Learning: An Overview (https://arxiv.org/abs/2412.05265) - 매 주 토요일 오전에 1회 오프라인 모임을 수행합니다.

커리큘럼

1주차: 오리엔테이션, 연구 주제 및 모임 목적 소개, 참여자 상호 소개

2~13주차: RLFT 스터디

14~20주차: 오픈소스 도서를 위한 자료 정리 및 예시 코드 개발

참여 요건

- 정리 및 발표가 가능하신 지 궁금합니다. - 꾸준히 참여가 가능하신 지 궁금합니다.

사전 질문

pre-training과 post-training의 차이를 설명해주실 수 있나요?

LLM post-training에서 Instruction Following과 Alignment 차이를 설명해주실 수 있나요?

Reward model과 Verifiable reward의 차이를 설명해주실 수 있나요?

랩장 소개

avatar_img

김보섭

카카오bsk0130@gmail.com

카카오에서 카나나 언어모델 시리즈를 만들고 있습니다.