Data Centric Learning LAB / DCL LAB
모임 기간
2024.07.06 - 2025.01.25
모임 일시
매주 토요일 10:30 ~ 12:30
장 소
강남
모집 기간
2024.06.16 - 2024.07.05
모집 인원
8명
선발 방식
사전 질문 기반 심사
랩 소개
운영 방식
참여 요건
랩장 소개
⭐️ 랩 소개
한 줄 소개
Data Centric Learning 관련 연구 및 프로젝트를 진행
분야
ENGINEERING
목표 결과물
OPEN_SOURCE
DCL LAB은 "Data Centric Learning"을 실제로 수행해보는 프로젝트를하는 LAB입니다. LAB에서는 프로젝트는 아래와 같습니다.
- Pre-training 또는 Continual pre-training을 위한 한국어 말뭉치를 만듭니다.
- 위의 한국어 말뭉치를 수집하기위한 pipeline을 정립하고 개발합니다. (e.g. CCNet, Dolma, Fineweb)
⭐️ 운영 방식
운영방식은 아래와 같이 진행할 예정입니다.
[Period 1 (2024/07)]
- data pipeline인 "datatrove" 분석
- 공개적으로 이용한 한국어 말뭉치 나열 및 이를 수집하는 코드 개발 및 수집
[Period 2 (2024/08 ~ 2024/10)]
- 수집된 각각의 한국어 말뭉치를 스타일 (e.g. news-like, article-like, community like)로 분류하는 방법론 탐색 및 적용
- 스타일 별로 분류된 말뭉치에 알려진 heuristic filters (e.g. gopher, c4 등)의 hyper-parameter 값을 tuning하는 과정을 진행
- naive한 형태의 quality scorer (e.g. subword n-gram language model, FastText classifier) 개발 및 적용
- exact, near deduplication 수행
[Period 3 (2024/11 ~ 2024/12)]
- 스타일로 분류된 말뭉치에 속성(e.g. readbiliy, coherence, educational value)을 부여하는 방법론 (e.g. ml model 또는 gpt-4 api 활용)을 부여하는 방법을 탐색 및 적용
- korean specific filters (e.g. nsfw filter, quality filter, toxic filter) 들을 개발 및 적용
- 만들어진 말뭉치 (a.k.a kopile)로 학습 (e.g. continual pre-training 또는 pre-training)으로 말뭉치의 품질 평가
- 만들어진 말뭉치와 pipeline, filters를 오픈소스로 공개
⭐️ 커리큘럼
⭐️ 참여 요건
- "Data Centric Learning" 프로젝트를 실제로 수행해보고 싶으신 분
- Data pre-processing 관련 경험이 있으신 분
- 한 달에 3회이상 참여가 가능한 분
- 실제 모임은 온/오프 믹스로, 적어도 달에 한 번은 오프라인 미팅을 페이지에 명시된 시간 (토요일 10:30 ~ 12:30)에 진행할 예정입니다.
- 필요하다면 오프라인 모임을 최소 1회보다 더 진행할 수 있습니다. 다만 스터디보다 프로젝트를 진행하는 의미의 성격이 강한 랩으로, 필요하지않다면 달에 온라인 3회, 오프라인 1회를 유지할 계획입니다.
- 온라인의 경우는 랩원들의 일정에 따라서 유동적으로 진행할 예정입니다.
⭐️ 사전 질문
최근 continual pre-training, pre-training에서 자주 활용되는 staged training 전략에 대해서 설명해주실 수 있나요?
한국어 말뭉치 (e.g news, community)에 속성 (e.g. readability, coherence)을 부여한다면, 어떤 속성을 부여해야 LLM 또는 sLLM 학습에 중요 정보로써 이용할 수 있을까요? 이를 staged training 전략에서 활용한다면 어떤 식으로 활용해야할까요?
⭐️ 랩장 소개
김보섭
카카오 · bsk0130@gmail.com
대규모의 언어모델을 학습하는 방식을 최적화하는 연구를 하고 있습니다.