Lab Image

Data Centric Learning LAB / DCL LAB

모임 기간

2024.07.06 - 2025.01.25

모임 일시

매주 토요일 10:30 ~ 12:30

장      소

강남

모집 기간

2024.06.16 - 2024.07.05

모집 인원

8명

선발 방식

사전 질문 기반 심사

랩 소개
운영 방식
참여 요건
랩장 소개

⭐️ 랩 소개

한 줄 소개
Data Centric Learning 관련 연구 및 프로젝트를 진행
분야
ENGINEERING
목표 결과물
OPEN_SOURCE
DCL LAB은 "Data Centric Learning"을 실제로 수행해보는 프로젝트를하는 LAB입니다. LAB에서는 프로젝트는 아래와 같습니다. - Pre-training 또는 Continual pre-training을 위한 한국어 말뭉치를 만듭니다. - 위의 한국어 말뭉치를 수집하기위한 pipeline을 정립하고 개발합니다. (e.g. CCNet, Dolma, Fineweb)

⭐️ 운영 방식

운영방식은 아래와 같이 진행할 예정입니다. [Period 1 (2024/07)] - data pipeline인 "datatrove" 분석 - 공개적으로 이용한 한국어 말뭉치 나열 및 이를 수집하는 코드 개발 및 수집 [Period 2 (2024/08 ~ 2024/10)] - 수집된 각각의 한국어 말뭉치를 스타일 (e.g. news-like, article-like, community like)로 분류하는 방법론 탐색 및 적용 - 스타일 별로 분류된 말뭉치에 알려진 heuristic filters (e.g. gopher, c4 등)의 hyper-parameter 값을 tuning하는 과정을 진행 - naive한 형태의 quality scorer (e.g. subword n-gram language model, FastText classifier) 개발 및 적용 - exact, near deduplication 수행 [Period 3 (2024/11 ~ 2024/12)] - 스타일로 분류된 말뭉치에 속성(e.g. readbiliy, coherence, educational value)을 부여하는 방법론 (e.g. ml model 또는 gpt-4 api 활용)을 부여하는 방법을 탐색 및 적용 - korean specific filters (e.g. nsfw filter, quality filter, toxic filter) 들을 개발 및 적용 - 만들어진 말뭉치 (a.k.a kopile)로 학습 (e.g. continual pre-training 또는 pre-training)으로 말뭉치의 품질 평가 - 만들어진 말뭉치와 pipeline, filters를 오픈소스로 공개

⭐️ 커리큘럼

⭐️ 참여 요건

- "Data Centric Learning" 프로젝트를 실제로 수행해보고 싶으신 분 - Data pre-processing 관련 경험이 있으신 분 - 한 달에 3회이상 참여가 가능한 분 - 실제 모임은 온/오프 믹스로, 적어도 달에 한 번은 오프라인 미팅을 페이지에 명시된 시간 (토요일 10:30 ~ 12:30)에 진행할 예정입니다. - 필요하다면 오프라인 모임을 최소 1회보다 더 진행할 수 있습니다. 다만 스터디보다 프로젝트를 진행하는 의미의 성격이 강한 랩으로, 필요하지않다면 달에 온라인 3회, 오프라인 1회를 유지할 계획입니다. - 온라인의 경우는 랩원들의 일정에 따라서 유동적으로 진행할 예정입니다.

⭐️ 사전 질문

최근 continual pre-training, pre-training에서 자주 활용되는 staged training 전략에 대해서 설명해주실 수 있나요?
한국어 말뭉치 (e.g news, community)에 속성 (e.g. readability, coherence)을 부여한다면, 어떤 속성을 부여해야 LLM 또는 sLLM 학습에 중요 정보로써 이용할 수 있을까요? 이를 staged training 전략에서 활용한다면 어떤 식으로 활용해야할까요?

⭐️ 랩장 소개

avatar_img
김보섭
카카오 · bsk0130@gmail.com
대규모의 언어모델을 학습하는 방식을 최적화하는 연구를 하고 있습니다.