Data Centric Learning LAB / DCL LAB | LAB

LAB

Data Centric Learning LAB / DCL LAB

7월 6일 - 1월 25일

10:30 - 12:30

WEEKLYSAT요일

강남

8명

2025.01.25에 종료된 랩입니다.

홈 피드 채팅

한 줄 소개

Data Centric Learning 관련 연구 및 프로젝트를 진행

분야

ENGINEERING

목표 결과물

OPEN_SOURCE

랩 소개

DCL LAB은 "Data Centric Learning"을 실제로 수행해보는 프로젝트를하는 LAB입니다. LAB에서는 프로젝트는 아래와 같습니다. - Pre-training 또는 Continual pre-training을 위한 한국어 말뭉치를 만듭니다. - 위의 한국어 말뭉치를 수집하기위한 pipeline을 정립하고 개발합니다. (e.g. CCNet, Dolma, Fineweb)

운영 방식

운영방식은 아래와 같이 진행할 예정입니다. [Period 1 (2024/07)] - data pipeline인 "datatrove" 분석 - 공개적으로 이용한 한국어 말뭉치 나열 및 이를 수집하는 코드 개발 및 수집 [Period 2 (2024/08 ~ 2024/10)] - 수집된 각각의 한국어 말뭉치를 스타일 (e.g. news-like, article-like, community like)로 분류하는 방법론 탐색 및 적용 - 스타일 별로 분류된 말뭉치에 알려진 heuristic filters (e.g. gopher, c4 등)의 hyper-parameter 값을 tuning하는 과정을 진행 - naive한 형태의 quality scorer (e.g. subword n-gram language model, FastText classifier) 개발 및 적용 - exact, near deduplication 수행 [Period 3 (2024/11 ~ 2024/12)] - 스타일로 분류된 말뭉치에 속성(e.g. readbiliy, coherence, educational value)을 부여하는 방법론 (e.g. ml model 또는 gpt-4 api 활용)을 부여하는 방법을 탐색 및 적용 - korean specific filters (e.g. nsfw filter, quality filter, toxic filter) 들을 개발 및 적용 - 만들어진 말뭉치 (a.k.a kopile)로 학습 (e.g. continual pre-training 또는 pre-training)으로 말뭉치의 품질 평가 - 만들어진 말뭉치와 pipeline, filters를 오픈소스로 공개

참여 요건

- "Data Centric Learning" 프로젝트를 실제로 수행해보고 싶으신 분 - Data pre-processing 관련 경험이 있으신 분 - 한 달에 3회이상 참여가 가능한 분 - 실제 모임은 온/오프 믹스로, 적어도 달에 한 번은 오프라인 미팅을 페이지에 명시된 시간 (토요일 10:30 ~ 12:30)에 진행할 예정입니다. - 필요하다면 오프라인 모임을 최소 1회보다 더 진행할 수 있습니다. 다만 스터디보다 프로젝트를 진행하는 의미의 성격이 강한 랩으로, 필요하지않다면 달에 온라인 3회, 오프라인 1회를 유지할 계획입니다. - 온라인의 경우는 랩원들의 일정에 따라서 유동적으로 진행할 예정입니다.

사전 질문

최근 continual pre-training, pre-training에서 자주 활용되는 staged training 전략에 대해서 설명해주실 수 있나요?

한국어 말뭉치 (e.g news, community)에 속성 (e.g. readability, coherence)을 부여한다면, 어떤 속성을 부여해야 LLM 또는 sLLM 학습에 중요 정보로써 이용할 수 있을까요? 이를 staged training 전략에서 활용한다면 어떤 식으로 활용해야할까요?

랩장 소개

김보섭

카카오•bsk0130@gmail.com

카카오에서 카나나 언어모델 시리즈를 만들고 있습니다.

Data Centric Learning LAB / DCL LAB

모임 기간

2024.07.06 - 2025.01.25

모임 일시

매주 토요일 10:30 ~ 12:30

장 소

강남

모집 기간

2024.06.16 - 2024.07.05

모집 인원

8명

선발 방식

사전 질문 기반 심사