LAB소개
DCL LAB은 "Data Centric Learning"을 실제로 수행해보는 프로젝트를하는 LAB입니다. LAB에서는 프로젝트는 아래와 같습니다.
- Pre-training 또는 Continual pre-training을 위한 한국어 말뭉치를 만듭니다.
- 위의 한국어 말뭉치를 수집하기위한 pipeline을 정립하고 개발합니다. (e.g. CCNet, Dolma, Fineweb)
- Pre-training 또는 Continual pre-training을 위한 한국어 말뭉치를 만듭니다.
- 위의 한국어 말뭉치를 수집하기위한 pipeline을 정립하고 개발합니다. (e.g. CCNet, Dolma, Fineweb)
활동계획
운영방식은 아래와 같이 진행할 예정입니다.
[Period 1 (2024/07)]
- data pipeline인 "datatrove" 분석
- 공개적으로 이용한 한국어 말뭉치 나열 및 이를 수집하는 코드 개발 및 수집
[Period 2 (2024/08 ~ 2024/10)]
- 수집된 각각의 한국어 말뭉치를 스타일 (e.g. news-like, article-like, community like)로 분류하는 방법론 탐색 및 적용
- 스타일 별로 분류된 말뭉치에 알려진 heuristic filters (e.g. gopher, c4 등)의 hyper-parameter 값을 tuning하는 과정을 진행
- naive한 형태의 quality scorer (e.g. subword n-gram language model, FastText classifier) 개발 및 적용
- exact, near deduplication 수행
[Period 3 (2024/11 ~ 2024/12)]
- 스타일로 분류된 말뭉치에 속성(e.g. readbiliy, coherence, educational value)을 부여하는 방법론 (e.g. ml model 또는 gpt-4 api 활용)을 부여하는 방법을 탐색 및 적용
- korean specific filters (e.g. nsfw filter, quality filter, toxic filter) 들을 개발 및 적용
- 만들어진 말뭉치 (a.k.a kopile)로 학습 (e.g. continual pre-training 또는 pre-training)으로 말뭉치의 품질 평가
- 만들어진 말뭉치와 pipeline, filters를 오픈소스로 공개
[Period 1 (2024/07)]
- data pipeline인 "datatrove" 분석
- 공개적으로 이용한 한국어 말뭉치 나열 및 이를 수집하는 코드 개발 및 수집
[Period 2 (2024/08 ~ 2024/10)]
- 수집된 각각의 한국어 말뭉치를 스타일 (e.g. news-like, article-like, community like)로 분류하는 방법론 탐색 및 적용
- 스타일 별로 분류된 말뭉치에 알려진 heuristic filters (e.g. gopher, c4 등)의 hyper-parameter 값을 tuning하는 과정을 진행
- naive한 형태의 quality scorer (e.g. subword n-gram language model, FastText classifier) 개발 및 적용
- exact, near deduplication 수행
[Period 3 (2024/11 ~ 2024/12)]
- 스타일로 분류된 말뭉치에 속성(e.g. readbiliy, coherence, educational value)을 부여하는 방법론 (e.g. ml model 또는 gpt-4 api 활용)을 부여하는 방법을 탐색 및 적용
- korean specific filters (e.g. nsfw filter, quality filter, toxic filter) 들을 개발 및 적용
- 만들어진 말뭉치 (a.k.a kopile)로 학습 (e.g. continual pre-training 또는 pre-training)으로 말뭉치의 품질 평가
- 만들어진 말뭉치와 pipeline, filters를 오픈소스로 공개
연구목표
#오픈_소스_구현
참여조건
- "Data Centric Learning" 프로젝트를 실제로 수행해보고 싶으신 분
- Data pre-processing 관련 경험이 있으신 분
- 한 달에 3회이상 참여가 가능한 분
- 실제 모임은 온/오프 믹스로, 적어도 달에 한 번은 오프라인 미팅을 페이지에 명시된 시간 (토요일 10:30 ~ 12:30)에 진행할 예정입니다.
- 필요하다면 오프라인 모임을 최소 1회보다 더 진행할 수 있습니다. 다만 스터디보다 프로젝트를 진행하는 의미의 성격이 강한 랩으로, 필요하지않다면 달에 온라인 3회, 오프라인 1회를 유지할 계획입니다.
- 온라인의 경우는 랩원들의 일정에 따라서 유동적으로 진행할 예정입니다.
- Data pre-processing 관련 경험이 있으신 분
- 한 달에 3회이상 참여가 가능한 분
- 실제 모임은 온/오프 믹스로, 적어도 달에 한 번은 오프라인 미팅을 페이지에 명시된 시간 (토요일 10:30 ~ 12:30)에 진행할 예정입니다.
- 필요하다면 오프라인 모임을 최소 1회보다 더 진행할 수 있습니다. 다만 스터디보다 프로젝트를 진행하는 의미의 성격이 강한 랩으로, 필요하지않다면 달에 온라인 3회, 오프라인 1회를 유지할 계획입니다.
- 온라인의 경우는 랩원들의 일정에 따라서 유동적으로 진행할 예정입니다.
랩짱소개
김보섭
자기 소개
네이버, 카카오 등에서 LLM을 연구 개발하고 있는 김보섭이라고 합니다. 좋은 데이터가 결국 모든 것을 해결한다는 믿음이 있습니다.
소속
카카오
bsk0130@gmail.com
Data Centric Learning LAB / DCL LAB
- 모임시작
- 2024년 07월 06일
- 모임일시
- 매주 토요일 10:30 ~ 12:30
- 모임장소
- 강남
- 모집기간
- 2024년 06월 16일 ~ 07월 05일
- 모집인원
- 8명
- 모집방법
- 선발
- 모임비용
- 무료
LAB 소개
DCL LAB은 "Data Centric Learning"을 실제로 수행해보는 프로젝트를하는 LAB입니다. LAB에서는 프로젝트는 아래와 같습니다.
- Pre-training 또는 Continual pre-training을 위한 한국어 말뭉치를 만듭니다.
- 위의 한국어 말뭉치를 수집하기위한 pipeline을 정립하고 개발합니다. (e.g. CCNet, Dolma, Fineweb)
- Pre-training 또는 Continual pre-training을 위한 한국어 말뭉치를 만듭니다.
- 위의 한국어 말뭉치를 수집하기위한 pipeline을 정립하고 개발합니다. (e.g. CCNet, Dolma, Fineweb)
활동계획
운영방식은 아래와 같이 진행할 예정입니다.
[Period 1 (2024/07)]
- data pipeline인 "datatrove" 분석
- 공개적으로 이용한 한국어 말뭉치 나열 및 이를 수집하는 코드 개발 및 수집
[Period 2 (2024/08 ~ 2024/10)]
- 수집된 각각의 한국어 말뭉치를 스타일 (e.g. news-like, article-like, community like)로 분류하는 방법론 탐색 및 적용
- 스타일 별로 분류된 말뭉치에 알려진 heuristic filters (e.g. gopher, c4 등)의 hyper-parameter 값을 tuning하는 과정을 진행
- naive한 형태의 quality scorer (e.g. subword n-gram language model, FastText classifier) 개발 및 적용
- exact, near deduplication 수행
[Period 3 (2024/11 ~ 2024/12)]
- 스타일로 분류된 말뭉치에 속성(e.g. readbiliy, coherence, educational value)을 부여하는 방법론 (e.g. ml model 또는 gpt-4 api 활용)을 부여하는 방법을 탐색 및 적용
- korean specific filters (e.g. nsfw filter, quality filter, toxic filter) 들을 개발 및 적용
- 만들어진 말뭉치 (a.k.a kopile)로 학습 (e.g. continual pre-training 또는 pre-training)으로 말뭉치의 품질 평가
- 만들어진 말뭉치와 pipeline, filters를 오픈소스로 공개
[Period 1 (2024/07)]
- data pipeline인 "datatrove" 분석
- 공개적으로 이용한 한국어 말뭉치 나열 및 이를 수집하는 코드 개발 및 수집
[Period 2 (2024/08 ~ 2024/10)]
- 수집된 각각의 한국어 말뭉치를 스타일 (e.g. news-like, article-like, community like)로 분류하는 방법론 탐색 및 적용
- 스타일 별로 분류된 말뭉치에 알려진 heuristic filters (e.g. gopher, c4 등)의 hyper-parameter 값을 tuning하는 과정을 진행
- naive한 형태의 quality scorer (e.g. subword n-gram language model, FastText classifier) 개발 및 적용
- exact, near deduplication 수행
[Period 3 (2024/11 ~ 2024/12)]
- 스타일로 분류된 말뭉치에 속성(e.g. readbiliy, coherence, educational value)을 부여하는 방법론 (e.g. ml model 또는 gpt-4 api 활용)을 부여하는 방법을 탐색 및 적용
- korean specific filters (e.g. nsfw filter, quality filter, toxic filter) 들을 개발 및 적용
- 만들어진 말뭉치 (a.k.a kopile)로 학습 (e.g. continual pre-training 또는 pre-training)으로 말뭉치의 품질 평가
- 만들어진 말뭉치와 pipeline, filters를 오픈소스로 공개
연구목표
#오픈_소스_구현
참여조건
- "Data Centric Learning" 프로젝트를 실제로 수행해보고 싶으신 분
- Data pre-processing 관련 경험이 있으신 분
- 한 달에 3회이상 참여가 가능한 분
- 실제 모임은 온/오프 믹스로, 적어도 달에 한 번은 오프라인 미팅을 페이지에 명시된 시간 (토요일 10:30 ~ 12:30)에 진행할 예정입니다.
- 필요하다면 오프라인 모임을 최소 1회보다 더 진행할 수 있습니다. 다만 스터디보다 프로젝트를 진행하는 의미의 성격이 강한 랩으로, 필요하지않다면 달에 온라인 3회, 오프라인 1회를 유지할 계획입니다.
- 온라인의 경우는 랩원들의 일정에 따라서 유동적으로 진행할 예정입니다.
- Data pre-processing 관련 경험이 있으신 분
- 한 달에 3회이상 참여가 가능한 분
- 실제 모임은 온/오프 믹스로, 적어도 달에 한 번은 오프라인 미팅을 페이지에 명시된 시간 (토요일 10:30 ~ 12:30)에 진행할 예정입니다.
- 필요하다면 오프라인 모임을 최소 1회보다 더 진행할 수 있습니다. 다만 스터디보다 프로젝트를 진행하는 의미의 성격이 강한 랩으로, 필요하지않다면 달에 온라인 3회, 오프라인 1회를 유지할 계획입니다.
- 온라인의 경우는 랩원들의 일정에 따라서 유동적으로 진행할 예정입니다.
랩짱소개
김보섭
자기 소개
네이버, 카카오 등에서 LLM을 연구 개발하고 있는 김보섭이라고 합니다. 좋은 데이터가 결국 모든 것을 해결한다는 믿음이 있습니다.
소속
카카오
bsk0130@gmail.com