Python부터 AI 활용 역량까지, 4개월 백엔드 개발 과정
LAB소개
DCL LAB은 "Data Centric Learning"을 실제로 수행해보는 프로젝트를하는 LAB입니다. LAB에서는 프로젝트는 아래와 같습니다.

- Pre-training 또는 Continual pre-training을 위한 한국어 말뭉치를 만듭니다.
- 위의 한국어 말뭉치를 수집하기위한 pipeline을 정립하고 개발합니다. (e.g. CCNet, Dolma, Fineweb)
활동계획
운영방식은 아래와 같이 진행할 예정입니다.

[Period 1 (2024/07)]
- data pipeline인 "datatrove" 분석
- 공개적으로 이용한 한국어 말뭉치 나열 및 이를 수집하는 코드 개발 및 수집
[Period 2 (2024/08 ~ 2024/10)]
- 수집된 각각의 한국어 말뭉치를 스타일 (e.g. news-like, article-like, community like)로 분류하는 방법론 탐색 및 적용
- 스타일 별로 분류된 말뭉치에 알려진 heuristic filters (e.g. gopher, c4 등)의 hyper-parameter 값을 tuning하는 과정을 진행
- naive한 형태의 quality scorer (e.g. subword n-gram language model, FastText classifier) 개발 및 적용
- exact, near deduplication 수행
[Period 3 (2024/11 ~ 2024/12)]
- 스타일로 분류된 말뭉치에 속성(e.g. readbiliy, coherence, educational value)을 부여하는 방법론 (e.g. ml model 또는 gpt-4 api 활용)을 부여하는 방법을 탐색 및 적용
- korean specific filters (e.g. nsfw filter, quality filter, toxic filter) 들을 개발 및 적용
- 만들어진 말뭉치 (a.k.a kopile)로 학습 (e.g. continual pre-training 또는 pre-training)으로 말뭉치의 품질 평가
- 만들어진 말뭉치와 pipeline, filters를 오픈소스로 공개
연구목표
#오픈_소스_구현   
참여조건
- "Data Centric Learning" 프로젝트를 실제로 수행해보고 싶으신 분
- Data pre-processing 관련 경험이 있으신 분
- 한 달에 3회이상 참여가 가능한 분
- 실제 모임은 온/오프 믹스로, 적어도 달에 한 번은 오프라인 미팅을 페이지에 명시된 시간 (토요일 10:30 ~ 12:30)에 진행할 예정입니다.
- 필요하다면 오프라인 모임을 최소 1회보다 더 진행할 수 있습니다. 다만 스터디보다 프로젝트를 진행하는 의미의 성격이 강한 랩으로, 필요하지않다면 달에 온라인 3회, 오프라인 1회를 유지할 계획입니다.
- 온라인의 경우는 랩원들의 일정에 따라서 유동적으로 진행할 예정입니다.
랩짱소개
김보섭

김보섭

자기 소개

네이버, 카카오 등에서 LLM을 연구 개발하고 있는 김보섭이라고 합니다. 좋은 데이터가 결국 모든 것을 해결한다는 믿음이 있습니다.

소속

카카오

E-mail

bsk0130@gmail.com

Data Centric Learning LAB / DCL LAB
모임시작
2024년 07월 06일
모임일시
매주 토요일 10:30 ~ 12:30
모임장소
강남
모집기간
2024년 06월 16일 ~ 07월 05일
모집인원
8명
모집방법
선발
모임비용
무료
Python부터 AI 활용 역량까지, 4개월 백엔드 개발 과정
Data Centric Learning LAB / DCL LAB
모임시작
2024년 07월 06일
모임일시
매주 토요일 10:30 ~ 12:30
모임장소
강남
모집기간
2024년 06월 16일 ~ 07월 05일
모집인원
8명
모집방법
선발
모임비용
무료
LAB 소개
DCL LAB은 "Data Centric Learning"을 실제로 수행해보는 프로젝트를하는 LAB입니다. LAB에서는 프로젝트는 아래와 같습니다.

- Pre-training 또는 Continual pre-training을 위한 한국어 말뭉치를 만듭니다.
- 위의 한국어 말뭉치를 수집하기위한 pipeline을 정립하고 개발합니다. (e.g. CCNet, Dolma, Fineweb)
활동계획
운영방식은 아래와 같이 진행할 예정입니다.

[Period 1 (2024/07)]
- data pipeline인 "datatrove" 분석
- 공개적으로 이용한 한국어 말뭉치 나열 및 이를 수집하는 코드 개발 및 수집
[Period 2 (2024/08 ~ 2024/10)]
- 수집된 각각의 한국어 말뭉치를 스타일 (e.g. news-like, article-like, community like)로 분류하는 방법론 탐색 및 적용
- 스타일 별로 분류된 말뭉치에 알려진 heuristic filters (e.g. gopher, c4 등)의 hyper-parameter 값을 tuning하는 과정을 진행
- naive한 형태의 quality scorer (e.g. subword n-gram language model, FastText classifier) 개발 및 적용
- exact, near deduplication 수행
[Period 3 (2024/11 ~ 2024/12)]
- 스타일로 분류된 말뭉치에 속성(e.g. readbiliy, coherence, educational value)을 부여하는 방법론 (e.g. ml model 또는 gpt-4 api 활용)을 부여하는 방법을 탐색 및 적용
- korean specific filters (e.g. nsfw filter, quality filter, toxic filter) 들을 개발 및 적용
- 만들어진 말뭉치 (a.k.a kopile)로 학습 (e.g. continual pre-training 또는 pre-training)으로 말뭉치의 품질 평가
- 만들어진 말뭉치와 pipeline, filters를 오픈소스로 공개
연구목표
#오픈_소스_구현   
참여조건
- "Data Centric Learning" 프로젝트를 실제로 수행해보고 싶으신 분
- Data pre-processing 관련 경험이 있으신 분
- 한 달에 3회이상 참여가 가능한 분
- 실제 모임은 온/오프 믹스로, 적어도 달에 한 번은 오프라인 미팅을 페이지에 명시된 시간 (토요일 10:30 ~ 12:30)에 진행할 예정입니다.
- 필요하다면 오프라인 모임을 최소 1회보다 더 진행할 수 있습니다. 다만 스터디보다 프로젝트를 진행하는 의미의 성격이 강한 랩으로, 필요하지않다면 달에 온라인 3회, 오프라인 1회를 유지할 계획입니다.
- 온라인의 경우는 랩원들의 일정에 따라서 유동적으로 진행할 예정입니다.
랩짱소개
김보섭

김보섭

자기 소개

네이버, 카카오 등에서 LLM을 연구 개발하고 있는 김보섭이라고 합니다. 좋은 데이터가 결국 모든 것을 해결한다는 믿음이 있습니다.

소속

카카오

E-mail

bsk0130@gmail.com