HAERAE LAB
모임 기간
2024.04.02 -
모임 일시
매주 화요일 22:00 ~ 00:00
장 소
온라인
모집 기간
2024.03.08 - 2024.04.01
모집 인원
3명
선발 방식
사전 질문 기반 심사
랩 소개
운영 방식
참여 요건
랩장 소개
⭐️ 랩 소개
한 줄 소개
한국어 언어 인공지능을 연구하는 모임
분야
HUMANITIES_SOCIAL, ENGINEERING
목표 결과물
PAPER
HAERAE LAB은 한국어 언어 인공지능을 연구하는 모입입니다. 저희는 2023년 05월 처음으로 팀을 이루고 연구를 시작하여 한국어 언어 모델 평가 분야에서 총 2편의 논문(HAE-RAE Bench, KMMLU) 을 작성하였습니다. (최근 HAE-RAE Bench는 LREC-COLING에 억셉이 되었으며, KMMLU는 현재 심사 중에 있습니다. ) 부족하지만 앞으로도 꾸준히 기여해 나가는 것을 목표로 하고 있습니다.
알아주셨으면 하는 점은 HAERAE LAB은 한국어 언어 모델 학습 (continual pre-training, supervised fine-tuning, rlhf, 등) 에 관련된 연구는 지양하고 있습니다. 이미 충분히 많은 분들이 기여 해주고 계시기도 하며, 아무래도 학습 리소스 등이 풍부하지 못한 상황에서는 양질의 연구를 하기에 부적합하기 때문입니다. HAERAE LAB은 기존에 해왔던 (1) 한국어 언어 모델 평가와 더불어 (2) Robust-Evaluation (3) multilingual interpretability 분야의 연구를 해나갈 계획입니다.
⭐️ 운영 방식
활동 목표: (한국어 언어 모델 평가 / Robust-Evaluation / multilingual interpretability) 연구 및 해외 컨퍼런스 & 워크샵 논문 작성
목표 학회: EMNLP (6월 ARR), AAAI, EACL (10월 ARR) 등 및 기타 워크샵.
운영 계획:
(1) [1~2 달에 한번 정기 세미나] 해당 세미나에서는 서로의 논문 아이디어를 공유하고 신규로 작업할 논문을 결정할 예정입니다.
(2) [주 1회 Research Hour] 다들 본업이 따로 있으신 만큼 연구에 꾸준히 시간을 할애하는 것이 힘들다는 것을 이해합니다. 이 때문에 저희는 정기 회의 대신 주 1회 1~2시간 정도 온라인 회의를 켜둔 상태로 각자의 연구를 진행하는 시간을 가질 예정입니다.
(3) [논문 작성] 개별 논문에 대한 스케줄은 데드라인에 맞추어 유동적으로 조절될 예정입니다.
[Pending Research]
1. Question and Answers with Regional Variance (QARV): "불이 나면 어디로 전화해야해?" 와 같은 질문은 질문자가 위치한 국가/문화권에 따라 정답이 달라집니다. (미국에서는 911 한국에서는 119) QARV 프로젝트는 지역별로 정답이 달라지는 질문-응답 쌍을 수집하고 이를 바탕으로 언어모델의 regional bias를 측정하는 것을 목표로 하고 있습니다. 참여자들은 데이터 수집, 언어 모델 평가, 평가 결과 분석 모든 단계에 참여하게 될 예정입니다. 현재 약 100개 정도의 질문쌍을 수집한 상태입니다.
2. Multilingual Interpretability: 최근 논문들을 살펴보면 (https://arxiv.org/abs/2402.10588, https://arxiv.org/abs/2402.18815) Multilingual LM은 대개 먼저 영어로 생각한 뒤 target language 로 번역하여 응답을 생성하게 됩니다. target language로 번역하는 과정이 성능 저하에 어떤 영향을 미치는지, polyglot-ko 와 같이 한국어 모델에게 영어 질문을 준다면 한국어로 사고하고 영어로 번역하여 발화하는지, 추가 학습을 통해 이러한 현상을 완화 할 수 있는지, 해당 현상을 완화하는 것이 성능 향상으로 이어지는지 와 같은 research question을 탐구 해볼 예정입니다.
⭐️ 커리큘럼
⭐️ 참여 요건
1. 한국어 인공지능에 대한 관심, 연구 경험, 영작 능력, 등
2. 주 1회 Research Hour에 꾸준히 참석이 가능하신 분.
⭐️ 사전 질문
HAERAE LAB의 일원으로 활동하고 싶은 이유가 무엇인가요?
한국어 자연어 처리와 관련하여 연구하고 싶은신 주제가 있으신가요? 있으시다면 설명 부탁드립니다.
이전에 진행한 연구가 있으시다면, 설명 및 링크 첨부 부탁 드리겠습니다.
HAERAE LAB은 영문 논문 작성을 목표로 하고 있습니다. 이를 위해서 일정 수준 이상의 영작 실력이 필요한데 가능하실까요?
HAERAE LAB으로 활동할 경우 주 1회 Research Hour에 필수적으로 참여하셔야 합니다. 참여가 가능하신가요?
⭐️ 랩장 소개
손규진
Qraft Technologies · spthsrbwls123@yonsei.ac.kr
안녕하세요, 저는 Qraft Technologies의 Financial-NLP 리서치팀에서 일하고 있는 손규진입니다.
이한울
Data Analyst · gksdnf424@korea.ac.kr
안녕하세요, 신한투자증권 AI 엔지니어 이한울입니다. 저는 이전에 NCSOFT AI 연구조직에서 일하며, HaeRae Team의 Co-Lead로서 HAERAE-BENCH, KMMLU, QARV 등의 연구 활동을 수행하였습니다. 또한 FinNLP Workshop(2024)의 SharedTask Co-Organizer, SemEval(2025) 의 PromiseEval SharedTask Co-Organizer로서의 활동도 이어가며 금융 자연어처리 분야의 국제적인 연구 협력을 지속해가고 있습니다.