
한 줄 소개
한국어 LLM의 어절 내부 언어 drift를 줄이는 논문형 LAB
분야
ENGINEERING
목표 결과물
PAPER, OPEN_SOURCE
랩 소개
이 LAB은 한국어 기술 문서와 AI 뉴스 digest에서 영어 모델명·기술 용어는 보존하면서, 한국어 어절 내부에 소문자 라틴 suffix가 붙는 lexical-boundary drift를 줄이는 decoding-time 제어 방법을 연구합니다. 현재 연구 초안은 LexGuard-KO라는 vLLM logits processor와 운영 평가 자료를 기반으로 하며, 목표는 EMNLP Industry Track 제출을 위한 논문, 보충자료, 재현 패키지를 정리하고 모두의연구소 커뮤니티 안에서 연구 과정을 공유하는 것입니다. 단순 학습보다 실제 논문 산출물 중심으로 운영합니다. 초기에는 1인 연구로 시작하되, 관심 연구원이 있을 경우 논문 리뷰, 평가 설계, 재현성 검토, writing review에 참여할 수 있도록 열어둡니다.
운영 방식
기간은 3개월로 운영합니다. 주 1회 온라인 중심으로 진행하고, 필요 시 모두의연구소 공간에서 오프라인 리뷰를 진행합니다. 매주 논문 섹션, 실험/평가 근거, 재현 패키지, 리뷰어 리스크를 하나씩 점검합니다. 초기 1인 연구를 기본으로 하되, 참여자가 있을 경우 역할을 논문 읽기, 평가 재현, 보충자료 점검, writing feedback으로 나눕니다. 사내/비공개 원문 데이터는 공개하지 않고, 익명화된 공개 artifact와 aggregate evidence만 사용합니다. 진행 상황은 슬랙 랩장모여라 채널에 공유하고, 결과물은 논문 제출본, 보충자료, 공개 가능한 기술 요약 글, 발표 자료로 정리합니다.
커리큘럼
1주차: 오리엔테이션, 연구 목표와 claim boundary 정리, 제출 일정 확인
2주차: 관련연구 검토 - language confusion, constrained decoding, LCG/SCD/XGrammar
3주차: LexGuard-KO target class와 tokenizer-state decoding contract 정리
4주차: vLLM logits processor 구현 경로와 no-op/fallback lifecycle 점검
5주차: controlled stress suite, scoring rule, deletion/anchor checks 검토
6주차: 결과표와 통계 검증, clean/strict success 및 residual span 해석
7주차: 보충자료, reproduction guide, reviewer map 정리
8주차: Introduction/Related Work/Method 문장 다듬기
9주차: Results/Limitations/Ethics와 human-eval boundary 정리
10주차: 내부 리뷰, reviewer objection 대응, claim overreach 점검
11주차: 제출 패키지 QA, PDF/supplement/code bundle preflight
12주차: 결과 공유 - 모두연 슬랙/블로그/발표자료 초안 정리
참여 요건
초기에는 1인 연구를 기본으로 하며, 추가 참여자는 소수 선발합니다. LLM/NLP 논문을 읽고 핵심 주장과 한계를 정리할 수 있거나 Python 기반 실험·재현성 검토에 관심이 있으면 좋습니다. 한국어와 영어 기술 문서를 모두 읽을 수 있어야 하며, 주 1회 온라인 모임과 비동기 문서 리뷰에 꾸준히 참여할 수 있어야 합니다. 회사나 기관의 비공개 데이터는 사용하지 않고, 공개 가능한 산출물 기준으로 기여합니다.
사전 질문
이 LAB에 참여하고 싶은 이유와 기여 가능한 역할을 적어주세요.
LLM/NLP 논문 리뷰 또는 Python 실험 재현 경험이 있다면 적어주세요.
3개월 동안 주 1회 온라인 모임과 비동기 리뷰에 참여 가능하신가요?
랩장 소개
황중원
12년부터 ML관련(머신러닝, 언어정보 연구실) 랩실 생활을 하였고, 추천관련 업무(빅데이터, 모델링)를 5년정도, 현재 회사에서 5년정도 컴퓨터비전 관련 서비스도 내어보고, 현재 RAG기반 서비스도 내보고 하는 중입니다.
LexGuard-KO 생성 안정성 연구 LAB
모임 기간
2026.07.13 - 2026.09.28
모임 일시
매주 월요일 20:00 ~ 22:00
장 소
온라인
모집 기간
2026.06.17 - 2026.07.06
모집 인원
1명
선발 방식
사전 질문 기반 심사
