랩 썸네일
LAB
AI Inference LAB
9월 6일 - 11월 8일
13:00 - 15:00
WEEKLYSAT요일
모두의연구소 강남캠퍼스
10

한 줄 소개

고성능·저지연·확장 가능한 AI 추론 운영 플랫폼

분야

NATURAL_SCIENCES, ENGINEERING

목표 결과물

OPEN_SOURCE, PAPER

랩 소개

AI Inference Lab은 대규모 언어모델(LLM)·멀티모달 모델 등을 실제 서비스에 올릴 때 필요한 추론(Serving) 효율화에 초점을 둔 연구/실습 커뮤니티입니다. 고처리량 배치 추론, 지연시간 단축, GPU 활용 최적화, 엔지니어링 스택(vLLM, SGLang, Triton, CUDA Graphs 등) 비교·적용 같은 실무 문제를 중심으로 운영됩니다

#vllm
#fp8
#kv캐시
#int4
#동적배칭
#tensorrt
#triton

운영 방식

운영은 정기 세미나와 실습, 논문·레포 리뷰, 벤치마크 재현, 오픈소스 엔진/서빙 프레임워크 비교 테스트, 결과 공유 등의 형태로 진행됩니다. 일부 커뮤니티는 8~12주 단위 트랙을 구성해 논문·문서화·코드 산출물을 목표로 하며, 온라인 위주 진행에 오프라인 모임을 간헐적으로 병행하기도 합니다

커리큘럼

1주차: 목표 정의와 베이스라인 구축

2주차: 배치·스케줄링과 KV 캐시

3주차: 모델 경량화 I (양자화 중심)

4주차: 모델 경량화 II (프루닝/지식증류)

5주차: 런타임·컴파일 최적화

6주차: 멀티 GPU/노드 확장과 메모리 공학

7주차: 운영 신뢰성·관측성

8주차: 종합 프로젝트 발표

참여 요건

필수 요건 기본 역량 Python 사용 경험과 리눅스 셸/Docker 기본 명령에 익숙할 것 PyTorch 또는 주요 딥러닝 프레임워크 중 하나 실습 경험 Git으로 코드 버전 관리와 간단한 PR 리뷰 가능 장비/환경 GPU 접근 가능한 환경 1개 이상(개인/팀/클라우드 중 택1). 최소 사양 예시: LLM 실습 기본: 16–24GB VRAM 단일 GPU 또는 동급 클라우드 인스턴스 양자화·서빙 최적화 심화: 24–48GB VRAM 또는 2개 이상의 GPU 로컬 또는 원격 Linux 환경, Docker 활용 가능 우대 요건 추론/서빙 스택(vLLM, SGLang, TGI, TensorRT-LLM, Triton 등) 실사용 경험 모델 경량화(AWQ/GPTQ/프루닝/증류) 또는 프로파일링(Nsight, PyTorch Profiler) 경험 프로덕션 운영 경험(모니터링, 배포전략, SLA 관리)

사전 질문

이름/소속/직무

연락처(이메일/슬랙 ID)

이번 트랙에서 가장 달성하고 싶은 목표는 무엇인가요?

참가 동기와 성공 기준을 서술해주세요.

실무/프로젝트에서 LLM 또는 모델 서빙 경험

사용 경험이 있는 추론/서빙 스택

심화로 다뤄주길 원하는 주제

랩장 소개

default_avatar

강건

crystalinecohomology@gmail.com

현재 AI 스타트업에서 CSO로 재직 중입니다