
한 줄 소개
멀티모달 AI의 미래를 탐구하는 연구실
분야
ENGINEERING
목표 결과물
PAPER, COMPETITION
랩 소개
멀티모달 연구실은 다양한 데이터 모달리티(텍스트, 이미지, 영상, 오디오 등)를 통합하여 혁신적인 AI 모델을 개발하는 것을 목표로 합니다. 💡 연구 주제 멀티모달 대형 언어 모델(MLLM) 논문 세미나 영상/이미지 이해 및 생성 AI 텍스트-비전 조합을 통한 강력한 AI 시스템 새로운 데이터셋 구축 및 벤치마킹
운영 방식
📌 매주 월요일 오후 07시 30분 오프라인 모임 📌 연구 프로젝트 기반 논문 리뷰 및 연구 발표 (주 1회) 주제별 프로젝트 팀 운영 코드 구현 및 벤치마킹 실험 📌 성과 공유 논문 투고 (CVPR, ICCV, NeurIPS 등) 오픈소스 프로젝트 참여 멀티모달 AI 오픈소스 기여 📌 논문 리스트 https://github.com/friedrichor/Awesome-Multimodal-Papers?tab=readme-ov-file#large-multimodal-model
커리큘럼
연구실 오리엔테이션 및 연구 목표 소개, 연구원 자기소개, 프로젝트 세분화
최신 논문 리뷰 및 사전 연구 탐색 (논문 리스트 기반 토론)
최신 논문 리뷰 및 사전 연구 탐색 (논문 리스트 기반 토론)
모델 구현 및 실험 진행 (멀티모달 LLM, 비디오/이미지 이해 실험)
실험 결과 정리 및 논문 초안 작성
Peer Review 진행 및 피드백 반영
논문 최종 수정 및 학회 제출 준비 (NeurIPS 2025년 5월 예정)
참여 요건
📌 기본 요건 인공지능, 머신러닝, 컴퓨터 비전에 대한 기본 이해 파이썬(Python) 및 PyTorch/TensorFlow 등 AI 관련 라이브러리 사용 경험 논문 리뷰 및 학술 연구에 대한 관심 협업 및 커뮤니케이션 능력 (코드 리뷰, 논문 피드백 가능) 🎯 우대 사항 멀티모달 모델(예: CLIP, LLaVA, Stable Diffusion, BLIP 등) 관련 경험 논문 작성 및 학회 발표 경험 대형 언어 모델(LLM) 또는 비전-언어 모델(VLM) 연구 경험 멀티모달 데이터셋 처리 및 벤치마킹 경험
사전 질문
멀티모달 AI 연구에서 어떤 부분(텍스트-비전, 오디오-비디오 등)에 가장 관심이 있나요?
과거에 AI 관련 연구나 프로젝트를 진행한 경험이 있나요? 있다면 어떤 내용이었나요?
사용 가능한 프로그래밍 언어 및 프레임워크(PyTorch, TensorFlow, JAX 등)는 무엇인가요?
논문 리뷰 및 작성 경험이 있나요? (예: 학회 제출 경험, 리뷰 작성 경험 등)
협업 도구(GitHub, Notion, Overleaf 등)를 사용한 경험이 있나요?
현재 계획 중인 연구 주제가 있다면 소개해주세요. (없다면 연구실에서 진행하고 싶은 주제는 무엇인가요?)
랩장 소개

조현욱
안녕하세요. 프롬프트에 관심이 많은 인공지능 대학원생 조현욱이라고 합니다.
Deep Multimodal LAB
모임 기간
2025.03.17 - 2025.06.23
모임 일시
매주 월요일 19:30 ~ 21:30
장 소
모두의연구소 강남캠퍼스
모집 기간
2025.02.26 - 2025.03.13
모집 인원
17명
선발 방식
사전 질문 기반 심사 + 온라인 커피챗