#multi-modal
Deep Multimodal LAB
모임 기간
2025.03.17 - 2025.06.23
모임 일시
매주 월요일 19:30 ~ 21:30
장 소
모두의연구소 강남캠퍼스
모집 기간
2025.02.26 - 2025.03.10
모집 인원
5명
선발 방식
사전 질문 기반 심사 + 온라인 커피챗
랩 소개
운영 방식
참여 요건
랩장 소개
⭐️ 랩 소개
한 줄 소개
멀티모달 AI의 미래를 탐구하는 연구실
분야
ENGINEERING
목표 결과물
PAPER, COMPETITION
멀티모달 연구실은 다양한 데이터 모달리티(텍스트, 이미지, 영상, 오디오 등)를 통합하여 혁신적인 AI 모델을 개발하는 것을 목표로 합니다.
💡 연구 주제
멀티모달 대형 언어 모델(MLLM) 논문 세미나
영상/이미지 이해 및 생성 AI
텍스트-비전 조합을 통한 강력한 AI 시스템
새로운 데이터셋 구축 및 벤치마킹
⭐️ 운영 방식
📌 매주 월요일 오후 07시 30분 오프라인 모임
📌 연구 프로젝트 기반
논문 리뷰 및 연구 발표 (주 1회)
주제별 프로젝트 팀 운영
코드 구현 및 벤치마킹 실험
📌 성과 공유
논문 투고 (CVPR, ICCV, NeurIPS 등)
오픈소스 프로젝트 참여
멀티모달 AI 오픈소스 기여
📌 논문 리스트
https://github.com/friedrichor/Awesome-Multimodal-Papers?tab=readme-ov-file#large-multimodal-model
⭐️ 커리큘럼
연구실 오리엔테이션 및 연구 목표 소개, 연구원 자기소개, 프로젝트 세분화
최신 논문 리뷰 및 사전 연구 탐색 (논문 리스트 기반 토론)
최신 논문 리뷰 및 사전 연구 탐색 (논문 리스트 기반 토론)
모델 구현 및 실험 진행 (멀티모달 LLM, 비디오/이미지 이해 실험)
실험 결과 정리 및 논문 초안 작성
Peer Review 진행 및 피드백 반영
논문 최종 수정 및 학회 제출 준비 (NeurIPS 2025년 5월 예정)
⭐️ 참여 요건
📌 기본 요건
인공지능, 머신러닝, 컴퓨터 비전에 대한 기본 이해
파이썬(Python) 및 PyTorch/TensorFlow 등 AI 관련 라이브러리 사용 경험
논문 리뷰 및 학술 연구에 대한 관심
협업 및 커뮤니케이션 능력 (코드 리뷰, 논문 피드백 가능)
🎯 우대 사항
멀티모달 모델(예: CLIP, LLaVA, Stable Diffusion, BLIP 등) 관련 경험
논문 작성 및 학회 발표 경험
대형 언어 모델(LLM) 또는 비전-언어 모델(VLM) 연구 경험
멀티모달 데이터셋 처리 및 벤치마킹 경험
⭐️ 사전 질문
멀티모달 AI 연구에서 어떤 부분(텍스트-비전, 오디오-비디오 등)에 가장 관심이 있나요?
과거에 AI 관련 연구나 프로젝트를 진행한 경험이 있나요? 있다면 어떤 내용이었나요?
사용 가능한 프로그래밍 언어 및 프레임워크(PyTorch, TensorFlow, JAX 등)는 무엇인가요?
논문 리뷰 및 작성 경험이 있나요? (예: 학회 제출 경험, 리뷰 작성 경험 등)
협업 도구(GitHub, Notion, Overleaf 등)를 사용한 경험이 있나요?
현재 계획 중인 연구 주제가 있다면 소개해주세요. (없다면 연구실에서 진행하고 싶은 주제는 무엇인가요?)
⭐️ 랩장 소개

조현욱
인하대학교 인공지능 연구원 · acerghjk@gmail.com
안녕하세요. 프롬프트에 관심이 많은 인공지능 대학원생 조현욱이라고 합니다.