Lab Image

#multi-modal

Deep Multimodal LAB

모임 기간

2025.03.17 - 2025.06.23

모임 일시

매주 월요일 19:30 ~ 21:30

장      소

모두의연구소 강남캠퍼스

모집 기간

2025.02.26 - 2025.03.10

모집 인원

5명

선발 방식

사전 질문 기반 심사 + 온라인 커피챗

랩 소개
운영 방식
참여 요건
랩장 소개

⭐️ 랩 소개

한 줄 소개
멀티모달 AI의 미래를 탐구하는 연구실
분야
ENGINEERING
목표 결과물
PAPER, COMPETITION
멀티모달 연구실은 다양한 데이터 모달리티(텍스트, 이미지, 영상, 오디오 등)를 통합하여 혁신적인 AI 모델을 개발하는 것을 목표로 합니다. 💡 연구 주제 멀티모달 대형 언어 모델(MLLM) 논문 세미나 영상/이미지 이해 및 생성 AI 텍스트-비전 조합을 통한 강력한 AI 시스템 새로운 데이터셋 구축 및 벤치마킹

⭐️ 운영 방식

📌 매주 월요일 오후 07시 30분 오프라인 모임 📌 연구 프로젝트 기반 논문 리뷰 및 연구 발표 (주 1회) 주제별 프로젝트 팀 운영 코드 구현 및 벤치마킹 실험 📌 성과 공유 논문 투고 (CVPR, ICCV, NeurIPS 등) 오픈소스 프로젝트 참여 멀티모달 AI 오픈소스 기여 📌 논문 리스트 https://github.com/friedrichor/Awesome-Multimodal-Papers?tab=readme-ov-file#large-multimodal-model

⭐️ 커리큘럼

연구실 오리엔테이션 및 연구 목표 소개, 연구원 자기소개, 프로젝트 세분화
최신 논문 리뷰 및 사전 연구 탐색 (논문 리스트 기반 토론)
최신 논문 리뷰 및 사전 연구 탐색 (논문 리스트 기반 토론)
모델 구현 및 실험 진행 (멀티모달 LLM, 비디오/이미지 이해 실험)
실험 결과 정리 및 논문 초안 작성
Peer Review 진행 및 피드백 반영
논문 최종 수정 및 학회 제출 준비 (NeurIPS 2025년 5월 예정)

⭐️ 참여 요건

📌 기본 요건 인공지능, 머신러닝, 컴퓨터 비전에 대한 기본 이해 파이썬(Python) 및 PyTorch/TensorFlow 등 AI 관련 라이브러리 사용 경험 논문 리뷰 및 학술 연구에 대한 관심 협업 및 커뮤니케이션 능력 (코드 리뷰, 논문 피드백 가능) 🎯 우대 사항 멀티모달 모델(예: CLIP, LLaVA, Stable Diffusion, BLIP 등) 관련 경험 논문 작성 및 학회 발표 경험 대형 언어 모델(LLM) 또는 비전-언어 모델(VLM) 연구 경험 멀티모달 데이터셋 처리 및 벤치마킹 경험

⭐️ 사전 질문

멀티모달 AI 연구에서 어떤 부분(텍스트-비전, 오디오-비디오 등)에 가장 관심이 있나요?
과거에 AI 관련 연구나 프로젝트를 진행한 경험이 있나요? 있다면 어떤 내용이었나요?
사용 가능한 프로그래밍 언어 및 프레임워크(PyTorch, TensorFlow, JAX 등)는 무엇인가요?
논문 리뷰 및 작성 경험이 있나요? (예: 학회 제출 경험, 리뷰 작성 경험 등)
협업 도구(GitHub, Notion, Overleaf 등)를 사용한 경험이 있나요?
현재 계획 중인 연구 주제가 있다면 소개해주세요. (없다면 연구실에서 진행하고 싶은 주제는 무엇인가요?)

⭐️ 랩장 소개

avatar_img
조현욱
인하대학교 인공지능 연구원 · acerghjk@gmail.com
안녕하세요. 프롬프트에 관심이 많은 인공지능 대학원생 조현욱이라고 합니다.