Audio-Visual Speech Recognition(AVSR) LAB
모임 기간
2024.01.18 -
모임 일시
매주 목요일 09:00 ~ 11:00
장 소
온라인
모집 기간
2024.01.03 - 2024.01.10
모집 인원
4명
선발 방식
사전 질문 기반 심사
랩 소개
운영 방식
참여 요건
랩장 소개
⭐️ 랩 소개
한 줄 소개
분야
ENGINEERING
목표 결과물
OPEN_SOURCE
저희의 LAB은 인공지능의 최신 기술을 탐색하고, 그를 바탕으로 멀티모달 프로젝트를 진행하는 것을 목표로 하고 있습니다. 현재 인공지능은 다양한 분야에서 활용되고 있으며, 그 중심에는 최신 기술의 연구와 개발이 있습니다. 이를 위해 우리는 다양한 트랜드와 주제를 연구하고 분석하여, 이를 프로젝트의 바탕으로 삼고자 합니다.
multi-modal 프로젝트를 위해, 관련 논문 연구 및 최신 기술을 파악하여 개발하는 것을 목표로 하고 있습니다. 특히, 음성과 Computer Vision을 이용한 multi-modal 프로젝트를 통해 오픈소스 결과물을 낼 예정입니다.
- Audio-Visual Speech Recognition (AVSR) 시스템의 이해 및 구현
- 멀티모달 데이터 처리 및 통합 방법 학습
- 실시간 멀티모달 데이터 처리 역량 습득
⭐️ 운영 방식
주 1회 (월), (목) 9:00 - 10:00 온라인에서 진행합니다.
[진행 목차]
- AVSR 기초 이론 학습: 음성 및 영상 인식의 기본 원리
- AVSR 관련 논문 리뷰
- 멀티모달 데이터셋 이해 및 데이터 전처리 방법 학습
- 데이터셋 수집 및 모델 학습
- 모델 튜닝 및 최적화 작업
- AVSR 시스템 테스트 및 성능 평가
- 프로젝트 리뷰 및 피드백 세션
⭐️ 커리큘럼
⭐️ 참여 요건
- 논문 읽기에 부담이 없으신 분
- 딥러닝 프로젝트를 다수 진행해 보신 분
- Computer Vision에 관한 사전 지식이 있으신 분
- 결과물 완성을 위해 시간 투자가 가능하신 분
⭐️ 사전 질문
ComputerVision 또는 음성 관련 프로젝트를 수행한 내용을 작성 또는 링크로 남겨주세요.
⭐️ 랩장 소개
이정수
- · in5451@naver.com
저는 수학과를 전공, 데이터분석/소프트웨어를 부전공했습니다.
현재 AI Engineer 직무로 취업 준비 중입니다.
네이버 부스트캠프 AI Tech 3기 CV파트를 수료하였고, 구글 머신러닝 부트캠프 4기를 수료하였습니다. 풀잎스쿨 딥러닝 논문 요약 및 구현 스터디를 개설하여 CV/NLP/RecSys 분야의 논문들을 읽으며, multi-modal에 관심이 생겨 LAB을 열게 되었습니다.