Audio-Visual Speech Recognition(AVSR) LAB | LAB

LAB

Audio-Visual Speech Recognition(AVSR) LAB

1월 18일

09:00 - 11:00

WEEKLYTHU요일

온라인

4명

홈 피드 채팅

한 줄 소개

분야

ENGINEERING

목표 결과물

OPEN_SOURCE

랩 소개

저희의 LAB은 인공지능의 최신 기술을 탐색하고, 그를 바탕으로 멀티모달 프로젝트를 진행하는 것을 목표로 하고 있습니다. 현재 인공지능은 다양한 분야에서 활용되고 있으며, 그 중심에는 최신 기술의 연구와 개발이 있습니다. 이를 위해 우리는 다양한 트랜드와 주제를 연구하고 분석하여, 이를 프로젝트의 바탕으로 삼고자 합니다. multi-modal 프로젝트를 위해, 관련 논문 연구 및 최신 기술을 파악하여 개발하는 것을 목표로 하고 있습니다. 특히, 음성과 Computer Vision을 이용한 multi-modal 프로젝트를 통해 오픈소스 결과물을 낼 예정입니다. - Audio-Visual Speech Recognition (AVSR) 시스템의 이해 및 구현 - 멀티모달 데이터 처리 및 통합 방법 학습 - 실시간 멀티모달 데이터 처리 역량 습득

운영 방식

주 1회 (월), (목) 9:00 - 10:00 온라인에서 진행합니다. [진행 목차] - AVSR 기초 이론 학습: 음성 및 영상 인식의 기본 원리 - AVSR 관련 논문 리뷰 - 멀티모달 데이터셋 이해 및 데이터 전처리 방법 학습 - 데이터셋 수집 및 모델 학습 - 모델 튜닝 및 최적화 작업 - AVSR 시스템 테스트 및 성능 평가 - 프로젝트 리뷰 및 피드백 세션

참여 요건

- 논문 읽기에 부담이 없으신 분 - 딥러닝 프로젝트를 다수 진행해 보신 분 - Computer Vision에 관한 사전 지식이 있으신 분 - 결과물 완성을 위해 시간 투자가 가능하신 분

사전 질문

ComputerVision 또는 음성 관련 프로젝트를 수행한 내용을 작성 또는 링크로 남겨주세요.

랩장 소개

이정수

-•in5451@naver.com

저는 수학과를 전공, 데이터분석/소프트웨어를 부전공했습니다. 현재 AI Engineer 직무로 취업 준비 중입니다. 네이버 부스트캠프 AI Tech 3기 CV파트를 수료하였고, 구글 머신러닝 부트캠프 4기를 수료하였습니다. 풀잎스쿨 딥러닝 논문 요약 및 구현 스터디를 개설하여 CV/NLP/RecSys 분야의 논문들을 읽으며, multi-modal에 관심이 생겨 LAB을 열게 되었습니다.

Audio-Visual Speech Recognition(AVSR) LAB

모임 기간

2024.01.18 -

모임 일시

매주 목요일 09:00 ~ 11:00

장 소

온라인

모집 기간

2024.01.03 - 2024.01.10

모집 인원

4명

선발 방식

사전 질문 기반 심사