Text to Speech LAB / TTS LAB | LAB

Lab Image

Text to Speech LAB / TTS LAB

모임 기간

2024.01.31 - 2024.12.03

모임 일시

매주 수요일 19:30 ~ 21:30

장 소

모두의연구소 강남캠퍼스

모집 기간

2024.01.11 - 2024.01.30

모집 인원

5명

선발 방식

사전 질문 기반 심사

랩 소개

운영 방식

참여 요건

랩장 소개

⭐️ 랩 소개

한 줄 소개

최신 생성모델을 활용한 자연스러운 음성 합성 기술을 연구하고 논문 발표를 목표로 하는 연구실

분야

ENGINEERING

목표 결과물

PAPER

최근 핫한 생성모델, 그 중 음성 합성 모델을 연구합니다. (Text-to-Speech, TTS) Diffusion의 발전과 더불어, 이미 Computer Vision 분야에서는 많은 생성모델이 실제로 활용되고 있습니다. 음성 합성 분야에서도 빠른 속도로 연구가 나오고 있지만, 아직까지 사람과 유사한 수준의 자연스러운 목소리를 합성하는 데는 도전과제가 존재합니다. 우리는 이러한 한계를 극복하고 더 높은 수준의 음성 합성 기술을 개발하기 위해 노력하고 있습니다. 빠르게 발전을 거듭하고 있는 생성모델(diffusion, conditional flow matching, etc.) 논문들을 읽고 토론하며, 음성합성 분야에 접목하고 실험하면서 논문을 제출하는 것을 목표로 합니다.

⭐️ 운영 방식

1년 내에 논문 제출을 목표로 하고 있습니다. 1. TTS 뿐만 아니라 생성모델 자체에 대한 논문들도 함께 스터디하면서 아이디어를 공유합니다. - 한 주간 읽었던 논문 간단 소개 (매주 5분 정도 분량) - 한 주에 한사람씩 논문 세미나 (30분 이내 분량, 5명이서 돌아가면서 한달에 한 번 정도) 2. 아이디어를 바탕으로 실험을 하고, 실험 결과를 바탕으로 아이디어를 구체화합니다. - 논문을 읽는 것으로 그치지 않고 코드 분석 및 리뷰진행 - 다른 논문에서 제안한 아이디어를 적용해보고 실험적으로 결과 확인 위 사이클을 2주 ~ 한달 간격으로 진행하면서 결과물을 정리하고, 아이디어를 구체화하여 논문을 작성합니다. ** 다양한 목적과 배경을 가진 분들이 모인 모임이다보니, 서로 투자할 수 있는 시간이 다를 수 있다는 것을 이해하고 있습니다. 각자가 할애할 수 있는 시간 범위 내에서 역할을 정하고 분담할 예정입니다. 생성모델의 파도에 함께 타실 분들 부담없이 지원해주세요~~! ** 디퓨전과 관련해서 사전 지식이 없다면, 랩짱 두 사람이 기본적인 디퓨전 스터디를 도와드릴 수 있습니다. 필요하다면 4~5주 정도로 디퓨전 세미나를 할 예정입니다.

⭐️ 커리큘럼

⭐️ 참여 요건

필수조건 - 딥러닝 프로젝트 경험이 있는 분 (딥러닝 관련 대회, 논문, 회사 프로젝트) - 음성 도메인 분야에 경험이 있는 분 (TTS가 아니더라도 무관) 우대조건 - 논문 작성 경험이 있으신 분 - 생성 모델(특히 diffusion)에 경험이 있으신 분

⭐️ 사전 질문

간단한 자기소개 부탁드립니다.

음성 도메인 혹은 생성모델 분야에서 본인이 경험했던 것(대회, 논문, 프로젝트 등)에 대해 알려주세요.

그 이외에 딥러닝 분야에서 했던 경험이 있다면 알려주세요.

연구에 할애할 수 있는 core time이 한 주에 얼마나 되는지 알려주세요.

연구에 사용 가능한 gpu 자원이 있으시다면 알려주세요.

⭐️ 랩장 소개

김영인

플루언트 · uvento06@hanmail.net

안녕하세요. 플루언트라는 스타트업에서 AI 연구를 하고 있는 김영인입니다. Any Time, Any Place, Face and Live With AI 라는 슬로건을 바탕으로 3D 아바타의 모션을 생성하는 AI 모델을 개발하고 있습니다. 문자를 기반으로 의사소통하는 지금의 LLM을 3D 아바타와 직접 말로 대화를 주고받을 수 있도록 Speech to Human Motion 연구를 하고 있습니다. 음성합성에도 니즈가 있어서 틈틈이 연구를 하고 있습니다.

유건령

SSG.COM · rjsfud9@naver.com

안녕하세요! 인공지능 연구자의 길을 가고자 하는 유건령입니다. 저는 통계학 학,석사를 하면서 지금까지 데이터 분석가 혹은 수치형 데이터 ML/DL 모델링 업무 등을 맡아왔습니다. 논문을 읽고 이야기하며 기술 교류하고 실제 적용하여 결과를 눈으로 확인하는 활동들을 좋아합니다. TTS 분야는 모두연에서 처음 접해서 이제 시작한지 몇 개월 안됐지만, 마음이 맞는 분들과 모여서 관련 분야를 지속적으로 연구하면서 최종적으로 논문도 함께 쓸 수 있으면 좋겠습니다. 저도 TTS 분야에서 누군가를 리딩할만큼의 수준은 아니지만 함께 모여 성장하는 기회가 되었으면 합니다. 아주 조금씩이라도 멈추지 않고 앞으로 나아가고 싶으신 분들 많은 관심 가져주세요!