Voice Conversational Agent LAB / VCA LAB
모임 기간
2024.12.04 - 2025.02.26
모임 일시
매주 수요일 19:00 ~ 21:00
장 소
온라인
모집 기간
2024.11.21 - 2024.12.03
모집 인원
12명
선발 방식
사전 질문 기반 심사
랩 소개
운영 방식
참여 요건
랩장 소개
⭐️ 랩 소개
한 줄 소개
음성 대화형 챗봇을 연구하며 구어체 답변 생성과 실시간 통신 기술을 연구 개발
분야
ENGINEERING
목표 결과물
OPEN_SOURCE
OpenAI의 advanced voice mode 써보셨나요?
앞으로는 AI와 음성으로 대화할 일이 많아질 것 같은데요, VCA LAB에서는 음성으로 대화하는 챗봇을 연구합니다!
음성 대화형 챗봇은 다양한 AI 기술이 결합된 시스템입니다.
• STT (Speech-to-Text)를 이용해 사용자의 음성을 텍스트로 변환하고,
• LLM (Large Language Model)을 통해 사용자의 입력 대화나 질문으로부터 답변을 생성하고,
• TTS (Text-to-Speech): LLM모델이 생성한 답변을 음성으로 다시 변환하여 사용자에게 전달합니다.
이 과정에서 AI와 자연스러운 대화를 실현하려면 몇 가지 추가 기술이 필요합니다.
• 실시간 통신 기술: Latency를 줄이기 위한 WebSocket, WebRTC 등
• Interruptible 대화 지원: Voice Activity Detection (VAD)로 대화 중단을 감지해 자연스럽게 반응할 수 있도록
VCA LAB의 이번 연구는 다음을 중점적으로 다룹니다:
• LLM 파인튜닝 및 RAG 연구/개발: 음성 대화에 적합하도록 구어체 답변을 생성하는 모델 개선
• 실시간 통신 및 모델 서빙: 음성 대화형 챗봇 서비스를 위한 안정적인 시스템 구축
• Interruptible 기능 구현: 사용자 경험 향상을 위한 대화 중단 및 재개 기능 개발
# STT모델은 오픈소스인 whisper, TTS모델은 자체 개발한 모델을 사용할 예정입니다.
⭐️ 운영 방식
[VCA LAB 스터디 주차별 연구 주제]
1주차: 프로젝트 소개 및 기본 기술 이해 - 연구 목표와 음성 대화형 챗봇의 핵심 기술 소개
2주차: STT 및 TTS 연구 - Whisper 활용과 자연스러운 음성 생성을 위한 TTS 모델 분석
3주차: LLM 구어체 답변 생성 연구(1) - 구어체 데이터를 활용한 LLM 파인튜닝 및 응답 품질 향상
4주차: LLM 구어체 답변 생성 연구(2) - 구어체 응답 품질 개선과 대화 시나리오 테스트
5주차: 실시간 통신 기술 연구(1) - WebSocket 및 WebRTC 활용과 latency 최적화
6주차: 실시간 통신 기술 연구(2) - 음성 데이터 전송과 안정적인 실시간 통신 구현
7주차: 서빙 시스템 설계 - 실시간 통신 기반 서빙 아키텍처 설계
8주차: LLM + RAG 통합 - 정보 검색 강화로 대화 품질 개선
9주차: VAD 연구 및 고도화 - 대화 중단 및 재개 감지와 사용자 경험 최적화
10주차: 모델 통합 및 최적화 - STT, LLM, TTS, VAD 시스템 통합 및 성능 개선
11주차: 챗봇 프로토타입 제작 - 모두의 연구소 소개용 음성 대화형 챗봇 구현
12주차: 결과 발표 및 오픈소스 준비 - 최종 결과물 테스트 및 공개 준비
모두의 연구소에 대해서 소개하고 답변하는 음성 대화형 챗봇을 만들어서 오픈소스로 공개하는 것을 목표로 3개월간 운영됩니다.
1. 매주 수요일 밤 온라인으로 미팅 진행합니다.
2. 매주 각자 연구 및 구현할 부분을 정하고, 해당 주제에 대해서 발표, 공유합니다.
이번 VCA LAB은 현재 연구중인 TTS LAB에서 연구 주제를 확장하여 새로 개설하는 랩입니다.
TTS LAB에는 TTS 모델을 상용화 서비스로 구현한 사람들이 모여있습니다.
VCA LAB에서도 다양한 AI 모델을 상용화 서비스로 구현하는 것을 목표로 하고 있으며, AI 모델에 대해서 잘 모르지만 AI 모델을 활용한 서비스 개발에 관심있으신 분들 환영합니다!
⭐️ 커리큘럼
⭐️ 참여 요건
- 이번 연구를 위한 시간을 충분히 내실 수 있으신 분
- STT, LLM, TTS와 관련된 연구 혹은 서비스 경험이 있으신 분
- Web socket, WebRTC와 같은 실시간 통신 서비스 구현 경험이 있으신 분 (AI에 대해서 잘 모르시더라도 환영합니다!)
- 관련 분야에 대한 지식과 경험은 부족해도 열정 있으신 분도 환영입니다!
⭐️ 사전 질문
지원 동기는 무엇인지, 이 랩에 어떤 것을 기대하는지 알려주세요.
AI 연구 혹은 AI 모델을 활용한 서비스 개발 경험이 있으시면 알려주세요.
본 연구 참여를 위해 주당 연구/개발 가능하신 시간을 알려주세요.
연구에 사용 가능한 gpu 자원이 있으시다면 알려주세요.
⭐️ 랩장 소개
김영인
플루언트 · uvento06@hanmail.net
안녕하세요.
플루언트라는 스타트업에서 AI 연구를 하고 있는 김영인입니다.
Any Time, Any Place, Face and Live With AI 라는 슬로건을 바탕으로 3D 아바타의 모션을 생성하는 AI 모델을 개발하고 있습니다.
문자를 기반으로 의사소통하는 지금의 LLM을 3D 아바타와 직접 말로 대화를 주고받을 수 있도록 Speech to Human Motion 연구를 하고 있습니다.
음성합성에도 니즈가 있어서 틈틈이 연구를 하고 있습니다.