인공지능

Human 피드백을 통한 언어 모델 강화학습하기

인간의 피드백을 받은 강화학습 으로 언어모델을 훈련 및 보상하는 과정에 대해 소개합니다. RLHF와 같은 다양한 기법들이 현재 LLM 트렌드에 적합하며 특히 채팅시스템에서 유용하게 사용되고 있습니다.

2024.07.09|신유진

Human 피드백을 통한 언어 모델 강화학습하기
신유진
신유진
언어가 인지에 미치는 영향과 학습이 이뤄지는 과정이 미치도록 궁금하여 NLP를 시작으로 LLM 기반 멀티모달 생성형 AI까지 관심가지게 되었습니다. 그걸 전부 구현해낸다면 얼마나 뛰어난 성능의 인공지능이 탄생할까요? 언젠가 로봇의 심리를 관찰하는 날까지 올까요?