Human 피드백을 통한 언어 모델 강화학습하기
인간의 피드백을 받은 강화학습 으로 언어모델을 훈련 및 보상하는 과정에 대해 소개합니다. RLHF와 같은 다양한 기법들이 현재 LLM 트렌드에 적합하며 특히 채팅시스템에서 유용하게 사용되고 있습니다.
신유진 | 2024.07.09
인간의 피드백을 받은 강화학습 으로 언어모델을 훈련 및 보상하는 과정에 대해 소개합니다. RLHF와 같은 다양한 기법들이 현재 LLM 트렌드에 적합하며 특히 채팅시스템에서 유용하게 사용되고 있습니다.
신유진 | 2024.07.09