Pretrian을 더 시켜야 하는 경우
- 한국어 추가 학습
RLHF (Reinforcement Learning with Human Feedback)
리워드 모델을 통해 평가
- ex) 이 답변이 다른 답변보다 좋은 답변일 확률이 0.2
두가지 문제접
- Reward Model 학습이 어려움
- 강화학습을 이용했을대 생기는 불안정성
DPO(Direct Preference Optimization)
RLHF에서 보완된 방식
- Reward Model을 없앰
- 강화학습 불안전성 완화