Summary
LLM 개발 및 학습 전략에 대한 강의 내용을 정리한 노트이다. 사전 학습(Pretrain)과 파인튜닝(Fine-tuning)의 차이, 추가 사전 학습이 필요한 경우(도메인 특화, 새로운 언어), 효율적인 파인튜닝 기법(LoRA, QLoRA), Transfer Learning 전략, 그리고 실무에서 LLM을 적용할 때의 고려사항을 다룬다.





Pretrian을 더 시켜야 하는 경우


- 한국어 추가 학습



RLHF (Reinforcement Learning with Human Feedback)

리워드 모델을 통해 평가
- ex) 이 답변이 다른 답변보다 좋은 답변일 확률이 0.2
두가지 문제접
- Reward Model 학습이 어려움
- 강화학습을 이용했을대 생기는 불안정성
DPO(Direct Preference Optimization)

RLHF에서 보완된 방식
- Reward Model을 없앰
- 강화학습 불안전성 완화
프롬프트 엔지니어링


