Summary

LLM 개발 및 학습 전략에 대한 강의 내용을 정리한 노트이다. 사전 학습(Pretrain)과 파인튜닝(Fine-tuning)의 차이, 추가 사전 학습이 필요한 경우(도메인 특화, 새로운 언어), 효율적인 파인튜닝 기법(LoRA, QLoRA), Transfer Learning 전략, 그리고 실무에서 LLM을 적용할 때의 고려사항을 다룬다.

Pretrian을 더 시켜야 하는 경우

  • 한국어 추가 학습

RLHF (Reinforcement Learning with Human Feedback)

리워드 모델을 통해 평가

  • ex) 이 답변이 다른 답변보다 좋은 답변일 확률이 0.2

두가지 문제접

  • Reward Model 학습이 어려움
  • 강화학습을 이용했을대 생기는 불안정성

DPO(Direct Preference Optimization)

RLHF에서 보완된 방식

  • Reward Model을 없앰
  • 강화학습 불안전성 완화

프롬프트 엔지니어링