LLM 개발 및 학습 강의 정리

Summary

LLM 개발 및 학습 전략에 대한 강의 내용을 정리한 노트이다. 사전 학습(Pretrain)과 파인튜닝(Fine-tuning)의 차이, 추가 사전 학습이 필요한 경우(도메인 특화, 새로운 언어), 효율적인 파인튜닝 기법(LoRA, QLoRA), Transfer Learning 전략, 그리고 실무에서 LLM을 적용할 때의 고려사항을 다룬다.

Pretrian을 더 시켜야 하는 경우

한국어 추가 학습

RLHF (Reinforcement Learning with Human Feedback)

리워드 모델을 통해 평가

ex) 이 답변이 다른 답변보다 좋은 답변일 확률이 0.2

두가지 문제접

Reward Model 학습이 어려움
강화학습을 이용했을대 생기는 불안정성

DPO(Direct Preference Optimization)

RLHF에서 보완된 방식

Reward Model을 없앰
강화학습 불안전성 완화

Syshin

Explorer

LLM 개발 및 학습 강의 정리

Pretrian을 더 시켜야 하는 경우

RLHF (Reinforcement Learning with Human Feedback)

두가지 문제접

DPO(Direct Preference Optimization)

RLHF에서 보완된 방식

프롬프트 엔지니어링

Graph View

Table of Contents