-
LIMA: Less Is More for Alignment 리뷰machine learning 2024. 11. 2. 23:12
Approach
LLM의 학습은 일반적으로 다음과 같이 2단계로 나누어져 이루어진다.
- Unsupervised Pre-Training: 원시 텍스트를 활용해 next token prediction을 반복하며 일반적인 언어이해 능력을 획득
- Instruction Tuning & Reinforcement Learning: 최종 Task와 사용자 선호도에 맞는 조정(alignment)과정
이러한 접근방법은 언어모델의 표준으로써 동작하고 있다.
LIMA 연구팀은 두 단계의 중요도를 측정하기 위한 실험을 고안한다. 65B 파라미터의 LLaMA 모델을 기반으로, 단 1,000개의 신중하게 선별된 프롬프트와 응답만을 사용해 fine-tuning을 진행하였다. 주목할 점은 강화학습이나 인간 선호도 모델링 없이 standard supervised loss만을 사용했다는 것이다.
Experiment
연구팀은 다음과 같은 데이터셋을 확보하여 다양성과 품질을 고려한다.
- Stack Exchange: 400개의 질문-답변을 추출하여 STEM과 일반 분야의 전문적 지식을 확보
- wikiHow: wikiHow에서 200개의 How-to 문서를 선별하여 실용적 지식을 포함
- Reddit Writing Prompts: 150개의 창의적 글쓰기 예제를 선택
- Natural Instruction: 50개의 다양한 NLP 태스크를 추가 확보
위와 같이 확보된 데이터셋으로 인간 선호도 점수반영 혹은 강화학습 없이 단순한 supervised fine-tuning을 진행한다. 이러한 과정으로 학습된 모델은 gpt4와의 비교에서 43% case에서 동등하거나 높은 성능을 보이고, Bard(58%), Davinci003(65%)에서도 마찬가지의 양상을 보였다.
또한, 훈련데이터에 없던 새로운 Task에도 잘 일반화된 성능을 보였는데, 이를 통해 모델이 사전학습(Pre-Training) 단계에서 이미 상당한 수준의 일반화 능력을 획득했음을 알 수 있다.
2,000개의 예제로 확장된 데이터셋으로 실험했을 때에는 성능향상을 보이지 않았으므로, 단순히 데이터의 양을 늘리는 것은 성능향상에 큰 영향을 미치지 않는다는 사실도 증명하였다.
Conclusion
LIMA 연구는 대규모 언어 모델의 학습 패러다임에 대한 중요한 통찰을 제공한다. 대부분의 지식과 능력은 사전학습 단계에서 이미 획득되며, 고품질 출력을 위해서는 제한된 수의 잘 설계된 instruction tuning 데이터만으로도 충분하다는 것을 입증하였다. 이는 기존의 "더 많은 데이터가 더 나은 성능을 보장한다"는 통념에 배치되는 것이다.
이 연구의 의의는 더욱 효율적이고 실용적인 언어 모델 개발 방향을 제시했다는 것이다. 대규모 데이터셋과 복잡한 학습 방법 대신, 신중하게 큐레이팅된 소규모 데이터셋으로도 경쟁력 있는 성능을 달성할 수 있다는 것을 보여준다.
'machine learning' 카테고리의 다른 글
딥러닝 하드웨어 담론 (1) (4) 2024.11.15 Personalized LLMs: 개인화된 LLM 만들기 (0) 2024.11.11 ai가 오픈소스여할 이유 (2) 2024.10.20 Unsloth: Cheeper LLM Training (1) 2024.09.21 Character-LLM: A Trainable Agent for Role-Playing 리뷰 (2) 2024.09.21