LIMA: Less Is More for Alignment 리뷰

machine learning 2024. 11. 2. 23:12

Approach

LLM의 학습은 일반적으로 다음과 같이 2단계로 나누어져 이루어진다.

Unsupervised Pre-Training: 원시 텍스트를 활용해 next token prediction을 반복하며 일반적인 언어이해 능력을 획득
Instruction Tuning & Reinforcement Learning: 최종 Task와 사용자 선호도에 맞는 조정(alignment)과정

이러한 접근방법은 언어모델의 표준으로써 동작하고 있다.

LIMA 연구팀은 두 단계의 중요도를 측정하기 위한 실험을 고안한다. 65B 파라미터의 LLaMA 모델을 기반으로, 단 1,000개의 신중하게 선별된 프롬프트와 응답만을 사용해 fine-tuning을 진행하였다. 주목할 점은 강화학습이나 인간 선호도 모델링 없이 standard supervised loss만을 사용했다는 것이다.

Experiment

연구팀은 다음과 같은 데이터셋을 확보하여 다양성과 품질을 고려한다.

Stack Exchange: 400개의 질문-답변을 추출하여 STEM과 일반 분야의 전문적 지식을 확보
wikiHow: wikiHow에서 200개의 How-to 문서를 선별하여 실용적 지식을 포함
Reddit Writing Prompts: 150개의 창의적 글쓰기 예제를 선택
Natural Instruction: 50개의 다양한 NLP 태스크를 추가 확보

위와 같이 확보된 데이터셋으로 인간 선호도 점수반영 혹은 강화학습 없이 단순한 supervised fine-tuning을 진행한다. 이러한 과정으로 학습된 모델은 gpt4와의 비교에서 43% case에서 동등하거나 높은 성능을 보이고, Bard(58%), Davinci003(65%)에서도 마찬가지의 양상을 보였다.

또한, 훈련데이터에 없던 새로운 Task에도 잘 일반화된 성능을 보였는데, 이를 통해 모델이 사전학습(Pre-Training) 단계에서 이미 상당한 수준의 일반화 능력을 획득했음을 알 수 있다.

2,000개의 예제로 확장된 데이터셋으로 실험했을 때에는 성능향상을 보이지 않았으므로, 단순히 데이터의 양을 늘리는 것은 성능향상에 큰 영향을 미치지 않는다는 사실도 증명하였다.

Conclusion

LIMA 연구는 대규모 언어 모델의 학습 패러다임에 대한 중요한 통찰을 제공한다. 대부분의 지식과 능력은 사전학습 단계에서 이미 획득되며, 고품질 출력을 위해서는 제한된 수의 잘 설계된 instruction tuning 데이터만으로도 충분하다는 것을 입증하였다. 이는 기존의 "더 많은 데이터가 더 나은 성능을 보장한다"는 통념에 배치되는 것이다.

이 연구의 의의는 더욱 효율적이고 실용적인 언어 모델 개발 방향을 제시했다는 것이다. 대규모 데이터셋과 복잡한 학습 방법 대신, 신중하게 큐레이팅된 소규모 데이터셋으로도 경쟁력 있는 성능을 달성할 수 있다는 것을 보여준다.

'machine learning' 카테고리의 다른 글

딥러닝 하드웨어 담론 (1) (4)	2024.11.15
Personalized LLMs: 개인화된 LLM 만들기 (0)	2024.11.11
ai가 오픈소스여할 이유 (2)	2024.10.20
Unsloth: Cheeper LLM Training (1)	2024.09.21
Character-LLM: A Trainable Agent for Role-Playing 리뷰 (2)	2024.09.21

ABOUT ME

moderated-coder 님의 블로그 moderated-coder 님의 블로그

'machine learning' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'machine learning' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바