라마2 논문
- open source LLM SOTA를 달성하였고 ChatGPT-0301 (gpt-3.5-turbo)버전과 성능 유사합니다.
- open source LLM 중 한국어를 제일 잘하지만 여전히 GPT-4 대비 아쉽습니다.
- GPT-3.5, GPT-4와 비교했을 때 방법론적으로 거의 유사하며 어텐션 변경, RLHF를 반복적으로 수행, PPO알고리즘 디테일 변경 총 3 부분 정도 다릅니다.
- Data Quality is All you Need. 좋은 데이터를 생성할 수 있으며 모델 아웃풋의 퀄리티를 명확히 판별해줄 수 있는 좋은 라벨러가 제일 중요합니다.
- pretraining LLM은 500억 이상이 든다. 대기업만 하는 것이니 스타트업은 절대 하면 안됨. ←ㅋㅋㅋ
- Meta는 ClosedAI와 다르게 사회에 더 크게 기여하고 연구 속도를 촉진시키기 위해 llama2에 대한 액세스를 책임감 있게 오픈하였습니다.
- 스타트업은 llama2로 parameter efficient fine-tuning (PEFT)하여 specific domain에서의 성능을 더욱 개선시켜 llm specialist를 만들어야 합니다.
1. Introduction
llama2 (7B, 13B, 70B), llama2-chat (7B, 13B, 70B) 총 6개의 버전이 릴리즈되었습니다.
- llama2는 llama1 대비 publicly available data를 40% 가량 추가 사용했습니다.
- context length가 2048에서 4096으로 증가했습니다.
- 7B, 13B, 70B을 릴리즈했습니다. 34B도 학습했지만 safety 문제로 릴리즈하지 못했습니다.
- llama2-chat은 llama2를 fine-tuning한 버전으로 dialog use case에 최적화되어 있습니다. 이 모델 또한 7B, 13B, 70B을 릴리즈하였습니다.
2. Pretraining
- optimized auto-regressive transformer 사용
- robust data cleaning
- data mixes
- trained on 40% more data
- 메타의 프로덕트 데이터는 사용하지 않고 공개적으로 사용 가능한 데이터 소스만을 사용
- 개인 정보 데이터 사용 X
- 2조 개의 토큰 사용
- 할루시네이션 문제 감소하기 위해 fact 기반의 데이터 비중 높임
- model
- (llama1) standard transform architecture
- (llama1) pre-normalization using RMSNorm
- (llama1) SwiGLU activation function
- (llama1) rotary positional embeddings
- doubled the context length
- used grouped-query attention (GQA) (for improved inference scalability)
- bytepair encoding algorithm