학습데이터
Training Data
벤치마크
- 아래 목록들을 정리해놓았으니 정리해주시기 바랍니다.
- 추가적으로 찾을 만한 model family가 있다면 알려주시고 찾아주세요!
밑의 링크들에서 찾아야할 것
- 학습 데이터셋
- 모델이 학습한 데이터셋 목록
- 대부분 공개되진 않음. smollm2이나 tulu 정도만 있는걸로 확인됨
- 모델이 학습한 데이터셋의 오픈 여부, 오픈되었다면 출처 및 다운로드 경로
- huggingface datasets 등에서 다운로드 받을 수 있는지
- 오픈된 데이터셋들의 카테고리화
- pre-train, SFT, DPO, reasoning 등 단계 분류
- 언어 분류
- 1천~1만, 1~10만 등 규모 분류
- "중요" 위 과정들을 통해 우리가 사용할 수 있는 데이터셋을 목록화 했다면 어느정도 비율로 어떤 방식으로 샘플링할 것인지 데이터 분석
- 일전에 미팅에서 말씀드렸던 garbage in garbage out의 예시에 해당, 지현님의 role이 될 것이라고 말했던 부분
- ex) pre-train dataset의 경우 1% 샘플링, SFT의 경우 10% 샘플링, DPO의 경우 전부 사용, 샘플링 방식은 길이가 긴 것 부터
- 벤치마크
- 모델의 성능 평가에 쓰인 벤치마크 목록
- 각 모델 페밀리들의 벤치마크에서의 성능 대략적인 정리
- 벤치마크 목록들의 사용법
- 다운받아서 쓰는지 or 특정 코드를 돌리는지
- 다운받아서 쓰면 어디서 다운받고 어떻게 돌리는지
목적