토큰 수 분포의 경우 한 데이터당 전체 텍스트에 대한 토큰 개수: 대화일 경우 대화 전체, prefs일 경우 prompt와 chosen, reject 모두 instruction의 경우 prompt와 answer 전체, 토큰수 분포 좀더 가독성있는 그래프를 위해 전체 토큰 4k이상인 경우 따로 분류
https://huggingface.co/datasets/allenai/tulu-3-sft-mixture
언어: multilingual
특이점: 언어 구분 컬럼이 없어서 영어만 분리하려 할경우 원 데이터 소스에서 영어만 분리해서 별도 샘플링 필요
데이터 형태
token_count
count 939,343 mean 783 std 3,686 min 2 25% 203 50% 425 75% 922 max 3,013,602 sum 735,729,953
https://huggingface.co/datasets/allenai/llama-3.1-tulu-3-405b-preference-mixture
언어: English
token_count
count 360,924 mean 2,112 std 5,383 min 16 25% 666 50% 1,222 75% 2,130 max 337,814 sum 762,242,619
https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k
언어: English
token_count
count 515,311 mean 1,157 std 616 min 31 25% 704 50% 1,047 75% 1,490 max 6,264 sum 596,355,921