토큰 수 분포의 경우 한 데이터당 전체 텍스트에 대한 토큰 개수: 대화일 경우 대화 전체, prefs일 경우 prompt와 chosen, reject 모두 instruction의 경우 prompt와 answer 전체, 토큰수 분포 좀더 가독성있는 그래프를 위해 전체 토큰 4k이상인 경우 따로 분류

allenai/tulu-3-sft-mixture

https://huggingface.co/datasets/allenai/tulu-3-sft-mixture

언어: multilingual

특이점: 언어 구분 컬럼이 없어서 영어만 분리하려 할경우 원 데이터 소스에서 영어만 분리해서 별도 샘플링 필요

데이터 형태

          token_count

count 939,343 mean 783 std 3,686 min 2 25% 203 50% 425 75% 922 max 3,013,602 sum 735,729,953

image.png

데이터 형태

allenai/llama-3.1-tulu-3-405b-preference-mixture

https://huggingface.co/datasets/allenai/llama-3.1-tulu-3-405b-preference-mixture

언어: English

          token_count

count 360,924 mean 2,112 std 5,383 min 16 25% 666 50% 1,222 75% 2,130 max 337,814 sum 762,242,619

image.png

데이터 형태

HuggingFaceH4/ultrachat_200k

https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k

언어: English

         token_count

count 515,311 mean 1,157 std 616 min 31 25% 704 50% 1,047 75% 1,490 max 6,264 sum 596,355,921