Train Dataset EDA | Notion

토큰 수 분포의 경우 한 데이터당 전체 텍스트에 대한 토큰 개수: 대화일 경우 대화 전체, prefs일 경우 prompt와 chosen, reject 모두 instruction의 경우 prompt와 answer 전체, 토큰수 분포 좀더 가독성있는 그래프를 위해 전체 토큰 4k이상인 경우 따로 분류

EDA Code

allenai/tulu-3-sft-mixture

https://huggingface.co/datasets/allenai/tulu-3-sft-mixture

언어: multilingual

특이점: 언어 구분 컬럼이 없어서 영어만 분리하려 할경우 원 데이터 소스에서 영어만 분리해서 별도 샘플링 필요

데이터 형태

          token_count

count 939,343 mean 783 std 3,686 min 2 25% 203 50% 425 75% 922 max 3,013,602 sum 735,729,953

데이터 형태

allenai/llama-3.1-tulu-3-405b-preference-mixture

https://huggingface.co/datasets/allenai/llama-3.1-tulu-3-405b-preference-mixture

언어: English

          token_count

count 360,924 mean 2,112 std 5,383 min 16 25% 666 50% 1,222 75% 2,130 max 337,814 sum 762,242,619

데이터 형태

HuggingFaceH4/ultrachat_200k

https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k

언어: English