<aside> 💡
IFEval(Instruction Following Evaluation)은 언어 모델이 지시사항을 얼마나 정확하게 따르는지 평가하는 벤치마크입니다. 이 벤치마크는 모델이 복잡한 지시사항을 이해하고 정확히 실행하는 능력을 측정하는 데 중점을 둡니다. 다양한 유형의 지시사항(조건부 지시, 특정 형식 요청, 단계별 지시 등)을 포함하여 모델의 지시 준수 능력을 종합적으로 평가합니다.
git clone <https://github.com/google-research/google-research.git>
# install dependencies
pip3 install -r requirements.txt
# 기본 평가 실행
# Content of `--input_response_data` should be like:
# {"prompt": "Write a 300+ word summary ...", "response": "PUT YOUR MODEL RESPONSE HERE"}
# {"prompt": "I am planning a trip to ...", "response": "PUT YOUR MODEL RESPONSE HERE"}
# ...
python3 -m instruction_following_eval.evaluation_main \\
--input_data=./instruction_following_eval/data/input_data.jsonl \\
--input_response_data=./instruction_following_eval/data/input_response_data_gpt4_20231107_145030.jsonl \\
--output_dir=./instruction_following_eval/data/
## huggingface
from datasets import load_dataset
# IFEval 데이터셋 로드
dataset = load_dataset("google/ifeval")
# 데이터셋 구조 확인
print(dataset)