<aside> 💡

IFEval 벤치마크 개요

IFEval(Instruction Following Evaluation)은 언어 모델이 지시사항을 얼마나 정확하게 따르는지 평가하는 벤치마크입니다. 이 벤치마크는 모델이 복잡한 지시사항을 이해하고 정확히 실행하는 능력을 측정하는 데 중점을 둡니다. 다양한 유형의 지시사항(조건부 지시, 특정 형식 요청, 단계별 지시 등)을 포함하여 모델의 지시 준수 능력을 종합적으로 평가합니다.

IFEval 사용 방법

특정 코드

git clone <https://github.com/google-research/google-research.git>
# install dependencies
pip3 install -r requirements.txt
# 기본 평가 실행
# Content of `--input_response_data` should be like:
# {"prompt": "Write a 300+ word summary ...", "response": "PUT YOUR MODEL RESPONSE HERE"}
# {"prompt": "I am planning a trip to ...", "response": "PUT YOUR MODEL RESPONSE HERE"}
# ...
python3 -m instruction_following_eval.evaluation_main \\
  --input_data=./instruction_following_eval/data/input_data.jsonl \\
  --input_response_data=./instruction_following_eval/data/input_response_data_gpt4_20231107_145030.jsonl \\
  --output_dir=./instruction_following_eval/data/

다운로드

## huggingface

from datasets import load_dataset

# IFEval 데이터셋 로드
dataset = load_dataset("google/ifeval")

# 데이터셋 구조 확인
print(dataset)

IFEval 핵심 기능

  1. instruction 분류: 다양한 유형의 instruction을 포함하여 포괄적인 평가
  2. 자동 평가: 응답이 지시사항을 준수했는지 자동으로 평가
  3. 정량적 점수: 모델의 지시 준수 능력에 대한 정량적 점수 제공
  4. 세부 분석: 모델이 어떤 유형의 지시사항에서 강점/약점을 보이는지 분석

평가 메트릭