IFEval | Notion

<aside> 💡

벤치마크 목록들의 사용법
- 다운받아서 쓰는지 or 특정 코드를 돌리는지
- 다운받아서 쓰면 어디서 다운받고 어떻게 돌리는지 </aside>

IFEval 벤치마크 개요

IFEval(Instruction Following Evaluation)은 언어 모델이 지시사항을 얼마나 정확하게 따르는지 평가하는 벤치마크입니다. 이 벤치마크는 모델이 복잡한 지시사항을 이해하고 정확히 실행하는 능력을 측정하는 데 중점을 둡니다. 다양한 유형의 지시사항(조건부 지시, 특정 형식 요청, 단계별 지시 등)을 포함하여 모델의 지시 준수 능력을 종합적으로 평가합니다.

논문: https://arxiv.org/pdf/2311.07911

IFEval 사용 방법

특정 코드

GitHub 레포(https://github.com/google-research/google-research/tree/master/instruction_following_eval 코드를 클론하거나 다운로드합니다.

git clone <https://github.com/google-research/google-research.git>

# install dependencies
pip3 install -r requirements.txt

# 기본 평가 실행
# Content of `--input_response_data` should be like:
# {"prompt": "Write a 300+ word summary ...", "response": "PUT YOUR MODEL RESPONSE HERE"}
# {"prompt": "I am planning a trip to ...", "response": "PUT YOUR MODEL RESPONSE HERE"}
# ...
python3 -m instruction_following_eval.evaluation_main \\
  --input_data=./instruction_following_eval/data/input_data.jsonl \\
  --input_response_data=./instruction_following_eval/data/input_response_data_gpt4_20231107_145030.jsonl \\
  --output_dir=./instruction_following_eval/data/

다운로드

https://huggingface.co/datasets/google/IFEval

## huggingface

from datasets import load_dataset

# IFEval 데이터셋 로드
dataset = load_dataset("google/ifeval")

# 데이터셋 구조 확인
print(dataset)

IFEval 핵심 기능

instruction 분류: 다양한 유형의 instruction을 포함하여 포괄적인 평가
자동 평가: 응답이 지시사항을 준수했는지 자동으로 평가
정량적 점수: 모델의 지시 준수 능력에 대한 정량적 점수 제공
세부 분석: 모델이 어떤 유형의 지시사항에서 강점/약점을 보이는지 분석

IFEval 벤치마크 개요

IFEval 사용 방법

특정 코드

다운로드

IFEval 핵심 기능

평가 메트릭