<aside> 💡
AlpacaEval : An Automatic Evaluator for Instruction-following Language Models
→ AlpacaEval 2 (LC % Win): AlpacaEval 2.0 with length-controlled win-rates

LLM-based auto-annotators는 human-based evaluation보다 비용 효율적이고 확장성이 좋아 LLM 개발 과정의 핵심 요소가 되었습니다. 그러나 이러한 auto-annotators는 제거하기 어려운 편향을 가져올 수 있습니다. 더 긴 출력을 선호하는 것과 같은 단순하고 알려진 혼란 요소조차도 기존 automated evaluation metrics에 남아 있습니다.
연구진은 auto-evaluations에서 편향을 제어하기 위한 간단한 회귀 분석 접근법을 제안합니다. 실제 사례 연구로, LLM을 사용하여 응답 품질을 추정하는 빠르고 저렴한 instruction-tuned LLM 벤치마크인 AlpacaEval의 길이 편향 감소에 초점을 맞춥니다. AlpacaEval은 인간 선호도와 높은 상관관계가 있지만, 더 긴 출력을 생성하는 모델을 선호하는 것으로 알려져 있습니다.
연구진은 "모델과 기준선의 출력 길이가 동일하다면 선호도는 어떻게 될 것인가?"라는 반사실적 질문에 답하는 것을 목표로 하는 길이 제어된 AlpacaEval을 소개합니다. 이를 위해 먼저 제어하고자 하는 매개 변수(길이 차이)와 다른 관련 특성에 기반하여 편향된 auto-evaluations의 선호도를 예측하는 일반화된 선형 모델(GLM)을 적합시킵니다. 그런 다음 길이 차이가 0인 조건으로 GLM을 사용하여 선호도를 예측함으로써 길이 제어된 선호도를 얻습니다.
길이 제어는 모델 상세함에서의 조작에 대한 지표의 견고성을 향상시킬 뿐만 아니라, LMSYS Chatbot Arena와의 스피어만 상관관계를 0.94에서 0.98로 증가시킵니다. 연구진은 코드와 결과 리더보드를 공개합니다.
git clone <https://github.com/tatsu-lab/alpaca_eval.git>
import datasets
eval_set = datasets.load_dataset("tatsu-lab/alpaca_eval", "alpaca_eval")["eval"]
for example in eval_set:
# generate here is a placeholder for your models generations
example["output"] = generate(example["instruction"])
example["generator"] = "my_model" # name of your model