upstage/open-ko-llm-leaderboard · LLM Benchmark 에 결과가 보이지 않습니다.

mssma

Apr 19

평가 요청 후 ✅ Finished Evaluations 에 표시되고 있는데,

LLM Benchmark 에 결과가 보이지 않습니다.

모델 평가 진행 상황을 알 수 있을까요?

모델 : mssma/ko-solar-10.7b-v0.1

choco9966

upstage org Apr 22

문의 감사합니다. 확인해보니 TruthfulQA 평가가 안되었는데 Finished로 넘어가서 해당 지표만 강제로 다시 평가하도록 시켰습니다.
완료되는대로 공유드리도록 하겠습니다. 감사합니다.

choco9966

upstage org Apr 23

안녕하세요. 해당 문제는 조금 시간이 걸릴 것 같습니다. 문제 원인 자체는 TruthfulQA의 결과물이 NaN이 나오는 것이었는데, 현재 평가 코드로 쓰고 있는 lm-evaluation-harness에도 동일한 이슈가 있습니다.
https://github.com/EleutherAI/lm-evaluation-harness/issues/1340

그래서 EleutherAI문의하고, 내부적으로 다시 코드 보면서 확인해야할 것 같아서 단기간에는 공유드리기 어려울 것 같습니다.
TruthfulQA 제외한 나머지 점수는 https://huggingface.co/datasets/open-ko-llm-leaderboard/results/tree/main/mssma 에서 확인 가능합니다.