kobest 재현 관련(모델이 다른 것 같습니다)
#1
by
werty1248
- opened
안녕하세요, maywell님.
좋은 모델 공개해 주셔서 감사드립니다.
1딸깍 깃헙 코드를 제공해 주셔서, 바로 재현 실험을 해봤습니다.
그런데 1딸깍 방법대로 모델을 만들어서 테스트하면 올려주신 kobest 정확도가 재현이 되는데,
이 리포지토리 모델은 훨씬 낮은 정확도가 나옵니다.
이유를 알 수 있을까요?
- maywell/Llama-3-Ko-8B-Instruct
!lm_eval --model hf --model_args pretrained=maywell/Llama-3-Ko-8B-Instruct,dtype=bfloat16 --num_fewshot 5 --batch_size 2 --tasks kobest_boolq,kobest_copa,kobest_hellaswag,kobest_sentineg,kobest_wic --device cuda
---
hf (pretrained=maywell/Llama-3-Ko-8B-Instruct,dtype=bfloat16), gen_kwargs: (None), limit: None, num_fewshot: 5, batch_size: 2
| Tasks |Version|Filter|n-shot| Metric |Value | |Stderr|
|----------------|------:|------|-----:|--------|-----:|---|------|
|kobest_boolq | 1|none | 5|acc |0.5021|± |0.0133|
|kobest_copa | 1|none | 5|acc |0.5730|± |0.0156|
|kobest_hellaswag| 1|none | 5|acc |0.3020|± |0.0206|
|kobest_sentineg | 1|none | 5|acc |0.5592|± |0.0249|
|kobest_wic | 1|none | 5|acc |0.4921|± |0.0141|
- 1click 재현
!lm_eval --model hf --model_args pretrained=/content/drive/MyDrive/1clickmerge,dtype=bfloat16 --num_fewshot 5 --batch_size 2 --tasks kobest_boolq,kobest_copa,kobest_hellaswag,kobest_sentineg,kobest_wic --device cuda
hf (pretrained=/content/drive/MyDrive/1clickmerge,dtype=bfloat16), gen_kwargs: (None), limit: None, num_fewshot: 5, batch_size: 2
| Tasks |Version|Filter|n-shot| Metric |Value | |Stderr|
|----------------|------:|------|-----:|--------|-----:|---|------|
|kobest_boolq | 1|none | 5|acc |0.7215|± |0.0120|
|kobest_copa | 1|none | 5|acc |0.7640|± |0.0134|
|kobest_hellaswag| 1|none | 5|acc |0.4460|± |0.0223|
|kobest_sentineg | 1|none | 5|acc |0.9194|± |0.0137|
|kobest_wic | 1|none | 5|acc |0.6056|± |0.0138|
테스트 코드는 https://github.com/EleutherAI/lm-evaluation-harness 를 썼습니다.
관련 문제 확인후 15분 전 쯔음 weight 새로 업로드 했습니다.
모델 업로드시 제대로 확인하지 못한점 죄송하게 생각하고 있습니다.
평가시에 f32모델을 bf16으로 로드해 평가를 진행하였으며, 추후 모델 업로드 과정에서 f32 -> bf16에서 문제가 발생했던 것 같습니다.
빠른 답변 감사합니다!
werty1248
changed discussion status to
closed