kz-transformers/kaz-llm-lb · корректность данных

17 days ago

Добрый день прошу перевроверить корректность ваших результатов по моделям
issai/LLama-3.1-KazLLM-1.0-8B
meta-llama/Llama-3.1-8B-Instruct
meta-llama/Llama-3.2-3B-Instruct
meta-llama/Llama-3.2-1B-Instruct

когда я проверял модель
issai/LLama-3.1-KazLLM-1.0-8B
то выдал такие результаты
"kazakh_and_literature_unt_mc": {
"alias": "kazakh_and_literature_unt_mc",
"acc,none": 0.20734597156398105,
"acc_stderr,none": 0.006978350004282729
},
"kk_biology_unt_mc": {
"alias": "kk_biology_unt_mc",
"acc,none": 0.2747918243754731,
"acc_stderr,none": 0.012287012040062122
},
"kk_constitution_mc": {
"alias": "kk_constitution_mc",
"acc,none": 0.43333333333333335,
"acc_stderr,none": 0.03205353494925178
},
"kk_dastur_mc": {
"alias": "kk_dastur_mc",
"acc,none": 0.35902255639097747,
"acc_stderr,none": 0.020817807113615652
},
"kk_english_unt_mc": {
"alias": "kk_english_unt_mc",
"acc,none": 0.3082302313071544,
"acc_stderr,none": 0.010712616321306451
},
"kk_geography_unt_mc": {
"alias": "kk_geography_unt_mc",
"acc,none": 0.34865134865134867,
"acc_stderr,none": 0.015069624604977547
},
"kk_history_of_kazakhstan_unt_mc": {
"alias": "kk_history_of_kazakhstan_unt_mc",
"acc,none": 0.28268991282689915,
"acc_stderr,none": 0.009176570040759653
},
"kk_human_society_rights_unt_mc": {
"alias": "kk_human_society_rights_unt_mc",
"acc,none": 0.5100671140939598,
"acc_stderr,none": 0.041091415327375695
},
"kk_unified_national_testing_mc": {
"alias": "kk_unified_national_testing_mc",
"acc,none": 0.2747918243754731,
"acc_stderr,none": 0.012287012040062122
},
"kk_world_history_unt_mc": {
"alias": "kk_world_history_unt_mc",
"acc,none": 0.35924170616113743,
"acc_stderr,none": 0.014778153998166333
},
"mmlu_translated_kk": {
"alias": "mmlu_translated_kk",
"acc,none": 0.288695652173913,
"acc_stderr,none": 0.01336865879350477
}
},

что в 2 раза меньше чем у вас показано
возможно у вас поменялся метод тестирования с последнего теста

kz-transformers

Owner 17 days ago

привет, спасибо за замечание

нам нужно обновить инструкцию по инференсу

для получения текущих результатов использовался данный скрипт https://github.com/horde-research/horde-common/tree/main/scripts
это упрощенная версия log likelhood computing от eleuther, с прямым подсчетом логита при варианте ответа

armanibadboy

17 days ago

ооо тема спасибо
щя проверю свою модель

python mc-eval-simplified-inference.py --model_id armanibadboy/llama3.1-kazllm-8b-by-arman-ver2--output_path .

armanibadboy changed discussion status to closed 17 days ago

kz-transformers

Owner 17 days ago

если будут проблемы - пишите, отдебажим