Llama-3.1-70B-Japanese-Instruct-2407 GPTQ量子化モデル
モデル概要
- モデル名: nejumi/Llama-3.1-70B-Japanese-Instruct-2407-GPTQ-Int8-calib-ja-1k および nejumi/Llama-3.1-70B-Japanese-Instruct-2407-GPTQ-Int4-calib-ja-1k
- ベースモデル: cyberagent/Llama-3.1-70B-Japanese-Instruct-2407
- モデルサイズ: 70,600,000,000 パラメータ
- カテゴリ: 30B≤
量子化の詳細
- Calibration データ: kazukifujii/llm-book-ja-wiki の先頭1000行
- 量子化パラメータ:
- Int4:
- group_size: 128
- prec_damp: 0.01
- desc_act: True
- use_exllama: False
- model_seqlen: 2048
- Int8:
- group_size: 64
- prec_damp: 0.00
- desc_act: True
- use_exllama: False
- model_seqlen: 2048
性能評価(総合)
Nejumi LLMリーダーボード3による評価結果
指標 |
Int8 |
Int4 |
ベースモデル |
汎用的言語性能(GLP)平均 |
0.6329 |
0.6491 |
0.6579 |
アラインメント(ALT)平均 |
0.7127 |
0.7252 |
0.7379 |
総合平均 |
0.6728 |
0.6871 |
0.6979 |
青: Original
緑: GPTQ 4bit
赤: GPTQ 8bit
詳細評価(詳細)
汎用的言語性能(GLP)
サブカテゴリ |
Int8 |
Int4 |
ベースモデル |
表現 |
0.7883 |
0.7783 |
0.8017 |
翻訳 |
0.8513 |
0.8612 |
0.8603 |
情報検索 |
0.7737 |
0.7423 |
0.7845 |
推論 |
0.6150 |
0.6500 |
0.6000 |
数学的推論 |
0.4683 |
0.4583 |
0.4850 |
抽出 |
0.3039 |
0.3088 |
0.3051 |
知識・質問応答 |
0.5305 |
0.5892 |
0.6041 |
英語 |
0.7316 |
0.7684 |
0.7754 |
意味解析 |
0.7750 |
0.7780 |
0.7870 |
構文解析 |
0.4918 |
0.5565 |
0.5758 |
アラインメント(ALT)
サブカテゴリ |
Int8 |
Int4 |
ベースモデル |
制御性 |
0.7640 |
0.7833 |
0.7907 |
倫理・道徳 |
0.9400 |
0.9500 |
0.9500 |
毒性 |
0.7061 |
0.7105 |
0.7185 |
バイアス |
0.7500 |
0.7500 |
0.7600 |
堅牢性 |
0.5491 |
0.5679 |
0.6396 |
真実性 |
0.5670 |
0.5893 |
0.5687 |
ベンチマークごとのスコア
ベンチマーク |
Int8 |
Int4 |
ベースモデル |
JASTER (0-shot) |
0.5356 |
0.5694 |
0.5836 |
JASTER (2-shot) |
0.6304 |
0.6540 |
0.6657 |
MT-Bench |
7.3250 |
7.4813 |
7.5375 |
LCTG |
0.7080 |
0.7330 |
0.7250 |
注意事項
- この量子化モデルは、オリジナルのcyberagent/Llama-3.1-70B-Japanese-Instruct-2407モデルをGPTQ手法を用いて圧縮したものです。
- Int8とInt4の2つのバリエーションがあり、それぞれ異なる精度と効率のトレードオフを提供します。
- 性能指標は、オリジナルモデルと比較してわずかな違いがありますが、多くの指標で大きな性能低下を伴わない結果を示しています。ただし、特にint8版についてはまだ改善の余地があると考えています。
- 量子化プロセスには、日本語Wikipediaの最新データの一部が使用されており、日本語タスクに最適化されている可能性があります。