Update README.md

1af4e14 verified 3 months ago

3.15 kB

	# CALM3-22B-Chat GPTQ量子化モデル

	## モデル概要

	- モデル名: nejumi/calm3-22b-chat-GPTQ-Int8-calib-ja-1k および nejumi/calm3-22b-chat-GPTQ-Int4-calib-ja-1k
	- ベースモデル: [cyberagent/calm3-22b-chat](https://huggingface.co/cyberagent/calm3-22b-chat)
	- モデルサイズ: 22,143,375,360 パラメータ
	- カテゴリ: 10B≤ <30B

	## 量子化の詳細

	- Calibration データ: nejumi/wikipedia-ja-20230720-4k の先頭1000行
	- 量子化パラメータ:
	- group_size: 128
	- prec_damp: 0.00
	- desc_act: True
	- use_exllama: False
	- model_seqlen: 2048

	## 性能評価（総合）
	[Nejumi LLMリーダーボード3](https://wandb.ai/wandb-japan/llm-leaderboard3/reports/Nejumi-LLM-3---Vmlldzo4NTI1NTUx)による評価結果

	\| 指標 \| Int8 \| Int4 \| ベースモデル \|
	\|------\|------\|------\|--------------\|
	\| 汎用的言語性能(GLP)平均 \| 0.6180 \| 0.6187 \| 0.6193 \|
	\| アラインメント(ALT)平均 \| 0.6958 \| 0.6908 \| 0.6793 \|
	\| 総合平均 \| 0.6569 \| 0.6547 \| 0.6493 \|

	![image/png](https://cdn-uploads.huggingface.co/production/uploads/64bcb332b7375f6b8456d937/1zgDXr6VzXTp-7m2jUm_z.png)
	青: Original
	緑: GPTQ 4bit
	赤: GPTQ 8bit

	### 詳細評価（詳細）

	#### 汎用的言語性能(GLP)

	\| サブカテゴリ \| Int8 \| Int4 \| ベースモデル \|
	\|-------------\|------\|------\|--------------\|
	\| 表現 \| 0.8417 \| 0.8317 \| 0.8300 \|
	\| 翻訳 \| 0.8390 \| 0.8422 \| 0.8409 \|
	\| 情報検索 \| 0.8838 \| 0.8739 \| 0.8880 \|
	\| 推論 \| 0.5800 \| 0.5950 \| 0.5400 \|
	\| 数学的推論 \| 0.4467 \| 0.4550 \| 0.4450 \|
	\| 抽出 \| 0.2509 \| 0.2550 \| 0.2689 \|
	\| 知識・質問応答 \| 0.6333 \| 0.6216 \| 0.6300 \|
	\| 英語 \| 0.5140 \| 0.5316 \| 0.5386 \|
	\| 意味解析 \| 0.6820 \| 0.6940 \| 0.6850 \|
	\| 構文解析 \| 0.5086 \| 0.4871 \| 0.5265 \|

	#### アラインメント(ALT)

	\| サブカテゴリ \| Int8 \| Int4 \| ベースモデル \|
	\|-------------\|------\|------\|--------------\|
	\| 制御性 \| 0.7822 \| 0.7830 \| 0.7823 \|
	\| 倫理・道徳 \| 0.9100 \| 0.9000 \| 0.8800 \|
	\| 毒性 \| 0.7169 \| 0.7151 \| 0.7053 \|
	\| バイアス \| 0.8178 \| 0.7856 \| 0.7582 \|
	\| 堅牢性 \| 0.3774 \| 0.3887 \| 0.3811 \|
	\| 真実性 \| 0.5704 \| 0.5722 \| 0.5687 \|

	## ベンチマークごとのスコア

	\| ベンチマーク \| Int8 \| Int4 \| ベースモデル \|
	\|-------------\|------\|------\|--------------\|
	\| JASTER (0-shot) \| 0.5656 \| 0.5642 \| 0.5733 \|
	\| JASTER (2-shot) \| 0.5967 \| 0.5882 \| 0.6041 \|
	\| MT-Bench \| 7.1313 \| 7.1500 \| 6.9313 \|
	\| LCTG \| 0.6330 \| 0.6390 \| 0.6360 \|

	## 注意事項

	- この量子化モデルは、オリジナルのcyberagent/calm3-22b-chatモデルをGPTQ手法を用いて圧縮したものです。
	- Int8とInt4の2つのバリエーションがあり、それぞれ異なる精度と効率のトレードオフを提供します。
	- 性能指標は、オリジナルモデルと比較してわずかな違いがありますが、多くの指標で大きな性能低下を伴わない結果を示しています。
	- 量子化プロセスには、日本語Wikipediaの最新データの一部が使用されており、日本語タスクに最適化されている可能性があります。

	# CALM3-22B-Chat GPTQ量子化モデル

	## モデル概要

	- モデル名: nejumi/calm3-22b-chat-GPTQ-Int8-calib-ja-1k および nejumi/calm3-22b-chat-GPTQ-Int4-calib-ja-1k
	- ベースモデル: [cyberagent/calm3-22b-chat](https://huggingface.co/cyberagent/calm3-22b-chat)
	- モデルサイズ: 22,143,375,360 パラメータ
	- カテゴリ: 10B≤ <30B

	## 量子化の詳細

	- Calibration データ: nejumi/wikipedia-ja-20230720-4k の先頭1000行
	- 量子化パラメータ:
	- group_size: 128
	- prec_damp: 0.00
	- desc_act: True
	- use_exllama: False
	- model_seqlen: 2048

	## 性能評価（総合）
	[Nejumi LLMリーダーボード3](https://wandb.ai/wandb-japan/llm-leaderboard3/reports/Nejumi-LLM-3---Vmlldzo4NTI1NTUx)による評価結果

	\| 指標 \| Int8 \| Int4 \| ベースモデル \|
	\|------\|------\|------\|--------------\|
	\| 汎用的言語性能(GLP)平均 \| 0.6180 \| 0.6187 \| 0.6193 \|
	\| アラインメント(ALT)平均 \| 0.6958 \| 0.6908 \| 0.6793 \|
	\| 総合平均 \| 0.6569 \| 0.6547 \| 0.6493 \|

	![image/png](https://cdn-uploads.huggingface.co/production/uploads/64bcb332b7375f6b8456d937/1zgDXr6VzXTp-7m2jUm_z.png)
	青: Original
	緑: GPTQ 4bit
	赤: GPTQ 8bit

	### 詳細評価（詳細）

	#### 汎用的言語性能(GLP)

	\| サブカテゴリ \| Int8 \| Int4 \| ベースモデル \|
	\|-------------\|------\|------\|--------------\|
	\| 表現 \| 0.8417 \| 0.8317 \| 0.8300 \|
	\| 翻訳 \| 0.8390 \| 0.8422 \| 0.8409 \|
	\| 情報検索 \| 0.8838 \| 0.8739 \| 0.8880 \|
	\| 推論 \| 0.5800 \| 0.5950 \| 0.5400 \|
	\| 数学的推論 \| 0.4467 \| 0.4550 \| 0.4450 \|
	\| 抽出 \| 0.2509 \| 0.2550 \| 0.2689 \|
	\| 知識・質問応答 \| 0.6333 \| 0.6216 \| 0.6300 \|
	\| 英語 \| 0.5140 \| 0.5316 \| 0.5386 \|
	\| 意味解析 \| 0.6820 \| 0.6940 \| 0.6850 \|
	\| 構文解析 \| 0.5086 \| 0.4871 \| 0.5265 \|

	#### アラインメント(ALT)

	\| サブカテゴリ \| Int8 \| Int4 \| ベースモデル \|
	\|-------------\|------\|------\|--------------\|
	\| 制御性 \| 0.7822 \| 0.7830 \| 0.7823 \|
	\| 倫理・道徳 \| 0.9100 \| 0.9000 \| 0.8800 \|
	\| 毒性 \| 0.7169 \| 0.7151 \| 0.7053 \|
	\| バイアス \| 0.8178 \| 0.7856 \| 0.7582 \|
	\| 堅牢性 \| 0.3774 \| 0.3887 \| 0.3811 \|
	\| 真実性 \| 0.5704 \| 0.5722 \| 0.5687 \|

	## ベンチマークごとのスコア

	\| ベンチマーク \| Int8 \| Int4 \| ベースモデル \|
	\|-------------\|------\|------\|--------------\|
	\| JASTER (0-shot) \| 0.5656 \| 0.5642 \| 0.5733 \|
	\| JASTER (2-shot) \| 0.5967 \| 0.5882 \| 0.6041 \|
	\| MT-Bench \| 7.1313 \| 7.1500 \| 6.9313 \|
	\| LCTG \| 0.6330 \| 0.6390 \| 0.6360 \|

	## 注意事項

	- この量子化モデルは、オリジナルのcyberagent/calm3-22b-chatモデルをGPTQ手法を用いて圧縮したものです。
	- Int8とInt4の2つのバリエーションがあり、それぞれ異なる精度と効率のトレードオフを提供します。
	- 性能指標は、オリジナルモデルと比較してわずかな違いがありますが、多くの指標で大きな性能低下を伴わない結果を示しています。
	- 量子化プロセスには、日本語Wikipediaの最新データの一部が使用されており、日本語タスクに最適化されている可能性があります。