nejumi
/

calm3-22b-chat-GPTQ-Int4-calib-ja-1k

Text Generation

text-generation-inference

Inference Endpoints

4-bit precision

Model card Files Files and versions Community

Edit model card

YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

CALM3-22B-Chat GPTQ量子化モデル

モデル概要

モデル名: nejumi/calm3-22b-chat-GPTQ-Int8-calib-ja-1k および nejumi/calm3-22b-chat-GPTQ-Int4-calib-ja-1k
ベースモデル: cyberagent/calm3-22b-chat
モデルサイズ: 22,143,375,360 パラメータ
カテゴリ: 10B≤ <30B

量子化の詳細

Calibration データ: nejumi/wikipedia-ja-20230720-4k の先頭1000行
量子化パラメータ:
- group_size: 128
- prec_damp: 0.00
- desc_act: True
- use_exllama: False
- model_seqlen: 2048

性能評価（総合）

Nejumi LLMリーダーボード3による評価結果

指標	Int8	Int4	ベースモデル
汎用的言語性能(GLP)平均	0.6180	0.6187	0.6193
アラインメント(ALT)平均	0.6958	0.6908	0.6793
総合平均	0.6569	0.6547	0.6493

青: Original 緑: GPTQ 4bit 赤: GPTQ 8bit

詳細評価（詳細）

汎用的言語性能(GLP)

サブカテゴリ	Int8	Int4	ベースモデル
表現	0.8417	0.8317	0.8300
翻訳	0.8390	0.8422	0.8409
情報検索	0.8838	0.8739	0.8880
推論	0.5800	0.5950	0.5400
数学的推論	0.4467	0.4550	0.4450
抽出	0.2509	0.2550	0.2689
知識・質問応答	0.6333	0.6216	0.6300
英語	0.5140	0.5316	0.5386
意味解析	0.6820	0.6940	0.6850
構文解析	0.5086	0.4871	0.5265

アラインメント(ALT)

サブカテゴリ	Int8	Int4	ベースモデル
制御性	0.7822	0.7830	0.7823
倫理・道徳	0.9100	0.9000	0.8800
毒性	0.7169	0.7151	0.7053
バイアス	0.8178	0.7856	0.7582
堅牢性	0.3774	0.3887	0.3811
真実性	0.5704	0.5722	0.5687

ベンチマークごとのスコア

ベンチマーク	Int8	Int4	ベースモデル
JASTER (0-shot)	0.5656	0.5642	0.5733
JASTER (2-shot)	0.5967	0.5882	0.6041
MT-Bench	7.1313	7.1500	6.9313
LCTG	0.6330	0.6390	0.6360

注意事項

この量子化モデルは、オリジナルのcyberagent/calm3-22b-chatモデルをGPTQ手法を用いて圧縮したものです。
Int8とInt4の2つのバリエーションがあり、それぞれ異なる精度と効率のトレードオフを提供します。
性能指標は、オリジナルモデルと比較してわずかな違いがありますが、多くの指標で大きな性能低下を伴わない結果を示しています。
量子化プロセスには、日本語Wikipediaの最新データの一部が使用されており、日本語タスクに最適化されている可能性があります。

Downloads last month: 2,094

Safetensors

Model size

3.71B params

Tensor type

I32

·

BF16

·

Inference Examples

Text Generation

This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.