team-hatakeyama-phase2
/

Tanuki-8x8B-dpo-v1.0-GGUF

Inference Endpoints

Model card Files Files and versions Community

Aratako commited on Aug 27, 2024

Commit

eda9b51

·

verified ·

1 Parent(s): 52de6be

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -13,7 +13,7 @@ GENIAC 松尾研 LLM開発プロジェクトで開発されたLLMである[webla
 imatrixの計算には[Wikitext-JA](https://www.lsta.media.kyoto-u.ac.jp/resource/data/wikitext-ja/)を用いています。
 ## 注意
-このGGUFモデルはtokenizerを元モデルから完全に変換出来ていない可能性があり、性能低下が発生している恐れがあります。
 そのため、他の形式の量子化モデルの利用を推奨いたします。
 - [AWQ 4bit量子化](https://huggingface.co/team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-AWQ)
 - [GPTQ 4bit量子化](https://huggingface.co/team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-GPTQ-4bit)

 imatrixの計算には[Wikitext-JA](https://www.lsta.media.kyoto-u.ac.jp/resource/data/wikitext-ja/)を用いています。
 ## 注意
+このGGUFモデルはtokenizerを元モデルから完全に変換出来ていない可能性があります。また、独自アーキテクチャの実装を反映するためにllama.cpp側の実装変更が必要となり、通常通り推論しようとすると性能低下が発生します。
 そのため、他の形式の量子化モデルの利用を推奨いたします。
 - [AWQ 4bit量子化](https://huggingface.co/team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-AWQ)
 - [GPTQ 4bit量子化](https://huggingface.co/team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-GPTQ-4bit)