--- license: other language: - ja base_model: - deepseek-ai/DeepSeek-V3 --- # DeepSeek-V3-slice-jp64 ## 実験モデルです 本モデルは [DeepSeek-V3](https://huggingface.co/deepseek-ai/DeepSeek-V3) をベースに、日本語の例文を元に頻出する MoE (Mixture of Experts) の各レイヤーごとのexpertsを厳選して再構成したモデルです。 元のモデルでは 256 のexpertsを搭載していますが、日本語出力における安定性とパフォーマンスのバランスを重視し、各層で頻出する 64 のexpertsを使用するように調整しています。 ### 例文出力時の各layerごとのexpertsの頻出分布 ![](layer_topk_idx_distribution_bubble.png) --- ## ライセンス ご使用前にライセンスファイルをご確認ください。 [DeepSeek-V3](https://huggingface.co/deepseek-ai/DeepSeek-V3) こちらのライセンスをそのまま使用しています。 ## 特徴 - MoEモデルのexpertsから、日本語の例文出力をして各layerごとに頻出する64のexpertをして組み直したモデルです。 - 16ではまともに動かず、32では安定しなかったため64expertsにしています。 - scripts/layer_topk_idx_distribution.json - 各layerごとに頻出順に128のexpertのrankが記録されています。 - scripts/deepseek_slice.py - 元モデル(bf16)から、64のexpertを使用したモデル(bf16)を作成します。 - scripts/model_test.py - モデル実行用テスト用のスクリプトです。コメントアウトされている例文を元に頻出するexpertを計測しています --- ## 使い方 `scripts/model_test.py`に実行コードあります