Update README.md
Browse files
README.md
CHANGED
@@ -7,6 +7,7 @@ base_model:
|
|
7 |
---
|
8 |
# DeepSeek-V3-slice-jp64
|
9 |
|
|
|
10 |
本モデルは [DeepSeek-V3](https://huggingface.co/deepseek-ai/DeepSeek-V3) をベースに、日本語の例文を元に頻出する MoE (Mixture of Experts) の各レイヤーごとのexpertsを厳選して再構成したモデルです。
|
11 |
元のモデルでは 256 のexpertsを搭載していますが、日本語出力における安定性とパフォーマンスのバランスを重視し、各層で頻出する 64 のexpertsを使用するように調整しています。
|
12 |
|
|
|
7 |
---
|
8 |
# DeepSeek-V3-slice-jp64
|
9 |
|
10 |
+
## 実験モデルです
|
11 |
本モデルは [DeepSeek-V3](https://huggingface.co/deepseek-ai/DeepSeek-V3) をベースに、日本語の例文を元に頻出する MoE (Mixture of Experts) の各レイヤーごとのexpertsを厳選して再構成したモデルです。
|
12 |
元のモデルでは 256 のexpertsを搭載していますが、日本語出力における安定性とパフォーマンスのバランスを重視し、各層で頻出する 64 のexpertsを使用するように調整しています。
|
13 |
|