jetmoe
/

jetmoe-8b-chat

Text Generation

alignment-handbook

Generated from Trainer

Model card Files Files and versions Community

Guo commited on Apr 2

Commit

aaad630

•

1 Parent(s): dd9f628

debug

Files changed (1) hide show

modeling_jetmoe.py +2 -2

modeling_jetmoe.py CHANGED Viewed

@@ -654,7 +654,7 @@ class JetMoEAttention(nn.Module):
         self.num_heads = self.num_key_value_heads * self.top_k
         self.hidden_size_per_attention_head = config.kv_channels
-        self.experts = moe.MoE(
             input_size=config.hidden_size,
             hidden_size=self.kv_projection_size,
             num_experts=config.moe_num_experts,
@@ -1072,7 +1072,7 @@ class JetMoEBlock(nn.Module):
         # moe_args.activation_fn = F.silu
         # moe_args.return_bias = False
         # self.mlp = megablocks.layers.dmoe.dMoE(moe_args)
-        self.mlp = moe.MoE(
             input_size=config.hidden_size,
             hidden_size=config.ffn_hidden_size,
             num_experts=config.moe_num_experts,

         self.num_heads = self.num_key_value_heads * self.top_k
         self.hidden_size_per_attention_head = config.kv_channels
+        self.experts = MoE(
             input_size=config.hidden_size,
             hidden_size=self.kv_projection_size,
             num_experts=config.moe_num_experts,
         # moe_args.activation_fn = F.silu
         # moe_args.return_bias = False
         # self.mlp = megablocks.layers.dmoe.dMoE(moe_args)
+        self.mlp = MoE(
             input_size=config.hidden_size,
             hidden_size=config.ffn_hidden_size,
             num_experts=config.moe_num_experts,