THUDM
/

glm-4v-9b

Model card Files Files and versions Community

zR commited on Jul 1

Commit

1127073

•

1 Parent(s): d907213

finetune

Files changed (1) hide show

modeling_chatglm.py +4 -2

modeling_chatglm.py CHANGED Viewed

@@ -884,6 +884,9 @@ class ChatGLMModel(ChatGLMPreTrainedModel):
         batch_size, seq_length = input_ids.shape
         if self.pre_seq_len is not None:
             if past_key_values is None:
                 past_key_values = self.get_prompt(batch_size=batch_size, device=input_ids.device,
@@ -912,9 +915,8 @@ class ChatGLMModel(ChatGLMPreTrainedModel):
                     attention_mask = torch.stack(new_attention_mask, dim=0)
                     input_ids = torch.stack(new_input_ids, dim=0)
-                if inputs_embeds is None:
-                        inputs_embeds = self.embedding(input_ids)
                 full_attention_mask = self.get_masks(inputs_embeds, past_key_values, padding_mask=attention_mask)
         # Rotary positional embeddings

         batch_size, seq_length = input_ids.shape
+        if inputs_embeds is None:
+            inputs_embeds = self.embedding(input_ids)
         if self.pre_seq_len is not None:
             if past_key_values is None:
                 past_key_values = self.get_prompt(batch_size=batch_size, device=input_ids.device,
                     attention_mask = torch.stack(new_attention_mask, dim=0)
                     input_ids = torch.stack(new_input_ids, dim=0)
+                    inputs_embeds = self.embedding(input_ids)
                 full_attention_mask = self.get_masks(inputs_embeds, past_key_values, padding_mask=attention_mask)
         # Rotary positional embeddings