ltg
/

deberta-xxlarge-fixed

Text Generation

Model card Files Files and versions Community

davda54 commited on Apr 23, 2024

Commit

f8e6164

·

verified ·

1 Parent(s): ca3c03c

Update modeling_deberta.py

Files changed (1) hide show

modeling_deberta.py +2 -3

modeling_deberta.py CHANGED Viewed

@@ -455,9 +455,6 @@ class DebertaV2Encoder(nn.Module):
         if attention_mask.dim() <= 2:
             extended_attention_mask = attention_mask.unsqueeze(1).unsqueeze(2)
             attention_mask = extended_attention_mask * extended_attention_mask.squeeze(-2).unsqueeze(-1)
-            attention_mask = attention_mask.triu(diagonal=-510).tril(diagonal=510)
-            attention_mask[:, :, :, 0] = 1
-            attention_mask[:, :, :, -1] = 1
         elif attention_mask.dim() == 3:
             attention_mask = attention_mask.unsqueeze(1)
@@ -868,6 +865,8 @@ class DebertaV2Embeddings(nn.Module):
                 ], dim=1)
             else:
                 position_ids = self.position_ids[:, :seq_length]
         if token_type_ids is None:
             token_type_ids = torch.zeros(input_shape, dtype=torch.long, device=self.position_ids.device)

         if attention_mask.dim() <= 2:
             extended_attention_mask = attention_mask.unsqueeze(1).unsqueeze(2)
             attention_mask = extended_attention_mask * extended_attention_mask.squeeze(-2).unsqueeze(-1)
         elif attention_mask.dim() == 3:
             attention_mask = attention_mask.unsqueeze(1)
                 ], dim=1)
             else:
                 position_ids = self.position_ids[:, :seq_length]
+        elif position_ids.size(1) > self.position_ids.size(1):
+            position_ids = (position_ids + self.position_ids.size(1) - position_ids.size(1)).clamp(min=0)
         if token_type_ids is None:
             token_type_ids = torch.zeros(input_shape, dtype=torch.long, device=self.position_ids.device)