update handler.py as part of debug

Resolving generate() error about duplicate pad_token_id suggests we're passing it twice - once in default_params and once explicitly.

Files changed (1) hide show

handler.py +13 -18

handler.py CHANGED Viewed

@@ -25,12 +25,6 @@ class EndpointHandler:
         }
     def __call__(self, data: Dict):
-        """
-        Args:
-            data: Dictionary with either string input or structured messages
-        Returns:
-            Generated text
-        """
         try:
             # Handle input
             if isinstance(data.get("inputs"), str):
@@ -41,19 +35,23 @@ class EndpointHandler:
                 if not messages:
                     return {"error": "No messages provided"}
-                # Format input text
-                input_text = ""
                 for msg in messages:
                     role = msg.get("role", "")
                     content = msg.get("content", "")
-                    input_text += f"{role}: {content}\n"
             # Get generation parameters
             params = {**self.default_params}
             if "parameters" in data:
                 params.update(data["parameters"])
-            # Ensure proper tokenization with padding and attention mask
             tokenizer_output = self.tokenizer(
                 input_text,
                 return_tensors="pt",
@@ -63,22 +61,19 @@ class EndpointHandler:
                 return_attention_mask=True
             )
-            # Move tensors to the same device as the model
-            input_ids = tokenizer_output["input_ids"]
-            attention_mask = tokenizer_output["attention_mask"]
             # Generate response
             with torch.no_grad():
                 outputs = self.model.generate(
-                    input_ids,
-                    attention_mask=attention_mask,
-                    pad_token_id=self.tokenizer.pad_token_id,
                     **params
                 )
-            # Decode response
             generated_text = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
             return [{"generated_text": generated_text}]
         except Exception as e:

         }
     def __call__(self, data: Dict):
         try:
             # Handle input
             if isinstance(data.get("inputs"), str):
                 if not messages:
                     return {"error": "No messages provided"}
+                # Format input text as array
+                inputs = []
                 for msg in messages:
                     role = msg.get("role", "")
                     content = msg.get("content", "")
+                    inputs.append(f"{role}: {content}")
+                input_text = "\n".join(inputs)
             # Get generation parameters
             params = {**self.default_params}
             if "parameters" in data:
                 params.update(data["parameters"])
+            # Remove pad_token_id from params if it's going to be set explicitly
+            params.pop('pad_token_id', None)
+            # Tokenize input
             tokenizer_output = self.tokenizer(
                 input_text,
                 return_tensors="pt",
                 return_attention_mask=True
             )
             # Generate response
             with torch.no_grad():
                 outputs = self.model.generate(
+                    tokenizer_output["input_ids"],
+                    attention_mask=tokenizer_output["attention_mask"],
+                    pad_token_id=self.tokenizer.pad_token_id,  # Set it only here
                     **params
                 )
+            # Decode response and ensure array output
             generated_text = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
+            # Always return an array as required by the endpoint
             return [{"generated_text": generated_text}]
         except Exception as e: