fix bug in tokenizer `decode` method

the `_decode` method of ChatGLMTokenizer class should use customized `_decode` in sp_tokenizer rather than that in parent class, otherwise, the negative id would never be filtered.

Files changed (1) hide show

tokenization_chatglm.py +1 -1

tokenization_chatglm.py CHANGED Viewed

@@ -282,7 +282,7 @@ class ChatGLMTokenizer(PreTrainedTokenizer):
             return ""
         if self.pad_token_id in token_ids:  # remove pad
             token_ids = list(filter((self.pad_token_id).__ne__, token_ids))
-        return super()._decode(token_ids, **kwargs)
     def _convert_token_to_id(self, token):
         """ Converts a token (str) in an id using the vocab. """

             return ""
         if self.pad_token_id in token_ids:  # remove pad
             token_ids = list(filter((self.pad_token_id).__ne__, token_ids))
+        return self.sp_tokenizer.decode(token_ids)
     def _convert_token_to_id(self, token):
         """ Converts a token (str) in an id using the vocab. """