File size: 2,189 Bytes

bf66e5a
366e62e
bf66e5a
 
 
 
 
 
 
366e62e
 
 
bf66e5a
 
 
 
 
4f7f1d5
bf66e5a
 
 
 
 
366e62e
bf66e5a
d1e4ec5
366e62e
 
 
cd860a6
366e62e
02ffbef
e1040a6
366e62e
 
cd860a6
366e62e
 
 
 
88fdb99
bf66e5a
 
 
 
 
 
 
 
 
 
366e62e

from typing import Dict, List, Any
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, StoppingCriteria, StoppingCriteriaList



class EndpointHandler():
    def __init__(self, path=""):
        # Preload all the elements you are going to need at inference.
        tokenizer = AutoTokenizer.from_pretrained(path)
        self.tokenizer = tokenizer
        self.model = AutoModelForCausalLM.from_pretrained(path)
        self.tokenizer.pad_token = tokenizer.eos_token
        self.stopping_criteria = StoppingCriteriaList([StopAtPeriodCriteria(tokenizer)])

    def __call__(self, data: Dict[str, Any]) -> List[Dict[str, Any]]:
        """
       data args:
            inputs (:obj: `str`)
            kwargs
      Return:
            A :obj:`list` | `dict`: will be serialized and returned
        """
        inputs = data.pop("inputs", data)
        input_ids = self.tokenizer.encode(inputs, return_tensors="pt")

        # Bad word: id 3070 corresponds to "(*", and we do not want to output a comment
        prediction_ids = self.model.generate(
            input_ids, 
            max_length=input_ids.shape[1] + 50, 
            stopping_criteria=self.stopping_criteria, 
            bad_words_ids=[[3070], [313, 334]], 
            temperature=1,
            top_k=40,
            # pad_token_id=self.tokenizer.eos_token_id,
            # return_dict_in_generate=True,  # To get more detailed output (optional)
        )

        # Decode the generated ids to text
        # Exclude the input_ids length to get only the new tokens
        prediction_text = self.tokenizer.decode(prediction_ids[0, input_ids.shape[1]:], skip_special_tokens=True)
        return [{"generated_text": prediction_text, "ids": prediction_ids[0, input_ids.shape[1]:].tolist()}]


class StopAtPeriodCriteria(StoppingCriteria):
    def __init__(self, tokenizer):
        self.tokenizer = tokenizer

    def __call__(self, input_ids, scores, **kwargs):
        # Decode the last generated token to text
        last_token_text = self.tokenizer.decode(input_ids[:, -1], skip_special_tokens=True)
        # Check if the decoded text ends with a period
        return '.' in last_token_text