Deepthoughtworks
/

gpt-neo-2.7B__low-cpu

Text Generation

text generation

Inference Endpoints

Model card Files Files and versions Community

fwittel commited on Nov 18, 2022

Commit

0af1b4a

•

1 Parent(s): 9ff7017

Switch to AutoModelForSeq2SeqLM

Files changed (1) hide show

handler.py +4 -3

handler.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import torch
 from typing import Dict, List, Any
-from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
 # check for GPU
 device = 0 if torch.cuda.is_available() else -1
@@ -11,8 +12,8 @@ class EndpointHandler:
         # load the model
         tokenizer = AutoTokenizer.from_pretrained(path)
         # model = AutoModel.from_pretrained(path, low_cpu_mem_usage=True)
-        model = AutoModelForCausalLM.from_pretrained(path, low_cpu_mem_usage=True)
-        # model = AutoModelForSeq2SeqLM.from_pretrained(path, low_cpu_mem_usage=True)
         # create inference pipeline
         self.pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer, device=device)

 import torch
 from typing import Dict, List, Any
+# from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
 # check for GPU
 device = 0 if torch.cuda.is_available() else -1
         # load the model
         tokenizer = AutoTokenizer.from_pretrained(path)
         # model = AutoModel.from_pretrained(path, low_cpu_mem_usage=True)
+        # model = AutoModelForCausalLM.from_pretrained(path, low_cpu_mem_usage=True)
+        model = AutoModelForSeq2SeqLM.from_pretrained(path, low_cpu_mem_usage=True)
         # create inference pipeline
         self.pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer, device=device)