Deepthoughtworks
/

gpt-neo-2.7B__low-cpu

Text Generation

text generation

Inference Endpoints

Model card Files Files and versions Community

Update handler.py

#1

by philschmid HF staff - opened Nov 19, 2022

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

Files changed (1) hide show

handler.py +2 -2

handler.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import torch
 from typing import Dict, List, Any
 # from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
-from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
 # check for GPU
 device = 0 if torch.cuda.is_available() else -1
@@ -13,7 +13,7 @@ class EndpointHandler:
         tokenizer = AutoTokenizer.from_pretrained(path)
         # model = AutoModel.from_pretrained(path, low_cpu_mem_usage=True)
         # model = AutoModelForCausalLM.from_pretrained(path, low_cpu_mem_usage=True)
-        model = AutoModelForSeq2SeqLM.from_pretrained(path, low_cpu_mem_usage=True)
         # create inference pipeline
         self.pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer, device=device)

 import torch
 from typing import Dict, List, Any
 # from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
+from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
 # check for GPU
 device = 0 if torch.cuda.is_available() else -1
         tokenizer = AutoTokenizer.from_pretrained(path)
         # model = AutoModel.from_pretrained(path, low_cpu_mem_usage=True)
         # model = AutoModelForCausalLM.from_pretrained(path, low_cpu_mem_usage=True)
+        model = AutoModelForCausalLM.from_pretrained(path, low_cpu_mem_usage=True)
         # create inference pipeline
         self.pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer, device=device)