OsakanaTeishoku
/

1204lora

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

OsakanaTeishoku commited on Dec 16, 2024

Commit

a3cd682

·

verified ·

1 Parent(s): 74785a1

Update README.md

Files changed (1) hide show

README.md +1 -12

README.md CHANGED Viewed

@@ -48,15 +48,7 @@ from jinja2 import Template
 print(vllm.__version__)
 MAX_LENGTH = 1024
-# BATCH_SIZE = 2
-# MODEL_NAME = "/kaggle/input/gemma/transformers/2b-it/3"
-# CHECKPOINT_PATH = "/kaggle/input/atmacup17-train-causal/checkpoint-468"
-#MODEL_NAME = "/kaggle/input/gemma2-9b-it-for-t4"
-#CHECKPOINT_PATH = "/kaggle/input/exp002-gemma-2-9b-it"
-#MODEL_NAME = "team-hatakeyama-phase2/Tanuki-8B-dpo-v1.0-AWQ"
-#MODEL_NAME = "llm-jp/llm-jp-3-3.7b-instruct"
 MODEL_NAME = "llm-jp/llm-jp-3-13b"
-#MODEL_NAME = "OsakanaTeishoku/1127-13b-magpie-sft-step170"
 print(MODEL_NAME)
 import os
@@ -64,16 +56,13 @@ os.environ["HF_TOKEN"] = "あなたのHugging Faceトークン"
 from vllm.lora.request import LoRARequest
 llm = vllm.LLM(
-    MODEL_NAME, # "deepseek-ai/deepseek-math-7b-instruct"
     tensor_parallel_size=1, # 2, 4
     gpu_memory_utilization=0.95,
     trust_remote_code=True,
-    #enable_lora=True,
-    #dtype="half",
     enforce_eager=True,
     max_model_len=MAX_LENGTH,
     enable_lora=True,
-    #quantization="AWQ",
     quantization="bitsandbytes",
     load_format="bitsandbytes"
 )

 print(vllm.__version__)
 MAX_LENGTH = 1024
 MODEL_NAME = "llm-jp/llm-jp-3-13b"
 print(MODEL_NAME)
 import os
 from vllm.lora.request import LoRARequest
 llm = vllm.LLM(
+    MODEL_NAME,
     tensor_parallel_size=1, # 2, 4
     gpu_memory_utilization=0.95,
     trust_remote_code=True,
     enforce_eager=True,
     max_model_len=MAX_LENGTH,
     enable_lora=True,
     quantization="bitsandbytes",
     load_format="bitsandbytes"
 )