ibm-fms
/

llama-13b-accelerator

Inference Endpoints

Model card Files Files and versions Community

JRosenkranz commited on Apr 23

Commit

0f37d3d

•

1 Parent(s): a85babb

Update README.md

Files changed (1) hide show

README.md +9 -6

README.md CHANGED Viewed

@@ -89,11 +89,12 @@ pip install transformers==4.35.0 sentencepiece numpy
 ##### batch_size=1 (compile + cudagraphs)
 ```bash
 python fms-extras/scripts/paged_speculative_inference.py \
     --variant=13b \
-    --model_path=/path/to/llama/13B-F \
     --model_source=hf \
-    --tokenizer=/path/to/llama/13B-F \
     --speculator_path=ibm-fms/llama-13b-accelerator \
     --speculator_source=hf \
     --compile \
@@ -103,11 +104,12 @@ python fms-extras/scripts/paged_speculative_inference.py \
 ##### batch_size=1 (compile)
 ```bash
 python fms-extras/scripts/paged_speculative_inference.py \
     --variant=13b \
-    --model_path=/path/to/llama/13B-F \
     --model_source=hf \
-    --tokenizer=/path/to/llama/13B-F \
     --speculator_path=ibm-fms/llama-13b-accelerator \
     --speculator_source=hf \
     --compile \
@@ -116,11 +118,12 @@ python fms-extras/scripts/paged_speculative_inference.py \
 ##### batch_size=4 (compile)
 ```bash
 python fms-extras/scripts/paged_speculative_inference.py \
     --variant=13b \
-    --model_path=/path/to/llama/13B-F \
     --model_source=hf \
-    --tokenizer=/path/to/llama/13B-F \
     --speculator_path=ibm-fms/llama-13b-accelerator \
     --speculator_source=hf \
     --batch_input \

 ##### batch_size=1 (compile + cudagraphs)
 ```bash
+MODEL_PATH=/path/to/llama/13B-F
 python fms-extras/scripts/paged_speculative_inference.py \
     --variant=13b \
+    --model_path=$MODEL_PATH \
     --model_source=hf \
+    --tokenizer=$MODEL_PATH \
     --speculator_path=ibm-fms/llama-13b-accelerator \
     --speculator_source=hf \
     --compile \
 ##### batch_size=1 (compile)
 ```bash
+MODEL_PATH=/path/to/llama/13B-F
 python fms-extras/scripts/paged_speculative_inference.py \
     --variant=13b \
+    --model_path=$MODEL_PATH \
     --model_source=hf \
+    --tokenizer=$MODEL_PATH \
     --speculator_path=ibm-fms/llama-13b-accelerator \
     --speculator_source=hf \
     --compile \
 ##### batch_size=4 (compile)
 ```bash
+MODEL_PATH=/path/to/llama/13B-F
 python fms-extras/scripts/paged_speculative_inference.py \
     --variant=13b \
+    --model_path=$MODEL_PATH \
     --model_source=hf \
+    --tokenizer=$MODEL_PATH \
     --speculator_path=ibm-fms/llama-13b-accelerator \
     --speculator_source=hf \
     --batch_input \