Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -37,7 +37,37 @@ output = model.generate(**inputs, streamer=streamer, max_new_tokens=1024)
 ### vLLM
 ```python
 ```
 ## キャリブレーションデータ
 以下のデータセットから512個のデータ，プロンプトを抽出。1つのデータのトークン数は最大350制限。

 ### vLLM
 ```python
+from vllm import LLM, SamplingParams
+llm = LLM(
+    model="kishizaki-sci/Llama-3.3-70B-Instruct-AWQ-4bit-JP-EN",
+    tensor_parallel_size=1,
+    gpu_memory_utilization=0.97,
+    quantization="awq"
+)
+tokenizer = llm.get_tokenizer()
+messages = [
+    {"role": "system", "content": "あなたは日本語で応答するAIチャットボットです。ユーザをサポートしてください。"},
+    {"role": "user", "content": "plotly.graph_objectsを使って散布図を作るサンプルコードを書いてください。"},
+]
+prompt = tokenizer.apply_chat_template(
+    messages,
+    tokenize=False,
+    add_generation_prompt=True
+)
+sampling_params = SamplingParams(
+    temperature=0.6,
+    top_p=0.9,
+    max_tokens=1024
+)
+outputs = llm.generate(prompt, sampling_params)
+print(outputs[0].outputs[0].text)
 ```
+H100 (94GB)を1基積んだインスタンスでの実行はこちらの[notebook]()をご覧ください。
 ## キャリブレーションデータ
 以下のデータセットから512個のデータ，プロンプトを抽出。1つのデータのトークン数は最大350制限。