kishizaki-sci commited on
Commit
7e9555f
1 Parent(s): c488176

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +30 -0
README.md CHANGED
@@ -37,7 +37,37 @@ output = model.generate(**inputs, streamer=streamer, max_new_tokens=1024)
37
 
38
  ### vLLM
39
  ```python
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
40
  ```
 
41
 
42
  ## キャリブレーションデータ
43
  以下のデータセットから512個のデータ,プロンプトを抽出。1つのデータのトークン数は最大350制限。
 
37
 
38
  ### vLLM
39
  ```python
40
+ from vllm import LLM, SamplingParams
41
+
42
+ llm = LLM(
43
+ model="kishizaki-sci/Llama-3.3-70B-Instruct-AWQ-4bit-JP-EN",
44
+ tensor_parallel_size=1,
45
+ gpu_memory_utilization=0.97,
46
+ quantization="awq"
47
+ )
48
+ tokenizer = llm.get_tokenizer()
49
+
50
+ messages = [
51
+ {"role": "system", "content": "あなたは日本語で応答するAIチャットボットです。ユーザをサポートしてください。"},
52
+ {"role": "user", "content": "plotly.graph_objectsを使って散布図を作るサンプルコードを書いてください。"},
53
+ ]
54
+
55
+ prompt = tokenizer.apply_chat_template(
56
+ messages,
57
+ tokenize=False,
58
+ add_generation_prompt=True
59
+ )
60
+
61
+ sampling_params = SamplingParams(
62
+ temperature=0.6,
63
+ top_p=0.9,
64
+ max_tokens=1024
65
+ )
66
+
67
+ outputs = llm.generate(prompt, sampling_params)
68
+ print(outputs[0].outputs[0].text)
69
  ```
70
+ H100 (94GB)を1基積んだインスタンスでの実行はこちらの[notebook]()をご覧ください。
71
 
72
  ## キャリブレーションデータ
73
  以下のデータセットから512個のデータ,プロンプトを抽出。1つのデータのトークン数は最大350制限。