LuuNgoc2k2 commited on
Commit
aad5dc4
1 Parent(s): 2107fa5

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +62 -1
README.md CHANGED
@@ -1,3 +1,64 @@
1
  ---
2
  library_name: allennlp
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  library_name: allennlp
3
+ ---Load Model
4
+
5
+ ```python
6
+ import torch
7
+ from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
8
+
9
+ bnb_config = BitsAndBytesConfig(
10
+ load_in_4bit=True,
11
+ bnb_4bit_use_double_quant=True,
12
+ bnb_4bit_quant_type="nf4",
13
+ bnb_4bit_compute_dtype=torch.bfloat16
14
+ )
15
+
16
+ tokenizer = AutoTokenizer.from_pretrained("LuuNgoc2k2/Law-Llama-v1", add_eos_token=True, padding_side='right')
17
+ model = AutoModelForCausalLM.from_pretrained(
18
+ 'LuuNgoc2k2/Law-Llama-v1',
19
+ torch_dtype=torch.bfloat16,
20
+ device_map="auto",
21
+ use_cache=True,
22
+ )
23
+
24
+ tokenizer.pad_token = tokenizer.eos_token
25
+
26
+ ```
27
+
28
+
29
+ Generate
30
+
31
+ ```python
32
+ PROMPT = """
33
+ ### Hướng dẫn: Bạn là một trợ lí Tiếng Việt. Hãy luôn trả lời một cách trung thực và an toàn
34
+ Câu trả lời của bạn không nên chứa bất kỳ nội dung gây hại, nguy hiểm hoặc bất hợp pháp nào
35
+ Nếu một câu hỏi không có ý nghĩa hoặc không hợp lý về mặt thông tin, hãy giải thích tại sao thay vì trả lời một điều gì đó không chính xác
36
+ Nếu bạn không biết câu trả lời cho một câu hỏi, hãy trẳ lời là bạn không biết và vui lòng không chia sẻ thông tin sai lệch.
37
+ ### Câu hỏi: {input}
38
+ """
39
+
40
+ question = """Trình bày về thủ tục li hôn ?"""
41
+
42
+ text = PROMPT.format_map({
43
+ 'input': question,
44
+ })
45
+
46
+
47
+ input_ids = tokenizer(text, return_tensors='pt', add_special_tokens=False).to('cuda')
48
+
49
+ generated_ids = model.generate(
50
+ input_ids=input_ids['input_ids'],
51
+ max_new_tokens=1024,
52
+ do_sample=True,
53
+ top_p=0.95,
54
+ top_k=40,
55
+ temperature=0.3,
56
+ repetition_penalty=1.1,
57
+ no_repeat_ngram_size=7,
58
+ num_beams=5,
59
+ )
60
+
61
+ a = tokenizer.batch_decode(generated_ids)[0]
62
+ # print(a.split('### Trả lời:')[1])
63
+ print(a)
64
+ ```