phongnp2010
/

chatbot-llama-7b-chathf

@@ -1,76 +1,63 @@
-**2. Tạo Model Card trên Hugging Face Hub**
-Sau khi bạn soạn thảo xong Model Card, bạn có thể thêm nó vào repo của mình như sau:
-**2.1 Thêm vào File `README.md`**
-Để cung cấp thông tin này cho người dùng, bạn chỉ cần chỉnh sửa file `README.md` trong repo của mình và thêm nội dung Markdown trên vào. Sau khi bạn upload mô hình lên Hugging Face, file `README.md` sẽ được hiển thị ở trang repo của bạn.
-**2.2 Các Tính Năng hỗ trợ Copy Code**
-Hugging Face sẽ tự động nhận diện các đoạn code được viết trong thẻ Markdown ```` ``` ```` và sẽ thêm nút **Copy** phía trên các ô code. Bạn chỉ cần bao bọc mã nguồn trong thẻ ```` ```python ``` ```` hoặc tương tự.
-**Ví dụ:**
-```python
-# Code in markdown file
-```python
-from transformers import AutoModelForCausalLM, AutoTokenizer
-model = AutoModelForCausalLM.from_pretrained("your-username/my-lora-model")
-tokenizer = AutoTokenizer.from_pretrained("your-username/my-lora-model")
-inputs = tokenizer("Hello, how are you?", return_tensors="pt")
-outputs = model.generate(**inputs)
-print(tokenizer.decode(outputs[0], skip_special_tokens=True))
-Khi người dùng vào trang repo của bạn trên Hugging Face, họ sẽ thấy một ô code có nút **Copy** ở phía trên. Mỗi khi người dùng nhấn vào nút Copy, mã sẽ được sao chép vào clipboard.
-**3. Cải thiện Giao Diện và Tương Tác**
-Để đảm bảo trang mô hình của bạn dễ sử dụng, bạn có thể làm thêm một số điều sau:
-- **Cung cấp nhiều ví dụ**: Bạn có thể thêm các ví dụ khác để người dùng dễ hiểu hơn về cách sử dụng mô hình của bạn.
-- **Mô tả chi tiết hơn**: Bao gồm chi tiết về loại dữ liệu mà mô hình được fine-tune trên đó, các hạn chế của mô hình, và các khả năng đặc biệt.
-**Ví dụ Model Card hoàn chỉnh**
-```markdown
-# My LoRA Model
-This is a fine-tuned LoRA model based on [Base Model Name].
-## Model Description
-This model is fine-tuned using LoRA (Low-Rank Adaptation) on top of a pre-trained large language model. It is designed to perform text generation tasks efficiently with reduced memory footprint compared to full fine-tuning.
-##Training Details:
-- Base Model: [Base Model Name]
-- Fine-tuning Method: LoRA
-- Fine-tuning Data: [Dataset Name or Description]
-- Intended Use: Text Generation, Conversational AI, etc.
 ## How to use
-You can use this model directly with the `transformers` library:
 ```python
-from transformers import AutoModelForCausalLM, AutoTokenizer
-# Load model and tokenizer
-model = AutoModelForCausalLM.from_pretrained("your-username/my-lora-model")
-tokenizer = AutoTokenizer.from_pretrained("your-username/my-lora-model")
-# Generate text
-inputs = tokenizer("Hello, how are you?", return_tensors="pt")
-outputs = model.generate(**inputs)
-print(tokenizer.decode(outputs[0], skip_special_tokens=True))
----
-1. **Ô Text**: Dùng để mô tả mô hình, cách thức fine-tune, và các thông tin bổ sung.
-2. **Ô Code**: Sử dụng cú pháp Markdown để hiển thị ví dụ code. Hugging Face tự động hiển thị nút **Copy** trên các ô code.
-3. **Copy Code**: Nút copy code sẽ tự động xuất hiện khi bạn sử dụng cú pháp Markdown chuẩn để trình bày các đoạn mã.
-Khi bạn hoàn thành việc soạn thảo Model Card, hãy upload nó lên Hugging Face và kiểm tra xem các tính năng hiển thị như mong đợi!

+---
+language: en
+license: mit
+tags:
+  - text-generation
+  - causal-lm
+  - llm
+  - chatbot
+  - llama-7b
+  - fine-tuned
+---
+# Chatbot Llama-7B Fine-tuned for Chat
+This model is a fine-tuned version of the Llama-7B model, trained for chatbot tasks using LoRA.
 ## How to use
+You can use the model for text generation tasks. Here's an example of how to load the model and run inference.
 ```python
+# 1. Import các thư viện cần thiết
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
+import time
+# 2. Định nghĩa model_id từ Hugging Face
+model_id = "phongnp2010/chatbot-llama-7b-chathf"
+# 3. Load Tokenizer và Model đã merge từ Hugging Face
+tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
+tokenizer.pad_token = tokenizer.eos_token
+tokenizer.padding_side = "right"
+# 4. Load mô hình đã merge (không cần phải load base model và merge lại)
+model = AutoModelForCausalLM.from_pretrained(
+    model_id,
+    low_cpu_mem_usage=True,
+    return_dict=True,
+    torch_dtype=torch.float16,  # Sử dụng FP16 nếu bạn muốn tiết kiệm bộ nhớ GPU
+    device_map="auto",  # Cấu hình auto device map nếu sử dụng nhiều GPU hoặc chuyển sang CPU
+)
+# 5. Khởi tạo Inference Pipeline
+pipe = pipeline(task="text-generation", model=model, tokenizer=tokenizer, max_length=2048)
+# 6. Thực hiện inference
+while True:
+    prompt = input("Type your question (or '0' to exit): ")
+    if prompt != '0':
+        start = time.time()
+        # Chạy inference
+        result = pipe(f"<s>[INST] {prompt} [/INST]")  # Cách bạn chuẩn bị input (bằng cách sử dụng [INST] tag)
+        generated_text = result[0]['generated_text']
+        # Trích xuất câu trả lời từ text generated
+        answer = generated_text.split('[/INST]')[1].split('</s>')[0].strip()
+        print(f'Answer: {answer}')
+        print(f'Time: {time.time() - start} seconds')
+    else:
+        print('Thank you!')
+        break