Edit model card

Các kỹ thuật cắt tỉa vocab (cấm nói các ngôn ngữ không mong muốn), ví dụ khi dịch Anh Việt model hay chèn thêm từ tiếng Trung.

mixed data training: kết hợp cải thiện tiếng Việt, cải thiện song ngữ Anh <=> Việt, và QA/RAG trong một lần huấn luyện. (xem data/final_finetune1.jsonl.xz)

Gần 1G text, 5 epochs, sẽ release toàn bộ epoch để test riêng và merge nếu muốn.

image/png

https://wandb.ai/tiendung/huggingface/runs/rmp30c82

Code và cách làm https://github.com/symato/physics_of_llms

Thảo luận ở https://discord.com/channels/1070551652341403769/1291645458841600051

python3 model_chat.py
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference API
Unable to determine this model's library. Check the docs .

Model tree for Symato/Qwen2.5-7B-Instruct__trimm_vocab

Base model

Qwen/Qwen2.5-7B
Finetuned
(48)
this model

Collection including Symato/Qwen2.5-7B-Instruct__trimm_vocab