decode
#1
by
hattran
- opened
mọi người có ai bị trường hợp này không?
@hattran
bạn đừng chỉnh EOS token của tokenzer về <pad>
nhé. EOS token của model là <|im_end|>
mình không chỉnh gì trong hàm generate ấy
mình không chỉnh gì trong hàm generate ấy
@hattran nếu được bạn cho mình xin code nhé!
@gingdev bạn set eos_token trong hàm generate='' thử xem được không :D
mình có đưa vào một promt
<|im_start|>system
Bạn là một trợ lí AI hữu ích. Hãy trả lời người dùng một cách chính xác.
<|im_end|>
<|im_start|>user
Đâu là thủ đô Việt Nam?<|im_end|>
<|im_start|>assistant
và văn bản tạo ra Thủ đô của Việt Nam là Hà Nội.<pad> <pad> <pad> ...
, mình set eos_token_id=tokenizer.pad_token_id
và nó đã dừng khi gặp <pad>
. Tuy vậy nhưng mình nghĩ câu chính xác nên kết thúc bằng <|im_end|>
:D, bác có ý tưởng nào không?
có thể do lúc train mình quên set eos_token = <im_end>
, mình sẽ provide bản fix sớm nhé :3