Xin thêm thông tin về model
#1
by
huu123
- opened
Cảm ơn nhóm đã train và chia sẻ cho cộng đồng model này,
Làm ơn cho mình xin thêm thông tin về quá trình train:
- Cái dataset book có phải cái dataset 8GB của Vietai và cái News data có phải của Binhql không?. Nếu có data mới, nhóm có thể chia sẻ không?
- Training details bao gồm learning rate, warmup, cost function, torch_dtype. Mình thấy model có dtype fp16, liệu nhóm có thể chia sẻ model fp32 được không? (mình muốn pretrain tiếp với cái data khác)
- Làm ơn chia sẻ cái sơ đồ loss. Trong quá trình train nhóm bạn có gặp trường hợp loss spike up với fp16 không.
- Làm ơn chia sẻ và so sánh chi phí giữa Habana Gaudi2, Google TPU và A100. Tại sao nhóm lại lựa chọn những hardware như vậy cho từng task, khó khăn của nhóm là gì?
Mình cảm ơn
- Data books là một bản private được đóng góp bởi một thành viên trong nhóm, bọn mình đang xem xét về vấn đề release do có khả năng có bản quyền của các bên liên quan. Data news là một bản extended của binhvq, data news này full bộ là 280GB.
- Lr: 1e-6
Warmup steps: 100
Scheduler: Cosine
Type: BF16 - Pretrain của mình nhiều stage, có gì mình sẽ collect và share sau trong model card, nhưng loss thì không spiking quá nhiều.
- Việc lựa chọn Hardware là do nhóm được hỗ trợ về GPU nên lúc nào được cho cái gì thì phải dùng cái đó. Mình thấy nếu giá tiền thuê Cloud và performance thì Habana ổn nhất nếu so price/performance. Còn nhanh nhất sẽ là TPU nhưng sẽ phải custom code khá nhiều.
Đối với training thì mình sử dụ framework axolotl có khá nhiều trick để save cost (sample packing, flash attention, etc.)
Cảm ơn bạn đã dành thời gian,
Hiện nay mình có 12000 luận án tiến sỹ tiếng việt, khoảng 60000 báo khoa học tiếng việt và 1.3 triệu bản án do mình tự thu thập và OCR ra,
Ngoài ra mình cũng đang thu thập data các nguồn khác nhau,
Nếu bên bạn cần mình có thể chia sẻ data và scripts của mình, mình cũng không up lên mạng vì sợ bản quyền.
Mình thấy có rất nhiều bộ sách trên mạng mà chưa biết deduplicate thế nào cho nhanh.
Nếu được chúng ta có thể chia sẻ data không?
Mình cảm ơn
@huu123 interesting! bạn gửi thêm thông tin chi tiết đến email qnguyen3@vilm.org giúp mình nhé, mình sẽ trao đổi kĩ hơn!
Mình đã gửi thư