Upload 10 files
Browse files- README.md +93 -0
- added_tokens.json +1 -0
- config.json +38 -0
- flax_model.msgpack +3 -0
- merges.txt +0 -0
- pytorch_model.bin +3 -0
- special_tokens_map.json +1 -0
- tokenizer.json +0 -0
- tokenizer_config.json +1 -0
- vocab.json +0 -0
README.md
ADDED
@@ -0,0 +1,93 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
language: vi
|
3 |
+
tags:
|
4 |
+
- vi
|
5 |
+
- vietnamese
|
6 |
+
- gpt2
|
7 |
+
- text-generation
|
8 |
+
- lm
|
9 |
+
- nlp
|
10 |
+
datasets:
|
11 |
+
- oscar
|
12 |
+
widget:
|
13 |
+
- text: "Việt Nam là quốc gia có"
|
14 |
+
---
|
15 |
+
|
16 |
+
# GPT-2
|
17 |
+
|
18 |
+
Pretrained gpt model on Vietnamese language using a causal language modeling (CLM) objective. It was introduced in
|
19 |
+
[this paper](https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf)
|
20 |
+
and first released at [this page](https://openai.com/blog/better-language-models/).
|
21 |
+
|
22 |
+
# How to use the model
|
23 |
+
|
24 |
+
~~~~
|
25 |
+
import torch
|
26 |
+
from transformers import GPT2Tokenizer, GPT2LMHeadModel
|
27 |
+
|
28 |
+
tokenizer = GPT2Tokenizer.from_pretrained('NlpHUST/gpt2-vietnamese')
|
29 |
+
model = GPT2LMHeadModel.from_pretrained('NlpHUST/gpt2-vietnamese')
|
30 |
+
|
31 |
+
text = "Việt Nam là quốc gia có"
|
32 |
+
input_ids = tokenizer.encode(text, return_tensors='pt')
|
33 |
+
max_length = 100
|
34 |
+
|
35 |
+
sample_outputs = model.generate(input_ids,pad_token_id=tokenizer.eos_token_id,
|
36 |
+
do_sample=True,
|
37 |
+
max_length=max_length,
|
38 |
+
min_length=max_length,
|
39 |
+
top_k=40,
|
40 |
+
num_beams=5,
|
41 |
+
early_stopping=True,
|
42 |
+
no_repeat_ngram_size=2,
|
43 |
+
num_return_sequences=3)
|
44 |
+
|
45 |
+
for i, sample_output in enumerate(sample_outputs):
|
46 |
+
print(">> Generated text {}\n\n{}".format(i+1, tokenizer.decode(sample_output.tolist())))
|
47 |
+
print('\n---')
|
48 |
+
~~~~
|
49 |
+
|
50 |
+
```bash
|
51 |
+
>> Generated text 1
|
52 |
+
|
53 |
+
Việt Nam là quốc gia có nền kinh tế hàng đầu thế giới về sản xuất, chế biến và tiêu thụ các sản phẩm nông sản, thủy sản. Tuy nhiên, trong những năm gần đây, nông nghiệp Việt Nam đang phải đối mặt với nhiều khó khăn, thách thức, đặc biệt là những tác động tiêu cực của biến đổi khí hậu.
|
54 |
+
Theo số liệu của Tổng cục Thống kê, tính đến cuối năm 2015, tổng diện tích gieo trồng, sản lượng lương thực, thực phẩm cả
|
55 |
+
|
56 |
+
---
|
57 |
+
>> Generated text 2
|
58 |
+
|
59 |
+
Việt Nam là quốc gia có nền kinh tế thị trường định hướng xã hội chủ nghĩa, có vai trò rất quan trọng đối với sự phát triển bền vững của đất nước. Do đó, trong quá trình đổi mới và hội nhập quốc tế, Việt Nam đã và đang phải đối mặt với không ít khó khăn, thách thức, đòi hỏi phải có những chủ trương, chính sách đúng đắn, kịp thời, phù hợp với tình hình thực tế. Để thực hiện thắng lợi mục tiêu, nhiệm vụ
|
60 |
+
|
61 |
+
---
|
62 |
+
>> Generated text 3
|
63 |
+
|
64 |
+
Việt Nam là quốc gia có nền kinh tế thị trường phát triển theo định hướng xã hội chủ nghĩa. Trong quá trình đổi mới và hội nhập quốc tế hiện nay, Việt Nam đang phải đối mặt với nhiều khó khăn, thách thức, đòi hỏi phải có những giải pháp đồng bộ, hiệu quả và phù hợp với tình hình thực tế của đất nước. Để thực hiện thắng lợi mục tiêu, nhiệm vụ mà Nghị quyết Đại hội XI của Đảng đề ra, Đảng và Nhà nước đã ban hành
|
65 |
+
|
66 |
+
---
|
67 |
+
```
|
68 |
+
# Model architecture
|
69 |
+
A 12-layer, 768-hidden-size transformer-based language model.
|
70 |
+
|
71 |
+
# Training
|
72 |
+
The model was trained on Vietnamese Oscar dataset (32 GB) to optimize a traditional language modelling objective on v3-8 TPU for around 6 days. It reaches around 13.4 perplexity on a chosen validation set from Oscar.
|
73 |
+
|
74 |
+
### GPT-2 Finetuning
|
75 |
+
|
76 |
+
The following example fine-tunes GPT-2 on WikiText-2. We're using the raw WikiText-2.
|
77 |
+
|
78 |
+
The script [here](https://github.com/huggingface/transformers/blob/main/examples/pytorch/language-modeling/run_clm.py) .
|
79 |
+
|
80 |
+
```bash
|
81 |
+
python run_clm.py \
|
82 |
+
--model_name_or_path NlpHUST/gpt2-vietnamese \
|
83 |
+
--dataset_name wikitext \
|
84 |
+
--dataset_config_name wikitext-2-raw-v1 \
|
85 |
+
--per_device_train_batch_size 8 \
|
86 |
+
--per_device_eval_batch_size 8 \
|
87 |
+
--do_train \
|
88 |
+
--do_eval \
|
89 |
+
--output_dir /tmp/test-clm
|
90 |
+
```
|
91 |
+
|
92 |
+
### Contact information
|
93 |
+
For personal communication related to this project, please contact Nha Nguyen Van (nha282@gmail.com).
|
added_tokens.json
ADDED
@@ -0,0 +1 @@
|
|
|
|
|
1 |
+
{"<|endoftext|>": 50257}
|
config.json
ADDED
@@ -0,0 +1,38 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "./vi-gpt2",
|
3 |
+
"activation_function": "gelu_new",
|
4 |
+
"architectures": [
|
5 |
+
"GPT2LMHeadModel"
|
6 |
+
],
|
7 |
+
"attn_pdrop": 0.0,
|
8 |
+
"bos_token_id": 50256,
|
9 |
+
"embd_pdrop": 0.0,
|
10 |
+
"eos_token_id": 50256,
|
11 |
+
"initializer_range": 0.02,
|
12 |
+
"layer_norm_epsilon": 1e-05,
|
13 |
+
"model_type": "gpt2",
|
14 |
+
"n_ctx": 1024,
|
15 |
+
"n_embd": 768,
|
16 |
+
"n_head": 12,
|
17 |
+
"n_inner": null,
|
18 |
+
"n_layer": 12,
|
19 |
+
"n_positions": 1024,
|
20 |
+
"reorder_and_upcast_attn": false,
|
21 |
+
"resid_pdrop": 0.0,
|
22 |
+
"scale_attn_by_inverse_layer_idx": false,
|
23 |
+
"scale_attn_weights": true,
|
24 |
+
"summary_activation": null,
|
25 |
+
"summary_first_dropout": 0.1,
|
26 |
+
"summary_proj_to_labels": true,
|
27 |
+
"summary_type": "cls_index",
|
28 |
+
"summary_use_proj": true,
|
29 |
+
"task_specific_params": {
|
30 |
+
"text-generation": {
|
31 |
+
"do_sample": true,
|
32 |
+
"max_length": 50
|
33 |
+
}
|
34 |
+
},
|
35 |
+
"transformers_version": "4.19.2",
|
36 |
+
"use_cache": true,
|
37 |
+
"vocab_size": 50257
|
38 |
+
}
|
flax_model.msgpack
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:a803f569355c99e019f11509e7321460962d05bdbf383161b6b0ca1bbc338925
|
3 |
+
size 497764120
|
merges.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|
pytorch_model.bin
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:7fd3d3e1c4dc219a7010218b2b7699d324e3721315fc4ef7e014a4e8092f71ba
|
3 |
+
size 510397801
|
special_tokens_map.json
ADDED
@@ -0,0 +1 @@
|
|
|
|
|
1 |
+
{"bos_token": "<|endoftext|>", "eos_token": "<|endoftext|>", "unk_token": "<|endoftext|>"}
|
tokenizer.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|
tokenizer_config.json
ADDED
@@ -0,0 +1 @@
|
|
|
|
|
1 |
+
{"unk_token": "<|endoftext|>", "bos_token": "<|endoftext|>", "eos_token": "<|endoftext|>", "add_prefix_space": false, "special_tokens_map_file": null, "name_or_path": "./vi-gpt2", "tokenizer_class": "GPT2Tokenizer"}
|
vocab.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|