Pclanglais
commited on
Commit
•
0b60c78
1
Parent(s):
6b608bb
Update finetuning.py
Browse files- finetuning.py +7 -7
finetuning.py
CHANGED
@@ -21,23 +21,23 @@ from peft import LoraConfig, PeftModel, get_peft_model
|
|
21 |
from trl import SFTTrainer
|
22 |
|
23 |
# Le modèle que nous allons utiliser dans le Hugging Face hub
|
24 |
-
model_name = "mistral-hermes"
|
25 |
|
26 |
torch.cuda.empty_cache()
|
27 |
|
28 |
#project_directory = "~/finetuning/sigmund-spplus"
|
29 |
|
30 |
# Le nom du nouveau modèle
|
31 |
-
new_model_name = "mistral-mfs-reference"
|
32 |
|
33 |
# The output directory where the model predictions and checkpoints will be written
|
34 |
-
output_dir = "./mistral-mfs-reference"
|
35 |
|
36 |
# Tensorboard logs
|
37 |
-
tb_log_dir = "./mistral-mfs-reference/logs"
|
38 |
|
39 |
# Nombre de steps : à ajuster selon la taille du corpus et le nombre d'epochs à faire tourner.
|
40 |
-
max_steps =
|
41 |
|
42 |
# Les paramètres importants !!
|
43 |
per_device_train_batch_size = 4 #Nombre d'exemples envoyés par batch. En mettre plus pour aller plus vite.
|
@@ -117,7 +117,7 @@ tokenizer = AutoTokenizer.from_pretrained(model_name)
|
|
117 |
|
118 |
# This is the fix for fp16 training
|
119 |
#tokenizer.padding_side = "right"
|
120 |
-
|
121 |
|
122 |
#3. Préparation de la base de données
|
123 |
|
@@ -134,7 +134,7 @@ def template_dataset(sample):
|
|
134 |
|
135 |
# Chargement du dataset.
|
136 |
#dataset = load_dataset("databricks/databricks-dolly-15k", split="train")
|
137 |
-
data_files = {"train": "
|
138 |
dataset = load_dataset("json", data_files=data_files, split="train")
|
139 |
|
140 |
# Shuffle the dataset
|
|
|
21 |
from trl import SFTTrainer
|
22 |
|
23 |
# Le modèle que nous allons utiliser dans le Hugging Face hub
|
24 |
+
model_name = "mistral-hermes-2.5"
|
25 |
|
26 |
torch.cuda.empty_cache()
|
27 |
|
28 |
#project_directory = "~/finetuning/sigmund-spplus"
|
29 |
|
30 |
# Le nom du nouveau modèle
|
31 |
+
new_model_name = "mistral-mfs-reference-2"
|
32 |
|
33 |
# The output directory where the model predictions and checkpoints will be written
|
34 |
+
output_dir = "./mistral-mfs-reference-2"
|
35 |
|
36 |
# Tensorboard logs
|
37 |
+
tb_log_dir = "./mistral-mfs-reference-2/logs"
|
38 |
|
39 |
# Nombre de steps : à ajuster selon la taille du corpus et le nombre d'epochs à faire tourner.
|
40 |
+
max_steps = 2000
|
41 |
|
42 |
# Les paramètres importants !!
|
43 |
per_device_train_batch_size = 4 #Nombre d'exemples envoyés par batch. En mettre plus pour aller plus vite.
|
|
|
117 |
|
118 |
# This is the fix for fp16 training
|
119 |
#tokenizer.padding_side = "right"
|
120 |
+
tokenizer.pad_token = tokenizer.eos_token
|
121 |
|
122 |
#3. Préparation de la base de données
|
123 |
|
|
|
134 |
|
135 |
# Chargement du dataset.
|
136 |
#dataset = load_dataset("databricks/databricks-dolly-15k", split="train")
|
137 |
+
data_files = {"train": "corpus_guillaume_tell_2.json"}
|
138 |
dataset = load_dataset("json", data_files=data_files, split="train")
|
139 |
|
140 |
# Shuffle the dataset
|