Upload 12 files

Browse files

Files changed (9) hide show

adapter_config.json +21 -11
adapter_model.safetensors +2 -2
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
tokenizer.json +1 -1
tokenizer_config.json +1 -1
trainer_state.json +106 -53
training_args.bin +2 -2

adapter_config.json CHANGED Viewed

@@ -1,17 +1,27 @@
 {
   "auto_mapping": null,
-  "base_model_name_or_path": null,
   "inference_mode": true,
-  "num_attention_heads": 12,
-  "num_layers": 12,
-  "num_transformer_submodules": 1,
-  "num_virtual_tokens": 20,
-  "peft_type": "PROMPT_TUNING",
-  "prompt_tuning_init": "TEXT",
-  "prompt_tuning_init_text": "History : {user_pusrchases} Candidates for recommendations {candidates} Reccomendadion: {output predict}",
   "revision": null,
   "task_type": "SEQ_2_SEQ_LM",
-  "token_dim": 768,
-  "tokenizer_kwargs": null,
-  "tokenizer_name_or_path": "t5-base"
 }

 {
+  "alpha_pattern": {},
   "auto_mapping": null,
+  "base_model_name_or_path": "t5-base",
+  "bias": "none",
+  "fan_in_fan_out": false,
   "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
   "revision": null,
+  "target_modules": [
+    "q",
+    "v"
+  ],
   "task_type": "SEQ_2_SEQ_LM",
+  "use_rslora": false
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43866d6957f976b1e840afcacd36624c650893178c4087ea720677759d013bcd
-size 61560

 version https://git-lfs.github.com/spec/v1
+oid sha256:53c3f097205552429368c45aaf8a706fcc25c4e8a1f56022779394c0d5584342
+size 7098016

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:927c69c73471df9cb2149c072d27a940cee974c1f4a98f41d4f25577a2ad3bc2
-size 125540

 version https://git-lfs.github.com/spec/v1
+oid sha256:66310fe24e2c2135ec5682f73bf2af1b494d686dded923489301df77b614ceea
+size 14241722

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8aae7ddb825e2108f386c7feedce97a56a7a0540c59364fe9fed05f46be7c1af
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d83ebbc412940984c9cce0d8d151956673a404462d05157cc5a5af4b26ece0e8
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2999ba43e6e7aa2277ff0ab7ea263cb4d77e5ea9d4f3e2d843f093f3849599d6
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e803851e932423d43f5c60c4ef2a6a6cd13c22b0ec6bc5cb6653edd74b0a5e2
 size 1000

tokenizer.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "version": "1.0",
   "truncation": {
     "direction": "Right",
-    "max_length": 3,
     "strategy": "LongestFirst",
     "stride": 0
   },

   "version": "1.0",
   "truncation": {
     "direction": "Right",
+    "max_length": 5,
     "strategy": "LongestFirst",
     "stride": 0
   },

tokenizer_config.json CHANGED Viewed

@@ -930,7 +930,7 @@
   "clean_up_tokenization_spaces": true,
   "eos_token": "</s>",
   "extra_ids": 100,
-  "model_max_length": 512,
   "pad_token": "<pad>",
   "tokenizer_class": "T5Tokenizer",
   "unk_token": "<unk>"

   "clean_up_tokenization_spaces": true,
   "eos_token": "</s>",
   "extra_ids": 100,
+  "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
   "tokenizer_class": "T5Tokenizer",
   "unk_token": "<unk>"

trainer_state.json CHANGED Viewed

@@ -1,96 +1,149 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.6,
   "eval_steps": 500,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.6,
-      "learning_rate": 0.0009337068160597573,
-      "loss": 11.895,
       "step": 500
     },
     {
       "epoch": 1.0,
-      "eval_gen_len": 19.0,
-      "eval_loss": 12.336615562438965,
-      "eval_rouge1": 0.14302579365079365,
-      "eval_rouge2": 0.015,
-      "eval_rougeL": 0.14075396825396827,
-      "eval_rougeLsum": 0.14339285714285716,
-      "eval_runtime": 496.3231,
-      "eval_samples_per_second": 8.059,
-      "eval_steps_per_second": 1.007,
-      "step": 833
     },
     {
-      "epoch": 1.2,
-      "learning_rate": 0.0008670134720554889,
-      "loss": 11.6266,
       "step": 1000
     },
     {
-      "epoch": 1.8,
-      "learning_rate": 0.0008003201280512204,
-      "loss": 10.0972,
       "step": 1500
     },
     {
       "epoch": 2.0,
-      "eval_gen_len": 3.70375,
-      "eval_loss": 8.050804138183594,
-      "eval_rouge1": 0.1910912698412698,
-      "eval_rouge2": 0.0,
-      "eval_rougeL": 0.18945436507936506,
-      "eval_rougeLsum": 0.19415674603174599,
-      "eval_runtime": 427.3914,
-      "eval_samples_per_second": 9.359,
-      "eval_steps_per_second": 1.17,
-      "step": 1666
     },
     {
-      "epoch": 2.4,
-      "learning_rate": 0.0007336267840469522,
-      "loss": 7.7492,
       "step": 2000
     },
     {
       "epoch": 3.0,
-      "learning_rate": 0.0006669334400426837,
-      "loss": 7.4823,
-      "step": 2500
     },
     {
-      "epoch": 3.0,
-      "eval_gen_len": 2.8205,
-      "eval_loss": 8.026236534118652,
-      "eval_rouge1": 0.14571428571428569,
-      "eval_rouge2": 0.0,
-      "eval_rougeL": 0.1469047619047619,
-      "eval_rougeLsum": 0.14785714285714283,
-      "eval_runtime": 385.1352,
-      "eval_samples_per_second": 10.386,
-      "eval_steps_per_second": 1.298,
       "step": 2500
     },
     {
-      "epoch": 3.6,
-      "learning_rate": 0.0006002400960384153,
-      "loss": 7.4336,
       "step": 3000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 5831,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 7,
   "save_steps": 500,
-  "total_flos": 6.6354520522752e+16,
-  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.0,
   "eval_steps": 500,
+  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.67,
+      "grad_norm": 10.763190269470215,
+      "learning_rate": 3.335112059765208e-05,
+      "loss": 1.5382,
       "step": 500
     },
     {
       "epoch": 1.0,
+      "eval_gen_len": 4.8812,
+      "eval_loss": 1.1502126455307007,
+      "eval_rouge1": 60.247880952380996,
+      "eval_rouge2": 42.58590476190485,
+      "eval_rougeL": 60.23339682539681,
+      "eval_rougeLsum": 60.23446031746034,
+      "eval_runtime": 1016.7664,
+      "eval_samples_per_second": 4.918,
+      "eval_steps_per_second": 1.229,
+      "step": 750
     },
     {
+      "epoch": 1.33,
+      "grad_norm": 4.3876237869262695,
+      "learning_rate": 6.670224119530416e-06,
+      "loss": 1.2867,
       "step": 1000
     },
     {
+      "epoch": 2.0,
+      "grad_norm": 5.068687915802002,
+      "learning_rate": 0.0,
+      "loss": 1.1906,
       "step": 1500
     },
     {
       "epoch": 2.0,
+      "eval_gen_len": 4.9042,
+      "eval_loss": 1.1154725551605225,
+      "eval_rouge1": 60.75021428571432,
+      "eval_rouge2": 43.73785714285723,
+      "eval_rougeL": 60.75853968253971,
+      "eval_rougeLsum": 60.7197619047618,
+      "eval_runtime": 1019.2932,
+      "eval_samples_per_second": 4.905,
+      "eval_steps_per_second": 1.226,
+      "step": 1500
     },
     {
+      "epoch": 2.67,
+      "grad_norm": 6.656228065490723,
+      "learning_rate": 0.0,
+      "loss": 1.2365,
       "step": 2000
     },
     {
       "epoch": 3.0,
+      "eval_gen_len": 4.9042,
+      "eval_loss": 1.1154857873916626,
+      "eval_rouge1": 60.75021428571432,
+      "eval_rouge2": 43.73785714285723,
+      "eval_rougeL": 60.75853968253971,
+      "eval_rougeLsum": 60.7197619047618,
+      "eval_runtime": 1019.9367,
+      "eval_samples_per_second": 4.902,
+      "eval_steps_per_second": 1.226,
+      "step": 2250
     },
     {
+      "epoch": 3.33,
+      "grad_norm": 8.076435089111328,
+      "learning_rate": 0.0,
+      "loss": 1.2041,
       "step": 2500
     },
     {
+      "epoch": 4.0,
+      "grad_norm": 3.218427896499634,
+      "learning_rate": 0.0,
+      "loss": 1.1962,
       "step": 3000
+    },
+    {
+      "epoch": 4.0,
+      "eval_gen_len": 4.9042,
+      "eval_loss": 1.1154814958572388,
+      "eval_rouge1": 60.75021428571432,
+      "eval_rouge2": 43.73785714285723,
+      "eval_rougeL": 60.75853968253971,
+      "eval_rougeLsum": 60.7197619047618,
+      "eval_runtime": 1019.891,
+      "eval_samples_per_second": 4.902,
+      "eval_steps_per_second": 1.226,
+      "step": 3000
+    },
+    {
+      "epoch": 4.67,
+      "grad_norm": 3.1441781520843506,
+      "learning_rate": 0.0,
+      "loss": 1.2323,
+      "step": 3500
+    },
+    {
+      "epoch": 5.0,
+      "eval_gen_len": 4.9042,
+      "eval_loss": 1.1154634952545166,
+      "eval_rouge1": 60.75021428571432,
+      "eval_rouge2": 43.73785714285723,
+      "eval_rougeL": 60.75853968253971,
+      "eval_rougeLsum": 60.7197619047618,
+      "eval_runtime": 1016.3103,
+      "eval_samples_per_second": 4.92,
+      "eval_steps_per_second": 1.23,
+      "step": 3750
+    },
+    {
+      "epoch": 5.33,
+      "grad_norm": 4.466716766357422,
+      "learning_rate": 0.0,
+      "loss": 1.2174,
+      "step": 4000
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 5.4029083251953125,
+      "learning_rate": 0.0,
+      "loss": 1.1927,
+      "step": 4500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 5250,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 7,
   "save_steps": 500,
+  "total_flos": 1.1059086753792e+16,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ced3c5c6321ce7569e9d56970213deab34781599a975056366d424ad8d88f948
-size 4856

 version https://git-lfs.github.com/spec/v1
+oid sha256:46df985f32c9133404178778d30698cb855d173a08623ee3e2588b465a4db162
+size 5048