Add files

Browse files

Files changed (5) hide show

README.md +68 -0
all_results.json +8 -0
pytorch_model.bin +1 -1
train_results.json +8 -0
trainer_state.json +398 -3

README.md ADDED Viewed

	@@ -0,0 +1,68 @@

+---
+tags:
+- generated_from_trainer
+model-index:
+- name: out
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# out
+This model is a fine-tuned version of [/1TB_SSD/SB_AI/out_orig2](https://huggingface.co//1TB_SSD/SB_AI/out_orig2) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.0619
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 1
+- eval_batch_size: 1
+- seed: 3784447887
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 1
+### Training results
+| Training Loss | Epoch | Step    | Validation Loss |
+|:-------------:|:-----:|:-------:|:---------------:|
+| 0.0867        | 0.07  | 75000   | 0.0742          |
+| 0.0783        | 0.13  | 150000  | 0.0695          |
+| 0.0719        | 0.2   | 225000  | 0.0732          |
+| 0.0743        | 0.27  | 300000  | 0.0663          |
+| 0.0659        | 0.34  | 375000  | 0.0686          |
+| 0.0664        | 0.4   | 450000  | 0.0683          |
+| 0.0637        | 0.47  | 525000  | 0.0680          |
+| 0.0655        | 0.54  | 600000  | 0.0641          |
+| 0.0676        | 0.6   | 675000  | 0.0644          |
+| 0.0704        | 0.67  | 750000  | 0.0645          |
+| 0.0687        | 0.74  | 825000  | 0.0610          |
+| 0.059         | 0.81  | 900000  | 0.0652          |
+| 0.0666        | 0.87  | 975000  | 0.0619          |
+| 0.0624        | 0.94  | 1050000 | 0.0619          |
+### Framework versions
+- Transformers 4.15.0
+- Pytorch 1.10.1+cu113
+- Datasets 1.17.0
+- Tokenizers 0.10.3

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.0695511792498969,
+    "train_runtime": 176193.0564,
+    "train_samples": 1116594,
+    "train_samples_per_second": 6.337,
+    "train_steps_per_second": 6.337
+}

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5c1b451d6694625a36d46089d5fa956d347f8d1ddb5df73a3d4f6666292c5ab
 size 891703231

 version https://git-lfs.github.com/spec/v1
+oid sha256:3fb22fb40259e3ef7d648c85bc99a714855c5d5d75c32dd548bebf38df101aea
 size 891703231

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.0695511792498969,
+    "train_runtime": 176193.0564,
+    "train_samples": 1116594,
+    "train_samples_per_second": 6.337,
+    "train_steps_per_second": 6.337
+}

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7343761474627304,
-  "global_step": 820000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1070,11 +1070,406 @@
       "learning_rate": 1.328119262686348e-05,
       "loss": 0.0676,
       "step": 820000
     }
   ],
   "max_steps": 1116594,
   "num_train_epochs": 1,
-  "total_flos": 2.4646180007983104e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "global_step": 1116594,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.328119262686348e-05,
       "loss": 0.0676,
       "step": 820000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.305729745995411e-05,
+      "loss": 0.0687,
+      "step": 825000
+    },
+    {
+      "epoch": 0.74,
+      "eval_loss": 0.061014574021101,
+      "eval_runtime": 1687.4471,
+      "eval_samples_per_second": 36.761,
+      "eval_steps_per_second": 36.761,
+      "step": 825000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.2833402293044742e-05,
+      "loss": 0.0679,
+      "step": 830000
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1.2609507126135372e-05,
+      "loss": 0.0683,
+      "step": 835000
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1.2385611959226004e-05,
+      "loss": 0.0702,
+      "step": 840000
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1.2161716792316636e-05,
+      "loss": 0.0652,
+      "step": 845000
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1.1937821625407265e-05,
+      "loss": 0.0636,
+      "step": 850000
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 1.1713926458497897e-05,
+      "loss": 0.0637,
+      "step": 855000
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 1.1490031291588529e-05,
+      "loss": 0.0628,
+      "step": 860000
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 1.126613612467916e-05,
+      "loss": 0.0701,
+      "step": 865000
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1.104224095776979e-05,
+      "loss": 0.0663,
+      "step": 870000
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1.081834579086042e-05,
+      "loss": 0.0686,
+      "step": 875000
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1.0594450623951052e-05,
+      "loss": 0.0655,
+      "step": 880000
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1.0370555457041682e-05,
+      "loss": 0.0622,
+      "step": 885000
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.0146660290132313e-05,
+      "loss": 0.0585,
+      "step": 890000
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 9.922765123222945e-06,
+      "loss": 0.0658,
+      "step": 895000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.698869956313575e-06,
+      "loss": 0.059,
+      "step": 900000
+    },
+    {
+      "epoch": 0.81,
+      "eval_loss": 0.06522925943136215,
+      "eval_runtime": 1686.0104,
+      "eval_samples_per_second": 36.793,
+      "eval_steps_per_second": 36.793,
+      "step": 900000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.474974789404206e-06,
+      "loss": 0.0624,
+      "step": 905000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.251079622494838e-06,
+      "loss": 0.0722,
+      "step": 910000
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.02718445558547e-06,
+      "loss": 0.0599,
+      "step": 915000
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 8.803289288676098e-06,
+      "loss": 0.0699,
+      "step": 920000
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.57939412176673e-06,
+      "loss": 0.0606,
+      "step": 925000
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.355498954857361e-06,
+      "loss": 0.0696,
+      "step": 930000
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.131603787947991e-06,
+      "loss": 0.0626,
+      "step": 935000
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 7.907708621038623e-06,
+      "loss": 0.0658,
+      "step": 940000
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.683813454129254e-06,
+      "loss": 0.0641,
+      "step": 945000
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.459918287219884e-06,
+      "loss": 0.0659,
+      "step": 950000
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.236023120310516e-06,
+      "loss": 0.062,
+      "step": 955000
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.012127953401147e-06,
+      "loss": 0.0658,
+      "step": 960000
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 6.788232786491779e-06,
+      "loss": 0.0624,
+      "step": 965000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.564337619582408e-06,
+      "loss": 0.0619,
+      "step": 970000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.34044245267304e-06,
+      "loss": 0.0666,
+      "step": 975000
+    },
+    {
+      "epoch": 0.87,
+      "eval_loss": 0.061893004924058914,
+      "eval_runtime": 1682.9916,
+      "eval_samples_per_second": 36.859,
+      "eval_steps_per_second": 36.859,
+      "step": 975000
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.116547285763671e-06,
+      "loss": 0.0665,
+      "step": 980000
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 5.892652118854302e-06,
+      "loss": 0.0687,
+      "step": 985000
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.668756951944933e-06,
+      "loss": 0.0656,
+      "step": 990000
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.444861785035564e-06,
+      "loss": 0.0678,
+      "step": 995000
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.220966618126195e-06,
+      "loss": 0.0645,
+      "step": 1000000
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.997071451216825e-06,
+      "loss": 0.0661,
+      "step": 1005000
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.773176284307457e-06,
+      "loss": 0.0672,
+      "step": 1010000
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.5492811173980875e-06,
+      "loss": 0.0618,
+      "step": 1015000
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.325385950488719e-06,
+      "loss": 0.064,
+      "step": 1020000
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.101490783579349e-06,
+      "loss": 0.0622,
+      "step": 1025000
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.87759561666998e-06,
+      "loss": 0.0673,
+      "step": 1030000
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.6537004497606115e-06,
+      "loss": 0.0643,
+      "step": 1035000
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.4298052828512423e-06,
+      "loss": 0.0688,
+      "step": 1040000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.2059101159418736e-06,
+      "loss": 0.0642,
+      "step": 1045000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.9820149490325044e-06,
+      "loss": 0.0624,
+      "step": 1050000
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 0.061922721564769745,
+      "eval_runtime": 1682.5086,
+      "eval_samples_per_second": 36.869,
+      "eval_steps_per_second": 36.869,
+      "step": 1050000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.758119782123135e-06,
+      "loss": 0.0636,
+      "step": 1055000
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.5342246152137664e-06,
+      "loss": 0.0636,
+      "step": 1060000
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.310329448304397e-06,
+      "loss": 0.0669,
+      "step": 1065000
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.086434281395028e-06,
+      "loss": 0.0608,
+      "step": 1070000
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.862539114485659e-06,
+      "loss": 0.0604,
+      "step": 1075000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.63864394757629e-06,
+      "loss": 0.0656,
+      "step": 1080000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.4147487806669212e-06,
+      "loss": 0.0693,
+      "step": 1085000
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.190853613757552e-06,
+      "loss": 0.0604,
+      "step": 1090000
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 9.66958446848183e-07,
+      "loss": 0.0665,
+      "step": 1095000
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 7.43063279938814e-07,
+      "loss": 0.0642,
+      "step": 1100000
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 5.191681130294449e-07,
+      "loss": 0.067,
+      "step": 1105000
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 2.952729461200759e-07,
+      "loss": 0.0638,
+      "step": 1110000
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 7.137777921070686e-08,
+      "loss": 0.0596,
+      "step": 1115000
+    },
+    {
+      "epoch": 1.0,
+      "step": 1116594,
+      "total_flos": 3.3533589180916224e+17,
+      "train_loss": 0.0695511792498969,
+      "train_runtime": 176193.0564,
+      "train_samples_per_second": 6.337,
+      "train_steps_per_second": 6.337
     }
   ],
   "max_steps": 1116594,
   "num_train_epochs": 1,
+  "total_flos": 3.3533589180916224e+17,
   "trial_name": null,
   "trial_params": null
 }