Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +2 -2
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +68 -428
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -19,10 +19,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "dense",
     "query_key_value",
     "dense_4h_to_h",
-    "dense_h_to_4h"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "query_key_value",
     "dense_4h_to_h",
+    "dense_h_to_4h",
+    "dense"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26149c03ac38ca0744de5f731d962ba8c20df12aaf1f059141df31b63003dae7
 size 134235712

 version https://git-lfs.github.com/spec/v1
+oid sha256:479253fb407c2b773aa0e4708b46fb1b01738cf207a50c9732ee33cfcb20e962
 size 134235712

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3aa8e3c073cb2bd0c53f3dabed66d7fbd57b30558341b3933a8685df94cc4903
 size 268514874

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6d2a29607b68480488d20bc0ebae500791673df1131ed8ca6b8ed447c29c3c6
 size 268514874

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b92b6afc22aa3d8e3b84032cd942b44e926135489b08fc919c11ca57c0acefe2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6723a233677874772314ee161275d22ba0b66952553e0d4e124483f43b2dc4f0
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b64e03a349d65a4a265ddcde43b6866f14518090a6d33cf547d68471d9df8eba
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:824a429c5f95423b97fd2ff7dc1e1dffcd96691286babb37392f00bfcecaeb1b
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.976,
   "eval_steps": 500,
-  "global_step": 186,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,568 +11,208 @@
     {
       "epoch": 0.03,
       "learning_rate": 0.0002,
-      "loss": 2.0276,
       "step": 2
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.0002,
-      "loss": 1.8115,
       "step": 4
     },
     {
-      "epoch": 0.1,
       "learning_rate": 0.0002,
-      "loss": 1.7782,
       "step": 6
     },
     {
-      "epoch": 0.13,
       "learning_rate": 0.0002,
-      "loss": 1.5044,
       "step": 8
     },
     {
-      "epoch": 0.16,
       "learning_rate": 0.0002,
-      "loss": 1.5173,
       "step": 10
     },
     {
-      "epoch": 0.19,
       "learning_rate": 0.0002,
-      "loss": 1.941,
       "step": 12
     },
     {
-      "epoch": 0.22,
       "learning_rate": 0.0002,
-      "loss": 2.1896,
       "step": 14
     },
     {
-      "epoch": 0.26,
       "learning_rate": 0.0002,
-      "loss": 2.4559,
       "step": 16
     },
     {
-      "epoch": 0.29,
       "learning_rate": 0.0002,
-      "loss": 1.7852,
       "step": 18
     },
     {
-      "epoch": 0.32,
       "learning_rate": 0.0002,
-      "loss": 1.6024,
       "step": 20
     },
     {
-      "epoch": 0.35,
       "learning_rate": 0.0002,
-      "loss": 1.6719,
       "step": 22
     },
     {
-      "epoch": 0.38,
       "learning_rate": 0.0002,
-      "loss": 1.4681,
       "step": 24
     },
     {
-      "epoch": 0.42,
       "learning_rate": 0.0002,
-      "loss": 1.581,
       "step": 26
     },
     {
-      "epoch": 0.45,
       "learning_rate": 0.0002,
-      "loss": 2.3833,
       "step": 28
     },
     {
-      "epoch": 0.48,
       "learning_rate": 0.0002,
-      "loss": 2.4453,
       "step": 30
     },
     {
-      "epoch": 0.51,
       "learning_rate": 0.0002,
-      "loss": 1.8454,
       "step": 32
     },
     {
-      "epoch": 0.54,
       "learning_rate": 0.0002,
-      "loss": 1.605,
       "step": 34
     },
     {
-      "epoch": 0.58,
       "learning_rate": 0.0002,
-      "loss": 1.7273,
       "step": 36
     },
     {
-      "epoch": 0.61,
       "learning_rate": 0.0002,
-      "loss": 1.4928,
       "step": 38
     },
     {
-      "epoch": 0.64,
       "learning_rate": 0.0002,
-      "loss": 1.3592,
       "step": 40
     },
     {
-      "epoch": 0.67,
       "learning_rate": 0.0002,
-      "loss": 1.4555,
       "step": 42
     },
     {
-      "epoch": 0.7,
       "learning_rate": 0.0002,
-      "loss": 1.7814,
       "step": 44
     },
     {
-      "epoch": 0.74,
       "learning_rate": 0.0002,
-      "loss": 1.9702,
       "step": 46
     },
     {
-      "epoch": 0.77,
       "learning_rate": 0.0002,
-      "loss": 1.7386,
       "step": 48
     },
     {
-      "epoch": 0.8,
       "learning_rate": 0.0002,
-      "loss": 1.5286,
       "step": 50
     },
     {
-      "epoch": 0.83,
       "learning_rate": 0.0002,
-      "loss": 1.4299,
       "step": 52
     },
     {
-      "epoch": 0.86,
       "learning_rate": 0.0002,
-      "loss": 1.3375,
       "step": 54
     },
     {
-      "epoch": 0.9,
       "learning_rate": 0.0002,
-      "loss": 1.3909,
       "step": 56
     },
     {
-      "epoch": 0.93,
       "learning_rate": 0.0002,
-      "loss": 1.6683,
       "step": 58
     },
     {
-      "epoch": 0.96,
       "learning_rate": 0.0002,
-      "loss": 1.8606,
       "step": 60
     },
     {
-      "epoch": 0.99,
       "learning_rate": 0.0002,
-      "loss": 1.4344,
       "step": 62
     },
     {
-      "epoch": 1.02,
       "learning_rate": 0.0002,
-      "loss": 1.9833,
       "step": 64
     },
     {
-      "epoch": 1.06,
       "learning_rate": 0.0002,
-      "loss": 1.6625,
       "step": 66
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 0.0002,
-      "loss": 1.6241,
-      "step": 68
-    },
-    {
-      "epoch": 1.12,
-      "learning_rate": 0.0002,
-      "loss": 1.2086,
-      "step": 70
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 0.0002,
-      "loss": 1.2527,
-      "step": 72
-    },
-    {
-      "epoch": 1.18,
-      "learning_rate": 0.0002,
-      "loss": 1.231,
-      "step": 74
-    },
-    {
-      "epoch": 1.22,
-      "learning_rate": 0.0002,
-      "loss": 1.6654,
-      "step": 76
-    },
-    {
-      "epoch": 1.25,
-      "learning_rate": 0.0002,
-      "loss": 1.6974,
-      "step": 78
-    },
-    {
-      "epoch": 1.28,
-      "learning_rate": 0.0002,
-      "loss": 1.7472,
-      "step": 80
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.0002,
-      "loss": 1.7494,
-      "step": 82
-    },
-    {
-      "epoch": 1.34,
-      "learning_rate": 0.0002,
-      "loss": 1.3061,
-      "step": 84
-    },
-    {
-      "epoch": 1.38,
-      "learning_rate": 0.0002,
-      "loss": 1.2908,
-      "step": 86
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 0.0002,
-      "loss": 1.2471,
-      "step": 88
-    },
-    {
-      "epoch": 1.44,
-      "learning_rate": 0.0002,
-      "loss": 1.4795,
-      "step": 90
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 0.0002,
-      "loss": 1.6725,
-      "step": 92
-    },
-    {
-      "epoch": 1.5,
-      "learning_rate": 0.0002,
-      "loss": 1.7614,
-      "step": 94
-    },
-    {
-      "epoch": 1.54,
-      "learning_rate": 0.0002,
-      "loss": 1.452,
-      "step": 96
-    },
-    {
-      "epoch": 1.57,
-      "learning_rate": 0.0002,
-      "loss": 1.52,
-      "step": 98
-    },
-    {
-      "epoch": 1.6,
-      "learning_rate": 0.0002,
-      "loss": 1.4723,
-      "step": 100
-    },
-    {
-      "epoch": 1.63,
-      "learning_rate": 0.0002,
-      "loss": 1.3179,
-      "step": 102
-    },
-    {
-      "epoch": 1.66,
-      "learning_rate": 0.0002,
-      "loss": 1.2664,
-      "step": 104
-    },
-    {
-      "epoch": 1.7,
-      "learning_rate": 0.0002,
-      "loss": 1.9138,
-      "step": 106
-    },
-    {
-      "epoch": 1.73,
-      "learning_rate": 0.0002,
-      "loss": 1.6798,
-      "step": 108
-    },
-    {
-      "epoch": 1.76,
-      "learning_rate": 0.0002,
-      "loss": 1.6716,
-      "step": 110
-    },
-    {
-      "epoch": 1.79,
-      "learning_rate": 0.0002,
-      "loss": 1.5811,
-      "step": 112
-    },
-    {
-      "epoch": 1.82,
-      "learning_rate": 0.0002,
-      "loss": 1.4369,
-      "step": 114
-    },
-    {
-      "epoch": 1.86,
-      "learning_rate": 0.0002,
-      "loss": 1.0898,
-      "step": 116
-    },
-    {
-      "epoch": 1.89,
-      "learning_rate": 0.0002,
-      "loss": 1.1264,
-      "step": 118
-    },
-    {
-      "epoch": 1.92,
-      "learning_rate": 0.0002,
-      "loss": 1.3378,
-      "step": 120
-    },
-    {
-      "epoch": 1.95,
-      "learning_rate": 0.0002,
-      "loss": 1.4177,
-      "step": 122
-    },
-    {
-      "epoch": 1.98,
-      "learning_rate": 0.0002,
-      "loss": 1.5868,
-      "step": 124
-    },
-    {
-      "epoch": 2.02,
-      "learning_rate": 0.0002,
-      "loss": 1.7034,
-      "step": 126
-    },
-    {
-      "epoch": 2.05,
-      "learning_rate": 0.0002,
-      "loss": 1.5494,
-      "step": 128
-    },
-    {
-      "epoch": 2.08,
-      "learning_rate": 0.0002,
-      "loss": 1.4917,
-      "step": 130
-    },
-    {
-      "epoch": 2.11,
-      "learning_rate": 0.0002,
-      "loss": 1.4009,
-      "step": 132
-    },
-    {
-      "epoch": 2.14,
-      "learning_rate": 0.0002,
-      "loss": 1.1435,
-      "step": 134
-    },
-    {
-      "epoch": 2.18,
-      "learning_rate": 0.0002,
-      "loss": 1.2246,
-      "step": 136
-    },
-    {
-      "epoch": 2.21,
-      "learning_rate": 0.0002,
-      "loss": 1.2992,
-      "step": 138
-    },
-    {
-      "epoch": 2.24,
-      "learning_rate": 0.0002,
-      "loss": 1.1456,
-      "step": 140
-    },
-    {
-      "epoch": 2.27,
-      "learning_rate": 0.0002,
-      "loss": 1.6365,
-      "step": 142
-    },
-    {
-      "epoch": 2.3,
-      "learning_rate": 0.0002,
-      "loss": 1.5837,
-      "step": 144
-    },
-    {
-      "epoch": 2.34,
-      "learning_rate": 0.0002,
-      "loss": 1.3038,
-      "step": 146
-    },
-    {
-      "epoch": 2.37,
-      "learning_rate": 0.0002,
-      "loss": 1.1338,
-      "step": 148
-    },
-    {
-      "epoch": 2.4,
-      "learning_rate": 0.0002,
-      "loss": 1.1426,
-      "step": 150
-    },
-    {
-      "epoch": 2.43,
-      "learning_rate": 0.0002,
-      "loss": 1.3578,
-      "step": 152
-    },
-    {
-      "epoch": 2.46,
-      "learning_rate": 0.0002,
-      "loss": 1.2643,
-      "step": 154
-    },
-    {
-      "epoch": 2.5,
-      "learning_rate": 0.0002,
-      "loss": 1.4978,
-      "step": 156
-    },
-    {
-      "epoch": 2.53,
-      "learning_rate": 0.0002,
-      "loss": 1.7535,
-      "step": 158
-    },
-    {
-      "epoch": 2.56,
-      "learning_rate": 0.0002,
-      "loss": 1.5326,
-      "step": 160
-    },
-    {
-      "epoch": 2.59,
-      "learning_rate": 0.0002,
-      "loss": 1.4421,
-      "step": 162
-    },
-    {
-      "epoch": 2.62,
-      "learning_rate": 0.0002,
-      "loss": 1.0652,
-      "step": 164
-    },
-    {
-      "epoch": 2.66,
-      "learning_rate": 0.0002,
-      "loss": 1.1587,
-      "step": 166
-    },
-    {
-      "epoch": 2.69,
-      "learning_rate": 0.0002,
-      "loss": 1.4067,
-      "step": 168
-    },
-    {
-      "epoch": 2.72,
-      "learning_rate": 0.0002,
-      "loss": 1.3189,
-      "step": 170
-    },
-    {
-      "epoch": 2.75,
-      "learning_rate": 0.0002,
-      "loss": 1.8257,
-      "step": 172
-    },
-    {
-      "epoch": 2.78,
-      "learning_rate": 0.0002,
-      "loss": 1.3862,
-      "step": 174
-    },
-    {
-      "epoch": 2.82,
-      "learning_rate": 0.0002,
-      "loss": 1.3753,
-      "step": 176
-    },
-    {
-      "epoch": 2.85,
-      "learning_rate": 0.0002,
-      "loss": 1.1937,
-      "step": 178
-    },
-    {
-      "epoch": 2.88,
-      "learning_rate": 0.0002,
-      "loss": 1.1223,
-      "step": 180
-    },
-    {
-      "epoch": 2.91,
-      "learning_rate": 0.0002,
-      "loss": 0.9919,
-      "step": 182
-    },
-    {
-      "epoch": 2.94,
-      "learning_rate": 0.0002,
-      "loss": 1.3945,
-      "step": 184
-    },
-    {
-      "epoch": 2.98,
-      "learning_rate": 0.0002,
-      "loss": 1.2668,
-      "step": 186
     }
   ],
   "logging_steps": 2,
-  "max_steps": 186,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 6323175937130496.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9990680335507922,
   "eval_steps": 500,
+  "global_step": 67,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.03,
       "learning_rate": 0.0002,
+      "loss": 2.5126,
       "step": 2
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.0002,
+      "loss": 2.2003,
       "step": 4
     },
     {
+      "epoch": 0.09,
       "learning_rate": 0.0002,
+      "loss": 1.757,
       "step": 6
     },
     {
+      "epoch": 0.12,
       "learning_rate": 0.0002,
+      "loss": 1.6726,
       "step": 8
     },
     {
+      "epoch": 0.15,
       "learning_rate": 0.0002,
+      "loss": 1.6462,
       "step": 10
     },
     {
+      "epoch": 0.18,
       "learning_rate": 0.0002,
+      "loss": 1.5562,
       "step": 12
     },
     {
+      "epoch": 0.21,
       "learning_rate": 0.0002,
+      "loss": 1.9898,
       "step": 14
     },
     {
+      "epoch": 0.24,
       "learning_rate": 0.0002,
+      "loss": 1.9362,
       "step": 16
     },
     {
+      "epoch": 0.27,
       "learning_rate": 0.0002,
+      "loss": 2.2908,
       "step": 18
     },
     {
+      "epoch": 0.3,
       "learning_rate": 0.0002,
+      "loss": 1.9168,
       "step": 20
     },
     {
+      "epoch": 0.33,
       "learning_rate": 0.0002,
+      "loss": 1.7947,
       "step": 22
     },
     {
+      "epoch": 0.36,
       "learning_rate": 0.0002,
+      "loss": 1.8443,
       "step": 24
     },
     {
+      "epoch": 0.39,
       "learning_rate": 0.0002,
+      "loss": 1.5734,
       "step": 26
     },
     {
+      "epoch": 0.42,
       "learning_rate": 0.0002,
+      "loss": 1.6823,
       "step": 28
     },
     {
+      "epoch": 0.45,
       "learning_rate": 0.0002,
+      "loss": 1.7899,
       "step": 30
     },
     {
+      "epoch": 0.48,
       "learning_rate": 0.0002,
+      "loss": 1.8474,
       "step": 32
     },
     {
+      "epoch": 0.51,
       "learning_rate": 0.0002,
+      "loss": 2.0992,
       "step": 34
     },
     {
+      "epoch": 0.54,
       "learning_rate": 0.0002,
+      "loss": 1.8281,
       "step": 36
     },
     {
+      "epoch": 0.57,
       "learning_rate": 0.0002,
+      "loss": 1.737,
       "step": 38
     },
     {
+      "epoch": 0.6,
       "learning_rate": 0.0002,
+      "loss": 1.7205,
       "step": 40
     },
     {
+      "epoch": 0.63,
       "learning_rate": 0.0002,
+      "loss": 1.5048,
       "step": 42
     },
     {
+      "epoch": 0.66,
       "learning_rate": 0.0002,
+      "loss": 1.7679,
       "step": 44
     },
     {
+      "epoch": 0.69,
       "learning_rate": 0.0002,
+      "loss": 1.8433,
       "step": 46
     },
     {
+      "epoch": 0.72,
       "learning_rate": 0.0002,
+      "loss": 1.6205,
       "step": 48
     },
     {
+      "epoch": 0.75,
       "learning_rate": 0.0002,
+      "loss": 2.5937,
       "step": 50
     },
     {
+      "epoch": 0.78,
       "learning_rate": 0.0002,
+      "loss": 1.5589,
       "step": 52
     },
     {
+      "epoch": 0.81,
       "learning_rate": 0.0002,
+      "loss": 1.7151,
       "step": 54
     },
     {
+      "epoch": 0.84,
       "learning_rate": 0.0002,
+      "loss": 1.7156,
       "step": 56
     },
     {
+      "epoch": 0.86,
       "learning_rate": 0.0002,
+      "loss": 1.418,
       "step": 58
     },
     {
+      "epoch": 0.89,
       "learning_rate": 0.0002,
+      "loss": 1.4181,
       "step": 60
     },
     {
+      "epoch": 0.92,
       "learning_rate": 0.0002,
+      "loss": 1.6132,
       "step": 62
     },
     {
+      "epoch": 0.95,
       "learning_rate": 0.0002,
+      "loss": 1.4498,
       "step": 64
     },
     {
+      "epoch": 0.98,
       "learning_rate": 0.0002,
+      "loss": 1.8295,
       "step": 66
     }
   ],
   "logging_steps": 2,
+  "max_steps": 201,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 2957918219354112.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ff44e03440ef4f895c3d0e1b40cc60ba65d4e53e1a2dafb7bbff3b709e2f8eb
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:83e9a2a1c97c8be5dac62bc06704782b1571af93ae84e801bd429c75183ffaae
 size 4728