Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

adapter_config.json +2 -2
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
trainer_state.json +53 -53
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -19,12 +19,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "k_proj",
     "q_proj",
     "o_proj",
     "gate_proj",
     "up_proj",
     "down_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
+    "v_proj",
     "o_proj",
     "gate_proj",
     "up_proj",
+    "k_proj",
     "down_proj"
   ],
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cbcfbca88f1bfddb2ae28b827e21292b8ebf6b64a09113ee4c89dcb0ebacc02a
 size 242266152

 version https://git-lfs.github.com/spec/v1
+oid sha256:68ffb7728699344b9838f9afb7975fd02b29fe06bb1fbe0bc66591eed483fa3f
 size 242266152

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12e0783fc06adca14f3af6e40a27efa6d5b2e39f9b99ba07b5a04a7df7844f8c
 size 484650042

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e9a94707bb17ef5829b78f0d9c5987210c0c274f9b4c94292c5857bcb6a7ba5
 size 484650042

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d730681f128191ba412897016b90a5cc440a7d330031d2238142ab1dce47f22
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:224bead7fd043b72a8e81bd036d7d5df846f092c760212f12210c387735e21a3
 size 14244

trainer_state.json CHANGED Viewed

@@ -11,310 +11,310 @@
     {
       "epoch": 0.02,
       "learning_rate": 0.0002,
-      "loss": 2.4575,
       "step": 2
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.0002,
-      "loss": 2.2028,
       "step": 4
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.0002,
-      "loss": 2.2306,
       "step": 6
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.0002,
-      "loss": 2.2154,
       "step": 8
     },
     {
       "epoch": 0.1,
       "learning_rate": 0.0002,
-      "loss": 2.1778,
       "step": 10
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.0002,
-      "loss": 2.1734,
       "step": 12
     },
     {
       "epoch": 0.14,
       "learning_rate": 0.0002,
-      "loss": 2.0091,
       "step": 14
     },
     {
       "epoch": 0.16,
       "learning_rate": 0.0002,
-      "loss": 2.1055,
       "step": 16
     },
     {
       "epoch": 0.18,
       "learning_rate": 0.0002,
-      "loss": 1.8893,
       "step": 18
     },
     {
       "epoch": 0.2,
       "learning_rate": 0.0002,
-      "loss": 2.0398,
       "step": 20
     },
     {
       "epoch": 0.22,
       "learning_rate": 0.0002,
-      "loss": 1.9298,
       "step": 22
     },
     {
       "epoch": 0.24,
       "learning_rate": 0.0002,
-      "loss": 1.9687,
       "step": 24
     },
     {
       "epoch": 0.26,
       "learning_rate": 0.0002,
-      "loss": 1.7748,
       "step": 26
     },
     {
       "epoch": 0.28,
       "learning_rate": 0.0002,
-      "loss": 2.0527,
       "step": 28
     },
     {
       "epoch": 0.3,
       "learning_rate": 0.0002,
-      "loss": 2.0485,
       "step": 30
     },
     {
       "epoch": 0.32,
       "learning_rate": 0.0002,
-      "loss": 1.9685,
       "step": 32
     },
     {
       "epoch": 0.34,
       "learning_rate": 0.0002,
-      "loss": 2.0669,
       "step": 34
     },
     {
       "epoch": 0.36,
       "learning_rate": 0.0002,
-      "loss": 2.0416,
       "step": 36
     },
     {
       "epoch": 0.38,
       "learning_rate": 0.0002,
-      "loss": 1.92,
       "step": 38
     },
     {
       "epoch": 0.4,
       "learning_rate": 0.0002,
-      "loss": 1.9969,
       "step": 40
     },
     {
       "epoch": 0.42,
       "learning_rate": 0.0002,
-      "loss": 1.8663,
       "step": 42
     },
     {
       "epoch": 0.44,
       "learning_rate": 0.0002,
-      "loss": 1.9247,
       "step": 44
     },
     {
       "epoch": 0.46,
       "learning_rate": 0.0002,
-      "loss": 1.9624,
       "step": 46
     },
     {
       "epoch": 0.48,
       "learning_rate": 0.0002,
-      "loss": 1.8684,
       "step": 48
     },
     {
       "epoch": 0.5,
       "learning_rate": 0.0002,
-      "loss": 1.9118,
       "step": 50
     },
     {
       "epoch": 0.52,
       "learning_rate": 0.0002,
-      "loss": 1.9122,
       "step": 52
     },
     {
       "epoch": 0.54,
       "learning_rate": 0.0002,
-      "loss": 1.9483,
       "step": 54
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.0002,
-      "loss": 1.9967,
       "step": 56
     },
     {
       "epoch": 0.58,
       "learning_rate": 0.0002,
-      "loss": 2.0291,
       "step": 58
     },
     {
       "epoch": 0.6,
       "learning_rate": 0.0002,
-      "loss": 2.0156,
       "step": 60
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.0002,
-      "loss": 1.8287,
       "step": 62
     },
     {
       "epoch": 0.64,
       "learning_rate": 0.0002,
-      "loss": 1.8032,
       "step": 64
     },
     {
       "epoch": 0.66,
       "learning_rate": 0.0002,
-      "loss": 2.0124,
       "step": 66
     },
     {
       "epoch": 0.68,
       "learning_rate": 0.0002,
-      "loss": 1.8951,
       "step": 68
     },
     {
       "epoch": 0.7,
       "learning_rate": 0.0002,
-      "loss": 1.7415,
       "step": 70
     },
     {
       "epoch": 0.72,
       "learning_rate": 0.0002,
-      "loss": 1.8676,
       "step": 72
     },
     {
       "epoch": 0.74,
       "learning_rate": 0.0002,
-      "loss": 1.9817,
       "step": 74
     },
     {
       "epoch": 0.76,
       "learning_rate": 0.0002,
-      "loss": 1.9221,
       "step": 76
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0002,
-      "loss": 1.9439,
       "step": 78
     },
     {
       "epoch": 0.8,
       "learning_rate": 0.0002,
-      "loss": 2.0937,
       "step": 80
     },
     {
       "epoch": 0.82,
       "learning_rate": 0.0002,
-      "loss": 2.0001,
       "step": 82
     },
     {
       "epoch": 0.84,
       "learning_rate": 0.0002,
-      "loss": 2.0092,
       "step": 84
     },
     {
       "epoch": 0.86,
       "learning_rate": 0.0002,
-      "loss": 2.0165,
       "step": 86
     },
     {
       "epoch": 0.88,
       "learning_rate": 0.0002,
-      "loss": 1.8853,
       "step": 88
     },
     {
       "epoch": 0.89,
       "learning_rate": 0.0002,
-      "loss": 1.8469,
       "step": 90
     },
     {
       "epoch": 0.91,
       "learning_rate": 0.0002,
-      "loss": 1.9119,
       "step": 92
     },
     {
       "epoch": 0.93,
       "learning_rate": 0.0002,
-      "loss": 1.8086,
       "step": 94
     },
     {
       "epoch": 0.95,
       "learning_rate": 0.0002,
-      "loss": 1.9036,
       "step": 96
     },
     {
       "epoch": 0.97,
       "learning_rate": 0.0002,
-      "loss": 1.859,
       "step": 98
     },
     {
       "epoch": 0.99,
       "learning_rate": 0.0002,
-      "loss": 1.9257,
       "step": 100
     }
   ],
   "logging_steps": 2,
-  "max_steps": 100,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 1.3407179920195584e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

     {
       "epoch": 0.02,
       "learning_rate": 0.0002,
+      "loss": 2.3211,
       "step": 2
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.0002,
+      "loss": 2.1994,
       "step": 4
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.0002,
+      "loss": 2.1871,
       "step": 6
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.0002,
+      "loss": 2.1569,
       "step": 8
     },
     {
       "epoch": 0.1,
       "learning_rate": 0.0002,
+      "loss": 2.1101,
       "step": 10
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.0002,
+      "loss": 2.1361,
       "step": 12
     },
     {
       "epoch": 0.14,
       "learning_rate": 0.0002,
+      "loss": 2.002,
       "step": 14
     },
     {
       "epoch": 0.16,
       "learning_rate": 0.0002,
+      "loss": 2.1144,
       "step": 16
     },
     {
       "epoch": 0.18,
       "learning_rate": 0.0002,
+      "loss": 1.9981,
       "step": 18
     },
     {
       "epoch": 0.2,
       "learning_rate": 0.0002,
+      "loss": 1.8518,
       "step": 20
     },
     {
       "epoch": 0.22,
       "learning_rate": 0.0002,
+      "loss": 2.0797,
       "step": 22
     },
     {
       "epoch": 0.24,
       "learning_rate": 0.0002,
+      "loss": 1.9593,
       "step": 24
     },
     {
       "epoch": 0.26,
       "learning_rate": 0.0002,
+      "loss": 2.1172,
       "step": 26
     },
     {
       "epoch": 0.28,
       "learning_rate": 0.0002,
+      "loss": 2.056,
       "step": 28
     },
     {
       "epoch": 0.3,
       "learning_rate": 0.0002,
+      "loss": 1.9752,
       "step": 30
     },
     {
       "epoch": 0.32,
       "learning_rate": 0.0002,
+      "loss": 2.0642,
       "step": 32
     },
     {
       "epoch": 0.34,
       "learning_rate": 0.0002,
+      "loss": 2.082,
       "step": 34
     },
     {
       "epoch": 0.36,
       "learning_rate": 0.0002,
+      "loss": 2.0809,
       "step": 36
     },
     {
       "epoch": 0.38,
       "learning_rate": 0.0002,
+      "loss": 1.9503,
       "step": 38
     },
     {
       "epoch": 0.4,
       "learning_rate": 0.0002,
+      "loss": 1.9841,
       "step": 40
     },
     {
       "epoch": 0.42,
       "learning_rate": 0.0002,
+      "loss": 1.954,
       "step": 42
     },
     {
       "epoch": 0.44,
       "learning_rate": 0.0002,
+      "loss": 1.8861,
       "step": 44
     },
     {
       "epoch": 0.46,
       "learning_rate": 0.0002,
+      "loss": 1.9725,
       "step": 46
     },
     {
       "epoch": 0.48,
       "learning_rate": 0.0002,
+      "loss": 1.8173,
       "step": 48
     },
     {
       "epoch": 0.5,
       "learning_rate": 0.0002,
+      "loss": 1.9095,
       "step": 50
     },
     {
       "epoch": 0.52,
       "learning_rate": 0.0002,
+      "loss": 1.9165,
       "step": 52
     },
     {
       "epoch": 0.54,
       "learning_rate": 0.0002,
+      "loss": 1.954,
       "step": 54
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.0002,
+      "loss": 2.0812,
       "step": 56
     },
     {
       "epoch": 0.58,
       "learning_rate": 0.0002,
+      "loss": 1.9473,
       "step": 58
     },
     {
       "epoch": 0.6,
       "learning_rate": 0.0002,
+      "loss": 2.0644,
       "step": 60
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.0002,
+      "loss": 2.0597,
       "step": 62
     },
     {
       "epoch": 0.64,
       "learning_rate": 0.0002,
+      "loss": 1.9422,
       "step": 64
     },
     {
       "epoch": 0.66,
       "learning_rate": 0.0002,
+      "loss": 1.8022,
       "step": 66
     },
     {
       "epoch": 0.68,
       "learning_rate": 0.0002,
+      "loss": 1.9411,
       "step": 68
     },
     {
       "epoch": 0.7,
       "learning_rate": 0.0002,
+      "loss": 1.8742,
       "step": 70
     },
     {
       "epoch": 0.72,
       "learning_rate": 0.0002,
+      "loss": 1.8078,
       "step": 72
     },
     {
       "epoch": 0.74,
       "learning_rate": 0.0002,
+      "loss": 1.9996,
       "step": 74
     },
     {
       "epoch": 0.76,
       "learning_rate": 0.0002,
+      "loss": 1.7464,
       "step": 76
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0002,
+      "loss": 1.8637,
       "step": 78
     },
     {
       "epoch": 0.8,
       "learning_rate": 0.0002,
+      "loss": 1.9297,
       "step": 80
     },
     {
       "epoch": 0.82,
       "learning_rate": 0.0002,
+      "loss": 1.9462,
       "step": 82
     },
     {
       "epoch": 0.84,
       "learning_rate": 0.0002,
+      "loss": 1.9367,
       "step": 84
     },
     {
       "epoch": 0.86,
       "learning_rate": 0.0002,
+      "loss": 1.9843,
       "step": 86
     },
     {
       "epoch": 0.88,
       "learning_rate": 0.0002,
+      "loss": 2.0611,
       "step": 88
     },
     {
       "epoch": 0.89,
       "learning_rate": 0.0002,
+      "loss": 1.8584,
       "step": 90
     },
     {
       "epoch": 0.91,
       "learning_rate": 0.0002,
+      "loss": 1.8235,
       "step": 92
     },
     {
       "epoch": 0.93,
       "learning_rate": 0.0002,
+      "loss": 1.9358,
       "step": 94
     },
     {
       "epoch": 0.95,
       "learning_rate": 0.0002,
+      "loss": 1.854,
       "step": 96
     },
     {
       "epoch": 0.97,
       "learning_rate": 0.0002,
+      "loss": 1.8953,
       "step": 98
     },
     {
       "epoch": 0.99,
       "learning_rate": 0.0002,
+      "loss": 1.7185,
       "step": 100
     }
   ],
   "logging_steps": 2,
+  "max_steps": 300,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 1.3484808608858112e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fbbaf18633e6de3407cbe1a1413315f0f3b6056718592ac3b3af882b28ee06df
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:11b52a2201929623074064b5575a45c1dca7a2d9070772a0ae7e2dd1e5c1225d
 size 4728