Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

adapter_config.json +4 -4
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
trainer_state.json +51 -51
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -19,13 +19,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
-    "down_proj",
-    "q_proj",
     "k_proj",
     "o_proj",
     "up_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
     "k_proj",
+    "q_proj",
     "o_proj",
+    "gate_proj",
     "up_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26a39646999558a6ce48dbf17c3548121786b79bb9464da89c0ba77968ab8185
 size 242266152

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbcfbca88f1bfddb2ae28b827e21292b8ebf6b64a09113ee4c89dcb0ebacc02a
 size 242266152

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15deade411f073d7e729a7b332555536850456a049144f6c87b5081190796925
 size 484650042

 version https://git-lfs.github.com/spec/v1
+oid sha256:12e0783fc06adca14f3af6e40a27efa6d5b2e39f9b99ba07b5a04a7df7844f8c
 size 484650042

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c5f87417d8ff5e70cd9b14c5c26c6569a88421c7b969200f8d5a0e12c3ee048
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d730681f128191ba412897016b90a5cc440a7d330031d2238142ab1dce47f22
 size 14244

trainer_state.json CHANGED Viewed

@@ -11,301 +11,301 @@
     {
       "epoch": 0.02,
       "learning_rate": 0.0002,
-      "loss": 2.2936,
       "step": 2
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.0002,
-      "loss": 2.1803,
       "step": 4
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.0002,
-      "loss": 2.1587,
       "step": 6
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.0002,
-      "loss": 2.1444,
       "step": 8
     },
     {
       "epoch": 0.1,
       "learning_rate": 0.0002,
-      "loss": 2.0706,
       "step": 10
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.0002,
-      "loss": 2.1399,
       "step": 12
     },
     {
       "epoch": 0.14,
       "learning_rate": 0.0002,
-      "loss": 2.0224,
       "step": 14
     },
     {
       "epoch": 0.16,
       "learning_rate": 0.0002,
-      "loss": 2.0933,
       "step": 16
     },
     {
       "epoch": 0.18,
       "learning_rate": 0.0002,
-      "loss": 2.021,
       "step": 18
     },
     {
       "epoch": 0.2,
       "learning_rate": 0.0002,
-      "loss": 1.9728,
       "step": 20
     },
     {
       "epoch": 0.22,
       "learning_rate": 0.0002,
-      "loss": 2.111,
       "step": 22
     },
     {
       "epoch": 0.24,
       "learning_rate": 0.0002,
-      "loss": 1.8839,
       "step": 24
     },
     {
       "epoch": 0.26,
       "learning_rate": 0.0002,
-      "loss": 1.8489,
       "step": 26
     },
     {
       "epoch": 0.28,
       "learning_rate": 0.0002,
-      "loss": 2.0654,
       "step": 28
     },
     {
       "epoch": 0.3,
       "learning_rate": 0.0002,
-      "loss": 2.0341,
       "step": 30
     },
     {
       "epoch": 0.32,
       "learning_rate": 0.0002,
-      "loss": 1.9521,
       "step": 32
     },
     {
       "epoch": 0.34,
       "learning_rate": 0.0002,
-      "loss": 1.9955,
       "step": 34
     },
     {
       "epoch": 0.36,
       "learning_rate": 0.0002,
-      "loss": 2.0216,
       "step": 36
     },
     {
       "epoch": 0.38,
       "learning_rate": 0.0002,
-      "loss": 2.0376,
       "step": 38
     },
     {
       "epoch": 0.4,
       "learning_rate": 0.0002,
-      "loss": 1.8855,
       "step": 40
     },
     {
       "epoch": 0.42,
       "learning_rate": 0.0002,
-      "loss": 1.8584,
       "step": 42
     },
     {
       "epoch": 0.44,
       "learning_rate": 0.0002,
-      "loss": 2.0344,
       "step": 44
     },
     {
       "epoch": 0.46,
       "learning_rate": 0.0002,
-      "loss": 1.8226,
       "step": 46
     },
     {
       "epoch": 0.48,
       "learning_rate": 0.0002,
-      "loss": 1.923,
       "step": 48
     },
     {
       "epoch": 0.5,
       "learning_rate": 0.0002,
-      "loss": 1.88,
       "step": 50
     },
     {
       "epoch": 0.52,
       "learning_rate": 0.0002,
-      "loss": 1.8955,
       "step": 52
     },
     {
       "epoch": 0.54,
       "learning_rate": 0.0002,
-      "loss": 2.0179,
       "step": 54
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.0002,
-      "loss": 1.992,
       "step": 56
     },
     {
       "epoch": 0.58,
       "learning_rate": 0.0002,
-      "loss": 2.0401,
       "step": 58
     },
     {
       "epoch": 0.6,
       "learning_rate": 0.0002,
-      "loss": 2.1087,
       "step": 60
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.0002,
-      "loss": 1.9005,
       "step": 62
     },
     {
       "epoch": 0.64,
       "learning_rate": 0.0002,
-      "loss": 2.0037,
       "step": 64
     },
     {
       "epoch": 0.66,
       "learning_rate": 0.0002,
-      "loss": 2.0415,
       "step": 66
     },
     {
       "epoch": 0.68,
       "learning_rate": 0.0002,
-      "loss": 1.8825,
       "step": 68
     },
     {
       "epoch": 0.7,
       "learning_rate": 0.0002,
-      "loss": 1.6636,
       "step": 70
     },
     {
       "epoch": 0.72,
       "learning_rate": 0.0002,
-      "loss": 1.9599,
       "step": 72
     },
     {
       "epoch": 0.74,
       "learning_rate": 0.0002,
-      "loss": 2.0305,
       "step": 74
     },
     {
       "epoch": 0.76,
       "learning_rate": 0.0002,
-      "loss": 1.9139,
       "step": 76
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0002,
-      "loss": 1.8878,
       "step": 78
     },
     {
       "epoch": 0.8,
       "learning_rate": 0.0002,
-      "loss": 1.9189,
       "step": 80
     },
     {
       "epoch": 0.82,
       "learning_rate": 0.0002,
-      "loss": 1.9306,
       "step": 82
     },
     {
       "epoch": 0.84,
       "learning_rate": 0.0002,
-      "loss": 1.9141,
       "step": 84
     },
     {
       "epoch": 0.86,
       "learning_rate": 0.0002,
-      "loss": 2.0502,
       "step": 86
     },
     {
       "epoch": 0.88,
       "learning_rate": 0.0002,
-      "loss": 1.923,
       "step": 88
     },
     {
       "epoch": 0.89,
       "learning_rate": 0.0002,
-      "loss": 1.8456,
       "step": 90
     },
     {
       "epoch": 0.91,
       "learning_rate": 0.0002,
-      "loss": 1.7748,
       "step": 92
     },
     {
       "epoch": 0.93,
       "learning_rate": 0.0002,
-      "loss": 1.845,
       "step": 94
     },
     {
       "epoch": 0.95,
       "learning_rate": 0.0002,
-      "loss": 1.8059,
       "step": 96
     },
     {
       "epoch": 0.97,
       "learning_rate": 0.0002,
-      "loss": 1.7629,
       "step": 98
     },
     {
       "epoch": 0.99,
       "learning_rate": 0.0002,
-      "loss": 1.8387,
       "step": 100
     }
   ],
@@ -314,7 +314,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 1.345730386833408e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

     {
       "epoch": 0.02,
       "learning_rate": 0.0002,
+      "loss": 2.4575,
       "step": 2
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.0002,
+      "loss": 2.2028,
       "step": 4
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.0002,
+      "loss": 2.2306,
       "step": 6
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.0002,
+      "loss": 2.2154,
       "step": 8
     },
     {
       "epoch": 0.1,
       "learning_rate": 0.0002,
+      "loss": 2.1778,
       "step": 10
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.0002,
+      "loss": 2.1734,
       "step": 12
     },
     {
       "epoch": 0.14,
       "learning_rate": 0.0002,
+      "loss": 2.0091,
       "step": 14
     },
     {
       "epoch": 0.16,
       "learning_rate": 0.0002,
+      "loss": 2.1055,
       "step": 16
     },
     {
       "epoch": 0.18,
       "learning_rate": 0.0002,
+      "loss": 1.8893,
       "step": 18
     },
     {
       "epoch": 0.2,
       "learning_rate": 0.0002,
+      "loss": 2.0398,
       "step": 20
     },
     {
       "epoch": 0.22,
       "learning_rate": 0.0002,
+      "loss": 1.9298,
       "step": 22
     },
     {
       "epoch": 0.24,
       "learning_rate": 0.0002,
+      "loss": 1.9687,
       "step": 24
     },
     {
       "epoch": 0.26,
       "learning_rate": 0.0002,
+      "loss": 1.7748,
       "step": 26
     },
     {
       "epoch": 0.28,
       "learning_rate": 0.0002,
+      "loss": 2.0527,
       "step": 28
     },
     {
       "epoch": 0.3,
       "learning_rate": 0.0002,
+      "loss": 2.0485,
       "step": 30
     },
     {
       "epoch": 0.32,
       "learning_rate": 0.0002,
+      "loss": 1.9685,
       "step": 32
     },
     {
       "epoch": 0.34,
       "learning_rate": 0.0002,
+      "loss": 2.0669,
       "step": 34
     },
     {
       "epoch": 0.36,
       "learning_rate": 0.0002,
+      "loss": 2.0416,
       "step": 36
     },
     {
       "epoch": 0.38,
       "learning_rate": 0.0002,
+      "loss": 1.92,
       "step": 38
     },
     {
       "epoch": 0.4,
       "learning_rate": 0.0002,
+      "loss": 1.9969,
       "step": 40
     },
     {
       "epoch": 0.42,
       "learning_rate": 0.0002,
+      "loss": 1.8663,
       "step": 42
     },
     {
       "epoch": 0.44,
       "learning_rate": 0.0002,
+      "loss": 1.9247,
       "step": 44
     },
     {
       "epoch": 0.46,
       "learning_rate": 0.0002,
+      "loss": 1.9624,
       "step": 46
     },
     {
       "epoch": 0.48,
       "learning_rate": 0.0002,
+      "loss": 1.8684,
       "step": 48
     },
     {
       "epoch": 0.5,
       "learning_rate": 0.0002,
+      "loss": 1.9118,
       "step": 50
     },
     {
       "epoch": 0.52,
       "learning_rate": 0.0002,
+      "loss": 1.9122,
       "step": 52
     },
     {
       "epoch": 0.54,
       "learning_rate": 0.0002,
+      "loss": 1.9483,
       "step": 54
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.0002,
+      "loss": 1.9967,
       "step": 56
     },
     {
       "epoch": 0.58,
       "learning_rate": 0.0002,
+      "loss": 2.0291,
       "step": 58
     },
     {
       "epoch": 0.6,
       "learning_rate": 0.0002,
+      "loss": 2.0156,
       "step": 60
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.0002,
+      "loss": 1.8287,
       "step": 62
     },
     {
       "epoch": 0.64,
       "learning_rate": 0.0002,
+      "loss": 1.8032,
       "step": 64
     },
     {
       "epoch": 0.66,
       "learning_rate": 0.0002,
+      "loss": 2.0124,
       "step": 66
     },
     {
       "epoch": 0.68,
       "learning_rate": 0.0002,
+      "loss": 1.8951,
       "step": 68
     },
     {
       "epoch": 0.7,
       "learning_rate": 0.0002,
+      "loss": 1.7415,
       "step": 70
     },
     {
       "epoch": 0.72,
       "learning_rate": 0.0002,
+      "loss": 1.8676,
       "step": 72
     },
     {
       "epoch": 0.74,
       "learning_rate": 0.0002,
+      "loss": 1.9817,
       "step": 74
     },
     {
       "epoch": 0.76,
       "learning_rate": 0.0002,
+      "loss": 1.9221,
       "step": 76
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0002,
+      "loss": 1.9439,
       "step": 78
     },
     {
       "epoch": 0.8,
       "learning_rate": 0.0002,
+      "loss": 2.0937,
       "step": 80
     },
     {
       "epoch": 0.82,
       "learning_rate": 0.0002,
+      "loss": 2.0001,
       "step": 82
     },
     {
       "epoch": 0.84,
       "learning_rate": 0.0002,
+      "loss": 2.0092,
       "step": 84
     },
     {
       "epoch": 0.86,
       "learning_rate": 0.0002,
+      "loss": 2.0165,
       "step": 86
     },
     {
       "epoch": 0.88,
       "learning_rate": 0.0002,
+      "loss": 1.8853,
       "step": 88
     },
     {
       "epoch": 0.89,
       "learning_rate": 0.0002,
+      "loss": 1.8469,
       "step": 90
     },
     {
       "epoch": 0.91,
       "learning_rate": 0.0002,
+      "loss": 1.9119,
       "step": 92
     },
     {
       "epoch": 0.93,
       "learning_rate": 0.0002,
+      "loss": 1.8086,
       "step": 94
     },
     {
       "epoch": 0.95,
       "learning_rate": 0.0002,
+      "loss": 1.9036,
       "step": 96
     },
     {
       "epoch": 0.97,
       "learning_rate": 0.0002,
+      "loss": 1.859,
       "step": 98
     },
     {
       "epoch": 0.99,
       "learning_rate": 0.0002,
+      "loss": 1.9257,
       "step": 100
     }
   ],
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 1.3407179920195584e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9650c9dcad2c0f3bac47ee99b13131759e632e0b89f52434ba29ffe7b05520e4
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:fbbaf18633e6de3407cbe1a1413315f0f3b6056718592ac3b3af882b28ee06df
 size 4728