Training in progress, step 10, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_config.json +5 -5
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/trainer_state.json +33 -33
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
-    "down_proj",
-    "up_proj",
-    "q_proj",
     "o_proj",
     "k_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
     "o_proj",
     "k_proj",
+    "up_proj",
+    "down_proj",
+    "gate_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3bc9666e2801002e670241ff56b3338f0eef52f89fc962c656969bde6a48623
 size 767856

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ec1241a27264a4a01bbb34044633f460a05839fdbbc3803c3ff89a4abcf4f49
 size 767856

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8fae912466aa40876f372d5771cc08ad337de453769a4cda1a7c4a76d479c969
 size 1003002

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5221700d05b3147289d5fe61f7a35062ee630d1e9b78db4abd5ddd14fff9392
 size 1003002

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -10,7 +10,7 @@
   "log_history": [
     {
       "epoch": 0.0004253056884635832,
-      "grad_norm": 2.7401254177093506,
       "learning_rate": 2e-05,
       "loss": 8.9009,
       "step": 1
@@ -18,96 +18,96 @@
     {
       "epoch": 0.0004253056884635832,
       "eval_loss": 8.532660484313965,
-      "eval_runtime": 43.6659,
-      "eval_samples_per_second": 22.672,
-      "eval_steps_per_second": 11.336,
       "step": 1
     },
     {
       "epoch": 0.0008506113769271664,
-      "grad_norm": 2.535205364227295,
       "learning_rate": 4e-05,
       "loss": 8.2356,
       "step": 2
     },
     {
       "epoch": 0.0012759170653907496,
-      "grad_norm": 2.8944995403289795,
       "learning_rate": 6e-05,
-      "loss": 8.9824,
       "step": 3
     },
     {
       "epoch": 0.0012759170653907496,
-      "eval_loss": 8.524689674377441,
-      "eval_runtime": 43.2013,
-      "eval_samples_per_second": 22.916,
-      "eval_steps_per_second": 11.458,
       "step": 3
     },
     {
       "epoch": 0.0017012227538543328,
-      "grad_norm": 2.762364625930786,
       "learning_rate": 8e-05,
-      "loss": 8.5433,
       "step": 4
     },
     {
       "epoch": 0.002126528442317916,
-      "grad_norm": 2.3326826095581055,
       "learning_rate": 0.0001,
-      "loss": 8.1195,
       "step": 5
     },
     {
       "epoch": 0.002551834130781499,
-      "grad_norm": 2.440225839614868,
       "learning_rate": 0.00012,
-      "loss": 8.7049,
       "step": 6
     },
     {
       "epoch": 0.002551834130781499,
-      "eval_loss": 8.43783950805664,
-      "eval_runtime": 43.5239,
-      "eval_samples_per_second": 22.746,
-      "eval_steps_per_second": 11.373,
       "step": 6
     },
     {
       "epoch": 0.0029771398192450825,
-      "grad_norm": 2.7066290378570557,
       "learning_rate": 0.00014,
-      "loss": 8.8933,
       "step": 7
     },
     {
       "epoch": 0.0034024455077086655,
-      "grad_norm": 2.3359532356262207,
       "learning_rate": 0.00016,
-      "loss": 8.4983,
       "step": 8
     },
     {
       "epoch": 0.003827751196172249,
-      "grad_norm": 1.9138379096984863,
       "learning_rate": 0.00018,
-      "loss": 8.0412,
       "step": 9
     },
     {
       "epoch": 0.003827751196172249,
-      "eval_loss": 8.307999610900879,
-      "eval_runtime": 43.5236,
-      "eval_samples_per_second": 22.746,
-      "eval_steps_per_second": 11.373,
       "step": 9
     },
     {
       "epoch": 0.004253056884635832,
-      "grad_norm": 2.0335400104522705,
       "learning_rate": 0.0002,
-      "loss": 8.4319,
       "step": 10
     }
   ],

   "log_history": [
     {
       "epoch": 0.0004253056884635832,
+      "grad_norm": 2.6730198860168457,
       "learning_rate": 2e-05,
       "loss": 8.9009,
       "step": 1
     {
       "epoch": 0.0004253056884635832,
       "eval_loss": 8.532660484313965,
+      "eval_runtime": 43.1245,
+      "eval_samples_per_second": 22.957,
+      "eval_steps_per_second": 11.478,
       "step": 1
     },
     {
       "epoch": 0.0008506113769271664,
+      "grad_norm": 2.4848580360412598,
       "learning_rate": 4e-05,
       "loss": 8.2356,
       "step": 2
     },
     {
       "epoch": 0.0012759170653907496,
+      "grad_norm": 2.8430087566375732,
       "learning_rate": 6e-05,
+      "loss": 8.9808,
       "step": 3
     },
     {
       "epoch": 0.0012759170653907496,
+      "eval_loss": 8.524759292602539,
+      "eval_runtime": 43.3438,
+      "eval_samples_per_second": 22.841,
+      "eval_steps_per_second": 11.42,
       "step": 3
     },
     {
       "epoch": 0.0017012227538543328,
+      "grad_norm": 2.6987056732177734,
       "learning_rate": 8e-05,
+      "loss": 8.5432,
       "step": 4
     },
     {
       "epoch": 0.002126528442317916,
+      "grad_norm": 2.2853779792785645,
       "learning_rate": 0.0001,
+      "loss": 8.1181,
       "step": 5
     },
     {
       "epoch": 0.002551834130781499,
+      "grad_norm": 2.369048595428467,
       "learning_rate": 0.00012,
+      "loss": 8.7058,
       "step": 6
     },
     {
       "epoch": 0.002551834130781499,
+      "eval_loss": 8.438721656799316,
+      "eval_runtime": 43.5346,
+      "eval_samples_per_second": 22.741,
+      "eval_steps_per_second": 11.37,
       "step": 6
     },
     {
       "epoch": 0.0029771398192450825,
+      "grad_norm": 2.6489620208740234,
       "learning_rate": 0.00014,
+      "loss": 8.8941,
       "step": 7
     },
     {
       "epoch": 0.0034024455077086655,
+      "grad_norm": 2.2798972129821777,
       "learning_rate": 0.00016,
+      "loss": 8.501,
       "step": 8
     },
     {
       "epoch": 0.003827751196172249,
+      "grad_norm": 1.866201400756836,
       "learning_rate": 0.00018,
+      "loss": 8.0435,
       "step": 9
     },
     {
       "epoch": 0.003827751196172249,
+      "eval_loss": 8.310040473937988,
+      "eval_runtime": 43.9116,
+      "eval_samples_per_second": 22.545,
+      "eval_steps_per_second": 11.273,
       "step": 9
     },
     {
       "epoch": 0.004253056884635832,
+      "grad_norm": 1.97697913646698,
       "learning_rate": 0.0002,
+      "loss": 8.4345,
       "step": 10
     }
   ],

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ff47a96f9978902bfad1f0a052b77a361dde0b114eea63e5778e39b40eb03f3
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca57a7f19ce3bff51206cc835b0ca5be2e6264eefdd0b0a672534122784ff74e
 size 6776