Training in progress, epoch 3, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +313 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e07d299e8556f45759a51cefc80ab60f11b4435a6c3d2830b75c1728ce26e918
 size 272138666

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4862ebcdc8d2768d6132069a64ba7dfa94cdbf6455d4d4560f35f71fcc32dfb
 size 272138666

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:975291f42c4d710384953d4cfe4672590f726845579c65b66198fecbe47bb8a0
 size 136067312

 version https://git-lfs.github.com/spec/v1
+oid sha256:094d5e98b1a3b1417249f16f63b4282afd3829ec4a31dbc2bc00df331ba5faf1
 size 136067312

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac7c3a22fbebe192d497504adeca19930f69610194f9083564e5ad1dcb89f25b
 size 21687

 version https://git-lfs.github.com/spec/v1
+oid sha256:67b5b6dd9206c42165f5188e8effb6be1e40ed13cd768d8b7a1b17575bf03d9e
 size 21687

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3855d8fa6386dbbe9784cd0d2ef0d4f3d125bc015c8a434280cc9fb10c02ddfa
 size 21687

 version https://git-lfs.github.com/spec/v1
+oid sha256:6828f225fa32178c33ef119d710f22e24b0bc0c656e9d474379f8495e0908384
 size 21687

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2700b6b72f68d78a9a82a0fa0af255ef55f0dfe1f89492b2a06e2afda41947a7
 size 21687

 version https://git-lfs.github.com/spec/v1
+oid sha256:35c188ece0af9a1c1c070d68232ff9e3dc42d760df0f2e5e280f4c2013a3e538
 size 21687

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab4f190a20a612f512e2d7da78868785029f26e6db21c761c5b6d57d49b58356
 size 21687

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1f9da3ceb24bed58a42dc4e81d0a1e02d0fbd589dd70fb982262e3a3a271213
 size 21687

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cae67bc9a30770c3941dbfe07da9843791ba5bab3656205e5a6dde786b99294
 size 21687

 version https://git-lfs.github.com/spec/v1
+oid sha256:05f3bf8804c8e87d47beaafc30681cc2d8abc53f079c3ec27b8405f27eafb62e
 size 21687

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71c4be7227d2681654c2a55861ac5720ec8852f165bcc6ec3bd75902eec825b5
 size 21687

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4a3224faf90dcc36243bfcd086fe8dbeb1b17d0f25a5e2b7d1d315effde3250
 size 21687

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52192c0bf605713181ffb59b2cd08beebca139789b45c1e5a36398d9729053a0
 size 21687

 version https://git-lfs.github.com/spec/v1
+oid sha256:4feb4ed70cfe7ab739f8d7012e2560e686d994777ba7aa8513abce68d4c42d9a
 size 21687

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cf7aa842507d2595cb82707ada514ce753e309be84ecb89281793953e84eab8
 size 21687

 version https://git-lfs.github.com/spec/v1
+oid sha256:1934f6a0f7b05c9571484b9dbea2c6fb5ae573367912d95f0629f9b4ebdf3aa7
 size 21687

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:848584cfa92f00c6579cefa73971dbab0353aaf997b31aceeb3fcb519193d7f4
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1d49d9630e070befda78ef6b64c8fdc0bb6b5103c4e1c8f4b6fa80c9bcbdbb4
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 25,
-  "global_step": 412,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -627,13 +627,323 @@
       "learning_rate": 3.2871627610744385e-05,
       "loss": 0.0255,
       "step": 410
     }
   ],
   "logging_steps": 5,
   "max_steps": 1030,
   "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 183700751712256.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 25,
+  "global_step": 618,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 3.2871627610744385e-05,
       "loss": 0.0255,
       "step": 410
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 3.250884674934208e-05,
+      "loss": 0.0377,
+      "step": 415
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 3.214431944087437e-05,
+      "loss": 0.0309,
+      "step": 420
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 3.17781304690197e-05,
+      "loss": 0.0667,
+      "step": 425
+    },
+    {
+      "epoch": 2.06,
+      "eval_loss": 0.07217594981193542,
+      "eval_runtime": 0.1187,
+      "eval_samples_per_second": 3462.503,
+      "eval_steps_per_second": 109.52,
+      "step": 425
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 3.14103650039349e-05,
+      "loss": 0.0339,
+      "step": 430
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 3.104110858244588e-05,
+      "loss": 0.0068,
+      "step": 435
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 3.0670447088153055e-05,
+      "loss": 0.0522,
+      "step": 440
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 3.029846673145604e-05,
+      "loss": 0.0068,
+      "step": 445
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 2.99252540295024e-05,
+      "loss": 0.0514,
+      "step": 450
+    },
+    {
+      "epoch": 2.18,
+      "eval_loss": 0.05946213752031326,
+      "eval_runtime": 0.1357,
+      "eval_samples_per_second": 3027.628,
+      "eval_steps_per_second": 95.764,
+      "step": 450
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 2.955089578606506e-05,
+      "loss": 0.022,
+      "step": 455
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 2.9175479071352996e-05,
+      "loss": 0.058,
+      "step": 460
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 2.8799091201760008e-05,
+      "loss": 0.0262,
+      "step": 465
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 2.8421819719556205e-05,
+      "loss": 0.0108,
+      "step": 470
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 2.804375237252694e-05,
+      "loss": 0.0286,
+      "step": 475
+    },
+    {
+      "epoch": 2.31,
+      "eval_loss": 0.04657759144902229,
+      "eval_runtime": 0.1207,
+      "eval_samples_per_second": 3405.261,
+      "eval_steps_per_second": 107.709,
+      "step": 475
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 2.7664977093564022e-05,
+      "loss": 0.0122,
+      "step": 480
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 2.728558198021378e-05,
+      "loss": 0.0286,
+      "step": 485
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 2.6905655274186892e-05,
+      "loss": 0.0284,
+      "step": 490
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 2.6525285340834644e-05,
+      "loss": 0.0223,
+      "step": 495
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 2.6144560648596466e-05,
+      "loss": 0.0349,
+      "step": 500
+    },
+    {
+      "epoch": 2.43,
+      "eval_loss": 0.05097094178199768,
+      "eval_runtime": 0.1152,
+      "eval_samples_per_second": 3566.29,
+      "eval_steps_per_second": 112.802,
+      "step": 500
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 2.576356974842349e-05,
+      "loss": 0.031,
+      "step": 505
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 2.538240125318287e-05,
+      "loss": 0.0534,
+      "step": 510
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 2.5001143817047762e-05,
+      "loss": 0.04,
+      "step": 515
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 2.4619886114877678e-05,
+      "loss": 0.0463,
+      "step": 520
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 2.4238716821593986e-05,
+      "loss": 0.0231,
+      "step": 525
+    },
+    {
+      "epoch": 2.55,
+      "eval_loss": 0.04907093197107315,
+      "eval_runtime": 0.1367,
+      "eval_samples_per_second": 3007.163,
+      "eval_steps_per_second": 95.117,
+      "step": 525
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 2.3857724591555443e-05,
+      "loss": 0.0292,
+      "step": 530
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 2.347699803793854e-05,
+      "loss": 0.0527,
+      "step": 535
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 2.309662571212731e-05,
+      "loss": 0.0424,
+      "step": 540
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 2.2716696083117664e-05,
+      "loss": 0.0363,
+      "step": 545
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 2.233729751694071e-05,
+      "loss": 0.0301,
+      "step": 550
+    },
+    {
+      "epoch": 2.67,
+      "eval_loss": 0.04202725738286972,
+      "eval_runtime": 0.1194,
+      "eval_samples_per_second": 3441.042,
+      "eval_steps_per_second": 108.841,
+      "step": 550
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 2.1958518256110213e-05,
+      "loss": 0.0638,
+      "step": 555
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 2.1580446399098604e-05,
+      "loss": 0.0684,
+      "step": 560
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 2.1203169879846667e-05,
+      "loss": 0.0249,
+      "step": 565
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 2.0826776447311296e-05,
+      "loss": 0.0454,
+      "step": 570
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 2.0451353645056464e-05,
+      "loss": 0.0617,
+      "step": 575
+    },
+    {
+      "epoch": 2.79,
+      "eval_loss": 0.03725917637348175,
+      "eval_runtime": 0.1154,
+      "eval_samples_per_second": 3562.318,
+      "eval_steps_per_second": 112.677,
+      "step": 575
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 2.0076988790891832e-05,
+      "loss": 0.0323,
+      "step": 580
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 1.970376895656394e-05,
+      "loss": 0.0442,
+      "step": 585
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 1.9331780947504582e-05,
+      "loss": 0.0052,
+      "step": 590
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 1.8961111282641173e-05,
+      "loss": 0.0171,
+      "step": 595
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 1.859184617427367e-05,
+      "loss": 0.0305,
+      "step": 600
+    },
+    {
+      "epoch": 2.91,
+      "eval_loss": 0.054718561470508575,
+      "eval_runtime": 0.144,
+      "eval_samples_per_second": 2853.575,
+      "eval_steps_per_second": 90.259,
+      "step": 600
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 1.822407150802294e-05,
+      "loss": 0.0405,
+      "step": 605
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 1.7857872822854935e-05,
+      "loss": 0.0273,
+      "step": 610
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 1.7493335291185675e-05,
+      "loss": 0.0324,
+      "step": 615
     }
   ],
   "logging_steps": 5,
   "max_steps": 1030,
   "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 275559470923776.0,
   "trial_name": null,
   "trial_params": null
 }