End of training

Browse files

Files changed (4) hide show

all_results.json +6 -6
runs/Nov05_02-16-41_93cbaac1b31b/events.out.tfevents.1730773411.93cbaac1b31b.4486.1 +2 -2
test_results.json +6 -6
trainer_state.json +173 -383

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 9.080434782608696,
-    "eval_accuracy": 0.9617834394904459,
-    "eval_loss": 0.1620456427335739,
-    "eval_runtime": 14.8873,
-    "eval_samples_per_second": 10.546,
-    "eval_steps_per_second": 1.343
 }

 {
+    "epoch": 9.04375,
+    "eval_accuracy": 0.5714285714285714,
+    "eval_loss": 1.1454538106918335,
+    "eval_runtime": 3.2395,
+    "eval_samples_per_second": 8.643,
+    "eval_steps_per_second": 1.235
 }

runs/Nov05_02-16-41_93cbaac1b31b/events.out.tfevents.1730773411.93cbaac1b31b.4486.1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fd74d8cf9078fd862acd198f7d95b0b259e9557fdbe0656c64d6e88442b569d
-size 411

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a74e0e82e3403cac0a885363d257c8b1dbc2369cdb37c6f5b6b048135071570
+size 734

test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 9.080434782608696,
-    "eval_accuracy": 0.9617834394904459,
-    "eval_loss": 0.1620456427335739,
-    "eval_runtime": 14.8873,
-    "eval_samples_per_second": 10.546,
-    "eval_steps_per_second": 1.343
 }

 {
+    "epoch": 9.04375,
+    "eval_accuracy": 0.5714285714285714,
+    "eval_loss": 1.1454538106918335,
+    "eval_runtime": 3.2395,
+    "eval_samples_per_second": 8.643,
+    "eval_steps_per_second": 1.235
 }

trainer_state.json CHANGED Viewed

@@ -1,455 +1,245 @@
 {
-  "best_metric": 0.9848484848484849,
-  "best_model_checkpoint": "videomae-base-finetuned-ucf101-subset/checkpoint-329",
-  "epoch": 9.080434782608696,
   "eval_steps": 500,
-  "global_step": 460,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.021739130434782608,
-      "grad_norm": 9.379189491271973,
-      "learning_rate": 1.0869565217391305e-05,
-      "loss": 2.5308,
       "step": 10
     },
     {
-      "epoch": 0.043478260869565216,
-      "grad_norm": 10.402758598327637,
-      "learning_rate": 2.173913043478261e-05,
-      "loss": 2.4704,
-      "step": 20
-    },
-    {
-      "epoch": 0.06521739130434782,
-      "grad_norm": 8.703824043273926,
-      "learning_rate": 3.260869565217392e-05,
-      "loss": 2.4447,
-      "step": 30
-    },
-    {
-      "epoch": 0.08695652173913043,
-      "grad_norm": 10.318586349487305,
-      "learning_rate": 4.347826086956522e-05,
-      "loss": 2.2403,
-      "step": 40
-    },
-    {
-      "epoch": 0.10217391304347827,
-      "eval_accuracy": 0.13636363636363635,
-      "eval_loss": 2.2386703491210938,
-      "eval_runtime": 6.4992,
-      "eval_samples_per_second": 10.155,
-      "eval_steps_per_second": 1.385,
-      "step": 47
-    },
-    {
-      "epoch": 1.0065217391304349,
-      "grad_norm": 8.518580436706543,
-      "learning_rate": 4.9516908212560386e-05,
-      "loss": 2.215,
-      "step": 50
-    },
-    {
-      "epoch": 1.0282608695652173,
-      "grad_norm": 11.493647575378418,
-      "learning_rate": 4.830917874396135e-05,
-      "loss": 1.8724,
-      "step": 60
-    },
-    {
-      "epoch": 1.05,
-      "grad_norm": 9.734604835510254,
-      "learning_rate": 4.710144927536232e-05,
-      "loss": 1.7272,
-      "step": 70
-    },
-    {
-      "epoch": 1.0717391304347825,
-      "grad_norm": 9.319704055786133,
-      "learning_rate": 4.589371980676328e-05,
-      "loss": 1.5902,
-      "step": 80
-    },
-    {
-      "epoch": 1.0934782608695652,
-      "grad_norm": 7.253905773162842,
-      "learning_rate": 4.4685990338164255e-05,
-      "loss": 1.2918,
-      "step": 90
     },
     {
-      "epoch": 1.1021739130434782,
-      "eval_accuracy": 0.5151515151515151,
-      "eval_loss": 1.3612327575683594,
-      "eval_runtime": 6.203,
-      "eval_samples_per_second": 10.64,
-      "eval_steps_per_second": 1.451,
-      "step": 94
-    },
-    {
-      "epoch": 2.0130434782608697,
-      "grad_norm": 9.277091026306152,
-      "learning_rate": 4.347826086956522e-05,
-      "loss": 1.1276,
-      "step": 100
     },
     {
-      "epoch": 2.034782608695652,
-      "grad_norm": 6.776515960693359,
-      "learning_rate": 4.2270531400966186e-05,
-      "loss": 0.8852,
-      "step": 110
     },
     {
-      "epoch": 2.0565217391304347,
-      "grad_norm": 7.559288501739502,
-      "learning_rate": 4.106280193236715e-05,
-      "loss": 0.8805,
-      "step": 120
     },
     {
-      "epoch": 2.0782608695652174,
-      "grad_norm": 14.196601867675781,
-      "learning_rate": 3.985507246376812e-05,
-      "loss": 0.7797,
-      "step": 130
     },
     {
       "epoch": 2.1,
-      "grad_norm": 14.56787109375,
-      "learning_rate": 3.864734299516908e-05,
-      "loss": 0.8662,
-      "step": 140
-    },
-    {
-      "epoch": 2.1021739130434782,
-      "eval_accuracy": 0.7424242424242424,
-      "eval_loss": 0.8151518702507019,
-      "eval_runtime": 6.4913,
-      "eval_samples_per_second": 10.167,
-      "eval_steps_per_second": 1.386,
-      "step": 141
-    },
-    {
-      "epoch": 3.0195652173913046,
-      "grad_norm": 6.646560192108154,
-      "learning_rate": 3.743961352657005e-05,
-      "loss": 0.6663,
-      "step": 150
-    },
-    {
-      "epoch": 3.041304347826087,
-      "grad_norm": 6.8809356689453125,
-      "learning_rate": 3.6231884057971014e-05,
-      "loss": 0.549,
-      "step": 160
-    },
-    {
-      "epoch": 3.0630434782608695,
-      "grad_norm": 12.483465194702148,
-      "learning_rate": 3.502415458937198e-05,
-      "loss": 0.5251,
-      "step": 170
-    },
-    {
-      "epoch": 3.0847826086956522,
-      "grad_norm": 7.2777276039123535,
-      "learning_rate": 3.381642512077295e-05,
-      "loss": 0.6072,
-      "step": 180
-    },
-    {
-      "epoch": 3.1021739130434782,
-      "eval_accuracy": 0.8939393939393939,
-      "eval_loss": 0.39679834246635437,
-      "eval_runtime": 5.8658,
-      "eval_samples_per_second": 11.252,
-      "eval_steps_per_second": 1.534,
-      "step": 188
     },
     {
-      "epoch": 4.004347826086956,
-      "grad_norm": 6.928377628326416,
-      "learning_rate": 3.260869565217392e-05,
-      "loss": 0.4876,
-      "step": 190
     },
     {
-      "epoch": 4.026086956521739,
-      "grad_norm": 19.643159866333008,
-      "learning_rate": 3.140096618357488e-05,
-      "loss": 0.3014,
-      "step": 200
     },
     {
-      "epoch": 4.047826086956522,
-      "grad_norm": 4.118589401245117,
-      "learning_rate": 3.0193236714975848e-05,
-      "loss": 0.2793,
-      "step": 210
     },
     {
-      "epoch": 4.069565217391304,
-      "grad_norm": 1.8621646165847778,
-      "learning_rate": 2.8985507246376814e-05,
-      "loss": 0.2754,
-      "step": 220
     },
     {
-      "epoch": 4.091304347826087,
-      "grad_norm": 18.98653793334961,
       "learning_rate": 2.777777777777778e-05,
-      "loss": 0.2958,
-      "step": 230
-    },
-    {
-      "epoch": 4.102173913043479,
-      "eval_accuracy": 0.8787878787878788,
-      "eval_loss": 0.3365328013896942,
-      "eval_runtime": 5.9112,
-      "eval_samples_per_second": 11.165,
-      "eval_steps_per_second": 1.523,
-      "step": 235
-    },
-    {
-      "epoch": 5.010869565217392,
-      "grad_norm": 11.831360816955566,
-      "learning_rate": 2.6570048309178748e-05,
-      "loss": 0.2189,
-      "step": 240
-    },
-    {
-      "epoch": 5.032608695652174,
-      "grad_norm": 5.401520252227783,
-      "learning_rate": 2.5362318840579714e-05,
-      "loss": 0.1791,
-      "step": 250
-    },
-    {
-      "epoch": 5.054347826086956,
-      "grad_norm": 9.114124298095703,
-      "learning_rate": 2.4154589371980676e-05,
-      "loss": 0.2604,
-      "step": 260
-    },
-    {
-      "epoch": 5.076086956521739,
-      "grad_norm": 1.7160027027130127,
-      "learning_rate": 2.294685990338164e-05,
-      "loss": 0.1396,
-      "step": 270
-    },
-    {
-      "epoch": 5.0978260869565215,
-      "grad_norm": 1.6239838600158691,
-      "learning_rate": 2.173913043478261e-05,
-      "loss": 0.1534,
-      "step": 280
-    },
-    {
-      "epoch": 5.102173913043479,
-      "eval_accuracy": 0.9242424242424242,
-      "eval_loss": 0.25064730644226074,
-      "eval_runtime": 5.9732,
-      "eval_samples_per_second": 11.049,
-      "eval_steps_per_second": 1.507,
-      "step": 282
-    },
-    {
-      "epoch": 6.017391304347826,
-      "grad_norm": 11.243247032165527,
-      "learning_rate": 2.0531400966183576e-05,
-      "loss": 0.1272,
-      "step": 290
-    },
-    {
-      "epoch": 6.039130434782609,
-      "grad_norm": 11.26307487487793,
-      "learning_rate": 1.932367149758454e-05,
-      "loss": 0.0651,
-      "step": 300
-    },
-    {
-      "epoch": 6.060869565217391,
-      "grad_norm": 18.92414665222168,
-      "learning_rate": 1.8115942028985507e-05,
-      "loss": 0.167,
-      "step": 310
-    },
-    {
-      "epoch": 6.082608695652174,
-      "grad_norm": 0.3199400305747986,
-      "learning_rate": 1.6908212560386476e-05,
-      "loss": 0.0907,
-      "step": 320
-    },
-    {
-      "epoch": 6.102173913043479,
-      "eval_accuracy": 0.9848484848484849,
-      "eval_loss": 0.1101275309920311,
-      "eval_runtime": 6.2213,
-      "eval_samples_per_second": 10.609,
-      "eval_steps_per_second": 1.447,
-      "step": 329
-    },
-    {
-      "epoch": 7.002173913043478,
-      "grad_norm": 5.541162490844727,
-      "learning_rate": 1.570048309178744e-05,
-      "loss": 0.1261,
-      "step": 330
-    },
-    {
-      "epoch": 7.023913043478261,
-      "grad_norm": 9.781050682067871,
-      "learning_rate": 1.4492753623188407e-05,
-      "loss": 0.0858,
-      "step": 340
-    },
-    {
-      "epoch": 7.0456521739130435,
-      "grad_norm": 15.221212387084961,
-      "learning_rate": 1.3285024154589374e-05,
-      "loss": 0.0677,
-      "step": 350
     },
     {
-      "epoch": 7.067391304347826,
-      "grad_norm": 0.271314412355423,
-      "learning_rate": 1.2077294685990338e-05,
-      "loss": 0.0875,
-      "step": 360
     },
     {
-      "epoch": 7.089130434782609,
-      "grad_norm": 7.625803470611572,
-      "learning_rate": 1.0869565217391305e-05,
-      "loss": 0.1085,
-      "step": 370
     },
     {
-      "epoch": 7.102173913043479,
-      "eval_accuracy": 0.9545454545454546,
-      "eval_loss": 0.10326449573040009,
-      "eval_runtime": 6.6343,
-      "eval_samples_per_second": 9.948,
-      "eval_steps_per_second": 1.357,
-      "step": 376
     },
     {
-      "epoch": 8.008695652173913,
-      "grad_norm": 0.3747415244579315,
-      "learning_rate": 9.66183574879227e-06,
-      "loss": 0.1309,
-      "step": 380
     },
     {
-      "epoch": 8.030434782608696,
-      "grad_norm": 0.6200582981109619,
-      "learning_rate": 8.454106280193238e-06,
-      "loss": 0.0571,
-      "step": 390
     },
     {
-      "epoch": 8.052173913043479,
-      "grad_norm": 0.3507235646247864,
-      "learning_rate": 7.246376811594203e-06,
-      "loss": 0.0293,
-      "step": 400
     },
     {
-      "epoch": 8.07391304347826,
-      "grad_norm": 0.3272978961467743,
-      "learning_rate": 6.038647342995169e-06,
-      "loss": 0.0481,
-      "step": 410
     },
     {
-      "epoch": 8.095652173913043,
-      "grad_norm": 0.4806969165802002,
-      "learning_rate": 4.830917874396135e-06,
-      "loss": 0.0666,
-      "step": 420
     },
     {
-      "epoch": 8.102173913043478,
-      "eval_accuracy": 0.9696969696969697,
-      "eval_loss": 0.10309642553329468,
-      "eval_runtime": 6.078,
-      "eval_samples_per_second": 10.859,
-      "eval_steps_per_second": 1.481,
-      "step": 423
     },
     {
-      "epoch": 9.015217391304347,
-      "grad_norm": 0.6005312204360962,
-      "learning_rate": 3.6231884057971017e-06,
-      "loss": 0.0985,
-      "step": 430
     },
     {
-      "epoch": 9.03695652173913,
-      "grad_norm": 1.0368554592132568,
-      "learning_rate": 2.4154589371980677e-06,
-      "loss": 0.0249,
-      "step": 440
     },
     {
-      "epoch": 9.058695652173913,
-      "grad_norm": 0.20510777831077576,
-      "learning_rate": 1.2077294685990338e-06,
-      "loss": 0.0141,
-      "step": 450
     },
     {
-      "epoch": 9.080434782608696,
-      "grad_norm": 0.4739467203617096,
       "learning_rate": 0.0,
-      "loss": 0.0251,
-      "step": 460
     },
     {
-      "epoch": 9.080434782608696,
-      "eval_accuracy": 0.9696969696969697,
-      "eval_loss": 0.11189308762550354,
-      "eval_runtime": 8.098,
-      "eval_samples_per_second": 8.15,
-      "eval_steps_per_second": 1.111,
-      "step": 460
     },
     {
-      "epoch": 9.080434782608696,
-      "step": 460,
-      "total_flos": 4.5186331435416945e+18,
-      "train_loss": 0.6365434888264407,
-      "train_runtime": 731.5291,
-      "train_samples_per_second": 5.031,
-      "train_steps_per_second": 0.629
     },
     {
-      "epoch": 9.080434782608696,
-      "eval_accuracy": 0.9617834394904459,
-      "eval_loss": 0.1620456427335739,
-      "eval_runtime": 14.6193,
-      "eval_samples_per_second": 10.739,
-      "eval_steps_per_second": 1.368,
-      "step": 460
     },
     {
-      "epoch": 9.080434782608696,
-      "eval_accuracy": 0.9617834394904459,
-      "eval_loss": 0.1620456427335739,
-      "eval_runtime": 14.8873,
-      "eval_samples_per_second": 10.546,
-      "eval_steps_per_second": 1.343,
-      "step": 460
     }
   ],
   "logging_steps": 10,
-  "max_steps": 460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
   "save_steps": 500,
@@ -465,7 +255,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.5186331435416945e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6428571428571429,
+  "best_model_checkpoint": "videomae-base-finetuned-ucf101-subset/checkpoint-153",
+  "epoch": 9.04375,
   "eval_steps": 500,
+  "global_step": 160,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0625,
+      "grad_norm": 8.446556091308594,
+      "learning_rate": 3.125e-05,
+      "loss": 1.4262,
       "step": 10
     },
     {
+      "epoch": 0.10625,
+      "eval_accuracy": 0.35714285714285715,
+      "eval_loss": 1.4080798625946045,
+      "eval_runtime": 4.4913,
+      "eval_samples_per_second": 3.117,
+      "eval_steps_per_second": 0.445,
+      "step": 17
     },
     {
+      "epoch": 1.01875,
+      "grad_norm": 9.888665199279785,
+      "learning_rate": 4.8611111111111115e-05,
+      "loss": 1.3656,
+      "step": 20
     },
     {
+      "epoch": 1.08125,
+      "grad_norm": 5.500328540802002,
+      "learning_rate": 4.5138888888888894e-05,
+      "loss": 1.3918,
+      "step": 30
     },
     {
+      "epoch": 1.10625,
+      "eval_accuracy": 0.21428571428571427,
+      "eval_loss": 1.579779863357544,
+      "eval_runtime": 1.2328,
+      "eval_samples_per_second": 11.357,
+      "eval_steps_per_second": 1.622,
+      "step": 34
     },
     {
+      "epoch": 2.0375,
+      "grad_norm": 6.509393692016602,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 1.3092,
+      "step": 40
     },
     {
       "epoch": 2.1,
+      "grad_norm": 9.822772979736328,
+      "learning_rate": 3.8194444444444444e-05,
+      "loss": 1.2887,
+      "step": 50
     },
     {
+      "epoch": 2.10625,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.3649126291275024,
+      "eval_runtime": 1.2619,
+      "eval_samples_per_second": 11.095,
+      "eval_steps_per_second": 1.585,
+      "step": 51
     },
     {
+      "epoch": 3.05625,
+      "grad_norm": 7.699404239654541,
+      "learning_rate": 3.472222222222222e-05,
+      "loss": 1.3115,
+      "step": 60
     },
     {
+      "epoch": 3.10625,
+      "eval_accuracy": 0.42857142857142855,
+      "eval_loss": 1.4629420042037964,
+      "eval_runtime": 1.2724,
+      "eval_samples_per_second": 11.003,
+      "eval_steps_per_second": 1.572,
+      "step": 68
     },
     {
+      "epoch": 4.0125,
+      "grad_norm": 6.042768955230713,
+      "learning_rate": 3.125e-05,
+      "loss": 1.1749,
+      "step": 70
     },
     {
+      "epoch": 4.075,
+      "grad_norm": 6.405767917633057,
       "learning_rate": 2.777777777777778e-05,
+      "loss": 1.0533,
+      "step": 80
     },
     {
+      "epoch": 4.10625,
+      "eval_accuracy": 0.2857142857142857,
+      "eval_loss": 1.5868721008300781,
+      "eval_runtime": 1.3163,
+      "eval_samples_per_second": 10.636,
+      "eval_steps_per_second": 1.519,
+      "step": 85
     },
     {
+      "epoch": 5.03125,
+      "grad_norm": 5.696847915649414,
+      "learning_rate": 2.4305555555555558e-05,
+      "loss": 1.1042,
+      "step": 90
     },
     {
+      "epoch": 5.09375,
+      "grad_norm": 9.622387886047363,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 0.9616,
+      "step": 100
     },
     {
+      "epoch": 5.10625,
+      "eval_accuracy": 0.35714285714285715,
+      "eval_loss": 1.7206089496612549,
+      "eval_runtime": 1.3192,
+      "eval_samples_per_second": 10.612,
+      "eval_steps_per_second": 1.516,
+      "step": 102
     },
     {
+      "epoch": 6.05,
+      "grad_norm": 10.931577682495117,
+      "learning_rate": 1.736111111111111e-05,
+      "loss": 0.9531,
+      "step": 110
     },
     {
+      "epoch": 6.10625,
+      "eval_accuracy": 0.35714285714285715,
+      "eval_loss": 1.440622329711914,
+      "eval_runtime": 1.1712,
+      "eval_samples_per_second": 11.954,
+      "eval_steps_per_second": 1.708,
+      "step": 119
     },
     {
+      "epoch": 7.00625,
+      "grad_norm": 12.279280662536621,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.7034,
+      "step": 120
     },
     {
+      "epoch": 7.06875,
+      "grad_norm": 15.174863815307617,
+      "learning_rate": 1.0416666666666668e-05,
+      "loss": 0.6531,
+      "step": 130
     },
     {
+      "epoch": 7.10625,
+      "eval_accuracy": 0.5,
+      "eval_loss": 1.329153299331665,
+      "eval_runtime": 1.1705,
+      "eval_samples_per_second": 11.96,
+      "eval_steps_per_second": 1.709,
+      "step": 136
     },
     {
+      "epoch": 8.025,
+      "grad_norm": 12.259533882141113,
+      "learning_rate": 6.944444444444445e-06,
+      "loss": 0.6896,
+      "step": 140
     },
     {
+      "epoch": 8.0875,
+      "grad_norm": 14.428750991821289,
+      "learning_rate": 3.4722222222222224e-06,
+      "loss": 0.5778,
+      "step": 150
     },
     {
+      "epoch": 8.10625,
+      "eval_accuracy": 0.6428571428571429,
+      "eval_loss": 1.121216058731079,
+      "eval_runtime": 1.0823,
+      "eval_samples_per_second": 12.936,
+      "eval_steps_per_second": 1.848,
+      "step": 153
     },
     {
+      "epoch": 9.04375,
+      "grad_norm": 12.301226615905762,
       "learning_rate": 0.0,
+      "loss": 0.4835,
+      "step": 160
     },
     {
+      "epoch": 9.04375,
+      "eval_accuracy": 0.5714285714285714,
+      "eval_loss": 1.113793134689331,
+      "eval_runtime": 1.2842,
+      "eval_samples_per_second": 10.902,
+      "eval_steps_per_second": 1.557,
+      "step": 160
     },
     {
+      "epoch": 9.04375,
+      "step": 160,
+      "total_flos": 1.5277024347362427e+18,
+      "train_loss": 1.0279614835977555,
+      "train_runtime": 373.3169,
+      "train_samples_per_second": 3.429,
+      "train_steps_per_second": 0.429
     },
     {
+      "epoch": 9.04375,
+      "eval_accuracy": 0.5714285714285714,
+      "eval_loss": 1.1454538106918335,
+      "eval_runtime": 10.4142,
+      "eval_samples_per_second": 2.689,
+      "eval_steps_per_second": 0.384,
+      "step": 160
     },
     {
+      "epoch": 9.04375,
+      "eval_accuracy": 0.5714285714285714,
+      "eval_loss": 1.1454538106918335,
+      "eval_runtime": 3.2395,
+      "eval_samples_per_second": 8.643,
+      "eval_steps_per_second": 1.235,
+      "step": 160
     }
   ],
   "logging_steps": 10,
+  "max_steps": 160,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 1.5277024347362427e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null