End of training

Browse files

Files changed (4) hide show

all_results.json +6 -6
runs/Oct29_20-22-21_7c56bb07786b/events.out.tfevents.1730234240.7c56bb07786b.46717.1 +2 -2
test_results.json +6 -6
trainer_state.json +363 -178

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.184905660377359,
-    "eval_accuracy": 0.7978142076502732,
-    "eval_loss": 0.5372045040130615,
-    "eval_runtime": 17.466,
-    "eval_samples_per_second": 10.478,
-    "eval_steps_per_second": 1.317
 }

 {
+    "epoch": 9.080434782608696,
+    "eval_accuracy": 0.9617834394904459,
+    "eval_loss": 0.1620456427335739,
+    "eval_runtime": 14.8873,
+    "eval_samples_per_second": 10.546,
+    "eval_steps_per_second": 1.343
 }

runs/Oct29_20-22-21_7c56bb07786b/events.out.tfevents.1730234240.7c56bb07786b.46717.1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fb4f6437df2b77386f3957338c87e1e8b3ba01150cccd948a8369e14e4689d2
-size 411

 version https://git-lfs.github.com/spec/v1
+oid sha256:06b3bd51f784cc2ef1692ab398c23c7cf1ec89f936afa92ce70bc1ffcdcf7474
+size 734

test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.184905660377359,
-    "eval_accuracy": 0.7978142076502732,
-    "eval_loss": 0.5372045040130615,
-    "eval_runtime": 17.466,
-    "eval_samples_per_second": 10.478,
-    "eval_steps_per_second": 1.317
 }

 {
+    "epoch": 9.080434782608696,
+    "eval_accuracy": 0.9617834394904459,
+    "eval_loss": 0.1620456427335739,
+    "eval_runtime": 14.8873,
+    "eval_samples_per_second": 10.546,
+    "eval_steps_per_second": 1.343
 }

trainer_state.json CHANGED Viewed

@@ -1,270 +1,455 @@
 {
-  "best_metric": 0.8452380952380952,
-  "best_model_checkpoint": "videomae-base-finetuned-ucf101-subset/checkpoint-265",
-  "epoch": 4.184905660377359,
   "eval_steps": 500,
-  "global_step": 265,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.03773584905660377,
-      "grad_norm": 8.033324241638184,
-      "learning_rate": 1.8518518518518518e-05,
-      "loss": 2.7609,
       "step": 10
     },
     {
-      "epoch": 0.07547169811320754,
-      "grad_norm": 7.882028102874756,
-      "learning_rate": 3.7037037037037037e-05,
-      "loss": 2.6513,
       "step": 20
     },
     {
-      "epoch": 0.11320754716981132,
-      "grad_norm": 8.582988739013672,
-      "learning_rate": 4.936974789915967e-05,
-      "loss": 2.5533,
       "step": 30
     },
     {
-      "epoch": 0.1509433962264151,
-      "grad_norm": 9.038335800170898,
-      "learning_rate": 4.726890756302521e-05,
-      "loss": 2.3765,
       "step": 40
     },
     {
-      "epoch": 0.18867924528301888,
-      "grad_norm": 10.162276268005371,
-      "learning_rate": 4.516806722689076e-05,
-      "loss": 2.2682,
-      "step": 50
     },
     {
-      "epoch": 0.2037735849056604,
-      "eval_accuracy": 0.32142857142857145,
-      "eval_loss": 2.0374372005462646,
-      "eval_runtime": 21.9106,
-      "eval_samples_per_second": 3.834,
-      "eval_steps_per_second": 0.502,
-      "step": 54
     },
     {
-      "epoch": 1.0226415094339623,
-      "grad_norm": 8.538351058959961,
-      "learning_rate": 4.3067226890756305e-05,
-      "loss": 1.9532,
       "step": 60
     },
     {
-      "epoch": 1.060377358490566,
-      "grad_norm": 8.961767196655273,
-      "learning_rate": 4.096638655462185e-05,
-      "loss": 1.5809,
       "step": 70
     },
     {
-      "epoch": 1.0981132075471698,
-      "grad_norm": 8.71930980682373,
-      "learning_rate": 3.88655462184874e-05,
-      "loss": 1.4653,
       "step": 80
     },
     {
-      "epoch": 1.1358490566037736,
-      "grad_norm": 11.393306732177734,
-      "learning_rate": 3.6764705882352945e-05,
-      "loss": 1.3126,
       "step": 90
     },
     {
-      "epoch": 1.1735849056603773,
-      "grad_norm": 8.893975257873535,
-      "learning_rate": 3.466386554621849e-05,
-      "loss": 1.0997,
-      "step": 100
     },
     {
-      "epoch": 1.2037735849056603,
-      "eval_accuracy": 0.6666666666666666,
-      "eval_loss": 1.0029432773590088,
-      "eval_runtime": 7.8357,
-      "eval_samples_per_second": 10.72,
-      "eval_steps_per_second": 1.404,
-      "step": 108
     },
     {
-      "epoch": 2.0075471698113208,
-      "grad_norm": 8.756331443786621,
-      "learning_rate": 3.2563025210084034e-05,
-      "loss": 1.0144,
       "step": 110
     },
     {
-      "epoch": 2.0452830188679245,
-      "grad_norm": 15.8713960647583,
-      "learning_rate": 3.0462184873949578e-05,
-      "loss": 0.9754,
       "step": 120
     },
     {
-      "epoch": 2.0830188679245283,
-      "grad_norm": 25.470157623291016,
-      "learning_rate": 2.8361344537815126e-05,
-      "loss": 1.1946,
       "step": 130
     },
     {
-      "epoch": 2.120754716981132,
-      "grad_norm": 6.735860347747803,
-      "learning_rate": 2.6260504201680674e-05,
-      "loss": 0.782,
       "step": 140
     },
     {
-      "epoch": 2.158490566037736,
-      "grad_norm": 8.800786018371582,
-      "learning_rate": 2.415966386554622e-05,
-      "loss": 0.8976,
-      "step": 150
     },
     {
-      "epoch": 2.1962264150943396,
-      "grad_norm": 8.588472366333008,
-      "learning_rate": 2.2058823529411766e-05,
-      "loss": 0.6996,
-      "step": 160
     },
     {
-      "epoch": 2.2037735849056603,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.7632536292076111,
-      "eval_runtime": 8.3664,
-      "eval_samples_per_second": 10.04,
-      "eval_steps_per_second": 1.315,
-      "step": 162
     },
     {
-      "epoch": 3.030188679245283,
-      "grad_norm": 7.108087539672852,
-      "learning_rate": 1.9957983193277314e-05,
-      "loss": 0.8053,
       "step": 170
     },
     {
-      "epoch": 3.0679245283018868,
-      "grad_norm": 8.610198974609375,
-      "learning_rate": 1.785714285714286e-05,
-      "loss": 0.6667,
       "step": 180
     },
     {
-      "epoch": 3.1056603773584905,
-      "grad_norm": 11.434289932250977,
-      "learning_rate": 1.5756302521008403e-05,
-      "loss": 0.6006,
       "step": 190
     },
     {
-      "epoch": 3.1433962264150943,
-      "grad_norm": 4.931293487548828,
-      "learning_rate": 1.3655462184873949e-05,
-      "loss": 0.635,
       "step": 200
     },
     {
-      "epoch": 3.181132075471698,
-      "grad_norm": 6.236601829528809,
-      "learning_rate": 1.1554621848739497e-05,
-      "loss": 0.7031,
       "step": 210
     },
     {
-      "epoch": 3.2037735849056603,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.5939908027648926,
-      "eval_runtime": 7.8516,
-      "eval_samples_per_second": 10.698,
-      "eval_steps_per_second": 1.401,
-      "step": 216
-    },
-    {
-      "epoch": 4.0150943396226415,
-      "grad_norm": 5.458017349243164,
-      "learning_rate": 9.453781512605041e-06,
-      "loss": 0.5998,
       "step": 220
     },
     {
-      "epoch": 4.052830188679246,
-      "grad_norm": 4.542972087860107,
-      "learning_rate": 7.3529411764705884e-06,
-      "loss": 0.5022,
       "step": 230
     },
     {
-      "epoch": 4.090566037735849,
-      "grad_norm": 17.187719345092773,
-      "learning_rate": 5.252100840336135e-06,
-      "loss": 0.4509,
       "step": 240
     },
     {
-      "epoch": 4.128301886792453,
-      "grad_norm": 18.115018844604492,
-      "learning_rate": 3.1512605042016808e-06,
-      "loss": 0.5752,
       "step": 250
     },
     {
-      "epoch": 4.166037735849057,
-      "grad_norm": 6.622856616973877,
-      "learning_rate": 1.0504201680672271e-06,
-      "loss": 0.4078,
       "step": 260
     },
     {
-      "epoch": 4.184905660377359,
-      "eval_accuracy": 0.8452380952380952,
-      "eval_loss": 0.5297083854675293,
-      "eval_runtime": 8.7988,
-      "eval_samples_per_second": 9.547,
-      "eval_steps_per_second": 1.25,
-      "step": 265
-    },
-    {
-      "epoch": 4.184905660377359,
-      "step": 265,
-      "total_flos": 2.631970050168324e+18,
-      "train_loss": 1.195451885799192,
-      "train_runtime": 648.8571,
-      "train_samples_per_second": 3.267,
-      "train_steps_per_second": 0.408
-    },
-    {
-      "epoch": 4.184905660377359,
-      "eval_accuracy": 0.7978142076502732,
-      "eval_loss": 0.5372046828269958,
-      "eval_runtime": 49.961,
-      "eval_samples_per_second": 3.663,
-      "eval_steps_per_second": 0.46,
-      "step": 265
-    },
-    {
-      "epoch": 4.184905660377359,
-      "eval_accuracy": 0.7978142076502732,
-      "eval_loss": 0.5372045040130615,
-      "eval_runtime": 17.466,
-      "eval_samples_per_second": 10.478,
-      "eval_steps_per_second": 1.317,
-      "step": 265
     }
   ],
   "logging_steps": 10,
-  "max_steps": 265,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
   "save_steps": 500,
@@ -280,7 +465,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.631970050168324e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9848484848484849,
+  "best_model_checkpoint": "videomae-base-finetuned-ucf101-subset/checkpoint-329",
+  "epoch": 9.080434782608696,
   "eval_steps": 500,
+  "global_step": 460,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.021739130434782608,
+      "grad_norm": 9.379189491271973,
+      "learning_rate": 1.0869565217391305e-05,
+      "loss": 2.5308,
       "step": 10
     },
     {
+      "epoch": 0.043478260869565216,
+      "grad_norm": 10.402758598327637,
+      "learning_rate": 2.173913043478261e-05,
+      "loss": 2.4704,
       "step": 20
     },
     {
+      "epoch": 0.06521739130434782,
+      "grad_norm": 8.703824043273926,
+      "learning_rate": 3.260869565217392e-05,
+      "loss": 2.4447,
       "step": 30
     },
     {
+      "epoch": 0.08695652173913043,
+      "grad_norm": 10.318586349487305,
+      "learning_rate": 4.347826086956522e-05,
+      "loss": 2.2403,
       "step": 40
     },
     {
+      "epoch": 0.10217391304347827,
+      "eval_accuracy": 0.13636363636363635,
+      "eval_loss": 2.2386703491210938,
+      "eval_runtime": 6.4992,
+      "eval_samples_per_second": 10.155,
+      "eval_steps_per_second": 1.385,
+      "step": 47
     },
     {
+      "epoch": 1.0065217391304349,
+      "grad_norm": 8.518580436706543,
+      "learning_rate": 4.9516908212560386e-05,
+      "loss": 2.215,
+      "step": 50
     },
     {
+      "epoch": 1.0282608695652173,
+      "grad_norm": 11.493647575378418,
+      "learning_rate": 4.830917874396135e-05,
+      "loss": 1.8724,
       "step": 60
     },
     {
+      "epoch": 1.05,
+      "grad_norm": 9.734604835510254,
+      "learning_rate": 4.710144927536232e-05,
+      "loss": 1.7272,
       "step": 70
     },
     {
+      "epoch": 1.0717391304347825,
+      "grad_norm": 9.319704055786133,
+      "learning_rate": 4.589371980676328e-05,
+      "loss": 1.5902,
       "step": 80
     },
     {
+      "epoch": 1.0934782608695652,
+      "grad_norm": 7.253905773162842,
+      "learning_rate": 4.4685990338164255e-05,
+      "loss": 1.2918,
       "step": 90
     },
     {
+      "epoch": 1.1021739130434782,
+      "eval_accuracy": 0.5151515151515151,
+      "eval_loss": 1.3612327575683594,
+      "eval_runtime": 6.203,
+      "eval_samples_per_second": 10.64,
+      "eval_steps_per_second": 1.451,
+      "step": 94
     },
     {
+      "epoch": 2.0130434782608697,
+      "grad_norm": 9.277091026306152,
+      "learning_rate": 4.347826086956522e-05,
+      "loss": 1.1276,
+      "step": 100
     },
     {
+      "epoch": 2.034782608695652,
+      "grad_norm": 6.776515960693359,
+      "learning_rate": 4.2270531400966186e-05,
+      "loss": 0.8852,
       "step": 110
     },
     {
+      "epoch": 2.0565217391304347,
+      "grad_norm": 7.559288501739502,
+      "learning_rate": 4.106280193236715e-05,
+      "loss": 0.8805,
       "step": 120
     },
     {
+      "epoch": 2.0782608695652174,
+      "grad_norm": 14.196601867675781,
+      "learning_rate": 3.985507246376812e-05,
+      "loss": 0.7797,
       "step": 130
     },
     {
+      "epoch": 2.1,
+      "grad_norm": 14.56787109375,
+      "learning_rate": 3.864734299516908e-05,
+      "loss": 0.8662,
       "step": 140
     },
     {
+      "epoch": 2.1021739130434782,
+      "eval_accuracy": 0.7424242424242424,
+      "eval_loss": 0.8151518702507019,
+      "eval_runtime": 6.4913,
+      "eval_samples_per_second": 10.167,
+      "eval_steps_per_second": 1.386,
+      "step": 141
     },
     {
+      "epoch": 3.0195652173913046,
+      "grad_norm": 6.646560192108154,
+      "learning_rate": 3.743961352657005e-05,
+      "loss": 0.6663,
+      "step": 150
     },
     {
+      "epoch": 3.041304347826087,
+      "grad_norm": 6.8809356689453125,
+      "learning_rate": 3.6231884057971014e-05,
+      "loss": 0.549,
+      "step": 160
     },
     {
+      "epoch": 3.0630434782608695,
+      "grad_norm": 12.483465194702148,
+      "learning_rate": 3.502415458937198e-05,
+      "loss": 0.5251,
       "step": 170
     },
     {
+      "epoch": 3.0847826086956522,
+      "grad_norm": 7.2777276039123535,
+      "learning_rate": 3.381642512077295e-05,
+      "loss": 0.6072,
       "step": 180
     },
     {
+      "epoch": 3.1021739130434782,
+      "eval_accuracy": 0.8939393939393939,
+      "eval_loss": 0.39679834246635437,
+      "eval_runtime": 5.8658,
+      "eval_samples_per_second": 11.252,
+      "eval_steps_per_second": 1.534,
+      "step": 188
+    },
+    {
+      "epoch": 4.004347826086956,
+      "grad_norm": 6.928377628326416,
+      "learning_rate": 3.260869565217392e-05,
+      "loss": 0.4876,
       "step": 190
     },
     {
+      "epoch": 4.026086956521739,
+      "grad_norm": 19.643159866333008,
+      "learning_rate": 3.140096618357488e-05,
+      "loss": 0.3014,
       "step": 200
     },
     {
+      "epoch": 4.047826086956522,
+      "grad_norm": 4.118589401245117,
+      "learning_rate": 3.0193236714975848e-05,
+      "loss": 0.2793,
       "step": 210
     },
     {
+      "epoch": 4.069565217391304,
+      "grad_norm": 1.8621646165847778,
+      "learning_rate": 2.8985507246376814e-05,
+      "loss": 0.2754,
       "step": 220
     },
     {
+      "epoch": 4.091304347826087,
+      "grad_norm": 18.98653793334961,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.2958,
       "step": 230
     },
     {
+      "epoch": 4.102173913043479,
+      "eval_accuracy": 0.8787878787878788,
+      "eval_loss": 0.3365328013896942,
+      "eval_runtime": 5.9112,
+      "eval_samples_per_second": 11.165,
+      "eval_steps_per_second": 1.523,
+      "step": 235
+    },
+    {
+      "epoch": 5.010869565217392,
+      "grad_norm": 11.831360816955566,
+      "learning_rate": 2.6570048309178748e-05,
+      "loss": 0.2189,
       "step": 240
     },
     {
+      "epoch": 5.032608695652174,
+      "grad_norm": 5.401520252227783,
+      "learning_rate": 2.5362318840579714e-05,
+      "loss": 0.1791,
       "step": 250
     },
     {
+      "epoch": 5.054347826086956,
+      "grad_norm": 9.114124298095703,
+      "learning_rate": 2.4154589371980676e-05,
+      "loss": 0.2604,
       "step": 260
     },
     {
+      "epoch": 5.076086956521739,
+      "grad_norm": 1.7160027027130127,
+      "learning_rate": 2.294685990338164e-05,
+      "loss": 0.1396,
+      "step": 270
+    },
+    {
+      "epoch": 5.0978260869565215,
+      "grad_norm": 1.6239838600158691,
+      "learning_rate": 2.173913043478261e-05,
+      "loss": 0.1534,
+      "step": 280
+    },
+    {
+      "epoch": 5.102173913043479,
+      "eval_accuracy": 0.9242424242424242,
+      "eval_loss": 0.25064730644226074,
+      "eval_runtime": 5.9732,
+      "eval_samples_per_second": 11.049,
+      "eval_steps_per_second": 1.507,
+      "step": 282
+    },
+    {
+      "epoch": 6.017391304347826,
+      "grad_norm": 11.243247032165527,
+      "learning_rate": 2.0531400966183576e-05,
+      "loss": 0.1272,
+      "step": 290
+    },
+    {
+      "epoch": 6.039130434782609,
+      "grad_norm": 11.26307487487793,
+      "learning_rate": 1.932367149758454e-05,
+      "loss": 0.0651,
+      "step": 300
+    },
+    {
+      "epoch": 6.060869565217391,
+      "grad_norm": 18.92414665222168,
+      "learning_rate": 1.8115942028985507e-05,
+      "loss": 0.167,
+      "step": 310
+    },
+    {
+      "epoch": 6.082608695652174,
+      "grad_norm": 0.3199400305747986,
+      "learning_rate": 1.6908212560386476e-05,
+      "loss": 0.0907,
+      "step": 320
+    },
+    {
+      "epoch": 6.102173913043479,
+      "eval_accuracy": 0.9848484848484849,
+      "eval_loss": 0.1101275309920311,
+      "eval_runtime": 6.2213,
+      "eval_samples_per_second": 10.609,
+      "eval_steps_per_second": 1.447,
+      "step": 329
+    },
+    {
+      "epoch": 7.002173913043478,
+      "grad_norm": 5.541162490844727,
+      "learning_rate": 1.570048309178744e-05,
+      "loss": 0.1261,
+      "step": 330
+    },
+    {
+      "epoch": 7.023913043478261,
+      "grad_norm": 9.781050682067871,
+      "learning_rate": 1.4492753623188407e-05,
+      "loss": 0.0858,
+      "step": 340
+    },
+    {
+      "epoch": 7.0456521739130435,
+      "grad_norm": 15.221212387084961,
+      "learning_rate": 1.3285024154589374e-05,
+      "loss": 0.0677,
+      "step": 350
+    },
+    {
+      "epoch": 7.067391304347826,
+      "grad_norm": 0.271314412355423,
+      "learning_rate": 1.2077294685990338e-05,
+      "loss": 0.0875,
+      "step": 360
+    },
+    {
+      "epoch": 7.089130434782609,
+      "grad_norm": 7.625803470611572,
+      "learning_rate": 1.0869565217391305e-05,
+      "loss": 0.1085,
+      "step": 370
+    },
+    {
+      "epoch": 7.102173913043479,
+      "eval_accuracy": 0.9545454545454546,
+      "eval_loss": 0.10326449573040009,
+      "eval_runtime": 6.6343,
+      "eval_samples_per_second": 9.948,
+      "eval_steps_per_second": 1.357,
+      "step": 376
+    },
+    {
+      "epoch": 8.008695652173913,
+      "grad_norm": 0.3747415244579315,
+      "learning_rate": 9.66183574879227e-06,
+      "loss": 0.1309,
+      "step": 380
+    },
+    {
+      "epoch": 8.030434782608696,
+      "grad_norm": 0.6200582981109619,
+      "learning_rate": 8.454106280193238e-06,
+      "loss": 0.0571,
+      "step": 390
+    },
+    {
+      "epoch": 8.052173913043479,
+      "grad_norm": 0.3507235646247864,
+      "learning_rate": 7.246376811594203e-06,
+      "loss": 0.0293,
+      "step": 400
+    },
+    {
+      "epoch": 8.07391304347826,
+      "grad_norm": 0.3272978961467743,
+      "learning_rate": 6.038647342995169e-06,
+      "loss": 0.0481,
+      "step": 410
+    },
+    {
+      "epoch": 8.095652173913043,
+      "grad_norm": 0.4806969165802002,
+      "learning_rate": 4.830917874396135e-06,
+      "loss": 0.0666,
+      "step": 420
+    },
+    {
+      "epoch": 8.102173913043478,
+      "eval_accuracy": 0.9696969696969697,
+      "eval_loss": 0.10309642553329468,
+      "eval_runtime": 6.078,
+      "eval_samples_per_second": 10.859,
+      "eval_steps_per_second": 1.481,
+      "step": 423
+    },
+    {
+      "epoch": 9.015217391304347,
+      "grad_norm": 0.6005312204360962,
+      "learning_rate": 3.6231884057971017e-06,
+      "loss": 0.0985,
+      "step": 430
+    },
+    {
+      "epoch": 9.03695652173913,
+      "grad_norm": 1.0368554592132568,
+      "learning_rate": 2.4154589371980677e-06,
+      "loss": 0.0249,
+      "step": 440
+    },
+    {
+      "epoch": 9.058695652173913,
+      "grad_norm": 0.20510777831077576,
+      "learning_rate": 1.2077294685990338e-06,
+      "loss": 0.0141,
+      "step": 450
+    },
+    {
+      "epoch": 9.080434782608696,
+      "grad_norm": 0.4739467203617096,
+      "learning_rate": 0.0,
+      "loss": 0.0251,
+      "step": 460
+    },
+    {
+      "epoch": 9.080434782608696,
+      "eval_accuracy": 0.9696969696969697,
+      "eval_loss": 0.11189308762550354,
+      "eval_runtime": 8.098,
+      "eval_samples_per_second": 8.15,
+      "eval_steps_per_second": 1.111,
+      "step": 460
+    },
+    {
+      "epoch": 9.080434782608696,
+      "step": 460,
+      "total_flos": 4.5186331435416945e+18,
+      "train_loss": 0.6365434888264407,
+      "train_runtime": 731.5291,
+      "train_samples_per_second": 5.031,
+      "train_steps_per_second": 0.629
+    },
+    {
+      "epoch": 9.080434782608696,
+      "eval_accuracy": 0.9617834394904459,
+      "eval_loss": 0.1620456427335739,
+      "eval_runtime": 14.6193,
+      "eval_samples_per_second": 10.739,
+      "eval_steps_per_second": 1.368,
+      "step": 460
+    },
+    {
+      "epoch": 9.080434782608696,
+      "eval_accuracy": 0.9617834394904459,
+      "eval_loss": 0.1620456427335739,
+      "eval_runtime": 14.8873,
+      "eval_samples_per_second": 10.546,
+      "eval_steps_per_second": 1.343,
+      "step": 460
     }
   ],
   "logging_steps": 10,
+  "max_steps": 460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 4.5186331435416945e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null