🍻 cheers

Browse files

Files changed (6) hide show

README.md +5 -4
all_results.json +10 -10
eval_results.json +6 -6
runs/Mar26_19-55-16_ryanserver/events.out.tfevents.1711499103.ryanserver.31878.1 +3 -0
train_results.json +4 -4
trainer_state.json +925 -125

README.md CHANGED Viewed

@@ -2,6 +2,7 @@
 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
 - generated_from_trainer
 model-index:
 - name: ryan_model314
@@ -13,11 +14,11 @@ should probably proofread and complete it, then remove this comment. -->
 # ryan_model314
-This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2670
-- Na Accuracy: 0.962
-- Ordinal Accuracy: 0.6760
 ## Model description

 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
+- image-classification
 - generated_from_trainer
 model-index:
 - name: ryan_model314
 # ryan_model314
+This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the beans dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2404
+- Na Accuracy: 0.96
+- Ordinal Accuracy: 0.5921
 ## Model description

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
     "epoch": 4.0,
     "eval_accuracy": 0.628,
-    "eval_loss": 0.29386183619499207,
-    "eval_na_accuracy": 0.945,
-    "eval_ordinal_accuracy": 0.5705521472392638,
-    "eval_runtime": 8.2243,
-    "eval_samples_per_second": 24.318,
-    "eval_steps_per_second": 3.04,
-    "train_loss": 0.212149089468377,
-    "train_runtime": 378.6413,
-    "train_samples_per_second": 10.564,
-    "train_steps_per_second": 0.666
 }

 {
     "epoch": 4.0,
     "eval_accuracy": 0.628,
+    "eval_loss": 0.24043463170528412,
+    "eval_na_accuracy": 0.96,
+    "eval_ordinal_accuracy": 0.5920745920745921,
+    "eval_runtime": 19.2933,
+    "eval_samples_per_second": 25.916,
+    "eval_steps_per_second": 3.265,
+    "train_loss": 0.15608444792060808,
+    "train_runtime": 1745.0942,
+    "train_samples_per_second": 11.461,
+    "train_steps_per_second": 0.717
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 4.0,
-    "eval_loss": 0.29386183619499207,
-    "eval_na_accuracy": 0.945,
-    "eval_ordinal_accuracy": 0.5705521472392638,
-    "eval_runtime": 8.2243,
-    "eval_samples_per_second": 24.318,
-    "eval_steps_per_second": 3.04
 }

 {
     "epoch": 4.0,
+    "eval_loss": 0.24043463170528412,
+    "eval_na_accuracy": 0.96,
+    "eval_ordinal_accuracy": 0.5920745920745921,
+    "eval_runtime": 19.2933,
+    "eval_samples_per_second": 25.916,
+    "eval_steps_per_second": 3.265
 }

runs/Mar26_19-55-16_ryanserver/events.out.tfevents.1711499103.ryanserver.31878.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2880e2c2215eaef570c0be996f15cabceae3651e279b2ce21eac8443260ed04c
+size 474

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 4.0,
-    "train_loss": 0.212149089468377,
-    "train_runtime": 378.6413,
-    "train_samples_per_second": 10.564,
-    "train_steps_per_second": 0.666
 }

 {
     "epoch": 4.0,
+    "train_loss": 0.15608444792060808,
+    "train_runtime": 1745.0942,
+    "train_samples_per_second": 11.461,
+    "train_steps_per_second": 0.717
 }

trainer_state.json CHANGED Viewed

@@ -1,224 +1,1024 @@
 {
-  "best_metric": 0.29386183619499207,
-  "best_model_checkpoint": "./ryan_model314/checkpoint-200",
   "epoch": 4.0,
   "eval_steps": 100,
-  "global_step": 252,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.16,
-      "grad_norm": 1.1858803033828735,
-      "learning_rate": 0.00019206349206349208,
-      "loss": 0.5736,
       "step": 10
     },
     {
-      "epoch": 0.32,
-      "grad_norm": 1.41181480884552,
-      "learning_rate": 0.00018412698412698412,
-      "loss": 0.4142,
       "step": 20
     },
     {
-      "epoch": 0.48,
-      "grad_norm": 0.6347964406013489,
-      "learning_rate": 0.0001761904761904762,
-      "loss": 0.3916,
       "step": 30
     },
     {
-      "epoch": 0.63,
-      "grad_norm": 0.7893273234367371,
-      "learning_rate": 0.00016825396825396826,
-      "loss": 0.3628,
       "step": 40
     },
     {
-      "epoch": 0.79,
-      "grad_norm": 0.9887136816978455,
-      "learning_rate": 0.00016031746031746033,
-      "loss": 0.3852,
       "step": 50
     },
     {
-      "epoch": 0.95,
-      "grad_norm": 1.1596781015396118,
-      "learning_rate": 0.00015238095238095237,
-      "loss": 0.3962,
       "step": 60
     },
     {
-      "epoch": 1.11,
-      "grad_norm": 1.1897984743118286,
-      "learning_rate": 0.00014444444444444444,
-      "loss": 0.2923,
       "step": 70
     },
     {
-      "epoch": 1.27,
-      "grad_norm": 0.5242781639099121,
-      "learning_rate": 0.0001365079365079365,
-      "loss": 0.2335,
       "step": 80
     },
     {
-      "epoch": 1.43,
-      "grad_norm": 1.0704305171966553,
-      "learning_rate": 0.00012857142857142858,
-      "loss": 0.268,
       "step": 90
     },
     {
-      "epoch": 1.59,
-      "grad_norm": 0.852606475353241,
-      "learning_rate": 0.00012063492063492063,
-      "loss": 0.1969,
       "step": 100
     },
     {
-      "epoch": 1.59,
-      "eval_loss": 0.2954840064048767,
-      "eval_na_accuracy": 0.945,
-      "eval_ordinal_accuracy": 0.4785276073619632,
-      "eval_runtime": 26.5841,
-      "eval_samples_per_second": 7.523,
-      "eval_steps_per_second": 0.94,
       "step": 100
     },
     {
-      "epoch": 1.75,
-      "grad_norm": 0.6733121871948242,
-      "learning_rate": 0.0001126984126984127,
-      "loss": 0.2328,
       "step": 110
     },
     {
-      "epoch": 1.9,
-      "grad_norm": 0.9004744291305542,
-      "learning_rate": 0.00010476190476190477,
-      "loss": 0.2248,
       "step": 120
     },
     {
-      "epoch": 2.06,
-      "grad_norm": 3.1687183380126953,
-      "learning_rate": 9.682539682539682e-05,
-      "loss": 0.1717,
       "step": 130
     },
     {
-      "epoch": 2.22,
-      "grad_norm": 0.6659616827964783,
-      "learning_rate": 8.888888888888889e-05,
-      "loss": 0.145,
       "step": 140
     },
     {
-      "epoch": 2.38,
-      "grad_norm": 0.6846858859062195,
-      "learning_rate": 8.095238095238096e-05,
-      "loss": 0.1157,
       "step": 150
     },
     {
-      "epoch": 2.54,
-      "grad_norm": 0.6155730485916138,
-      "learning_rate": 7.301587301587302e-05,
-      "loss": 0.1424,
       "step": 160
     },
     {
-      "epoch": 2.7,
-      "grad_norm": 0.6559838056564331,
-      "learning_rate": 6.507936507936509e-05,
-      "loss": 0.1041,
       "step": 170
     },
     {
-      "epoch": 2.86,
-      "grad_norm": 0.4849882423877716,
-      "learning_rate": 5.714285714285714e-05,
-      "loss": 0.1339,
       "step": 180
     },
     {
-      "epoch": 3.02,
-      "grad_norm": 0.6311644911766052,
-      "learning_rate": 4.9206349206349204e-05,
-      "loss": 0.103,
       "step": 190
     },
     {
-      "epoch": 3.17,
-      "grad_norm": 0.8323171138763428,
-      "learning_rate": 4.126984126984127e-05,
-      "loss": 0.0746,
       "step": 200
     },
     {
-      "epoch": 3.17,
-      "eval_loss": 0.29386183619499207,
-      "eval_na_accuracy": 0.945,
-      "eval_ordinal_accuracy": 0.5705521472392638,
-      "eval_runtime": 8.3287,
-      "eval_samples_per_second": 24.013,
-      "eval_steps_per_second": 3.002,
       "step": 200
     },
     {
-      "epoch": 3.33,
-      "grad_norm": 0.8798254132270813,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.086,
       "step": 210
     },
     {
-      "epoch": 3.49,
-      "grad_norm": 0.37054240703582764,
-      "learning_rate": 2.5396825396825397e-05,
-      "loss": 0.0933,
       "step": 220
     },
     {
-      "epoch": 3.65,
-      "grad_norm": 0.46293869614601135,
-      "learning_rate": 1.746031746031746e-05,
-      "loss": 0.066,
       "step": 230
     },
     {
-      "epoch": 3.81,
-      "grad_norm": 0.3859086334705353,
-      "learning_rate": 9.523809523809523e-06,
-      "loss": 0.0649,
       "step": 240
     },
     {
-      "epoch": 3.97,
-      "grad_norm": 0.300207257270813,
-      "learning_rate": 1.5873015873015873e-06,
-      "loss": 0.0623,
       "step": 250
     },
     {
       "epoch": 4.0,
-      "step": 252,
-      "total_flos": 3.0997907103744e+17,
-      "train_loss": 0.212149089468377,
-      "train_runtime": 378.6413,
-      "train_samples_per_second": 10.564,
-      "train_steps_per_second": 0.666
     }
   ],
   "logging_steps": 10,
-  "max_steps": 252,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
   "save_steps": 100,
-  "total_flos": 3.0997907103744e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.24043463170528412,
+  "best_model_checkpoint": "./ryan_model314/checkpoint-500",
   "epoch": 4.0,
   "eval_steps": 100,
+  "global_step": 1252,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.03,
+      "grad_norm": 0.962435245513916,
+      "learning_rate": 0.00019840255591054313,
+      "loss": 0.5392,
       "step": 10
     },
     {
+      "epoch": 0.06,
+      "grad_norm": 1.411149024963379,
+      "learning_rate": 0.00019680511182108628,
+      "loss": 0.3886,
       "step": 20
     },
     {
+      "epoch": 0.1,
+      "grad_norm": 0.624254584312439,
+      "learning_rate": 0.0001952076677316294,
+      "loss": 0.3602,
       "step": 30
     },
     {
+      "epoch": 0.13,
+      "grad_norm": 1.0637298822402954,
+      "learning_rate": 0.00019361022364217253,
+      "loss": 0.3841,
       "step": 40
     },
     {
+      "epoch": 0.16,
+      "grad_norm": 1.1236467361450195,
+      "learning_rate": 0.00019201277955271565,
+      "loss": 0.3312,
       "step": 50
     },
     {
+      "epoch": 0.19,
+      "grad_norm": 0.6737650632858276,
+      "learning_rate": 0.0001904153354632588,
+      "loss": 0.3419,
       "step": 60
     },
     {
+      "epoch": 0.22,
+      "grad_norm": 1.0528877973556519,
+      "learning_rate": 0.00018881789137380192,
+      "loss": 0.348,
       "step": 70
     },
     {
+      "epoch": 0.26,
+      "grad_norm": 1.2546306848526,
+      "learning_rate": 0.00018722044728434505,
+      "loss": 0.3884,
       "step": 80
     },
     {
+      "epoch": 0.29,
+      "grad_norm": 1.552256464958191,
+      "learning_rate": 0.0001856230031948882,
+      "loss": 0.4075,
       "step": 90
     },
     {
+      "epoch": 0.32,
+      "grad_norm": 1.334892988204956,
+      "learning_rate": 0.00018402555910543132,
+      "loss": 0.3682,
       "step": 100
     },
     {
+      "epoch": 0.32,
+      "eval_loss": 0.3208509385585785,
+      "eval_na_accuracy": 0.942,
+      "eval_ordinal_accuracy": 0.5268065268065268,
+      "eval_runtime": 54.8874,
+      "eval_samples_per_second": 9.11,
+      "eval_steps_per_second": 1.148,
       "step": 100
     },
     {
+      "epoch": 0.35,
+      "grad_norm": 1.1707366704940796,
+      "learning_rate": 0.00018242811501597444,
+      "loss": 0.274,
       "step": 110
     },
     {
+      "epoch": 0.38,
+      "grad_norm": 0.9099497199058533,
+      "learning_rate": 0.00018083067092651756,
+      "loss": 0.3335,
       "step": 120
     },
     {
+      "epoch": 0.42,
+      "grad_norm": 0.9688892960548401,
+      "learning_rate": 0.00017923322683706071,
+      "loss": 0.2867,
       "step": 130
     },
     {
+      "epoch": 0.45,
+      "grad_norm": 0.5258199572563171,
+      "learning_rate": 0.00017763578274760384,
+      "loss": 0.2557,
       "step": 140
     },
     {
+      "epoch": 0.48,
+      "grad_norm": 0.8469595313072205,
+      "learning_rate": 0.000176038338658147,
+      "loss": 0.3041,
       "step": 150
     },
     {
+      "epoch": 0.51,
+      "grad_norm": 1.846753716468811,
+      "learning_rate": 0.0001744408945686901,
+      "loss": 0.2766,
       "step": 160
     },
     {
+      "epoch": 0.54,
+      "grad_norm": 0.4423494338989258,
+      "learning_rate": 0.00017284345047923323,
+      "loss": 0.2555,
       "step": 170
     },
     {
+      "epoch": 0.58,
+      "grad_norm": 2.977750062942505,
+      "learning_rate": 0.00017124600638977638,
+      "loss": 0.2742,
       "step": 180
     },
     {
+      "epoch": 0.61,
+      "grad_norm": 0.8587075471878052,
+      "learning_rate": 0.00016964856230031948,
+      "loss": 0.3036,
       "step": 190
     },
     {
+      "epoch": 0.64,
+      "grad_norm": 0.7394629120826721,
+      "learning_rate": 0.00016805111821086263,
+      "loss": 0.2877,
       "step": 200
     },
     {
+      "epoch": 0.64,
+      "eval_loss": 0.2782871127128601,
+      "eval_na_accuracy": 0.944,
+      "eval_ordinal_accuracy": 0.5920745920745921,
+      "eval_runtime": 19.4606,
+      "eval_samples_per_second": 25.693,
+      "eval_steps_per_second": 3.237,
       "step": 200
     },
     {
+      "epoch": 0.67,
+      "grad_norm": 1.093324899673462,
+      "learning_rate": 0.00016645367412140575,
+      "loss": 0.2535,
       "step": 210
     },
     {
+      "epoch": 0.7,
+      "grad_norm": 1.0213277339935303,
+      "learning_rate": 0.0001648562300319489,
+      "loss": 0.2513,
       "step": 220
     },
     {
+      "epoch": 0.73,
+      "grad_norm": 1.1321722269058228,
+      "learning_rate": 0.00016325878594249202,
+      "loss": 0.3015,
       "step": 230
     },
     {
+      "epoch": 0.77,
+      "grad_norm": 3.1191928386688232,
+      "learning_rate": 0.00016166134185303515,
+      "loss": 0.2307,
       "step": 240
     },
     {
+      "epoch": 0.8,
+      "grad_norm": 1.107519507408142,
+      "learning_rate": 0.0001600638977635783,
+      "loss": 0.3198,
       "step": 250
     },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.818793535232544,
+      "learning_rate": 0.00015846645367412142,
+      "loss": 0.2959,
+      "step": 260
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.4491446912288666,
+      "learning_rate": 0.00015686900958466454,
+      "loss": 0.212,
+      "step": 270
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 1.838297963142395,
+      "learning_rate": 0.00015527156549520767,
+      "loss": 0.2836,
+      "step": 280
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 1.4379059076309204,
+      "learning_rate": 0.00015367412140575082,
+      "loss": 0.309,
+      "step": 290
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 2.274575710296631,
+      "learning_rate": 0.00015207667731629394,
+      "loss": 0.3079,
+      "step": 300
+    },
+    {
+      "epoch": 0.96,
+      "eval_loss": 0.2544197142124176,
+      "eval_na_accuracy": 0.958,
+      "eval_ordinal_accuracy": 0.5337995337995338,
+      "eval_runtime": 19.3178,
+      "eval_samples_per_second": 25.883,
+      "eval_steps_per_second": 3.261,
+      "step": 300
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 0.7160611748695374,
+      "learning_rate": 0.00015047923322683706,
+      "loss": 0.223,
+      "step": 310
+    },
+    {
+      "epoch": 1.02,
+      "grad_norm": 0.5523737668991089,
+      "learning_rate": 0.0001488817891373802,
+      "loss": 0.2784,
+      "step": 320
+    },
+    {
+      "epoch": 1.05,
+      "grad_norm": 0.5268480777740479,
+      "learning_rate": 0.00014728434504792333,
+      "loss": 0.1671,
+      "step": 330
+    },
+    {
+      "epoch": 1.09,
+      "grad_norm": 1.7597477436065674,
+      "learning_rate": 0.00014568690095846646,
+      "loss": 0.1519,
+      "step": 340
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 0.7296491861343384,
+      "learning_rate": 0.00014408945686900958,
+      "loss": 0.223,
+      "step": 350
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 0.3579563796520233,
+      "learning_rate": 0.00014249201277955273,
+      "loss": 0.1383,
+      "step": 360
+    },
+    {
+      "epoch": 1.18,
+      "grad_norm": 1.5826038122177124,
+      "learning_rate": 0.00014089456869009585,
+      "loss": 0.2555,
+      "step": 370
+    },
+    {
+      "epoch": 1.21,
+      "grad_norm": 1.290208339691162,
+      "learning_rate": 0.000139297124600639,
+      "loss": 0.1482,
+      "step": 380
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 0.9879806637763977,
+      "learning_rate": 0.00013769968051118212,
+      "loss": 0.1714,
+      "step": 390
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 0.6665166616439819,
+      "learning_rate": 0.00013610223642172525,
+      "loss": 0.1901,
+      "step": 400
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 0.26315367221832275,
+      "eval_na_accuracy": 0.948,
+      "eval_ordinal_accuracy": 0.6060606060606061,
+      "eval_runtime": 19.5095,
+      "eval_samples_per_second": 25.628,
+      "eval_steps_per_second": 3.229,
+      "step": 400
+    },
+    {
+      "epoch": 1.31,
+      "grad_norm": 0.5691338181495667,
+      "learning_rate": 0.00013450479233226837,
+      "loss": 0.21,
+      "step": 410
+    },
+    {
+      "epoch": 1.34,
+      "grad_norm": 0.76593017578125,
+      "learning_rate": 0.0001329073482428115,
+      "loss": 0.1704,
+      "step": 420
+    },
+    {
+      "epoch": 1.37,
+      "grad_norm": 0.6972767114639282,
+      "learning_rate": 0.00013130990415335464,
+      "loss": 0.1911,
+      "step": 430
+    },
+    {
+      "epoch": 1.41,
+      "grad_norm": 0.6530088186264038,
+      "learning_rate": 0.00012971246006389777,
+      "loss": 0.128,
+      "step": 440
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 0.8316710591316223,
+      "learning_rate": 0.00012811501597444092,
+      "loss": 0.2046,
+      "step": 450
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 0.5624408721923828,
+      "learning_rate": 0.00012651757188498404,
+      "loss": 0.1888,
+      "step": 460
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 0.5218725800514221,
+      "learning_rate": 0.00012492012779552716,
+      "loss": 0.2096,
+      "step": 470
+    },
+    {
+      "epoch": 1.53,
+      "grad_norm": 0.7621105909347534,
+      "learning_rate": 0.00012332268370607028,
+      "loss": 0.1682,
+      "step": 480
+    },
+    {
+      "epoch": 1.57,
+      "grad_norm": 0.9870132803916931,
+      "learning_rate": 0.00012172523961661342,
+      "loss": 0.1606,
+      "step": 490
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.5003547072410583,
+      "learning_rate": 0.00012012779552715656,
+      "loss": 0.277,
+      "step": 500
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 0.24043463170528412,
+      "eval_na_accuracy": 0.96,
+      "eval_ordinal_accuracy": 0.5920745920745921,
+      "eval_runtime": 19.0104,
+      "eval_samples_per_second": 26.301,
+      "eval_steps_per_second": 3.314,
+      "step": 500
+    },
+    {
+      "epoch": 1.63,
+      "grad_norm": 2.554410457611084,
+      "learning_rate": 0.00011853035143769968,
+      "loss": 0.2163,
+      "step": 510
+    },
+    {
+      "epoch": 1.66,
+      "grad_norm": 0.577261745929718,
+      "learning_rate": 0.00011693290734824283,
+      "loss": 0.1652,
+      "step": 520
+    },
+    {
+      "epoch": 1.69,
+      "grad_norm": 0.722175121307373,
+      "learning_rate": 0.00011533546325878595,
+      "loss": 0.1061,
+      "step": 530
+    },
+    {
+      "epoch": 1.73,
+      "grad_norm": 2.013876438140869,
+      "learning_rate": 0.00011373801916932908,
+      "loss": 0.2078,
+      "step": 540
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 2.5454280376434326,
+      "learning_rate": 0.00011214057507987221,
+      "loss": 0.238,
+      "step": 550
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 0.7590613961219788,
+      "learning_rate": 0.00011054313099041533,
+      "loss": 0.1868,
+      "step": 560
+    },
+    {
+      "epoch": 1.82,
+      "grad_norm": 1.2678501605987549,
+      "learning_rate": 0.00010894568690095847,
+      "loss": 0.2365,
+      "step": 570
+    },
+    {
+      "epoch": 1.85,
+      "grad_norm": 0.9851756691932678,
+      "learning_rate": 0.0001073482428115016,
+      "loss": 0.2362,
+      "step": 580
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 1.6259474754333496,
+      "learning_rate": 0.00010575079872204474,
+      "loss": 0.2368,
+      "step": 590
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 0.7762842178344727,
+      "learning_rate": 0.00010415335463258787,
+      "loss": 0.2081,
+      "step": 600
+    },
+    {
+      "epoch": 1.92,
+      "eval_loss": 0.2585134506225586,
+      "eval_na_accuracy": 0.95,
+      "eval_ordinal_accuracy": 0.627039627039627,
+      "eval_runtime": 19.183,
+      "eval_samples_per_second": 26.065,
+      "eval_steps_per_second": 3.284,
+      "step": 600
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 0.8312740325927734,
+      "learning_rate": 0.000102555910543131,
+      "loss": 0.1747,
+      "step": 610
+    },
+    {
+      "epoch": 1.98,
+      "grad_norm": 1.1986323595046997,
+      "learning_rate": 0.00010095846645367413,
+      "loss": 0.146,
+      "step": 620
+    },
+    {
+      "epoch": 2.01,
+      "grad_norm": 0.6852553486824036,
+      "learning_rate": 9.936102236421726e-05,
+      "loss": 0.1098,
+      "step": 630
+    },
+    {
+      "epoch": 2.04,
+      "grad_norm": 0.49778783321380615,
+      "learning_rate": 9.77635782747604e-05,
+      "loss": 0.0807,
+      "step": 640
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.43836385011672974,
+      "learning_rate": 9.616613418530351e-05,
+      "loss": 0.0785,
+      "step": 650
+    },
+    {
+      "epoch": 2.11,
+      "grad_norm": 0.4496062695980072,
+      "learning_rate": 9.456869009584664e-05,
+      "loss": 0.1007,
+      "step": 660
+    },
+    {
+      "epoch": 2.14,
+      "grad_norm": 0.6552535891532898,
+      "learning_rate": 9.297124600638978e-05,
+      "loss": 0.0837,
+      "step": 670
+    },
+    {
+      "epoch": 2.17,
+      "grad_norm": 0.8565073013305664,
+      "learning_rate": 9.137380191693292e-05,
+      "loss": 0.1288,
+      "step": 680
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 0.3386971056461334,
+      "learning_rate": 8.977635782747604e-05,
+      "loss": 0.0671,
+      "step": 690
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 0.6647264957427979,
+      "learning_rate": 8.817891373801918e-05,
+      "loss": 0.0809,
+      "step": 700
+    },
+    {
+      "epoch": 2.24,
+      "eval_loss": 0.26309889554977417,
+      "eval_na_accuracy": 0.954,
+      "eval_ordinal_accuracy": 0.6736596736596736,
+      "eval_runtime": 18.6607,
+      "eval_samples_per_second": 26.794,
+      "eval_steps_per_second": 3.376,
+      "step": 700
+    },
+    {
+      "epoch": 2.27,
+      "grad_norm": 0.6069409251213074,
+      "learning_rate": 8.658146964856231e-05,
+      "loss": 0.0765,
+      "step": 710
+    },
+    {
+      "epoch": 2.3,
+      "grad_norm": 1.3801295757293701,
+      "learning_rate": 8.498402555910544e-05,
+      "loss": 0.1077,
+      "step": 720
+    },
+    {
+      "epoch": 2.33,
+      "grad_norm": 0.7153878808021545,
+      "learning_rate": 8.338658146964856e-05,
+      "loss": 0.075,
+      "step": 730
+    },
+    {
+      "epoch": 2.36,
+      "grad_norm": 0.727155327796936,
+      "learning_rate": 8.17891373801917e-05,
+      "loss": 0.0639,
+      "step": 740
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.7251117825508118,
+      "learning_rate": 8.019169329073483e-05,
+      "loss": 0.1146,
+      "step": 750
+    },
+    {
+      "epoch": 2.43,
+      "grad_norm": 0.7786515951156616,
+      "learning_rate": 7.859424920127795e-05,
+      "loss": 0.1122,
+      "step": 760
+    },
+    {
+      "epoch": 2.46,
+      "grad_norm": 0.6191527843475342,
+      "learning_rate": 7.699680511182109e-05,
+      "loss": 0.0867,
+      "step": 770
+    },
+    {
+      "epoch": 2.49,
+      "grad_norm": 0.4263085722923279,
+      "learning_rate": 7.539936102236423e-05,
+      "loss": 0.1325,
+      "step": 780
+    },
+    {
+      "epoch": 2.52,
+      "grad_norm": 1.6009018421173096,
+      "learning_rate": 7.380191693290735e-05,
+      "loss": 0.0693,
+      "step": 790
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 0.37769052386283875,
+      "learning_rate": 7.220447284345049e-05,
+      "loss": 0.1,
+      "step": 800
+    },
+    {
+      "epoch": 2.56,
+      "eval_loss": 0.2692907154560089,
+      "eval_na_accuracy": 0.958,
+      "eval_ordinal_accuracy": 0.6363636363636364,
+      "eval_runtime": 19.3788,
+      "eval_samples_per_second": 25.801,
+      "eval_steps_per_second": 3.251,
+      "step": 800
+    },
+    {
+      "epoch": 2.59,
+      "grad_norm": 0.45006510615348816,
+      "learning_rate": 7.060702875399361e-05,
+      "loss": 0.0645,
+      "step": 810
+    },
+    {
+      "epoch": 2.62,
+      "grad_norm": 0.813955545425415,
+      "learning_rate": 6.900958466453674e-05,
+      "loss": 0.0583,
+      "step": 820
+    },
+    {
+      "epoch": 2.65,
+      "grad_norm": 0.7967355847358704,
+      "learning_rate": 6.741214057507987e-05,
+      "loss": 0.1065,
+      "step": 830
+    },
+    {
+      "epoch": 2.68,
+      "grad_norm": 0.8020057678222656,
+      "learning_rate": 6.5814696485623e-05,
+      "loss": 0.0821,
+      "step": 840
+    },
+    {
+      "epoch": 2.72,
+      "grad_norm": 0.7547793388366699,
+      "learning_rate": 6.421725239616614e-05,
+      "loss": 0.0983,
+      "step": 850
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 0.42487284541130066,
+      "learning_rate": 6.261980830670928e-05,
+      "loss": 0.1221,
+      "step": 860
+    },
+    {
+      "epoch": 2.78,
+      "grad_norm": 0.3974541425704956,
+      "learning_rate": 6.1022364217252406e-05,
+      "loss": 0.108,
+      "step": 870
+    },
+    {
+      "epoch": 2.81,
+      "grad_norm": 0.42565950751304626,
+      "learning_rate": 5.942492012779552e-05,
+      "loss": 0.106,
+      "step": 880
+    },
+    {
+      "epoch": 2.84,
+      "grad_norm": 0.5634491443634033,
+      "learning_rate": 5.782747603833866e-05,
+      "loss": 0.0765,
+      "step": 890
+    },
+    {
+      "epoch": 2.88,
+      "grad_norm": 0.7806987166404724,
+      "learning_rate": 5.623003194888179e-05,
+      "loss": 0.0924,
+      "step": 900
+    },
+    {
+      "epoch": 2.88,
+      "eval_loss": 0.2566128671169281,
+      "eval_na_accuracy": 0.962,
+      "eval_ordinal_accuracy": 0.6503496503496503,
+      "eval_runtime": 19.1674,
+      "eval_samples_per_second": 26.086,
+      "eval_steps_per_second": 3.287,
+      "step": 900
+    },
+    {
+      "epoch": 2.91,
+      "grad_norm": 1.5311517715454102,
+      "learning_rate": 5.4632587859424925e-05,
+      "loss": 0.0779,
+      "step": 910
+    },
+    {
+      "epoch": 2.94,
+      "grad_norm": 0.8630849123001099,
+      "learning_rate": 5.3035143769968054e-05,
+      "loss": 0.0697,
+      "step": 920
+    },
+    {
+      "epoch": 2.97,
+      "grad_norm": 0.39383065700531006,
+      "learning_rate": 5.1437699680511184e-05,
+      "loss": 0.065,
+      "step": 930
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.45358964800834656,
+      "learning_rate": 4.984025559105431e-05,
+      "loss": 0.0489,
+      "step": 940
+    },
+    {
+      "epoch": 3.04,
+      "grad_norm": 0.39319777488708496,
+      "learning_rate": 4.824281150159744e-05,
+      "loss": 0.0311,
+      "step": 950
+    },
+    {
+      "epoch": 3.07,
+      "grad_norm": 0.6434493064880371,
+      "learning_rate": 4.664536741214058e-05,
+      "loss": 0.0424,
+      "step": 960
+    },
+    {
+      "epoch": 3.1,
+      "grad_norm": 0.4773056209087372,
+      "learning_rate": 4.504792332268371e-05,
+      "loss": 0.0326,
+      "step": 970
+    },
+    {
+      "epoch": 3.13,
+      "grad_norm": 0.48347094655036926,
+      "learning_rate": 4.345047923322684e-05,
+      "loss": 0.0312,
+      "step": 980
+    },
+    {
+      "epoch": 3.16,
+      "grad_norm": 0.410236120223999,
+      "learning_rate": 4.185303514376997e-05,
+      "loss": 0.0283,
+      "step": 990
+    },
+    {
+      "epoch": 3.19,
+      "grad_norm": 0.3112216889858246,
+      "learning_rate": 4.0255591054313104e-05,
+      "loss": 0.0304,
+      "step": 1000
+    },
+    {
+      "epoch": 3.19,
+      "eval_loss": 0.2782021760940552,
+      "eval_na_accuracy": 0.954,
+      "eval_ordinal_accuracy": 0.6526806526806527,
+      "eval_runtime": 18.9723,
+      "eval_samples_per_second": 26.354,
+      "eval_steps_per_second": 3.321,
+      "step": 1000
+    },
+    {
+      "epoch": 3.23,
+      "grad_norm": 0.3799457550048828,
+      "learning_rate": 3.8658146964856234e-05,
+      "loss": 0.0622,
+      "step": 1010
+    },
+    {
+      "epoch": 3.26,
+      "grad_norm": 0.3940556049346924,
+      "learning_rate": 3.7060702875399364e-05,
+      "loss": 0.0275,
+      "step": 1020
+    },
+    {
+      "epoch": 3.29,
+      "grad_norm": 0.5390946269035339,
+      "learning_rate": 3.546325878594249e-05,
+      "loss": 0.0531,
+      "step": 1030
+    },
+    {
+      "epoch": 3.32,
+      "grad_norm": 0.5048585534095764,
+      "learning_rate": 3.386581469648562e-05,
+      "loss": 0.03,
+      "step": 1040
+    },
+    {
+      "epoch": 3.35,
+      "grad_norm": 0.4280671775341034,
+      "learning_rate": 3.242811501597444e-05,
+      "loss": 0.0474,
+      "step": 1050
+    },
+    {
+      "epoch": 3.39,
+      "grad_norm": 0.34902918338775635,
+      "learning_rate": 3.083067092651757e-05,
+      "loss": 0.0318,
+      "step": 1060
+    },
+    {
+      "epoch": 3.42,
+      "grad_norm": 0.4760427176952362,
+      "learning_rate": 2.9233226837060707e-05,
+      "loss": 0.0285,
+      "step": 1070
+    },
+    {
+      "epoch": 3.45,
+      "grad_norm": 0.15729285776615143,
+      "learning_rate": 2.7635782747603834e-05,
+      "loss": 0.0496,
+      "step": 1080
+    },
+    {
+      "epoch": 3.48,
+      "grad_norm": 0.38401302695274353,
+      "learning_rate": 2.6038338658146967e-05,
+      "loss": 0.0252,
+      "step": 1090
+    },
+    {
+      "epoch": 3.51,
+      "grad_norm": 0.3598209023475647,
+      "learning_rate": 2.44408945686901e-05,
+      "loss": 0.0256,
+      "step": 1100
+    },
+    {
+      "epoch": 3.51,
+      "eval_loss": 0.26621493697166443,
+      "eval_na_accuracy": 0.96,
+      "eval_ordinal_accuracy": 0.6643356643356644,
+      "eval_runtime": 19.2883,
+      "eval_samples_per_second": 25.922,
+      "eval_steps_per_second": 3.266,
+      "step": 1100
+    },
+    {
+      "epoch": 3.55,
+      "grad_norm": 0.4313770830631256,
+      "learning_rate": 2.284345047923323e-05,
+      "loss": 0.0269,
+      "step": 1110
+    },
+    {
+      "epoch": 3.58,
+      "grad_norm": 0.4230475425720215,
+      "learning_rate": 2.124600638977636e-05,
+      "loss": 0.0304,
+      "step": 1120
+    },
+    {
+      "epoch": 3.61,
+      "grad_norm": 0.2662275433540344,
+      "learning_rate": 1.964856230031949e-05,
+      "loss": 0.0176,
+      "step": 1130
+    },
+    {
+      "epoch": 3.64,
+      "grad_norm": 0.791589617729187,
+      "learning_rate": 1.805111821086262e-05,
+      "loss": 0.0307,
+      "step": 1140
+    },
+    {
+      "epoch": 3.67,
+      "grad_norm": 0.49746203422546387,
+      "learning_rate": 1.645367412140575e-05,
+      "loss": 0.0217,
+      "step": 1150
+    },
+    {
+      "epoch": 3.71,
+      "grad_norm": 0.18784604966640472,
+      "learning_rate": 1.485623003194888e-05,
+      "loss": 0.0206,
+      "step": 1160
+    },
+    {
+      "epoch": 3.74,
+      "grad_norm": 0.47459328174591064,
+      "learning_rate": 1.3258785942492014e-05,
+      "loss": 0.0265,
+      "step": 1170
+    },
+    {
+      "epoch": 3.77,
+      "grad_norm": 0.2313966453075409,
+      "learning_rate": 1.1661341853035145e-05,
+      "loss": 0.0313,
+      "step": 1180
+    },
+    {
+      "epoch": 3.8,
+      "grad_norm": 0.4523174464702606,
+      "learning_rate": 1.0063897763578276e-05,
+      "loss": 0.0622,
+      "step": 1190
+    },
+    {
+      "epoch": 3.83,
+      "grad_norm": 0.17250552773475647,
+      "learning_rate": 8.466453674121406e-06,
+      "loss": 0.0424,
+      "step": 1200
+    },
+    {
+      "epoch": 3.83,
+      "eval_loss": 0.2670270502567291,
+      "eval_na_accuracy": 0.962,
+      "eval_ordinal_accuracy": 0.675990675990676,
+      "eval_runtime": 18.6815,
+      "eval_samples_per_second": 26.764,
+      "eval_steps_per_second": 3.372,
+      "step": 1200
+    },
+    {
+      "epoch": 3.87,
+      "grad_norm": 0.3159545660018921,
+      "learning_rate": 6.869009584664538e-06,
+      "loss": 0.0209,
+      "step": 1210
+    },
+    {
+      "epoch": 3.9,
+      "grad_norm": 0.5657308101654053,
+      "learning_rate": 5.2715654952076674e-06,
+      "loss": 0.019,
+      "step": 1220
+    },
+    {
+      "epoch": 3.93,
+      "grad_norm": 0.4505397379398346,
+      "learning_rate": 3.6741214057507987e-06,
+      "loss": 0.0249,
+      "step": 1230
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 0.21818359196186066,
+      "learning_rate": 2.0766773162939296e-06,
+      "loss": 0.0226,
+      "step": 1240
+    },
+    {
+      "epoch": 3.99,
+      "grad_norm": 0.28112998604774475,
+      "learning_rate": 4.792332268370607e-07,
+      "loss": 0.027,
+      "step": 1250
+    },
     {
       "epoch": 4.0,
+      "step": 1252,
+      "total_flos": 1.5498953551872e+18,
+      "train_loss": 0.15608444792060808,
+      "train_runtime": 1745.0942,
+      "train_samples_per_second": 11.461,
+      "train_steps_per_second": 0.717
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1252,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
   "save_steps": 100,
+  "total_flos": 1.5498953551872e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null