Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

checkpoint-32650/model.safetensors +1 -1
checkpoint-32650/optimizer.pt +1 -1
checkpoint-32650/scheduler.pt +1 -1
checkpoint-32650/trainer_state.json +256 -256
checkpoint-32650/training_args.bin +1 -1
model.safetensors +1 -1
training_args.bin +1 -1

checkpoint-32650/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af479e8111ef4375572925dd0fe92ff9a598e337c328f0fde4bf3c4ab72659e5
 size 344211388

 version https://git-lfs.github.com/spec/v1
+oid sha256:57b5f4edd84d0939be14fc0d0c3144ca3b1b8e10556b1b5ec4bb8e6ccf46c541
 size 344211388

checkpoint-32650/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ca7cc4c72541a329040d9e6b30cd5329b5a53715196d5515bb6ab36bd9aa774
 size 688543237

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca6d5694df22ef3a59936b2a6f0e1aee07d4a90d876fb7cbb13d01f382350e68
 size 688543237

checkpoint-32650/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fd9228d06d24f0e09c32daf1dbf5a41bf5f327475cb7d2d081065a54ad1e3f8
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:28fe0d0c7fc8a2d0e9e5cfd2629e9cad05774da5004b056a543b287dac11faa2
 size 627

checkpoint-32650/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 2.5461041927337646,
   "best_model_checkpoint": "car_models_image_detection/checkpoint-32650",
   "epoch": 10.0,
   "eval_steps": 500,
@@ -10,557 +10,557 @@
   "log_history": [
     {
       "epoch": 0.15313935681470137,
-      "grad_norm": 1.442165732383728,
-      "learning_rate": 8.875766871165644e-06,
-      "loss": 5.7501,
       "step": 500
     },
     {
       "epoch": 0.30627871362940273,
-      "grad_norm": 1.5294591188430786,
-      "learning_rate": 8.737730061349693e-06,
-      "loss": 5.66,
       "step": 1000
     },
     {
       "epoch": 0.45941807044410415,
-      "grad_norm": 1.7971255779266357,
-      "learning_rate": 8.599693251533743e-06,
-      "loss": 5.5686,
       "step": 1500
     },
     {
       "epoch": 0.6125574272588055,
-      "grad_norm": 1.7858527898788452,
-      "learning_rate": 8.461656441717792e-06,
-      "loss": 5.4714,
       "step": 2000
     },
     {
       "epoch": 0.7656967840735069,
-      "grad_norm": 1.6970139741897583,
-      "learning_rate": 8.32361963190184e-06,
-      "loss": 5.3715,
       "step": 2500
     },
     {
       "epoch": 0.9188361408882083,
-      "grad_norm": 1.9722312688827515,
-      "learning_rate": 8.18558282208589e-06,
-      "loss": 5.2844,
       "step": 3000
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.20365025344993468,
-      "eval_loss": 5.212795734405518,
-      "eval_model_preparation_time": 0.0035,
-      "eval_runtime": 948.361,
-      "eval_samples_per_second": 73.431,
-      "eval_steps_per_second": 9.179,
       "step": 3265
     },
     {
       "epoch": 1.0719754977029097,
-      "grad_norm": 2.317599296569824,
-      "learning_rate": 8.047546012269938e-06,
-      "loss": 5.1866,
       "step": 3500
     },
     {
       "epoch": 1.225114854517611,
-      "grad_norm": 1.872455358505249,
-      "learning_rate": 7.909509202453989e-06,
-      "loss": 5.1003,
       "step": 4000
     },
     {
       "epoch": 1.3782542113323124,
-      "grad_norm": 2.192427396774292,
-      "learning_rate": 7.771472392638037e-06,
-      "loss": 5.0184,
       "step": 4500
     },
     {
       "epoch": 1.5313935681470139,
-      "grad_norm": 2.1170101165771484,
-      "learning_rate": 7.633435582822086e-06,
-      "loss": 4.9414,
       "step": 5000
     },
     {
       "epoch": 1.6845329249617151,
-      "grad_norm": 2.908296823501587,
-      "learning_rate": 7.495398773006135e-06,
-      "loss": 4.863,
       "step": 5500
     },
     {
       "epoch": 1.8376722817764164,
-      "grad_norm": 3.4065804481506348,
-      "learning_rate": 7.3573619631901846e-06,
-      "loss": 4.779,
       "step": 6000
     },
     {
       "epoch": 1.9908116385911179,
-      "grad_norm": 2.6088645458221436,
-      "learning_rate": 7.219325153374233e-06,
-      "loss": 4.7011,
       "step": 6500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.31753758669710935,
-      "eval_loss": 4.691849231719971,
-      "eval_model_preparation_time": 0.0035,
-      "eval_runtime": 713.5751,
-      "eval_samples_per_second": 97.592,
-      "eval_steps_per_second": 12.199,
       "step": 6530
     },
     {
       "epoch": 2.1439509954058193,
-      "grad_norm": 2.4476678371429443,
-      "learning_rate": 7.081288343558283e-06,
-      "loss": 4.5978,
       "step": 7000
     },
     {
       "epoch": 2.2970903522205206,
-      "grad_norm": 3.1015167236328125,
-      "learning_rate": 6.9432515337423315e-06,
-      "loss": 4.53,
       "step": 7500
     },
     {
       "epoch": 2.450229709035222,
-      "grad_norm": 3.4957149028778076,
-      "learning_rate": 6.80521472392638e-06,
-      "loss": 4.437,
       "step": 8000
     },
     {
       "epoch": 2.6033690658499236,
-      "grad_norm": 3.372995138168335,
-      "learning_rate": 6.66717791411043e-06,
-      "loss": 4.3886,
       "step": 8500
     },
     {
       "epoch": 2.756508422664625,
-      "grad_norm": 2.965057849884033,
-      "learning_rate": 6.529141104294479e-06,
-      "loss": 4.3013,
       "step": 9000
     },
     {
       "epoch": 2.909647779479326,
-      "grad_norm": 3.4717111587524414,
-      "learning_rate": 6.391104294478528e-06,
-      "loss": 4.2275,
       "step": 9500
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.3973635462887175,
-      "eval_loss": 4.212672710418701,
-      "eval_model_preparation_time": 0.0035,
-      "eval_runtime": 702.2225,
-      "eval_samples_per_second": 99.169,
-      "eval_steps_per_second": 12.396,
       "step": 9795
     },
     {
       "epoch": 3.0627871362940278,
-      "grad_norm": 3.6480553150177,
-      "learning_rate": 6.253067484662577e-06,
-      "loss": 4.1497,
       "step": 10000
     },
     {
       "epoch": 3.215926493108729,
-      "grad_norm": 2.944525718688965,
-      "learning_rate": 6.1150306748466255e-06,
-      "loss": 4.0626,
       "step": 10500
     },
     {
       "epoch": 3.3690658499234303,
-      "grad_norm": 3.6789698600769043,
-      "learning_rate": 5.976993865030675e-06,
-      "loss": 3.9861,
       "step": 11000
     },
     {
       "epoch": 3.522205206738132,
-      "grad_norm": 3.7942678928375244,
-      "learning_rate": 5.838957055214725e-06,
-      "loss": 3.9302,
       "step": 11500
     },
     {
       "epoch": 3.6753445635528332,
-      "grad_norm": 2.889557123184204,
-      "learning_rate": 5.700920245398773e-06,
-      "loss": 3.8667,
       "step": 12000
     },
     {
       "epoch": 3.8284839203675345,
-      "grad_norm": 4.875265121459961,
-      "learning_rate": 5.562883435582822e-06,
-      "loss": 3.7844,
       "step": 12500
     },
     {
       "epoch": 3.9816232771822357,
-      "grad_norm": 4.279688835144043,
-      "learning_rate": 5.424846625766871e-06,
-      "loss": 3.7406,
       "step": 13000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.4593833914904005,
-      "eval_loss": 3.774059772491455,
-      "eval_model_preparation_time": 0.0035,
-      "eval_runtime": 705.2879,
-      "eval_samples_per_second": 98.738,
-      "eval_steps_per_second": 12.342,
       "step": 13060
     },
     {
       "epoch": 4.134762633996937,
-      "grad_norm": 4.041619777679443,
-      "learning_rate": 5.286809815950921e-06,
-      "loss": 3.6478,
       "step": 13500
     },
     {
       "epoch": 4.287901990811639,
-      "grad_norm": 5.805275917053223,
-      "learning_rate": 5.14877300613497e-06,
-      "loss": 3.58,
       "step": 14000
     },
     {
       "epoch": 4.44104134762634,
-      "grad_norm": 3.922706365585327,
-      "learning_rate": 5.010736196319019e-06,
-      "loss": 3.543,
       "step": 14500
     },
     {
       "epoch": 4.594180704441041,
-      "grad_norm": 3.550119638442993,
-      "learning_rate": 4.872699386503067e-06,
-      "loss": 3.4574,
       "step": 15000
     },
     {
       "epoch": 4.747320061255743,
-      "grad_norm": 5.960729122161865,
-      "learning_rate": 4.734662576687116e-06,
-      "loss": 3.4116,
       "step": 15500
     },
     {
       "epoch": 4.900459418070444,
-      "grad_norm": 4.563659191131592,
-      "learning_rate": 4.5966257668711664e-06,
-      "loss": 3.3544,
       "step": 16000
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.5196800643317682,
-      "eval_loss": 3.398108959197998,
-      "eval_model_preparation_time": 0.0035,
-      "eval_runtime": 700.4362,
-      "eval_samples_per_second": 99.422,
-      "eval_steps_per_second": 12.428,
       "step": 16325
     },
     {
       "epoch": 5.053598774885145,
-      "grad_norm": 5.071287631988525,
-      "learning_rate": 4.458588957055215e-06,
-      "loss": 3.2835,
       "step": 16500
     },
     {
       "epoch": 5.206738131699847,
-      "grad_norm": 5.6899003982543945,
-      "learning_rate": 4.320552147239264e-06,
-      "loss": 3.2203,
       "step": 17000
     },
     {
       "epoch": 5.359877488514548,
-      "grad_norm": 5.455111980438232,
-      "learning_rate": 4.1825153374233126e-06,
-      "loss": 3.1822,
       "step": 17500
     },
     {
       "epoch": 5.51301684532925,
-      "grad_norm": 7.294569969177246,
-      "learning_rate": 4.044478527607362e-06,
-      "loss": 3.1201,
       "step": 18000
     },
     {
       "epoch": 5.666156202143951,
-      "grad_norm": 4.797060012817383,
-      "learning_rate": 3.906441717791411e-06,
-      "loss": 3.0764,
       "step": 18500
     },
     {
       "epoch": 5.819295558958652,
-      "grad_norm": 9.175103187561035,
-      "learning_rate": 3.7684049079754604e-06,
-      "loss": 3.0317,
       "step": 19000
     },
     {
       "epoch": 5.972434915773354,
-      "grad_norm": 5.574986934661865,
-      "learning_rate": 3.630368098159509e-06,
-      "loss": 3.0015,
       "step": 19500
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.5613951952210686,
-      "eval_loss": 3.0899131298065186,
-      "eval_model_preparation_time": 0.0035,
-      "eval_runtime": 705.6276,
-      "eval_samples_per_second": 98.691,
-      "eval_steps_per_second": 12.337,
       "step": 19590
     },
     {
       "epoch": 6.1255742725880555,
-      "grad_norm": 6.0056352615356445,
-      "learning_rate": 3.4923312883435583e-06,
-      "loss": 2.921,
       "step": 20000
     },
     {
       "epoch": 6.278713629402756,
-      "grad_norm": 12.546520233154297,
-      "learning_rate": 3.3542944785276074e-06,
-      "loss": 2.8971,
       "step": 20500
     },
     {
       "epoch": 6.431852986217458,
-      "grad_norm": 4.947099208831787,
-      "learning_rate": 3.2162576687116565e-06,
-      "loss": 2.8553,
       "step": 21000
     },
     {
       "epoch": 6.584992343032159,
-      "grad_norm": 8.054845809936523,
-      "learning_rate": 3.0782208588957057e-06,
-      "loss": 2.8151,
       "step": 21500
     },
     {
       "epoch": 6.738131699846861,
-      "grad_norm": 6.752479076385498,
-      "learning_rate": 2.940184049079755e-06,
-      "loss": 2.7747,
       "step": 22000
     },
     {
       "epoch": 6.891271056661562,
-      "grad_norm": 6.941985607147217,
-      "learning_rate": 2.8021472392638035e-06,
-      "loss": 2.7401,
       "step": 22500
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.5933313229655797,
-      "eval_loss": 2.853682279586792,
-      "eval_model_preparation_time": 0.0035,
-      "eval_runtime": 697.9759,
-      "eval_samples_per_second": 99.773,
-      "eval_steps_per_second": 12.472,
       "step": 22855
     },
     {
       "epoch": 7.044410413476263,
-      "grad_norm": 4.710619926452637,
-      "learning_rate": 2.664110429447853e-06,
-      "loss": 2.7003,
       "step": 23000
     },
     {
       "epoch": 7.197549770290965,
-      "grad_norm": 5.312741756439209,
-      "learning_rate": 2.5260736196319018e-06,
-      "loss": 2.6404,
       "step": 23500
     },
     {
       "epoch": 7.3506891271056665,
-      "grad_norm": 6.6971845626831055,
-      "learning_rate": 2.3880368098159513e-06,
-      "loss": 2.6377,
       "step": 24000
     },
     {
       "epoch": 7.503828483920367,
-      "grad_norm": 6.931722164154053,
-      "learning_rate": 2.25e-06,
-      "loss": 2.5981,
       "step": 24500
     },
     {
       "epoch": 7.656967840735069,
-      "grad_norm": 7.1908040046691895,
-      "learning_rate": 2.111963190184049e-06,
-      "loss": 2.5702,
       "step": 25000
     },
     {
       "epoch": 7.810107197549771,
-      "grad_norm": 5.63743257522583,
-      "learning_rate": 1.9739263803680983e-06,
-      "loss": 2.5676,
       "step": 25500
     },
     {
       "epoch": 7.9632465543644715,
-      "grad_norm": 6.103708267211914,
-      "learning_rate": 1.8358895705521473e-06,
-      "loss": 2.5566,
       "step": 26000
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.6183460417294907,
-      "eval_loss": 2.6820664405822754,
-      "eval_model_preparation_time": 0.0035,
-      "eval_runtime": 747.6734,
-      "eval_samples_per_second": 93.141,
-      "eval_steps_per_second": 11.643,
       "step": 26120
     },
     {
       "epoch": 8.116385911179172,
-      "grad_norm": 7.664525508880615,
-      "learning_rate": 1.6978527607361964e-06,
-      "loss": 2.4933,
       "step": 26500
     },
     {
       "epoch": 8.269525267993874,
-      "grad_norm": 8.328133583068848,
-      "learning_rate": 1.5598159509202455e-06,
-      "loss": 2.4762,
       "step": 27000
     },
     {
       "epoch": 8.422664624808576,
-      "grad_norm": 8.003011703491211,
-      "learning_rate": 1.4217791411042944e-06,
-      "loss": 2.4585,
       "step": 27500
     },
     {
       "epoch": 8.575803981623277,
-      "grad_norm": 6.738711833953857,
-      "learning_rate": 1.2837423312883436e-06,
-      "loss": 2.4542,
       "step": 28000
     },
     {
       "epoch": 8.728943338437979,
-      "grad_norm": 6.110630512237549,
-      "learning_rate": 1.1457055214723925e-06,
-      "loss": 2.4222,
       "step": 28500
     },
     {
       "epoch": 8.88208269525268,
-      "grad_norm": 5.14086389541626,
-      "learning_rate": 1.0076687116564419e-06,
-      "loss": 2.4216,
       "step": 29000
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.6327058113987851,
-      "eval_loss": 2.581773042678833,
-      "eval_model_preparation_time": 0.0035,
-      "eval_runtime": 754.0093,
-      "eval_samples_per_second": 92.358,
-      "eval_steps_per_second": 11.545,
       "step": 29385
     },
     {
       "epoch": 9.03522205206738,
-      "grad_norm": 7.1302971839904785,
-      "learning_rate": 8.696319018404908e-07,
-      "loss": 2.4115,
       "step": 29500
     },
     {
       "epoch": 9.188361408882082,
-      "grad_norm": 5.568242073059082,
-      "learning_rate": 7.315950920245399e-07,
-      "loss": 2.3616,
       "step": 30000
     },
     {
       "epoch": 9.341500765696784,
-      "grad_norm": 4.705562591552734,
-      "learning_rate": 5.93558282208589e-07,
-      "loss": 2.3858,
       "step": 30500
     },
     {
       "epoch": 9.494640122511486,
-      "grad_norm": 6.591212749481201,
-      "learning_rate": 4.5552147239263803e-07,
-      "loss": 2.3935,
       "step": 31000
     },
     {
       "epoch": 9.647779479326188,
-      "grad_norm": 7.563518524169922,
-      "learning_rate": 3.174846625766871e-07,
-      "loss": 2.3611,
       "step": 31500
     },
     {
       "epoch": 9.800918836140887,
-      "grad_norm": 7.720861434936523,
-      "learning_rate": 1.794478527607362e-07,
-      "loss": 2.3667,
       "step": 32000
     },
     {
       "epoch": 9.95405819295559,
-      "grad_norm": 5.801350116729736,
-      "learning_rate": 4.141104294478528e-08,
-      "loss": 2.3529,
       "step": 32500
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.6372434986142822,
-      "eval_loss": 2.5461041927337646,
-      "eval_model_preparation_time": 0.0035,
-      "eval_runtime": 700.2631,
-      "eval_samples_per_second": 99.447,
-      "eval_steps_per_second": 12.431,
       "step": 32650
     }
   ],

 {
+  "best_metric": 1.0125610828399658,
   "best_model_checkpoint": "car_models_image_detection/checkpoint-32650",
   "epoch": 10.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.15313935681470137,
+      "grad_norm": 1.452757477760315,
+      "learning_rate": 1.4792944785276074e-05,
+      "loss": 5.7276,
       "step": 500
     },
     {
       "epoch": 0.30627871362940273,
+      "grad_norm": 1.6236835718154907,
+      "learning_rate": 1.4562883435582821e-05,
+      "loss": 5.577,
       "step": 1000
     },
     {
       "epoch": 0.45941807044410415,
+      "grad_norm": 1.6465808153152466,
+      "learning_rate": 1.433282208588957e-05,
+      "loss": 5.415,
       "step": 1500
     },
     {
       "epoch": 0.6125574272588055,
+      "grad_norm": 1.6408442258834839,
+      "learning_rate": 1.410276073619632e-05,
+      "loss": 5.2564,
       "step": 2000
     },
     {
       "epoch": 0.7656967840735069,
+      "grad_norm": 2.1702845096588135,
+      "learning_rate": 1.3872699386503068e-05,
+      "loss": 5.097,
       "step": 2500
     },
     {
       "epoch": 0.9188361408882083,
+      "grad_norm": 2.1283822059631348,
+      "learning_rate": 1.3642638036809815e-05,
+      "loss": 4.9628,
       "step": 3000
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.27259150763221757,
+      "eval_loss": 4.833654403686523,
+      "eval_model_preparation_time": 0.0031,
+      "eval_runtime": 685.3438,
+      "eval_samples_per_second": 101.612,
+      "eval_steps_per_second": 12.702,
       "step": 3265
     },
     {
       "epoch": 1.0719754977029097,
+      "grad_norm": 2.1697254180908203,
+      "learning_rate": 1.3412576687116564e-05,
+      "loss": 4.8042,
       "step": 3500
     },
     {
       "epoch": 1.225114854517611,
+      "grad_norm": 2.616407632827759,
+      "learning_rate": 1.3182515337423314e-05,
+      "loss": 4.6501,
       "step": 4000
     },
     {
       "epoch": 1.3782542113323124,
+      "grad_norm": 2.611531972885132,
+      "learning_rate": 1.2952453987730061e-05,
+      "loss": 4.4964,
       "step": 4500
     },
     {
       "epoch": 1.5313935681470139,
+      "grad_norm": 3.050095558166504,
+      "learning_rate": 1.272239263803681e-05,
+      "loss": 4.3653,
       "step": 5000
     },
     {
       "epoch": 1.6845329249617151,
+      "grad_norm": 3.209902048110962,
+      "learning_rate": 1.2492331288343558e-05,
+      "loss": 4.2269,
       "step": 5500
     },
     {
       "epoch": 1.8376722817764164,
+      "grad_norm": 3.8992629051208496,
+      "learning_rate": 1.2262269938650307e-05,
+      "loss": 4.0844,
       "step": 6000
     },
     {
       "epoch": 1.9908116385911179,
+      "grad_norm": 3.587782382965088,
+      "learning_rate": 1.2032208588957057e-05,
+      "loss": 3.9577,
       "step": 6500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.432200347506426,
+      "eval_loss": 3.934602975845337,
+      "eval_model_preparation_time": 0.0031,
+      "eval_runtime": 682.9317,
+      "eval_samples_per_second": 101.971,
+      "eval_steps_per_second": 12.747,
       "step": 6530
     },
     {
       "epoch": 2.1439509954058193,
+      "grad_norm": 4.234837532043457,
+      "learning_rate": 1.1802147239263804e-05,
+      "loss": 3.7778,
       "step": 7000
     },
     {
       "epoch": 2.2970903522205206,
+      "grad_norm": 3.8425912857055664,
+      "learning_rate": 1.1572085889570552e-05,
+      "loss": 3.6515,
       "step": 7500
     },
     {
       "epoch": 2.450229709035222,
+      "grad_norm": 3.8768410682678223,
+      "learning_rate": 1.1342024539877301e-05,
+      "loss": 3.5171,
       "step": 8000
     },
     {
       "epoch": 2.6033690658499236,
+      "grad_norm": 4.20833683013916,
+      "learning_rate": 1.111196319018405e-05,
+      "loss": 3.3911,
       "step": 8500
     },
     {
       "epoch": 2.756508422664625,
+      "grad_norm": 4.394293785095215,
+      "learning_rate": 1.0881901840490798e-05,
+      "loss": 3.2882,
       "step": 9000
     },
     {
       "epoch": 2.909647779479326,
+      "grad_norm": 4.391124725341797,
+      "learning_rate": 1.0651840490797547e-05,
+      "loss": 3.1777,
       "step": 9500
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.5524059794080903,
+      "eval_loss": 3.125910520553589,
+      "eval_model_preparation_time": 0.0031,
+      "eval_runtime": 696.3871,
+      "eval_samples_per_second": 100.0,
+      "eval_steps_per_second": 12.5,
       "step": 9795
     },
     {
       "epoch": 3.0627871362940278,
+      "grad_norm": 4.910506248474121,
+      "learning_rate": 1.0421779141104295e-05,
+      "loss": 3.0296,
       "step": 10000
     },
     {
       "epoch": 3.215926493108729,
+      "grad_norm": 4.594521999359131,
+      "learning_rate": 1.0191717791411042e-05,
+      "loss": 2.8819,
       "step": 10500
     },
     {
       "epoch": 3.3690658499234303,
+      "grad_norm": 4.765926361083984,
+      "learning_rate": 9.961656441717793e-06,
+      "loss": 2.7684,
       "step": 11000
     },
     {
       "epoch": 3.522205206738132,
+      "grad_norm": 5.226629734039307,
+      "learning_rate": 9.73159509202454e-06,
+      "loss": 2.6588,
       "step": 11500
     },
     {
       "epoch": 3.6753445635528332,
+      "grad_norm": 5.948498725891113,
+      "learning_rate": 9.501533742331288e-06,
+      "loss": 2.5607,
       "step": 12000
     },
     {
       "epoch": 3.8284839203675345,
+      "grad_norm": 5.840036392211914,
+      "learning_rate": 9.271472392638038e-06,
+      "loss": 2.4664,
       "step": 12500
     },
     {
       "epoch": 3.9816232771822357,
+      "grad_norm": 6.542360782623291,
+      "learning_rate": 9.041411042944785e-06,
+      "loss": 2.3674,
       "step": 13000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.6481712833326153,
+      "eval_loss": 2.4429006576538086,
+      "eval_model_preparation_time": 0.0031,
+      "eval_runtime": 700.3344,
+      "eval_samples_per_second": 99.437,
+      "eval_steps_per_second": 12.43,
       "step": 13060
     },
     {
       "epoch": 4.134762633996937,
+      "grad_norm": 5.998870372772217,
+      "learning_rate": 8.811349693251534e-06,
+      "loss": 2.2206,
       "step": 13500
     },
     {
       "epoch": 4.287901990811639,
+      "grad_norm": 5.736461639404297,
+      "learning_rate": 8.581288343558282e-06,
+      "loss": 2.1328,
       "step": 14000
     },
     {
       "epoch": 4.44104134762634,
+      "grad_norm": 8.815576553344727,
+      "learning_rate": 8.351226993865031e-06,
+      "loss": 2.0378,
       "step": 14500
     },
     {
       "epoch": 4.594180704441041,
+      "grad_norm": 6.433719635009766,
+      "learning_rate": 8.121165644171779e-06,
+      "loss": 2.0028,
       "step": 15000
     },
     {
       "epoch": 4.747320061255743,
+      "grad_norm": 6.188543796539307,
+      "learning_rate": 7.891104294478526e-06,
+      "loss": 1.8992,
       "step": 15500
     },
     {
       "epoch": 4.900459418070444,
+      "grad_norm": 4.191030979156494,
+      "learning_rate": 7.661042944785277e-06,
+      "loss": 1.8401,
       "step": 16000
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.7155042433119373,
+      "eval_loss": 1.9256677627563477,
+      "eval_model_preparation_time": 0.0031,
+      "eval_runtime": 697.1043,
+      "eval_samples_per_second": 99.898,
+      "eval_steps_per_second": 12.487,
       "step": 16325
     },
     {
       "epoch": 5.053598774885145,
+      "grad_norm": 6.046599388122559,
+      "learning_rate": 7.430981595092025e-06,
+      "loss": 1.749,
       "step": 16500
     },
     {
       "epoch": 5.206738131699847,
+      "grad_norm": 7.202089309692383,
+      "learning_rate": 7.200920245398773e-06,
+      "loss": 1.6562,
       "step": 17000
     },
     {
       "epoch": 5.359877488514548,
+      "grad_norm": 8.078461647033691,
+      "learning_rate": 6.970858895705521e-06,
+      "loss": 1.5944,
       "step": 17500
     },
     {
       "epoch": 5.51301684532925,
+      "grad_norm": 8.001608848571777,
+      "learning_rate": 6.74079754601227e-06,
+      "loss": 1.517,
       "step": 18000
     },
     {
       "epoch": 5.666156202143951,
+      "grad_norm": 7.847782135009766,
+      "learning_rate": 6.510736196319019e-06,
+      "loss": 1.4779,
       "step": 18500
     },
     {
       "epoch": 5.819295558958652,
+      "grad_norm": 8.12964153289795,
+      "learning_rate": 6.280674846625767e-06,
+      "loss": 1.4133,
       "step": 19000
     },
     {
       "epoch": 5.972434915773354,
+      "grad_norm": 5.552104473114014,
+      "learning_rate": 6.0506134969325155e-06,
+      "loss": 1.375,
       "step": 19500
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.7652464854463734,
+      "eval_loss": 1.5537763833999634,
+      "eval_model_preparation_time": 0.0031,
+      "eval_runtime": 693.8343,
+      "eval_samples_per_second": 100.368,
+      "eval_steps_per_second": 12.546,
       "step": 19590
     },
     {
       "epoch": 6.1255742725880555,
+      "grad_norm": 7.002144813537598,
+      "learning_rate": 5.820552147239264e-06,
+      "loss": 1.292,
       "step": 20000
     },
     {
       "epoch": 6.278713629402756,
+      "grad_norm": 8.652531623840332,
+      "learning_rate": 5.590490797546012e-06,
+      "loss": 1.2451,
       "step": 20500
     },
     {
       "epoch": 6.431852986217458,
+      "grad_norm": 6.782195568084717,
+      "learning_rate": 5.360429447852761e-06,
+      "loss": 1.199,
       "step": 21000
     },
     {
       "epoch": 6.584992343032159,
+      "grad_norm": 7.46057653427124,
+      "learning_rate": 5.13036809815951e-06,
+      "loss": 1.1784,
       "step": 21500
     },
     {
       "epoch": 6.738131699846861,
+      "grad_norm": 9.419745445251465,
+      "learning_rate": 4.900306748466258e-06,
+      "loss": 1.1378,
       "step": 22000
     },
     {
       "epoch": 6.891271056661562,
+      "grad_norm": 10.585297584533691,
+      "learning_rate": 4.670245398773006e-06,
+      "loss": 1.1101,
       "step": 22500
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.8005858786025072,
+      "eval_loss": 1.3030942678451538,
+      "eval_model_preparation_time": 0.0031,
+      "eval_runtime": 695.6789,
+      "eval_samples_per_second": 100.102,
+      "eval_steps_per_second": 12.513,
       "step": 22855
     },
     {
       "epoch": 7.044410413476263,
+      "grad_norm": 6.227669715881348,
+      "learning_rate": 4.440184049079755e-06,
+      "loss": 1.0649,
       "step": 23000
     },
     {
       "epoch": 7.197549770290965,
+      "grad_norm": 6.01344108581543,
+      "learning_rate": 4.210122699386503e-06,
+      "loss": 0.9895,
       "step": 23500
     },
     {
       "epoch": 7.3506891271056665,
+      "grad_norm": 7.48536491394043,
+      "learning_rate": 3.980061349693252e-06,
+      "loss": 0.9931,
       "step": 24000
     },
     {
       "epoch": 7.503828483920367,
+      "grad_norm": 4.995929718017578,
+      "learning_rate": 3.75e-06,
+      "loss": 0.9504,
       "step": 24500
     },
     {
       "epoch": 7.656967840735069,
+      "grad_norm": 7.199100017547607,
+      "learning_rate": 3.5199386503067485e-06,
+      "loss": 0.9414,
       "step": 25000
     },
     {
       "epoch": 7.810107197549771,
+      "grad_norm": 10.500569343566895,
+      "learning_rate": 3.2898773006134974e-06,
+      "loss": 0.9215,
       "step": 25500
     },
     {
       "epoch": 7.9632465543644715,
+      "grad_norm": 12.734477043151855,
+      "learning_rate": 3.0598159509202454e-06,
+      "loss": 0.9171,
       "step": 26000
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.8239205043151108,
+      "eval_loss": 1.1368967294692993,
+      "eval_model_preparation_time": 0.0031,
+      "eval_runtime": 700.1379,
+      "eval_samples_per_second": 99.465,
+      "eval_steps_per_second": 12.433,
       "step": 26120
     },
     {
       "epoch": 8.116385911179172,
+      "grad_norm": 5.377818584442139,
+      "learning_rate": 2.8297546012269938e-06,
+      "loss": 0.877,
       "step": 26500
     },
     {
       "epoch": 8.269525267993874,
+      "grad_norm": 8.250605583190918,
+      "learning_rate": 2.599693251533742e-06,
+      "loss": 0.8307,
       "step": 27000
     },
     {
       "epoch": 8.422664624808576,
+      "grad_norm": 6.766539096832275,
+      "learning_rate": 2.369631901840491e-06,
+      "loss": 0.8152,
       "step": 27500
     },
     {
       "epoch": 8.575803981623277,
+      "grad_norm": 8.64637565612793,
+      "learning_rate": 2.1395705521472395e-06,
+      "loss": 0.8146,
       "step": 28000
     },
     {
       "epoch": 8.728943338437979,
+      "grad_norm": 7.545835494995117,
+      "learning_rate": 1.9095092024539874e-06,
+      "loss": 0.8026,
       "step": 28500
     },
     {
       "epoch": 8.88208269525268,
+      "grad_norm": 7.024548053741455,
+      "learning_rate": 1.6794478527607363e-06,
+      "loss": 0.7875,
       "step": 29000
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.8368155774781373,
+      "eval_loss": 1.044851541519165,
+      "eval_model_preparation_time": 0.0031,
+      "eval_runtime": 688.1062,
+      "eval_samples_per_second": 101.204,
+      "eval_steps_per_second": 12.651,
       "step": 29385
     },
     {
       "epoch": 9.03522205206738,
+      "grad_norm": 6.825665473937988,
+      "learning_rate": 1.4493865030674847e-06,
+      "loss": 0.7609,
       "step": 29500
     },
     {
       "epoch": 9.188361408882082,
+      "grad_norm": 8.946706771850586,
+      "learning_rate": 1.2193251533742331e-06,
+      "loss": 0.7448,
       "step": 30000
     },
     {
       "epoch": 9.341500765696784,
+      "grad_norm": 5.960868835449219,
+      "learning_rate": 9.892638036809815e-07,
+      "loss": 0.7412,
       "step": 30500
     },
     {
       "epoch": 9.494640122511486,
+      "grad_norm": 8.354199409484863,
+      "learning_rate": 7.592024539877301e-07,
+      "loss": 0.7391,
       "step": 31000
     },
     {
       "epoch": 9.647779479326188,
+      "grad_norm": 7.826401233673096,
+      "learning_rate": 5.291411042944785e-07,
+      "loss": 0.7451,
       "step": 31500
     },
     {
       "epoch": 9.800918836140887,
+      "grad_norm": 6.866321563720703,
+      "learning_rate": 2.99079754601227e-07,
+      "loss": 0.7328,
       "step": 32000
     },
     {
       "epoch": 9.95405819295559,
+      "grad_norm": 8.034021377563477,
+      "learning_rate": 6.901840490797547e-08,
+      "loss": 0.7235,
       "step": 32500
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.8410229899912406,
+      "eval_loss": 1.0125610828399658,
+      "eval_model_preparation_time": 0.0031,
+      "eval_runtime": 702.1203,
+      "eval_samples_per_second": 99.184,
+      "eval_steps_per_second": 12.398,
       "step": 32650
     }
   ],

checkpoint-32650/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e6d4fb80b458c99c9714ea41fb1e577e8ccfede2bf1093e2526b5a39cd83447
 size 4795

 version https://git-lfs.github.com/spec/v1
+oid sha256:1be005c2ee4135e2fbecdbef74a8ceaff175c6010baa4c959e76dc86ecc700a3
 size 4795

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af479e8111ef4375572925dd0fe92ff9a598e337c328f0fde4bf3c4ab72659e5
 size 344211388

 version https://git-lfs.github.com/spec/v1
+oid sha256:57b5f4edd84d0939be14fc0d0c3144ca3b1b8e10556b1b5ec4bb8e6ccf46c541
 size 344211388

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e6d4fb80b458c99c9714ea41fb1e577e8ccfede2bf1093e2526b5a39cd83447
 size 4795

 version https://git-lfs.github.com/spec/v1
+oid sha256:1be005c2ee4135e2fbecdbef74a8ceaff175c6010baa4c959e76dc86ecc700a3
 size 4795