BEE-spoke-data
/

bert-plus-L8-v1.0-syntheticSTS-4k

@@ -12,8 +12,6 @@ license: apache-2.0
 # BEE-spoke-data/bert-plus-L8-v1.0-allNLI_matryoshka
-> if this message is here, this model card is a copy of the one from the _base model_ and not the actual model card.
 This is a [sentence-transformers](https://www.SBERT.net) model: It maps sentences & paragraphs to a 768 dimensional dense vector space and can be used for tasks like clustering or semantic search.
 - this was finetuned at 512 ctx (allNLI is all short-ctx examples) but the base model supports 4096

 # BEE-spoke-data/bert-plus-L8-v1.0-allNLI_matryoshka
 This is a [sentence-transformers](https://www.SBERT.net) model: It maps sentences & paragraphs to a 768 dimensional dense vector space and can be used for tasks like clustering or semantic search.
 - this was finetuned at 512 ctx (allNLI is all short-ctx examples) but the base model supports 4096

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6257c04cf9817e23aeb8bd37b30da5629e1dd5f90cd1591b685649fa468e6ab
 size 352324400

 version https://git-lfs.github.com/spec/v1
+oid sha256:1395c5c36e20564cc37941ccb71e32f9fbf1039cc0aa1f5550d04df07dcab4f0
 size 352324400

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.957809943239773,
-  "best_model_checkpoint": "checkpoints/BEE-spoke-data-bert-plus-L8-v1.0-allNLI_matryoshka-synthetic-text-similarity-Mar-07_22-56/checkpoint-8400",
-  "epoch": 0.7396984924623116,
   "eval_steps": 300,
-  "global_step": 9200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -13427,6 +13427,1758 @@
       "learning_rate": 5.7839721254355405e-06,
       "loss": 0.0143,
       "step": 9200
     }
   ],
   "logging_steps": 5,

 {
+  "best_metric": 0.9605806103224412,
+  "best_model_checkpoint": "checkpoints/BEE-spoke-data-bert-plus-L8-v1.0-allNLI_matryoshka-synthetic-text-similarity-Mar-07_22-56/checkpoint-9600",
+  "epoch": 0.8361809045226131,
   "eval_steps": 300,
+  "global_step": 10400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.7839721254355405e-06,
       "loss": 0.0143,
       "step": 9200
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.21646694839000702,
+      "learning_rate": 5.7750379701599224e-06,
+      "loss": 0.0117,
+      "step": 9205
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.2780154347419739,
+      "learning_rate": 5.766103814884303e-06,
+      "loss": 0.0069,
+      "step": 9210
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.38007307052612305,
+      "learning_rate": 5.7571696596086845e-06,
+      "loss": 0.0071,
+      "step": 9215
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.23504765331745148,
+      "learning_rate": 5.748235504333066e-06,
+      "loss": 0.0073,
+      "step": 9220
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.3849126100540161,
+      "learning_rate": 5.739301349057447e-06,
+      "loss": 0.0062,
+      "step": 9225
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.39096078276634216,
+      "learning_rate": 5.7303671937818285e-06,
+      "loss": 0.0081,
+      "step": 9230
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.35881391167640686,
+      "learning_rate": 5.72143303850621e-06,
+      "loss": 0.0073,
+      "step": 9235
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.2720240652561188,
+      "learning_rate": 5.7124988832305905e-06,
+      "loss": 0.006,
+      "step": 9240
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.17227132618427277,
+      "learning_rate": 5.7035647279549724e-06,
+      "loss": 0.0073,
+      "step": 9245
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.4603612422943115,
+      "learning_rate": 5.6946305726793535e-06,
+      "loss": 0.0116,
+      "step": 9250
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.6847078204154968,
+      "learning_rate": 5.685696417403735e-06,
+      "loss": 0.0075,
+      "step": 9255
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.41257572174072266,
+      "learning_rate": 5.676762262128116e-06,
+      "loss": 0.0103,
+      "step": 9260
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.402539998292923,
+      "learning_rate": 5.6678281068524974e-06,
+      "loss": 0.0063,
+      "step": 9265
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.4992349147796631,
+      "learning_rate": 5.658893951576879e-06,
+      "loss": 0.0103,
+      "step": 9270
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.47921329736709595,
+      "learning_rate": 5.6499597963012595e-06,
+      "loss": 0.0082,
+      "step": 9275
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.2835437059402466,
+      "learning_rate": 5.641025641025641e-06,
+      "loss": 0.0085,
+      "step": 9280
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.23391133546829224,
+      "learning_rate": 5.632091485750023e-06,
+      "loss": 0.0078,
+      "step": 9285
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.3029947876930237,
+      "learning_rate": 5.6231573304744035e-06,
+      "loss": 0.0145,
+      "step": 9290
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.26060959696769714,
+      "learning_rate": 5.614223175198785e-06,
+      "loss": 0.0061,
+      "step": 9295
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.2901848554611206,
+      "learning_rate": 5.605289019923167e-06,
+      "loss": 0.0083,
+      "step": 9300
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 0.009584016166627407,
+      "eval_pearson_cosine": 0.9615300255520981,
+      "eval_pearson_dot": 0.9604189728759469,
+      "eval_pearson_euclidean": 0.9517997399844298,
+      "eval_pearson_manhattan": 0.9500464009872014,
+      "eval_pearson_max": 0.9615300255520981,
+      "eval_runtime": 425.5009,
+      "eval_samples_per_second": 1.175,
+      "eval_spearman_cosine": 0.9606140184560736,
+      "eval_spearman_dot": 0.9573194772779091,
+      "eval_spearman_euclidean": 0.9593890535562142,
+      "eval_spearman_manhattan": 0.9579064236256946,
+      "eval_spearman_max": 0.9606140184560736,
+      "eval_steps_per_second": 1.175,
+      "step": 9300
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.4470210373401642,
+      "learning_rate": 5.596354864647548e-06,
+      "loss": 0.0129,
+      "step": 9305
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.4185398519039154,
+      "learning_rate": 5.587420709371929e-06,
+      "loss": 0.0081,
+      "step": 9310
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.6620985269546509,
+      "learning_rate": 5.57848655409631e-06,
+      "loss": 0.0092,
+      "step": 9315
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.5238575339317322,
+      "learning_rate": 5.569552398820692e-06,
+      "loss": 0.0106,
+      "step": 9320
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.8626998662948608,
+      "learning_rate": 5.5606182435450724e-06,
+      "loss": 0.0149,
+      "step": 9325
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.312152624130249,
+      "learning_rate": 5.551684088269454e-06,
+      "loss": 0.0085,
+      "step": 9330
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.2844025194644928,
+      "learning_rate": 5.542749932993836e-06,
+      "loss": 0.01,
+      "step": 9335
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.4623136520385742,
+      "learning_rate": 5.533815777718216e-06,
+      "loss": 0.0082,
+      "step": 9340
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.34604260325431824,
+      "learning_rate": 5.524881622442598e-06,
+      "loss": 0.0105,
+      "step": 9345
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.5630137920379639,
+      "learning_rate": 5.51594746716698e-06,
+      "loss": 0.008,
+      "step": 9350
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.22408334910869598,
+      "learning_rate": 5.507013311891361e-06,
+      "loss": 0.0086,
+      "step": 9355
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.3562946915626526,
+      "learning_rate": 5.498079156615742e-06,
+      "loss": 0.0077,
+      "step": 9360
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.6519134640693665,
+      "learning_rate": 5.489145001340124e-06,
+      "loss": 0.0273,
+      "step": 9365
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.3609578609466553,
+      "learning_rate": 5.480210846064505e-06,
+      "loss": 0.008,
+      "step": 9370
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.4362548291683197,
+      "learning_rate": 5.471276690788886e-06,
+      "loss": 0.0156,
+      "step": 9375
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.51788729429245,
+      "learning_rate": 5.462342535513267e-06,
+      "loss": 0.0143,
+      "step": 9380
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.3049197793006897,
+      "learning_rate": 5.453408380237649e-06,
+      "loss": 0.0084,
+      "step": 9385
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.27513086795806885,
+      "learning_rate": 5.444474224962031e-06,
+      "loss": 0.0089,
+      "step": 9390
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.5995715260505676,
+      "learning_rate": 5.435540069686411e-06,
+      "loss": 0.0176,
+      "step": 9395
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.4572034180164337,
+      "learning_rate": 5.426605914410793e-06,
+      "loss": 0.0079,
+      "step": 9400
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.38861045241355896,
+      "learning_rate": 5.417671759135175e-06,
+      "loss": 0.0093,
+      "step": 9405
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.2802937924861908,
+      "learning_rate": 5.408737603859555e-06,
+      "loss": 0.0099,
+      "step": 9410
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.2714308500289917,
+      "learning_rate": 5.399803448583937e-06,
+      "loss": 0.0073,
+      "step": 9415
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.4080353379249573,
+      "learning_rate": 5.390869293308318e-06,
+      "loss": 0.0069,
+      "step": 9420
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.22111305594444275,
+      "learning_rate": 5.381935138032699e-06,
+      "loss": 0.0058,
+      "step": 9425
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.7781515717506409,
+      "learning_rate": 5.37300098275708e-06,
+      "loss": 0.0066,
+      "step": 9430
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.3610839545726776,
+      "learning_rate": 5.364066827481462e-06,
+      "loss": 0.0088,
+      "step": 9435
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.3884970247745514,
+      "learning_rate": 5.355132672205844e-06,
+      "loss": 0.0094,
+      "step": 9440
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.5556257963180542,
+      "learning_rate": 5.346198516930224e-06,
+      "loss": 0.0105,
+      "step": 9445
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.5632768273353577,
+      "learning_rate": 5.337264361654606e-06,
+      "loss": 0.0091,
+      "step": 9450
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.6423171758651733,
+      "learning_rate": 5.328330206378988e-06,
+      "loss": 0.0079,
+      "step": 9455
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.5519477725028992,
+      "learning_rate": 5.319396051103368e-06,
+      "loss": 0.0192,
+      "step": 9460
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.5822392106056213,
+      "learning_rate": 5.31046189582775e-06,
+      "loss": 0.0123,
+      "step": 9465
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.49340376257896423,
+      "learning_rate": 5.301527740552132e-06,
+      "loss": 0.0083,
+      "step": 9470
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.3505455553531647,
+      "learning_rate": 5.292593585276512e-06,
+      "loss": 0.011,
+      "step": 9475
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.7089307308197021,
+      "learning_rate": 5.283659430000894e-06,
+      "loss": 0.0079,
+      "step": 9480
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.791226863861084,
+      "learning_rate": 5.274725274725275e-06,
+      "loss": 0.0124,
+      "step": 9485
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.38624152541160583,
+      "learning_rate": 5.265791119449657e-06,
+      "loss": 0.0076,
+      "step": 9490
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.2802993953227997,
+      "learning_rate": 5.256856964174037e-06,
+      "loss": 0.0183,
+      "step": 9495
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.4529344439506531,
+      "learning_rate": 5.247922808898419e-06,
+      "loss": 0.0112,
+      "step": 9500
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 1.167479395866394,
+      "learning_rate": 5.238988653622801e-06,
+      "loss": 0.0128,
+      "step": 9505
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.2423386126756668,
+      "learning_rate": 5.230054498347181e-06,
+      "loss": 0.0093,
+      "step": 9510
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.3792467713356018,
+      "learning_rate": 5.221120343071563e-06,
+      "loss": 0.0078,
+      "step": 9515
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.47463178634643555,
+      "learning_rate": 5.212186187795945e-06,
+      "loss": 0.0116,
+      "step": 9520
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.9293251037597656,
+      "learning_rate": 5.203252032520326e-06,
+      "loss": 0.0107,
+      "step": 9525
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 41.848262786865234,
+      "learning_rate": 5.194317877244707e-06,
+      "loss": 0.0182,
+      "step": 9530
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.34961816668510437,
+      "learning_rate": 5.185383721969088e-06,
+      "loss": 0.007,
+      "step": 9535
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 1.822770595550537,
+      "learning_rate": 5.17644956669347e-06,
+      "loss": 0.0151,
+      "step": 9540
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.3188020884990692,
+      "learning_rate": 5.167515411417851e-06,
+      "loss": 0.0067,
+      "step": 9545
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.43374982476234436,
+      "learning_rate": 5.158581256142232e-06,
+      "loss": 0.0084,
+      "step": 9550
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.4171868562698364,
+      "learning_rate": 5.149647100866614e-06,
+      "loss": 0.0073,
+      "step": 9555
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.5583686232566833,
+      "learning_rate": 5.140712945590994e-06,
+      "loss": 0.0092,
+      "step": 9560
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.24175512790679932,
+      "learning_rate": 5.131778790315376e-06,
+      "loss": 0.0081,
+      "step": 9565
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.3415161371231079,
+      "learning_rate": 5.122844635039758e-06,
+      "loss": 0.0109,
+      "step": 9570
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.5684280395507812,
+      "learning_rate": 5.11391047976414e-06,
+      "loss": 0.0072,
+      "step": 9575
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.9785246849060059,
+      "learning_rate": 5.10497632448852e-06,
+      "loss": 0.0098,
+      "step": 9580
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.2952157258987427,
+      "learning_rate": 5.096042169212902e-06,
+      "loss": 0.008,
+      "step": 9585
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.20075848698616028,
+      "learning_rate": 5.087108013937283e-06,
+      "loss": 0.0074,
+      "step": 9590
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.3542312681674957,
+      "learning_rate": 5.078173858661664e-06,
+      "loss": 0.0109,
+      "step": 9595
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.38026684522628784,
+      "learning_rate": 5.069239703386045e-06,
+      "loss": 0.0069,
+      "step": 9600
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 0.008200183510780334,
+      "eval_pearson_cosine": 0.9642878383068713,
+      "eval_pearson_dot": 0.9627028886298191,
+      "eval_pearson_euclidean": 0.9523746354427236,
+      "eval_pearson_manhattan": 0.9507404567548948,
+      "eval_pearson_max": 0.9642878383068713,
+      "eval_runtime": 425.6137,
+      "eval_samples_per_second": 1.175,
+      "eval_spearman_cosine": 0.9605806103224412,
+      "eval_spearman_dot": 0.955501806007224,
+      "eval_spearman_euclidean": 0.9597567350269401,
+      "eval_spearman_manhattan": 0.9581544886179545,
+      "eval_spearman_max": 0.9605806103224412,
+      "eval_steps_per_second": 1.175,
+      "step": 9600
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.37074190378189087,
+      "learning_rate": 5.060305548110427e-06,
+      "loss": 0.0173,
+      "step": 9605
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.3430071175098419,
+      "learning_rate": 5.051371392834808e-06,
+      "loss": 0.0077,
+      "step": 9610
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.516249418258667,
+      "learning_rate": 5.042437237559189e-06,
+      "loss": 0.0059,
+      "step": 9615
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.3532971143722534,
+      "learning_rate": 5.033503082283571e-06,
+      "loss": 0.0113,
+      "step": 9620
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.4686454236507416,
+      "learning_rate": 5.0245689270079526e-06,
+      "loss": 0.0097,
+      "step": 9625
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.2624160051345825,
+      "learning_rate": 5.015634771732333e-06,
+      "loss": 0.0087,
+      "step": 9630
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.35835760831832886,
+      "learning_rate": 5.006700616456715e-06,
+      "loss": 0.0076,
+      "step": 9635
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.6053426265716553,
+      "learning_rate": 4.997766461181096e-06,
+      "loss": 0.0158,
+      "step": 9640
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.399104505777359,
+      "learning_rate": 4.9888323059054776e-06,
+      "loss": 0.0085,
+      "step": 9645
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.3674059212207794,
+      "learning_rate": 4.979898150629859e-06,
+      "loss": 0.0112,
+      "step": 9650
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.16110941767692566,
+      "learning_rate": 4.97096399535424e-06,
+      "loss": 0.0086,
+      "step": 9655
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.2616519331932068,
+      "learning_rate": 4.962029840078621e-06,
+      "loss": 0.009,
+      "step": 9660
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.6079025268554688,
+      "learning_rate": 4.953095684803002e-06,
+      "loss": 0.0082,
+      "step": 9665
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.30316200852394104,
+      "learning_rate": 4.944161529527384e-06,
+      "loss": 0.0063,
+      "step": 9670
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.36754128336906433,
+      "learning_rate": 4.935227374251765e-06,
+      "loss": 0.0073,
+      "step": 9675
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.6272875666618347,
+      "learning_rate": 4.9262932189761465e-06,
+      "loss": 0.0089,
+      "step": 9680
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.5529404878616333,
+      "learning_rate": 4.9173590637005276e-06,
+      "loss": 0.0095,
+      "step": 9685
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.2829398214817047,
+      "learning_rate": 4.908424908424909e-06,
+      "loss": 0.011,
+      "step": 9690
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.30931296944618225,
+      "learning_rate": 4.8994907531492905e-06,
+      "loss": 0.0103,
+      "step": 9695
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.6834177374839783,
+      "learning_rate": 4.8905565978736715e-06,
+      "loss": 0.0087,
+      "step": 9700
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.42869821190834045,
+      "learning_rate": 4.8816224425980526e-06,
+      "loss": 0.0088,
+      "step": 9705
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.3291241228580475,
+      "learning_rate": 4.8726882873224344e-06,
+      "loss": 0.0061,
+      "step": 9710
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.3477993607521057,
+      "learning_rate": 4.8637541320468155e-06,
+      "loss": 0.007,
+      "step": 9715
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.393031507730484,
+      "learning_rate": 4.8548199767711965e-06,
+      "loss": 0.0077,
+      "step": 9720
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.37427353858947754,
+      "learning_rate": 4.8458858214955776e-06,
+      "loss": 0.0086,
+      "step": 9725
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.4370558261871338,
+      "learning_rate": 4.8369516662199594e-06,
+      "loss": 0.0064,
+      "step": 9730
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.31545019149780273,
+      "learning_rate": 4.8280175109443405e-06,
+      "loss": 0.0059,
+      "step": 9735
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.7945960760116577,
+      "learning_rate": 4.8190833556687215e-06,
+      "loss": 0.021,
+      "step": 9740
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.29888418316841125,
+      "learning_rate": 4.810149200393103e-06,
+      "loss": 0.0062,
+      "step": 9745
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 3.3094396591186523,
+      "learning_rate": 4.8012150451174844e-06,
+      "loss": 0.0154,
+      "step": 9750
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.2018340677022934,
+      "learning_rate": 4.792280889841866e-06,
+      "loss": 0.0074,
+      "step": 9755
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.7358143329620361,
+      "learning_rate": 4.783346734566247e-06,
+      "loss": 0.0154,
+      "step": 9760
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.580872654914856,
+      "learning_rate": 4.774412579290628e-06,
+      "loss": 0.0111,
+      "step": 9765
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.3042278289794922,
+      "learning_rate": 4.7654784240150095e-06,
+      "loss": 0.0078,
+      "step": 9770
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.42176923155784607,
+      "learning_rate": 4.7565442687393905e-06,
+      "loss": 0.0062,
+      "step": 9775
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.30140987038612366,
+      "learning_rate": 4.747610113463772e-06,
+      "loss": 0.0063,
+      "step": 9780
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.5304137468338013,
+      "learning_rate": 4.738675958188153e-06,
+      "loss": 0.0097,
+      "step": 9785
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.36996015906333923,
+      "learning_rate": 4.729741802912535e-06,
+      "loss": 0.0097,
+      "step": 9790
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.6667109131813049,
+      "learning_rate": 4.720807647636916e-06,
+      "loss": 0.0075,
+      "step": 9795
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.2762182950973511,
+      "learning_rate": 4.711873492361297e-06,
+      "loss": 0.0064,
+      "step": 9800
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.3733229339122772,
+      "learning_rate": 4.702939337085679e-06,
+      "loss": 0.0054,
+      "step": 9805
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.3811498284339905,
+      "learning_rate": 4.69400518181006e-06,
+      "loss": 0.0062,
+      "step": 9810
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.5551919937133789,
+      "learning_rate": 4.685071026534442e-06,
+      "loss": 0.0089,
+      "step": 9815
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.5745194554328918,
+      "learning_rate": 4.676136871258823e-06,
+      "loss": 0.0097,
+      "step": 9820
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.2763228118419647,
+      "learning_rate": 4.667202715983204e-06,
+      "loss": 0.01,
+      "step": 9825
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.5403454899787903,
+      "learning_rate": 4.658268560707585e-06,
+      "loss": 0.0134,
+      "step": 9830
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.37194764614105225,
+      "learning_rate": 4.649334405431966e-06,
+      "loss": 0.0051,
+      "step": 9835
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.21742063760757446,
+      "learning_rate": 4.640400250156348e-06,
+      "loss": 0.0123,
+      "step": 9840
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.3551539182662964,
+      "learning_rate": 4.631466094880729e-06,
+      "loss": 0.0104,
+      "step": 9845
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.248150035738945,
+      "learning_rate": 4.62253193960511e-06,
+      "loss": 0.0054,
+      "step": 9850
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.6017441153526306,
+      "learning_rate": 4.613597784329492e-06,
+      "loss": 0.0115,
+      "step": 9855
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.46963444352149963,
+      "learning_rate": 4.604663629053873e-06,
+      "loss": 0.0087,
+      "step": 9860
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.26475605368614197,
+      "learning_rate": 4.595729473778255e-06,
+      "loss": 0.0064,
+      "step": 9865
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.3036366403102875,
+      "learning_rate": 4.586795318502636e-06,
+      "loss": 0.0094,
+      "step": 9870
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.4167456328868866,
+      "learning_rate": 4.577861163227017e-06,
+      "loss": 0.008,
+      "step": 9875
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.27215877175331116,
+      "learning_rate": 4.568927007951398e-06,
+      "loss": 0.0087,
+      "step": 9880
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.3947705924510956,
+      "learning_rate": 4.55999285267578e-06,
+      "loss": 0.0099,
+      "step": 9885
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.261850506067276,
+      "learning_rate": 4.551058697400161e-06,
+      "loss": 0.012,
+      "step": 9890
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.27852803468704224,
+      "learning_rate": 4.542124542124542e-06,
+      "loss": 0.0063,
+      "step": 9895
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.3846147060394287,
+      "learning_rate": 4.533190386848923e-06,
+      "loss": 0.0072,
+      "step": 9900
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 0.007968730293214321,
+      "eval_pearson_cosine": 0.9658888665742654,
+      "eval_pearson_dot": 0.9627392628207877,
+      "eval_pearson_euclidean": 0.9531911193892233,
+      "eval_pearson_manhattan": 0.9513587882321657,
+      "eval_pearson_max": 0.9658888665742654,
+      "eval_runtime": 425.901,
+      "eval_samples_per_second": 1.174,
+      "eval_spearman_cosine": 0.9624986019944078,
+      "eval_spearman_dot": 0.955504398017592,
+      "eval_spearman_euclidean": 0.9630360121440484,
+      "eval_spearman_manhattan": 0.9610320041280165,
+      "eval_spearman_max": 0.9630360121440484,
+      "eval_steps_per_second": 1.174,
+      "step": 9900
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.45619475841522217,
+      "learning_rate": 4.524256231573305e-06,
+      "loss": 0.009,
+      "step": 9905
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.39344677329063416,
+      "learning_rate": 4.515322076297686e-06,
+      "loss": 0.0088,
+      "step": 9910
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.18160255253314972,
+      "learning_rate": 4.506387921022068e-06,
+      "loss": 0.0059,
+      "step": 9915
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.19619829952716827,
+      "learning_rate": 4.497453765746449e-06,
+      "loss": 0.0081,
+      "step": 9920
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.2846349775791168,
+      "learning_rate": 4.488519610470831e-06,
+      "loss": 0.0049,
+      "step": 9925
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.3724232316017151,
+      "learning_rate": 4.479585455195212e-06,
+      "loss": 0.0118,
+      "step": 9930
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.3385705351829529,
+      "learning_rate": 4.470651299919593e-06,
+      "loss": 0.0069,
+      "step": 9935
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.2874641418457031,
+      "learning_rate": 4.461717144643974e-06,
+      "loss": 0.006,
+      "step": 9940
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.3358646035194397,
+      "learning_rate": 4.452782989368355e-06,
+      "loss": 0.0062,
+      "step": 9945
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.7037550806999207,
+      "learning_rate": 4.443848834092737e-06,
+      "loss": 0.009,
+      "step": 9950
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.20332568883895874,
+      "learning_rate": 4.434914678817118e-06,
+      "loss": 0.0084,
+      "step": 9955
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.36842986941337585,
+      "learning_rate": 4.425980523541499e-06,
+      "loss": 0.0087,
+      "step": 9960
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.283997505903244,
+      "learning_rate": 4.417046368265881e-06,
+      "loss": 0.0086,
+      "step": 9965
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.42346441745758057,
+      "learning_rate": 4.408112212990262e-06,
+      "loss": 0.0078,
+      "step": 9970
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.18222256004810333,
+      "learning_rate": 4.399178057714644e-06,
+      "loss": 0.0074,
+      "step": 9975
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.6875673532485962,
+      "learning_rate": 4.390243902439025e-06,
+      "loss": 0.0102,
+      "step": 9980
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.24472391605377197,
+      "learning_rate": 4.381309747163406e-06,
+      "loss": 0.0065,
+      "step": 9985
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.26704928278923035,
+      "learning_rate": 4.372375591887788e-06,
+      "loss": 0.0083,
+      "step": 9990
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.5033184289932251,
+      "learning_rate": 4.363441436612169e-06,
+      "loss": 0.0067,
+      "step": 9995
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.781326413154602,
+      "learning_rate": 4.35450728133655e-06,
+      "loss": 0.006,
+      "step": 10000
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.46775344014167786,
+      "learning_rate": 4.345573126060931e-06,
+      "loss": 0.0087,
+      "step": 10005
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.3803477883338928,
+      "learning_rate": 4.336638970785312e-06,
+      "loss": 0.0098,
+      "step": 10010
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.23086823523044586,
+      "learning_rate": 4.327704815509694e-06,
+      "loss": 0.0089,
+      "step": 10015
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.18261872231960297,
+      "learning_rate": 4.318770660234075e-06,
+      "loss": 0.01,
+      "step": 10020
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.33674633502960205,
+      "learning_rate": 4.309836504958457e-06,
+      "loss": 0.0086,
+      "step": 10025
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.29859867691993713,
+      "learning_rate": 4.300902349682838e-06,
+      "loss": 0.009,
+      "step": 10030
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.40897712111473083,
+      "learning_rate": 4.291968194407219e-06,
+      "loss": 0.0092,
+      "step": 10035
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.7651856541633606,
+      "learning_rate": 4.283034039131601e-06,
+      "loss": 0.0108,
+      "step": 10040
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.7065618634223938,
+      "learning_rate": 4.274099883855982e-06,
+      "loss": 0.0132,
+      "step": 10045
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.4190121293067932,
+      "learning_rate": 4.265165728580363e-06,
+      "loss": 0.0063,
+      "step": 10050
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.47081393003463745,
+      "learning_rate": 4.256231573304745e-06,
+      "loss": 0.0065,
+      "step": 10055
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.3828545808792114,
+      "learning_rate": 4.247297418029126e-06,
+      "loss": 0.0087,
+      "step": 10060
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.7525375485420227,
+      "learning_rate": 4.238363262753507e-06,
+      "loss": 0.0113,
+      "step": 10065
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.34589239954948425,
+      "learning_rate": 4.229429107477888e-06,
+      "loss": 0.0078,
+      "step": 10070
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.5909443497657776,
+      "learning_rate": 4.22049495220227e-06,
+      "loss": 0.007,
+      "step": 10075
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.3668850362300873,
+      "learning_rate": 4.211560796926651e-06,
+      "loss": 0.0061,
+      "step": 10080
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.4989503026008606,
+      "learning_rate": 4.202626641651033e-06,
+      "loss": 0.0071,
+      "step": 10085
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.44953587651252747,
+      "learning_rate": 4.193692486375414e-06,
+      "loss": 0.0079,
+      "step": 10090
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.36224547028541565,
+      "learning_rate": 4.184758331099795e-06,
+      "loss": 0.0101,
+      "step": 10095
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.21505020558834076,
+      "learning_rate": 4.175824175824177e-06,
+      "loss": 0.0116,
+      "step": 10100
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.5628384351730347,
+      "learning_rate": 4.166890020548558e-06,
+      "loss": 0.0106,
+      "step": 10105
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.6173145174980164,
+      "learning_rate": 4.157955865272939e-06,
+      "loss": 0.0074,
+      "step": 10110
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.20209026336669922,
+      "learning_rate": 4.14902170999732e-06,
+      "loss": 0.0054,
+      "step": 10115
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.26845335960388184,
+      "learning_rate": 4.140087554721701e-06,
+      "loss": 0.0084,
+      "step": 10120
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.19294553995132446,
+      "learning_rate": 4.131153399446083e-06,
+      "loss": 0.0069,
+      "step": 10125
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.2686295211315155,
+      "learning_rate": 4.122219244170464e-06,
+      "loss": 0.0062,
+      "step": 10130
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.34871765971183777,
+      "learning_rate": 4.113285088894846e-06,
+      "loss": 0.0087,
+      "step": 10135
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.3453786373138428,
+      "learning_rate": 4.104350933619227e-06,
+      "loss": 0.008,
+      "step": 10140
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.4701385200023651,
+      "learning_rate": 4.095416778343608e-06,
+      "loss": 0.0077,
+      "step": 10145
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.13584518432617188,
+      "learning_rate": 4.0864826230679896e-06,
+      "loss": 0.0063,
+      "step": 10150
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.5030553936958313,
+      "learning_rate": 4.077548467792371e-06,
+      "loss": 0.0076,
+      "step": 10155
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.44598788022994995,
+      "learning_rate": 4.0686143125167525e-06,
+      "loss": 0.0067,
+      "step": 10160
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.2886448800563812,
+      "learning_rate": 4.0596801572411335e-06,
+      "loss": 0.0077,
+      "step": 10165
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.2822360098361969,
+      "learning_rate": 4.0507460019655146e-06,
+      "loss": 0.0078,
+      "step": 10170
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.5592710375785828,
+      "learning_rate": 4.041811846689896e-06,
+      "loss": 0.0076,
+      "step": 10175
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.310092031955719,
+      "learning_rate": 4.032877691414277e-06,
+      "loss": 0.0107,
+      "step": 10180
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.3115810751914978,
+      "learning_rate": 4.0239435361386585e-06,
+      "loss": 0.0087,
+      "step": 10185
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.9056434035301208,
+      "learning_rate": 4.0150093808630396e-06,
+      "loss": 0.0099,
+      "step": 10190
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.31844180822372437,
+      "learning_rate": 4.006075225587421e-06,
+      "loss": 0.0111,
+      "step": 10195
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.5329269766807556,
+      "learning_rate": 3.9971410703118025e-06,
+      "loss": 0.01,
+      "step": 10200
+    },
+    {
+      "epoch": 0.82,
+      "eval_loss": 0.007998097687959671,
+      "eval_pearson_cosine": 0.9672417410329249,
+      "eval_pearson_dot": 0.965013249775285,
+      "eval_pearson_euclidean": 0.9542839853098279,
+      "eval_pearson_manhattan": 0.9528819643748915,
+      "eval_pearson_max": 0.9672417410329249,
+      "eval_runtime": 425.8541,
+      "eval_samples_per_second": 1.174,
+      "eval_spearman_cosine": 0.9626618986475944,
+      "eval_spearman_dot": 0.9577223908895635,
+      "eval_spearman_euclidean": 0.962258313033252,
+      "eval_spearman_manhattan": 0.9619932559730238,
+      "eval_spearman_max": 0.9626618986475944,
+      "eval_steps_per_second": 1.174,
+      "step": 10200
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.3950428068637848,
+      "learning_rate": 3.9882069150361835e-06,
+      "loss": 0.0074,
+      "step": 10205
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.3376205563545227,
+      "learning_rate": 3.979272759760565e-06,
+      "loss": 0.0079,
+      "step": 10210
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.39471399784088135,
+      "learning_rate": 3.9703386044849465e-06,
+      "loss": 0.0087,
+      "step": 10215
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.42924797534942627,
+      "learning_rate": 3.9614044492093275e-06,
+      "loss": 0.0086,
+      "step": 10220
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.26988697052001953,
+      "learning_rate": 3.9524702939337085e-06,
+      "loss": 0.0076,
+      "step": 10225
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.5494524240493774,
+      "learning_rate": 3.94353613865809e-06,
+      "loss": 0.0096,
+      "step": 10230
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.39503470063209534,
+      "learning_rate": 3.9346019833824715e-06,
+      "loss": 0.0091,
+      "step": 10235
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.2849455177783966,
+      "learning_rate": 3.9256678281068525e-06,
+      "loss": 0.0066,
+      "step": 10240
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.2523050904273987,
+      "learning_rate": 3.916733672831234e-06,
+      "loss": 0.0076,
+      "step": 10245
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.4256332218647003,
+      "learning_rate": 3.9077995175556154e-06,
+      "loss": 0.0061,
+      "step": 10250
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.2837385833263397,
+      "learning_rate": 3.8988653622799965e-06,
+      "loss": 0.0069,
+      "step": 10255
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.44190511107444763,
+      "learning_rate": 3.889931207004378e-06,
+      "loss": 0.0059,
+      "step": 10260
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.3654380440711975,
+      "learning_rate": 3.880997051728759e-06,
+      "loss": 0.0071,
+      "step": 10265
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.356179416179657,
+      "learning_rate": 3.872062896453141e-06,
+      "loss": 0.005,
+      "step": 10270
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.4459650218486786,
+      "learning_rate": 3.863128741177522e-06,
+      "loss": 0.0074,
+      "step": 10275
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.6780635118484497,
+      "learning_rate": 3.854194585901903e-06,
+      "loss": 0.0101,
+      "step": 10280
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.42910513281822205,
+      "learning_rate": 3.845260430626284e-06,
+      "loss": 0.0087,
+      "step": 10285
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.38253623247146606,
+      "learning_rate": 3.8363262753506654e-06,
+      "loss": 0.0054,
+      "step": 10290
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.3616214990615845,
+      "learning_rate": 3.827392120075047e-06,
+      "loss": 0.0066,
+      "step": 10295
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.5730588436126709,
+      "learning_rate": 3.818457964799428e-06,
+      "loss": 0.0075,
+      "step": 10300
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.34027931094169617,
+      "learning_rate": 3.80952380952381e-06,
+      "loss": 0.0115,
+      "step": 10305
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.34853848814964294,
+      "learning_rate": 3.8005896542481913e-06,
+      "loss": 0.0098,
+      "step": 10310
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.3500560522079468,
+      "learning_rate": 3.7916554989725723e-06,
+      "loss": 0.0099,
+      "step": 10315
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.4545835256576538,
+      "learning_rate": 3.7827213436969538e-06,
+      "loss": 0.0075,
+      "step": 10320
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.3421791195869446,
+      "learning_rate": 3.7737871884213352e-06,
+      "loss": 0.0105,
+      "step": 10325
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.28388506174087524,
+      "learning_rate": 3.7648530331457163e-06,
+      "loss": 0.0135,
+      "step": 10330
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.6649767160415649,
+      "learning_rate": 3.7559188778700977e-06,
+      "loss": 0.0105,
+      "step": 10335
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.41207408905029297,
+      "learning_rate": 3.7469847225944788e-06,
+      "loss": 0.0065,
+      "step": 10340
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.3896176815032959,
+      "learning_rate": 3.7380505673188607e-06,
+      "loss": 0.0098,
+      "step": 10345
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.26551979780197144,
+      "learning_rate": 3.7291164120432417e-06,
+      "loss": 0.0088,
+      "step": 10350
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.22879204154014587,
+      "learning_rate": 3.7201822567676227e-06,
+      "loss": 0.0094,
+      "step": 10355
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.6052958369255066,
+      "learning_rate": 3.711248101492004e-06,
+      "loss": 0.0092,
+      "step": 10360
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.2694813311100006,
+      "learning_rate": 3.7023139462163852e-06,
+      "loss": 0.0054,
+      "step": 10365
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.3190039098262787,
+      "learning_rate": 3.693379790940767e-06,
+      "loss": 0.009,
+      "step": 10370
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.2353006899356842,
+      "learning_rate": 3.684445635665148e-06,
+      "loss": 0.0088,
+      "step": 10375
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.9957902431488037,
+      "learning_rate": 3.675511480389529e-06,
+      "loss": 0.0116,
+      "step": 10380
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.4154163897037506,
+      "learning_rate": 3.6665773251139107e-06,
+      "loss": 0.0055,
+      "step": 10385
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.3367329239845276,
+      "learning_rate": 3.657643169838292e-06,
+      "loss": 0.0061,
+      "step": 10390
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.3034825325012207,
+      "learning_rate": 3.6487090145626736e-06,
+      "loss": 0.0081,
+      "step": 10395
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.17845579981803894,
+      "learning_rate": 3.6397748592870546e-06,
+      "loss": 0.0043,
+      "step": 10400
     }
   ],
   "logging_steps": 5,