Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
trainer_state.json +1263 -3

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f82520f27b73d7c06440d43e758347c30987ebd9cfbfe70df3ab63e32ce25154
 size 4991459544

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a239bd0e58246448c79b136afab824a8a9a6153ce17d8d6d113a2e318b3de72
 size 4991459544

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7787114bf6023c351dcdc326201064a7935126ab709a5676caa116e882a236b4
 size 4991757456

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e1c690f2f36f7d22d9985346afe5114ce093d3af04d6ba6b3fb22d697c78864
 size 4991757456

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d42a0591755746258506f021e46ca86cc11d1e1587a4cf2efbb2e87ee3fbc22e
 size 4947691960

 version https://git-lfs.github.com/spec/v1
+oid sha256:2759dd1a7d4b026c79bb5df907c7fe108df5d36ceb75f2082f8aa3202ce44bcf
 size 4947691960

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a546f3427e6b6ed67f0d30ed1e68c113468495586ee2ea61e7609dd393ebf64d
 size 1863387424

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ab61af589c217a86e226ecc839b1b369bd32759a3234e18b7cf254d273dabb3
 size 1863387424

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2827125681933636,
   "eval_steps": 100000,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -556,6 +556,1266 @@
       "memory(GiB)": 75.3,
       "step": 300,
       "train_speed(iter/s)": 0.003347
     }
   ],
   "logging_steps": 5,
@@ -575,7 +1835,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.6327530207541985e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.942375227311212,
   "eval_steps": 100000,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "memory(GiB)": 75.3,
       "step": 300,
       "train_speed(iter/s)": 0.003347
+    },
+    {
+      "epoch": 0.2874244443299197,
+      "grad_norm": 0.91015625,
+      "learning_rate": 8.104190202580811e-06,
+      "loss": 0.05302551,
+      "memory(GiB)": 75.3,
+      "step": 305,
+      "train_speed(iter/s)": 0.003346
+    },
+    {
+      "epoch": 0.29213632046647575,
+      "grad_norm": 0.91796875,
+      "learning_rate": 8.045766202102358e-06,
+      "loss": 0.05804279,
+      "memory(GiB)": 75.3,
+      "step": 310,
+      "train_speed(iter/s)": 0.003346
+    },
+    {
+      "epoch": 0.2968481966030318,
+      "grad_norm": 0.9375,
+      "learning_rate": 7.986673370246743e-06,
+      "loss": 0.05822692,
+      "memory(GiB)": 75.3,
+      "step": 315,
+      "train_speed(iter/s)": 0.003346
+    },
+    {
+      "epoch": 0.30156007273958785,
+      "grad_norm": 1.0078125,
+      "learning_rate": 7.926924683433523e-06,
+      "loss": 0.06007032,
+      "memory(GiB)": 75.3,
+      "step": 320,
+      "train_speed(iter/s)": 0.003346
+    },
+    {
+      "epoch": 0.3062719488761439,
+      "grad_norm": 0.921875,
+      "learning_rate": 7.866533262103937e-06,
+      "loss": 0.06018423,
+      "memory(GiB)": 75.3,
+      "step": 325,
+      "train_speed(iter/s)": 0.003346
+    },
+    {
+      "epoch": 0.3109838250127,
+      "grad_norm": 0.9375,
+      "learning_rate": 7.805512367839742e-06,
+      "loss": 0.05931915,
+      "memory(GiB)": 75.3,
+      "step": 330,
+      "train_speed(iter/s)": 0.003346
+    },
+    {
+      "epoch": 0.31569570114925605,
+      "grad_norm": 1.015625,
+      "learning_rate": 7.743875400451047e-06,
+      "loss": 0.0566447,
+      "memory(GiB)": 75.3,
+      "step": 335,
+      "train_speed(iter/s)": 0.003346
+    },
+    {
+      "epoch": 0.3204075772858121,
+      "grad_norm": 0.8203125,
+      "learning_rate": 7.681635895033798e-06,
+      "loss": 0.05161901,
+      "memory(GiB)": 75.3,
+      "step": 340,
+      "train_speed(iter/s)": 0.003346
+    },
+    {
+      "epoch": 0.32511945342236814,
+      "grad_norm": 1.0,
+      "learning_rate": 7.6188075189975644e-06,
+      "loss": 0.05694907,
+      "memory(GiB)": 75.3,
+      "step": 345,
+      "train_speed(iter/s)": 0.003346
+    },
+    {
+      "epoch": 0.32983132955892425,
+      "grad_norm": 1.0390625,
+      "learning_rate": 7.555404069064245e-06,
+      "loss": 0.05555046,
+      "memory(GiB)": 75.3,
+      "step": 350,
+      "train_speed(iter/s)": 0.003347
+    },
+    {
+      "epoch": 0.3345432056954803,
+      "grad_norm": 0.97265625,
+      "learning_rate": 7.491439468238404e-06,
+      "loss": 0.05587023,
+      "memory(GiB)": 75.3,
+      "step": 355,
+      "train_speed(iter/s)": 0.003347
+    },
+    {
+      "epoch": 0.33925508183203634,
+      "grad_norm": 0.96875,
+      "learning_rate": 7.426927762749867e-06,
+      "loss": 0.05913154,
+      "memory(GiB)": 75.3,
+      "step": 360,
+      "train_speed(iter/s)": 0.003347
+    },
+    {
+      "epoch": 0.3439669579685924,
+      "grad_norm": 0.89453125,
+      "learning_rate": 7.361883118969248e-06,
+      "loss": 0.05830712,
+      "memory(GiB)": 75.3,
+      "step": 365,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.34867883410514844,
+      "grad_norm": 0.89453125,
+      "learning_rate": 7.2963198202971055e-06,
+      "loss": 0.05937972,
+      "memory(GiB)": 75.3,
+      "step": 370,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.35339071024170454,
+      "grad_norm": 0.9375,
+      "learning_rate": 7.230252264027398e-06,
+      "loss": 0.0565136,
+      "memory(GiB)": 75.3,
+      "step": 375,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.3581025863782606,
+      "grad_norm": 0.96875,
+      "learning_rate": 7.163694958185928e-06,
+      "loss": 0.05636386,
+      "memory(GiB)": 75.3,
+      "step": 380,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.36281446251481664,
+      "grad_norm": 0.96875,
+      "learning_rate": 7.09666251834447e-06,
+      "loss": 0.06038175,
+      "memory(GiB)": 75.3,
+      "step": 385,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.3675263386513727,
+      "grad_norm": 0.92578125,
+      "learning_rate": 7.0291696644112705e-06,
+      "loss": 0.05833557,
+      "memory(GiB)": 75.3,
+      "step": 390,
+      "train_speed(iter/s)": 0.003349
+    },
+    {
+      "epoch": 0.3722382147879288,
+      "grad_norm": 0.8359375,
+      "learning_rate": 6.9612312173986675e-06,
+      "loss": 0.05632974,
+      "memory(GiB)": 75.3,
+      "step": 395,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.37695009092448484,
+      "grad_norm": 0.921875,
+      "learning_rate": 6.892862096168469e-06,
+      "loss": 0.05656151,
+      "memory(GiB)": 75.3,
+      "step": 400,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.3816619670610409,
+      "grad_norm": 0.98828125,
+      "learning_rate": 6.824077314155877e-06,
+      "loss": 0.05432441,
+      "memory(GiB)": 75.3,
+      "step": 405,
+      "train_speed(iter/s)": 0.003347
+    },
+    {
+      "epoch": 0.38637384319759693,
+      "grad_norm": 0.9453125,
+      "learning_rate": 6.75489197607262e-06,
+      "loss": 0.05709869,
+      "memory(GiB)": 75.3,
+      "step": 410,
+      "train_speed(iter/s)": 0.003347
+    },
+    {
+      "epoch": 0.391085719334153,
+      "grad_norm": 1.0546875,
+      "learning_rate": 6.6853212745900585e-06,
+      "loss": 0.05979726,
+      "memory(GiB)": 75.3,
+      "step": 415,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.3957975954707091,
+      "grad_norm": 0.9140625,
+      "learning_rate": 6.615380487002969e-06,
+      "loss": 0.0600209,
+      "memory(GiB)": 75.3,
+      "step": 420,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.40050947160726513,
+      "grad_norm": 0.94140625,
+      "learning_rate": 6.545084971874738e-06,
+      "loss": 0.0563777,
+      "memory(GiB)": 75.3,
+      "step": 425,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.4052213477438212,
+      "grad_norm": 0.91796875,
+      "learning_rate": 6.474450165664722e-06,
+      "loss": 0.05698464,
+      "memory(GiB)": 75.3,
+      "step": 430,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.40993322388037723,
+      "grad_norm": 0.890625,
+      "learning_rate": 6.4034915793385e-06,
+      "loss": 0.05311573,
+      "memory(GiB)": 75.3,
+      "step": 435,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.41464510001693333,
+      "grad_norm": 0.97265625,
+      "learning_rate": 6.332224794961752e-06,
+      "loss": 0.05458606,
+      "memory(GiB)": 75.3,
+      "step": 440,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.4193569761534894,
+      "grad_norm": 0.95703125,
+      "learning_rate": 6.260665462278544e-06,
+      "loss": 0.05579169,
+      "memory(GiB)": 75.3,
+      "step": 445,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.42406885229004543,
+      "grad_norm": 0.99609375,
+      "learning_rate": 6.18882929527473e-06,
+      "loss": 0.06002288,
+      "memory(GiB)": 75.3,
+      "step": 450,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.4287807284266015,
+      "grad_norm": 0.94140625,
+      "learning_rate": 6.116732068727271e-06,
+      "loss": 0.05494517,
+      "memory(GiB)": 75.3,
+      "step": 455,
+      "train_speed(iter/s)": 0.003349
+    },
+    {
+      "epoch": 0.4334926045631575,
+      "grad_norm": 0.953125,
+      "learning_rate": 6.0443896147401856e-06,
+      "loss": 0.0547879,
+      "memory(GiB)": 75.3,
+      "step": 460,
+      "train_speed(iter/s)": 0.003349
+    },
+    {
+      "epoch": 0.4382044806997136,
+      "grad_norm": 0.82421875,
+      "learning_rate": 5.971817819267914e-06,
+      "loss": 0.05363967,
+      "memory(GiB)": 75.3,
+      "step": 465,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.4429163568362697,
+      "grad_norm": 0.91796875,
+      "learning_rate": 5.8990326186268655e-06,
+      "loss": 0.056594,
+      "memory(GiB)": 75.3,
+      "step": 470,
+      "train_speed(iter/s)": 0.003349
+    },
+    {
+      "epoch": 0.4476282329728257,
+      "grad_norm": 0.9765625,
+      "learning_rate": 5.826049995995905e-06,
+      "loss": 0.05898719,
+      "memory(GiB)": 75.3,
+      "step": 475,
+      "train_speed(iter/s)": 0.003349
+    },
+    {
+      "epoch": 0.45234010910938177,
+      "grad_norm": 1.3671875,
+      "learning_rate": 5.752885977906539e-06,
+      "loss": 0.05439388,
+      "memory(GiB)": 75.3,
+      "step": 480,
+      "train_speed(iter/s)": 0.003349
+    },
+    {
+      "epoch": 0.4570519852459379,
+      "grad_norm": 1.0390625,
+      "learning_rate": 5.679556630723592e-06,
+      "loss": 0.05334362,
+      "memory(GiB)": 75.3,
+      "step": 485,
+      "train_speed(iter/s)": 0.003349
+    },
+    {
+      "epoch": 0.4617638613824939,
+      "grad_norm": 0.9765625,
+      "learning_rate": 5.606078057117136e-06,
+      "loss": 0.06019425,
+      "memory(GiB)": 75.3,
+      "step": 490,
+      "train_speed(iter/s)": 0.003349
+    },
+    {
+      "epoch": 0.46647573751904997,
+      "grad_norm": 0.95703125,
+      "learning_rate": 5.532466392526439e-06,
+      "loss": 0.05597678,
+      "memory(GiB)": 75.3,
+      "step": 495,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.471187613655606,
+      "grad_norm": 0.86328125,
+      "learning_rate": 5.458737801616721e-06,
+      "loss": 0.05094014,
+      "memory(GiB)": 75.3,
+      "step": 500,
+      "train_speed(iter/s)": 0.003349
+    },
+    {
+      "epoch": 0.47589948979216207,
+      "grad_norm": 0.875,
+      "learning_rate": 5.384908474729501e-06,
+      "loss": 0.0548723,
+      "memory(GiB)": 75.3,
+      "step": 505,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.48061136592871817,
+      "grad_norm": 0.8984375,
+      "learning_rate": 5.310994624327292e-06,
+      "loss": 0.05574841,
+      "memory(GiB)": 75.3,
+      "step": 510,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.4853232420652742,
+      "grad_norm": 0.8671875,
+      "learning_rate": 5.23701248143345e-06,
+      "loss": 0.05651059,
+      "memory(GiB)": 75.3,
+      "step": 515,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.49003511820183027,
+      "grad_norm": 0.921875,
+      "learning_rate": 5.162978292067933e-06,
+      "loss": 0.05878415,
+      "memory(GiB)": 75.3,
+      "step": 520,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.4947469943383863,
+      "grad_norm": 1.0234375,
+      "learning_rate": 5.088908313679788e-06,
+      "loss": 0.05620171,
+      "memory(GiB)": 75.3,
+      "step": 525,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.49945887047494236,
+      "grad_norm": 0.86328125,
+      "learning_rate": 5.014818811577104e-06,
+      "loss": 0.05407885,
+      "memory(GiB)": 75.3,
+      "step": 530,
+      "train_speed(iter/s)": 0.003348
+    },
+    {
+      "epoch": 0.5041707466114984,
+      "grad_norm": 0.84375,
+      "learning_rate": 4.940726055355259e-06,
+      "loss": 0.05323058,
+      "memory(GiB)": 75.3,
+      "step": 535,
+      "train_speed(iter/s)": 0.003349
+    },
+    {
+      "epoch": 0.5088826227480545,
+      "grad_norm": 0.83984375,
+      "learning_rate": 4.866646315324217e-06,
+      "loss": 0.05346375,
+      "memory(GiB)": 75.3,
+      "step": 540,
+      "train_speed(iter/s)": 0.003349
+    },
+    {
+      "epoch": 0.5135944988846106,
+      "grad_norm": 0.828125,
+      "learning_rate": 4.792595858935668e-06,
+      "loss": 0.05774211,
+      "memory(GiB)": 75.3,
+      "step": 545,
+      "train_speed(iter/s)": 0.003349
+    },
+    {
+      "epoch": 0.5183063750211666,
+      "grad_norm": 0.9921875,
+      "learning_rate": 4.718590947210788e-06,
+      "loss": 0.05547717,
+      "memory(GiB)": 75.3,
+      "step": 550,
+      "train_speed(iter/s)": 0.003349
+    },
+    {
+      "epoch": 0.5230182511577227,
+      "grad_norm": 0.8046875,
+      "learning_rate": 4.644647831169435e-06,
+      "loss": 0.05536319,
+      "memory(GiB)": 75.3,
+      "step": 555,
+      "train_speed(iter/s)": 0.003349
+    },
+    {
+      "epoch": 0.5277301272942787,
+      "grad_norm": 1.015625,
+      "learning_rate": 4.570782748261516e-06,
+      "loss": 0.05369086,
+      "memory(GiB)": 75.3,
+      "step": 560,
+      "train_speed(iter/s)": 0.003349
+    },
+    {
+      "epoch": 0.5324420034308348,
+      "grad_norm": 0.94140625,
+      "learning_rate": 4.497011918801347e-06,
+      "loss": 0.05471834,
+      "memory(GiB)": 75.3,
+      "step": 565,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.5371538795673909,
+      "grad_norm": 0.9140625,
+      "learning_rate": 4.423351542405764e-06,
+      "loss": 0.05114409,
+      "memory(GiB)": 75.3,
+      "step": 570,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.5418657557039469,
+      "grad_norm": 0.9765625,
+      "learning_rate": 4.349817794436805e-06,
+      "loss": 0.05673685,
+      "memory(GiB)": 75.3,
+      "step": 575,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.546577631840503,
+      "grad_norm": 0.88671875,
+      "learning_rate": 4.276426822449682e-06,
+      "loss": 0.05527523,
+      "memory(GiB)": 75.3,
+      "step": 580,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.551289507977059,
+      "grad_norm": 0.90625,
+      "learning_rate": 4.203194742646893e-06,
+      "loss": 0.05317973,
+      "memory(GiB)": 75.3,
+      "step": 585,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.5560013841136151,
+      "grad_norm": 1.0078125,
+      "learning_rate": 4.130137636339191e-06,
+      "loss": 0.05449303,
+      "memory(GiB)": 75.3,
+      "step": 590,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.5607132602501712,
+      "grad_norm": 0.89453125,
+      "learning_rate": 4.057271546414242e-06,
+      "loss": 0.05341119,
+      "memory(GiB)": 75.3,
+      "step": 595,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.5654251363867272,
+      "grad_norm": 0.8515625,
+      "learning_rate": 3.984612473813689e-06,
+      "loss": 0.05254069,
+      "memory(GiB)": 75.3,
+      "step": 600,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.5701370125232833,
+      "grad_norm": 0.8984375,
+      "learning_rate": 3.912176374019462e-06,
+      "loss": 0.05324795,
+      "memory(GiB)": 75.3,
+      "step": 605,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.5748488886598394,
+      "grad_norm": 0.8671875,
+      "learning_rate": 3.839979153550039e-06,
+      "loss": 0.05177047,
+      "memory(GiB)": 75.3,
+      "step": 610,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.5795607647963954,
+      "grad_norm": 0.82421875,
+      "learning_rate": 3.768036666467486e-06,
+      "loss": 0.05265539,
+      "memory(GiB)": 75.3,
+      "step": 615,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.5842726409329515,
+      "grad_norm": 0.88671875,
+      "learning_rate": 3.6963647108959868e-06,
+      "loss": 0.05418316,
+      "memory(GiB)": 75.3,
+      "step": 620,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.5889845170695075,
+      "grad_norm": 0.93359375,
+      "learning_rate": 3.6249790255526916e-06,
+      "loss": 0.05562772,
+      "memory(GiB)": 75.3,
+      "step": 625,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.5936963932060636,
+      "grad_norm": 0.90234375,
+      "learning_rate": 3.553895286291577e-06,
+      "loss": 0.05445199,
+      "memory(GiB)": 75.3,
+      "step": 630,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.5984082693426197,
+      "grad_norm": 0.90234375,
+      "learning_rate": 3.483129102661137e-06,
+      "loss": 0.05333483,
+      "memory(GiB)": 75.3,
+      "step": 635,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.6031201454791757,
+      "grad_norm": 0.8515625,
+      "learning_rate": 3.4126960144766107e-06,
+      "loss": 0.05417204,
+      "memory(GiB)": 75.3,
+      "step": 640,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.6078320216157318,
+      "grad_norm": 0.91015625,
+      "learning_rate": 3.3426114884075488e-06,
+      "loss": 0.05412987,
+      "memory(GiB)": 75.3,
+      "step": 645,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.6125438977522878,
+      "grad_norm": 0.87109375,
+      "learning_rate": 3.272890914581417e-06,
+      "loss": 0.05388454,
+      "memory(GiB)": 75.3,
+      "step": 650,
+      "train_speed(iter/s)": 0.003349
+    },
+    {
+      "epoch": 0.6172557738888439,
+      "grad_norm": 0.85546875,
+      "learning_rate": 3.2035496032040303e-06,
+      "loss": 0.05097753,
+      "memory(GiB)": 75.3,
+      "step": 655,
+      "train_speed(iter/s)": 0.003349
+    },
+    {
+      "epoch": 0.6219676500254,
+      "grad_norm": 0.875,
+      "learning_rate": 3.134602781197515e-06,
+      "loss": 0.05341196,
+      "memory(GiB)": 75.3,
+      "step": 660,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.626679526161956,
+      "grad_norm": 0.90625,
+      "learning_rate": 3.0660655888565827e-06,
+      "loss": 0.05016219,
+      "memory(GiB)": 75.3,
+      "step": 665,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.6313914022985121,
+      "grad_norm": 0.95703125,
+      "learning_rate": 2.997953076523803e-06,
+      "loss": 0.05216441,
+      "memory(GiB)": 75.3,
+      "step": 670,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.6361032784350681,
+      "grad_norm": 1.015625,
+      "learning_rate": 2.930280201284654e-06,
+      "loss": 0.05449665,
+      "memory(GiB)": 75.3,
+      "step": 675,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.6408151545716242,
+      "grad_norm": 0.921875,
+      "learning_rate": 2.863061823683032e-06,
+      "loss": 0.05129569,
+      "memory(GiB)": 75.3,
+      "step": 680,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.6455270307081803,
+      "grad_norm": 0.87890625,
+      "learning_rate": 2.7963127044579697e-06,
+      "loss": 0.05290835,
+      "memory(GiB)": 75.3,
+      "step": 685,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.6502389068447363,
+      "grad_norm": 0.87109375,
+      "learning_rate": 2.7300475013022666e-06,
+      "loss": 0.0528672,
+      "memory(GiB)": 75.3,
+      "step": 690,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.6549507829812924,
+      "grad_norm": 0.984375,
+      "learning_rate": 2.6642807656437565e-06,
+      "loss": 0.05229232,
+      "memory(GiB)": 75.3,
+      "step": 695,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.6596626591178485,
+      "grad_norm": 0.9609375,
+      "learning_rate": 2.599026939449899e-06,
+      "loss": 0.05371115,
+      "memory(GiB)": 75.3,
+      "step": 700,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.6643745352544045,
+      "grad_norm": 1.0703125,
+      "learning_rate": 2.534300352056416e-06,
+      "loss": 0.05234203,
+      "memory(GiB)": 75.3,
+      "step": 705,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.6690864113909606,
+      "grad_norm": 0.98828125,
+      "learning_rate": 2.470115217020654e-06,
+      "loss": 0.05360326,
+      "memory(GiB)": 75.3,
+      "step": 710,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.6737982875275166,
+      "grad_norm": 0.92578125,
+      "learning_rate": 2.4064856290003863e-06,
+      "loss": 0.05475932,
+      "memory(GiB)": 75.3,
+      "step": 715,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.6785101636640727,
+      "grad_norm": 1.0703125,
+      "learning_rate": 2.3434255606586925e-06,
+      "loss": 0.05548735,
+      "memory(GiB)": 75.3,
+      "step": 720,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.6832220398006288,
+      "grad_norm": 0.89453125,
+      "learning_rate": 2.2809488595956746e-06,
+      "loss": 0.05201564,
+      "memory(GiB)": 75.3,
+      "step": 725,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.6879339159371848,
+      "grad_norm": 0.9140625,
+      "learning_rate": 2.219069245307589e-06,
+      "loss": 0.05408272,
+      "memory(GiB)": 75.3,
+      "step": 730,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.6926457920737409,
+      "grad_norm": 1.1640625,
+      "learning_rate": 2.157800306174139e-06,
+      "loss": 0.05537663,
+      "memory(GiB)": 75.3,
+      "step": 735,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.6973576682102969,
+      "grad_norm": 1.125,
+      "learning_rate": 2.0971554964745476e-06,
+      "loss": 0.05455139,
+      "memory(GiB)": 75.3,
+      "step": 740,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.702069544346853,
+      "grad_norm": 0.87890625,
+      "learning_rate": 2.0371481334330913e-06,
+      "loss": 0.05394316,
+      "memory(GiB)": 75.3,
+      "step": 745,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.7067814204834091,
+      "grad_norm": 0.828125,
+      "learning_rate": 1.9777913942946987e-06,
+      "loss": 0.05269849,
+      "memory(GiB)": 75.3,
+      "step": 750,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.7114932966199651,
+      "grad_norm": 0.81640625,
+      "learning_rate": 1.919098313431335e-06,
+      "loss": 0.05057405,
+      "memory(GiB)": 75.3,
+      "step": 755,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.7162051727565212,
+      "grad_norm": 0.9375,
+      "learning_rate": 1.8610817794797164e-06,
+      "loss": 0.05438253,
+      "memory(GiB)": 75.3,
+      "step": 760,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.7209170488930772,
+      "grad_norm": 0.84375,
+      "learning_rate": 1.8037545325110506e-06,
+      "loss": 0.05222658,
+      "memory(GiB)": 75.3,
+      "step": 765,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.7256289250296333,
+      "grad_norm": 0.88671875,
+      "learning_rate": 1.7471291612333997e-06,
+      "loss": 0.05131737,
+      "memory(GiB)": 75.3,
+      "step": 770,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.7303408011661894,
+      "grad_norm": 0.93359375,
+      "learning_rate": 1.6912181002272714e-06,
+      "loss": 0.05391481,
+      "memory(GiB)": 75.3,
+      "step": 775,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.7350526773027454,
+      "grad_norm": 0.8984375,
+      "learning_rate": 1.6360336272150684e-06,
+      "loss": 0.05078862,
+      "memory(GiB)": 75.3,
+      "step": 780,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.7397645534393015,
+      "grad_norm": 0.953125,
+      "learning_rate": 1.581587860364977e-06,
+      "loss": 0.05192038,
+      "memory(GiB)": 75.3,
+      "step": 785,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.7444764295758576,
+      "grad_norm": 0.96875,
+      "learning_rate": 1.52789275562988e-06,
+      "loss": 0.05364103,
+      "memory(GiB)": 75.3,
+      "step": 790,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.7491883057124136,
+      "grad_norm": 1.0625,
+      "learning_rate": 1.4749601041219246e-06,
+      "loss": 0.0536845,
+      "memory(GiB)": 75.3,
+      "step": 795,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.7539001818489697,
+      "grad_norm": 0.90234375,
+      "learning_rate": 1.4228015295232484e-06,
+      "loss": 0.05084696,
+      "memory(GiB)": 75.3,
+      "step": 800,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.7586120579855257,
+      "grad_norm": 0.875,
+      "learning_rate": 1.371428485533498e-06,
+      "loss": 0.05773014,
+      "memory(GiB)": 75.3,
+      "step": 805,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.7633239341220818,
+      "grad_norm": 0.91796875,
+      "learning_rate": 1.3208522533546748e-06,
+      "loss": 0.05219783,
+      "memory(GiB)": 75.3,
+      "step": 810,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.7680358102586379,
+      "grad_norm": 0.96875,
+      "learning_rate": 1.2710839392138386e-06,
+      "loss": 0.05375321,
+      "memory(GiB)": 75.3,
+      "step": 815,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.7727476863951939,
+      "grad_norm": 0.87890625,
+      "learning_rate": 1.222134471924259e-06,
+      "loss": 0.05204231,
+      "memory(GiB)": 75.3,
+      "step": 820,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.77745956253175,
+      "grad_norm": 0.91796875,
+      "learning_rate": 1.1740146004855141e-06,
+      "loss": 0.0559127,
+      "memory(GiB)": 75.3,
+      "step": 825,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.782171438668306,
+      "grad_norm": 0.89453125,
+      "learning_rate": 1.1267348917230737e-06,
+      "loss": 0.05298336,
+      "memory(GiB)": 75.3,
+      "step": 830,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.7868833148048621,
+      "grad_norm": 0.90625,
+      "learning_rate": 1.080305727967893e-06,
+      "loss": 0.05347639,
+      "memory(GiB)": 75.3,
+      "step": 835,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.7915951909414182,
+      "grad_norm": 0.84765625,
+      "learning_rate": 1.0347373047765202e-06,
+      "loss": 0.05329442,
+      "memory(GiB)": 75.3,
+      "step": 840,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.7963070670779742,
+      "grad_norm": 0.8359375,
+      "learning_rate": 9.900396286922025e-07,
+      "loss": 0.0537856,
+      "memory(GiB)": 75.3,
+      "step": 845,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.8010189432145303,
+      "grad_norm": 0.8125,
+      "learning_rate": 9.462225150475296e-07,
+      "loss": 0.05233877,
+      "memory(GiB)": 75.3,
+      "step": 850,
+      "train_speed(iter/s)": 0.00335
+    },
+    {
+      "epoch": 0.8057308193510863,
+      "grad_norm": 0.88671875,
+      "learning_rate": 9.032955858090319e-07,
+      "loss": 0.0549244,
+      "memory(GiB)": 75.3,
+      "step": 855,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.8104426954876424,
+      "grad_norm": 0.9140625,
+      "learning_rate": 8.612682674642647e-07,
+      "loss": 0.04935811,
+      "memory(GiB)": 75.3,
+      "step": 860,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.8151545716241985,
+      "grad_norm": 0.921875,
+      "learning_rate": 8.201497889518073e-07,
+      "loss": 0.05281691,
+      "memory(GiB)": 75.3,
+      "step": 865,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.8198664477607545,
+      "grad_norm": 0.90625,
+      "learning_rate": 7.799491796346487e-07,
+      "loss": 0.05795277,
+      "memory(GiB)": 75.3,
+      "step": 870,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.8245783238973106,
+      "grad_norm": 0.8046875,
+      "learning_rate": 7.406752673173851e-07,
+      "loss": 0.05225162,
+      "memory(GiB)": 75.3,
+      "step": 875,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.8292902000338667,
+      "grad_norm": 0.87890625,
+      "learning_rate": 7.023366763077044e-07,
+      "loss": 0.0509973,
+      "memory(GiB)": 75.3,
+      "step": 880,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.8340020761704227,
+      "grad_norm": 0.87109375,
+      "learning_rate": 6.649418255225298e-07,
+      "loss": 0.05142277,
+      "memory(GiB)": 75.3,
+      "step": 885,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.8387139523069788,
+      "grad_norm": 0.95703125,
+      "learning_rate": 6.284989266392805e-07,
+      "loss": 0.05023923,
+      "memory(GiB)": 75.3,
+      "step": 890,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.8434258284435348,
+      "grad_norm": 0.8828125,
+      "learning_rate": 5.930159822926407e-07,
+      "loss": 0.0534648,
+      "memory(GiB)": 75.3,
+      "step": 895,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.8481377045800909,
+      "grad_norm": 0.84375,
+      "learning_rate": 5.585007843172286e-07,
+      "loss": 0.05155768,
+      "memory(GiB)": 75.3,
+      "step": 900,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.852849580716647,
+      "grad_norm": 0.9453125,
+      "learning_rate": 5.249609120365579e-07,
+      "loss": 0.05368913,
+      "memory(GiB)": 75.3,
+      "step": 905,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.857561456853203,
+      "grad_norm": 0.859375,
+      "learning_rate": 4.924037305986696e-07,
+      "loss": 0.05452033,
+      "memory(GiB)": 75.3,
+      "step": 910,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.8622733329897591,
+      "grad_norm": 0.8515625,
+      "learning_rate": 4.6083638935878025e-07,
+      "loss": 0.05384221,
+      "memory(GiB)": 75.3,
+      "step": 915,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.866985209126315,
+      "grad_norm": 0.828125,
+      "learning_rate": 4.302658203093418e-07,
+      "loss": 0.05272598,
+      "memory(GiB)": 75.3,
+      "step": 920,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.8716970852628712,
+      "grad_norm": 0.8671875,
+      "learning_rate": 4.00698736557808e-07,
+      "loss": 0.05447989,
+      "memory(GiB)": 75.3,
+      "step": 925,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.8764089613994273,
+      "grad_norm": 0.9453125,
+      "learning_rate": 3.721416308524839e-07,
+      "loss": 0.05123619,
+      "memory(GiB)": 75.3,
+      "step": 930,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.8811208375359832,
+      "grad_norm": 0.8515625,
+      "learning_rate": 3.4460077415675473e-07,
+      "loss": 0.05347574,
+      "memory(GiB)": 75.3,
+      "step": 935,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.8858327136725394,
+      "grad_norm": 0.7890625,
+      "learning_rate": 3.1808221427202636e-07,
+      "loss": 0.05334803,
+      "memory(GiB)": 75.3,
+      "step": 940,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.8905445898090953,
+      "grad_norm": 0.94921875,
+      "learning_rate": 2.925917745096568e-07,
+      "loss": 0.05249671,
+      "memory(GiB)": 75.3,
+      "step": 945,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.8952564659456514,
+      "grad_norm": 0.91015625,
+      "learning_rate": 2.681350524122045e-07,
+      "loss": 0.05494893,
+      "memory(GiB)": 75.3,
+      "step": 950,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.8999683420822076,
+      "grad_norm": 0.828125,
+      "learning_rate": 2.447174185242324e-07,
+      "loss": 0.05149726,
+      "memory(GiB)": 75.3,
+      "step": 955,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.9046802182187635,
+      "grad_norm": 1.0859375,
+      "learning_rate": 2.2234401521297576e-07,
+      "loss": 0.05425293,
+      "memory(GiB)": 75.3,
+      "step": 960,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.9093920943553196,
+      "grad_norm": 0.87109375,
+      "learning_rate": 2.01019755539108e-07,
+      "loss": 0.0552171,
+      "memory(GiB)": 75.3,
+      "step": 965,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.9141039704918758,
+      "grad_norm": 0.84375,
+      "learning_rate": 1.8074932217786445e-07,
+      "loss": 0.05237709,
+      "memory(GiB)": 75.3,
+      "step": 970,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.9188158466284317,
+      "grad_norm": 0.86328125,
+      "learning_rate": 1.6153716639075223e-07,
+      "loss": 0.05221198,
+      "memory(GiB)": 75.3,
+      "step": 975,
+      "train_speed(iter/s)": 0.003351
+    },
+    {
+      "epoch": 0.9235277227649878,
+      "grad_norm": 0.8125,
+      "learning_rate": 1.433875070480878e-07,
+      "loss": 0.05134506,
+      "memory(GiB)": 75.3,
+      "step": 980,
+      "train_speed(iter/s)": 0.003352
+    },
+    {
+      "epoch": 0.9282395989015438,
+      "grad_norm": 0.890625,
+      "learning_rate": 1.2630432970255014e-07,
+      "loss": 0.05436495,
+      "memory(GiB)": 75.3,
+      "step": 985,
+      "train_speed(iter/s)": 0.003352
+    },
+    {
+      "epoch": 0.9329514750380999,
+      "grad_norm": 0.921875,
+      "learning_rate": 1.1029138571398645e-07,
+      "loss": 0.05440986,
+      "memory(GiB)": 75.3,
+      "step": 990,
+      "train_speed(iter/s)": 0.003352
+    },
+    {
+      "epoch": 0.937663351174656,
+      "grad_norm": 0.91796875,
+      "learning_rate": 9.535219142563168e-08,
+      "loss": 0.05418127,
+      "memory(GiB)": 75.3,
+      "step": 995,
+      "train_speed(iter/s)": 0.003352
+    },
+    {
+      "epoch": 0.942375227311212,
+      "grad_norm": 0.8984375,
+      "learning_rate": 8.149002739194222e-08,
+      "loss": 0.05519557,
+      "memory(GiB)": 75.3,
+      "step": 1000,
+      "train_speed(iter/s)": 0.003352
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 5.440049406181114e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null