RAG-RP-Journal-Grokked-4B / training_log_1 - Copy.txt
TroyDoesAI's picture
Training logs and graph
8310c51 verified
Step: 4 {'loss': 0.4353, 'grad_norm': 2.191624164581299, 'learning_rate': 1.998993729773463e-05, 'epoch': 0.006067961165048544}
Step: 9 {'loss': 0.2694, 'grad_norm': 1.3030037879943848, 'learning_rate': 1.9979874595469258e-05, 'epoch': 0.012135922330097087}
Step: 14 {'loss': 0.3331, 'grad_norm': 1.330862283706665, 'learning_rate': 1.9969811893203883e-05, 'epoch': 0.01820388349514563}
Step: 19 {'loss': 0.2848, 'grad_norm': 1.1659115552902222, 'learning_rate': 1.995974919093851e-05, 'epoch': 0.024271844660194174}
Step: 24 {'loss': 0.2563, 'grad_norm': 1.2497798204421997, 'learning_rate': 1.994968648867314e-05, 'epoch': 0.03033980582524272}
Step: 29 {'loss': 0.2698, 'grad_norm': 0.8746716976165771, 'learning_rate': 1.9939623786407768e-05, 'epoch': 0.03640776699029126}
Step: 34 {'loss': 0.2862, 'grad_norm': 1.4592615365982056, 'learning_rate': 1.9929561084142396e-05, 'epoch': 0.04247572815533981}
Step: 39 {'loss': 0.2631, 'grad_norm': 1.3354547023773193, 'learning_rate': 1.9919498381877024e-05, 'epoch': 0.04854368932038835}
Step: 44 {'loss': 0.2367, 'grad_norm': 1.1055876016616821, 'learning_rate': 1.9909435679611653e-05, 'epoch': 0.05461165048543689}
Step: 49 {'loss': 0.2582, 'grad_norm': 1.1806422472000122, 'learning_rate': 1.989937297734628e-05, 'epoch': 0.06067961165048544}
Step: 54 {'loss': 0.1856, 'grad_norm': 1.1648695468902588, 'learning_rate': 1.988931027508091e-05, 'epoch': 0.06674757281553398}
Step: 59 {'loss': 0.2013, 'grad_norm': 1.1026502847671509, 'learning_rate': 1.9879247572815534e-05, 'epoch': 0.07281553398058252}
Step: 64 {'loss': 0.2539, 'grad_norm': 1.0105054378509521, 'learning_rate': 1.9869184870550162e-05, 'epoch': 0.07888349514563107}
Step: 69 {'loss': 0.1897, 'grad_norm': 0.8003122806549072, 'learning_rate': 1.985912216828479e-05, 'epoch': 0.08495145631067962}
Step: 74 {'loss': 0.2982, 'grad_norm': 1.30860435962677, 'learning_rate': 1.984905946601942e-05, 'epoch': 0.09101941747572816}
Step: 79 {'loss': 0.2618, 'grad_norm': 0.9786990880966187, 'learning_rate': 1.9838996763754047e-05, 'epoch': 0.0970873786407767}
Step: 84 {'loss': 0.1838, 'grad_norm': 0.9980338215827942, 'learning_rate': 1.9828934061488675e-05, 'epoch': 0.10315533980582524}
Step: 89 {'loss': 0.2939, 'grad_norm': 1.2290782928466797, 'learning_rate': 1.9818871359223303e-05, 'epoch': 0.10922330097087378}
Step: 94 {'loss': 0.1541, 'grad_norm': 0.8592115044593811, 'learning_rate': 1.980880865695793e-05, 'epoch': 0.11529126213592233}
Step: 99 {'loss': 0.2188, 'grad_norm': 1.2046189308166504, 'learning_rate': 1.979874595469256e-05, 'epoch': 0.12135922330097088}
Step: 104 {'loss': 0.2323, 'grad_norm': 1.098689317703247, 'learning_rate': 1.9788683252427188e-05, 'epoch': 0.12742718446601942}
Step: 109 {'loss': 0.2505, 'grad_norm': 1.0833467245101929, 'learning_rate': 1.9778620550161813e-05, 'epoch': 0.13349514563106796}
Step: 114 {'loss': 0.2742, 'grad_norm': 1.0014370679855347, 'learning_rate': 1.976855784789644e-05, 'epoch': 0.1395631067961165}
Step: 119 {'loss': 0.2006, 'grad_norm': 0.9583337903022766, 'learning_rate': 1.975849514563107e-05, 'epoch': 0.14563106796116504}
Step: 124 {'loss': 0.2622, 'grad_norm': 1.2637274265289307, 'learning_rate': 1.9748432443365698e-05, 'epoch': 0.15169902912621358}
Step: 129 {'loss': 0.1872, 'grad_norm': 1.2578071355819702, 'learning_rate': 1.9738369741100326e-05, 'epoch': 0.15776699029126215}
Step: 134 {'loss': 0.2888, 'grad_norm': 0.9690183401107788, 'learning_rate': 1.972830703883495e-05, 'epoch': 0.1638349514563107}
Step: 139 {'loss': 0.1762, 'grad_norm': 1.0546433925628662, 'learning_rate': 1.971824433656958e-05, 'epoch': 0.16990291262135923}
Step: 144 {'loss': 0.2071, 'grad_norm': 1.2604581117630005, 'learning_rate': 1.9708181634304207e-05, 'epoch': 0.17597087378640777}
Step: 149 {'loss': 0.2165, 'grad_norm': 0.9639974236488342, 'learning_rate': 1.9698118932038836e-05, 'epoch': 0.1820388349514563}
Step: 154 {'loss': 0.1864, 'grad_norm': 0.63663649559021, 'learning_rate': 1.9688056229773464e-05, 'epoch': 0.18810679611650485}
Step: 159 {'loss': 0.2522, 'grad_norm': 1.2346426248550415, 'learning_rate': 1.9677993527508092e-05, 'epoch': 0.1941747572815534}
Step: 164 {'loss': 0.2713, 'grad_norm': 0.8547439575195312, 'learning_rate': 1.966793082524272e-05, 'epoch': 0.20024271844660194}
Step: 169 {'loss': 0.2253, 'grad_norm': 1.1515867710113525, 'learning_rate': 1.965786812297735e-05, 'epoch': 0.20631067961165048}
Step: 174 {'loss': 0.2729, 'grad_norm': 0.7747319936752319, 'learning_rate': 1.9647805420711977e-05, 'epoch': 0.21237864077669902}
Step: 179 {'loss': 0.1736, 'grad_norm': 0.8566315770149231, 'learning_rate': 1.9637742718446602e-05, 'epoch': 0.21844660194174756}
Step: 184 {'loss': 0.1797, 'grad_norm': 0.930243194103241, 'learning_rate': 1.962768001618123e-05, 'epoch': 0.22451456310679613}
Step: 189 {'loss': 0.1593, 'grad_norm': 0.7396715879440308, 'learning_rate': 1.9617617313915858e-05, 'epoch': 0.23058252427184467}
Step: 194 {'loss': 0.1797, 'grad_norm': 0.9246750473976135, 'learning_rate': 1.9607554611650486e-05, 'epoch': 0.2366504854368932}
Step: 199 {'loss': 0.1663, 'grad_norm': 1.042656660079956, 'learning_rate': 1.9597491909385115e-05, 'epoch': 0.24271844660194175}
Step: 204 {'loss': 0.2603, 'grad_norm': 1.0404695272445679, 'learning_rate': 1.9587429207119743e-05, 'epoch': 0.2487864077669903}
Step: 209 {'loss': 0.1658, 'grad_norm': 0.997435986995697, 'learning_rate': 1.957736650485437e-05, 'epoch': 0.25485436893203883}
Step: 214 {'loss': 0.2053, 'grad_norm': 0.7831973433494568, 'learning_rate': 1.9567303802589e-05, 'epoch': 0.2609223300970874}
Step: 219 {'loss': 0.2411, 'grad_norm': 1.0195039510726929, 'learning_rate': 1.9557241100323628e-05, 'epoch': 0.2669902912621359}
Step: 224 {'loss': 0.3144, 'grad_norm': 0.9981959462165833, 'learning_rate': 1.9547178398058256e-05, 'epoch': 0.27305825242718446}
Step: 229 {'loss': 0.1659, 'grad_norm': 0.47695374488830566, 'learning_rate': 1.953711569579288e-05, 'epoch': 0.279126213592233}
Step: 234 {'loss': 0.207, 'grad_norm': 0.8239030241966248, 'learning_rate': 1.952705299352751e-05, 'epoch': 0.28519417475728154}
Step: 239 {'loss': 0.2419, 'grad_norm': 0.8410345911979675, 'learning_rate': 1.9516990291262137e-05, 'epoch': 0.2912621359223301}
Step: 244 {'loss': 0.1809, 'grad_norm': 0.894312858581543, 'learning_rate': 1.9506927588996766e-05, 'epoch': 0.2973300970873786}
Step: 249 {'loss': 0.2362, 'grad_norm': 1.2174204587936401, 'learning_rate': 1.949686488673139e-05, 'epoch': 0.30339805825242716}
Step: 254 {'loss': 0.2075, 'grad_norm': 0.9695034027099609, 'learning_rate': 1.948680218446602e-05, 'epoch': 0.3094660194174757}
Step: 259 {'loss': 0.2188, 'grad_norm': 0.8815172910690308, 'learning_rate': 1.947673948220065e-05, 'epoch': 0.3155339805825243}
Step: 264 {'loss': 0.2164, 'grad_norm': 1.0944536924362183, 'learning_rate': 1.946667677993528e-05, 'epoch': 0.32160194174757284}
Step: 269 {'loss': 0.1602, 'grad_norm': 0.6769459843635559, 'learning_rate': 1.9456614077669907e-05, 'epoch': 0.3276699029126214}
Step: 274 {'loss': 0.206, 'grad_norm': 0.7965872287750244, 'learning_rate': 1.9446551375404532e-05, 'epoch': 0.3337378640776699}
Step: 279 {'loss': 0.1985, 'grad_norm': 0.8939245939254761, 'learning_rate': 1.943648867313916e-05, 'epoch': 0.33980582524271846}
Step: 284 {'loss': 0.24, 'grad_norm': 0.9971239566802979, 'learning_rate': 1.9426425970873788e-05, 'epoch': 0.345873786407767}
Step: 289 {'loss': 0.2093, 'grad_norm': 0.7558819651603699, 'learning_rate': 1.9416363268608416e-05, 'epoch': 0.35194174757281554}
Step: 294 {'loss': 0.2463, 'grad_norm': 1.2064250707626343, 'learning_rate': 1.9406300566343045e-05, 'epoch': 0.3580097087378641}
Step: 299 {'loss': 0.2051, 'grad_norm': 0.9998931288719177, 'learning_rate': 1.939623786407767e-05, 'epoch': 0.3640776699029126}
Step: 304 {'loss': 0.2726, 'grad_norm': 0.7514689564704895, 'learning_rate': 1.9386175161812298e-05, 'epoch': 0.37014563106796117}
Step: 309 {'loss': 0.2369, 'grad_norm': 1.0480842590332031, 'learning_rate': 1.9376112459546926e-05, 'epoch': 0.3762135922330097}
Step: 314 {'loss': 0.1333, 'grad_norm': 0.8085609078407288, 'learning_rate': 1.9366049757281554e-05, 'epoch': 0.38228155339805825}
Step: 319 {'loss': 0.1258, 'grad_norm': 0.9378578066825867, 'learning_rate': 1.9355987055016183e-05, 'epoch': 0.3883495145631068}
Step: 324 {'loss': 0.2512, 'grad_norm': 0.871959388256073, 'learning_rate': 1.934592435275081e-05, 'epoch': 0.39441747572815533}
Step: 329 {'loss': 0.2108, 'grad_norm': 1.0580884218215942, 'learning_rate': 1.933586165048544e-05, 'epoch': 0.40048543689320387}
Step: 334 {'loss': 0.1955, 'grad_norm': 0.9206604361534119, 'learning_rate': 1.9325798948220067e-05, 'epoch': 0.4065533980582524}
Step: 339 {'loss': 0.2176, 'grad_norm': 0.9999366998672485, 'learning_rate': 1.9315736245954696e-05, 'epoch': 0.41262135922330095}
Step: 344 {'loss': 0.2156, 'grad_norm': 0.8080392479896545, 'learning_rate': 1.930567354368932e-05, 'epoch': 0.4186893203883495}
Step: 349 {'loss': 0.2352, 'grad_norm': 1.074510931968689, 'learning_rate': 1.929561084142395e-05, 'epoch': 0.42475728155339804}
Step: 354 {'loss': 0.1531, 'grad_norm': 0.8173450827598572, 'learning_rate': 1.9285548139158577e-05, 'epoch': 0.4308252427184466}
Step: 359 {'loss': 0.2219, 'grad_norm': 0.878411054611206, 'learning_rate': 1.9275485436893205e-05, 'epoch': 0.4368932038834951}
Step: 364 {'loss': 0.2231, 'grad_norm': 0.7410285472869873, 'learning_rate': 1.9265422734627833e-05, 'epoch': 0.4429611650485437}
Step: 369 {'loss': 0.1981, 'grad_norm': 0.957639753818512, 'learning_rate': 1.925536003236246e-05, 'epoch': 0.44902912621359226}
Step: 374 {'loss': 0.158, 'grad_norm': 0.6763705015182495, 'learning_rate': 1.924529733009709e-05, 'epoch': 0.4550970873786408}
Step: 379 {'loss': 0.2641, 'grad_norm': 1.112599492073059, 'learning_rate': 1.9235234627831718e-05, 'epoch': 0.46116504854368934}
Step: 384 {'loss': 0.153, 'grad_norm': 1.2892094850540161, 'learning_rate': 1.9225171925566346e-05, 'epoch': 0.4672330097087379}
Step: 389 {'loss': 0.2538, 'grad_norm': 0.9439594745635986, 'learning_rate': 1.9215109223300975e-05, 'epoch': 0.4733009708737864}
Step: 394 {'loss': 0.2393, 'grad_norm': 0.6366087794303894, 'learning_rate': 1.92050465210356e-05, 'epoch': 0.47936893203883496}
Step: 399 {'loss': 0.1662, 'grad_norm': 0.9235426187515259, 'learning_rate': 1.9194983818770228e-05, 'epoch': 0.4854368932038835}
Step: 404 {'loss': 0.2334, 'grad_norm': 0.6829384565353394, 'learning_rate': 1.9184921116504856e-05, 'epoch': 0.49150485436893204}
Step: 409 {'loss': 0.213, 'grad_norm': 0.8323965072631836, 'learning_rate': 1.9174858414239484e-05, 'epoch': 0.4975728155339806}
Step: 414 {'loss': 0.1632, 'grad_norm': 1.013178825378418, 'learning_rate': 1.9164795711974113e-05, 'epoch': 0.5036407766990292}
Step: 419 {'loss': 0.2009, 'grad_norm': 1.0952664613723755, 'learning_rate': 1.9154733009708737e-05, 'epoch': 0.5097087378640777}
Step: 424 {'loss': 0.1606, 'grad_norm': 0.7694137692451477, 'learning_rate': 1.9144670307443366e-05, 'epoch': 0.5157766990291263}
Step: 429 {'loss': 0.282, 'grad_norm': 0.8987980484962463, 'learning_rate': 1.9134607605177994e-05, 'epoch': 0.5218446601941747}
Step: 434 {'loss': 0.3209, 'grad_norm': 0.9966284036636353, 'learning_rate': 1.9124544902912622e-05, 'epoch': 0.5279126213592233}
Step: 439 {'loss': 0.2293, 'grad_norm': 0.8699304461479187, 'learning_rate': 1.911448220064725e-05, 'epoch': 0.5339805825242718}
Step: 444 {'loss': 0.1906, 'grad_norm': 0.9858245253562927, 'learning_rate': 1.910441949838188e-05, 'epoch': 0.5400485436893204}
Step: 449 {'loss': 0.1349, 'grad_norm': 1.1222187280654907, 'learning_rate': 1.9094356796116507e-05, 'epoch': 0.5461165048543689}
Step: 454 {'loss': 0.159, 'grad_norm': 0.7627008557319641, 'learning_rate': 1.9084294093851135e-05, 'epoch': 0.5521844660194175}
Step: 459 {'loss': 0.1849, 'grad_norm': 1.238351583480835, 'learning_rate': 1.9074231391585763e-05, 'epoch': 0.558252427184466}
Step: 464 {'loss': 0.2338, 'grad_norm': 1.0170443058013916, 'learning_rate': 1.9064168689320388e-05, 'epoch': 0.5643203883495146}
Step: 469 {'loss': 0.2056, 'grad_norm': 0.8667766451835632, 'learning_rate': 1.9054105987055017e-05, 'epoch': 0.5703883495145631}
Step: 474 {'loss': 0.2013, 'grad_norm': 0.6214694380760193, 'learning_rate': 1.9044043284789645e-05, 'epoch': 0.5764563106796117}
Step: 479 {'loss': 0.2066, 'grad_norm': 0.8486121892929077, 'learning_rate': 1.9033980582524273e-05, 'epoch': 0.5825242718446602}
Step: 484 {'loss': 0.1987, 'grad_norm': 0.9001325368881226, 'learning_rate': 1.90239178802589e-05, 'epoch': 0.5885922330097088}
Step: 489 {'loss': 0.2118, 'grad_norm': 0.869692325592041, 'learning_rate': 1.901385517799353e-05, 'epoch': 0.5946601941747572}
Step: 494 {'loss': 0.2301, 'grad_norm': 0.7113281488418579, 'learning_rate': 1.9003792475728158e-05, 'epoch': 0.6007281553398058}
Step: 499 {'loss': 0.2067, 'grad_norm': 1.1124484539031982, 'learning_rate': 1.8993729773462786e-05, 'epoch': 0.6067961165048543}
Step: 504 {'loss': 0.2152, 'grad_norm': 0.7456199526786804, 'learning_rate': 1.8983667071197414e-05, 'epoch': 0.6128640776699029}
Step: 509 {'loss': 0.1517, 'grad_norm': 0.7943209409713745, 'learning_rate': 1.8973604368932043e-05, 'epoch': 0.6189320388349514}
Step: 514 {'loss': 0.1912, 'grad_norm': 0.8752085566520691, 'learning_rate': 1.8963541666666667e-05, 'epoch': 0.625}
Step: 519 {'loss': 0.2452, 'grad_norm': 0.9633551836013794, 'learning_rate': 1.8953478964401296e-05, 'epoch': 0.6310679611650486}
Step: 524 {'loss': 0.2229, 'grad_norm': 1.1388161182403564, 'learning_rate': 1.8943416262135924e-05, 'epoch': 0.6371359223300971}
Step: 529 {'loss': 0.1667, 'grad_norm': 0.9617443680763245, 'learning_rate': 1.8933353559870552e-05, 'epoch': 0.6432038834951457}
Step: 534 {'loss': 0.1331, 'grad_norm': 0.7382726073265076, 'learning_rate': 1.8923290857605177e-05, 'epoch': 0.6492718446601942}
Step: 539 {'loss': 0.2093, 'grad_norm': 0.8715484142303467, 'learning_rate': 1.8913228155339805e-05, 'epoch': 0.6553398058252428}
Step: 544 {'loss': 0.2058, 'grad_norm': 0.6962261199951172, 'learning_rate': 1.8903165453074434e-05, 'epoch': 0.6614077669902912}
Step: 549 {'loss': 0.1856, 'grad_norm': 1.0886905193328857, 'learning_rate': 1.8893102750809062e-05, 'epoch': 0.6674757281553398}
Step: 554 {'loss': 0.1404, 'grad_norm': 0.7885785102844238, 'learning_rate': 1.888304004854369e-05, 'epoch': 0.6735436893203883}
Step: 559 {'loss': 0.1698, 'grad_norm': 0.5633730888366699, 'learning_rate': 1.8872977346278318e-05, 'epoch': 0.6796116504854369}
Step: 564 {'loss': 0.1709, 'grad_norm': 0.7751277089118958, 'learning_rate': 1.8862914644012947e-05, 'epoch': 0.6856796116504854}
Step: 569 {'loss': 0.1644, 'grad_norm': 0.8143800497055054, 'learning_rate': 1.8852851941747575e-05, 'epoch': 0.691747572815534}
Step: 574 {'loss': 0.1862, 'grad_norm': 0.8518599271774292, 'learning_rate': 1.8842789239482203e-05, 'epoch': 0.6978155339805825}
Step: 579 {'loss': 0.2065, 'grad_norm': 0.8738468289375305, 'learning_rate': 1.883272653721683e-05, 'epoch': 0.7038834951456311}
Step: 584 {'loss': 0.2119, 'grad_norm': 1.2021156549453735, 'learning_rate': 1.8822663834951456e-05, 'epoch': 0.7099514563106796}
Step: 589 {'loss': 0.2275, 'grad_norm': 0.8621294498443604, 'learning_rate': 1.8812601132686084e-05, 'epoch': 0.7160194174757282}
Step: 594 {'loss': 0.1651, 'grad_norm': 0.8421756029129028, 'learning_rate': 1.8802538430420713e-05, 'epoch': 0.7220873786407767}
Step: 599 {'loss': 0.2114, 'grad_norm': 0.9143360257148743, 'learning_rate': 1.879247572815534e-05, 'epoch': 0.7281553398058253}
Step: 604 {'loss': 0.2533, 'grad_norm': 0.8538374900817871, 'learning_rate': 1.878241302588997e-05, 'epoch': 0.7342233009708737}
Step: 609 {'loss': 0.1975, 'grad_norm': 1.1804977655410767, 'learning_rate': 1.8772350323624597e-05, 'epoch': 0.7402912621359223}
Step: 614 {'loss': 0.1969, 'grad_norm': 0.9079969525337219, 'learning_rate': 1.8762287621359226e-05, 'epoch': 0.7463592233009708}
Step: 619 {'loss': 0.1565, 'grad_norm': 0.6387689113616943, 'learning_rate': 1.8752224919093854e-05, 'epoch': 0.7524271844660194}
Step: 624 {'loss': 0.2582, 'grad_norm': 0.6831167936325073, 'learning_rate': 1.8742162216828482e-05, 'epoch': 0.758495145631068}
Step: 629 {'loss': 0.2057, 'grad_norm': 0.8348905444145203, 'learning_rate': 1.873209951456311e-05, 'epoch': 0.7645631067961165}
Step: 634 {'loss': 0.2197, 'grad_norm': 0.7529647350311279, 'learning_rate': 1.8722036812297735e-05, 'epoch': 0.7706310679611651}
Step: 639 {'loss': 0.2179, 'grad_norm': 0.8273212313652039, 'learning_rate': 1.8711974110032363e-05, 'epoch': 0.7766990291262136}
Step: 644 {'loss': 0.1954, 'grad_norm': 0.8801465034484863, 'learning_rate': 1.8701911407766992e-05, 'epoch': 0.7827669902912622}
Step: 649 {'loss': 0.1978, 'grad_norm': 0.8065889477729797, 'learning_rate': 1.869184870550162e-05, 'epoch': 0.7888349514563107}
Step: 654 {'loss': 0.2171, 'grad_norm': 1.0800710916519165, 'learning_rate': 1.8681786003236248e-05, 'epoch': 0.7949029126213593}
Step: 659 {'loss': 0.1679, 'grad_norm': 0.825133204460144, 'learning_rate': 1.8671723300970873e-05, 'epoch': 0.8009708737864077}
Step: 664 {'loss': 0.2192, 'grad_norm': 0.7615567445755005, 'learning_rate': 1.86616605987055e-05, 'epoch': 0.8070388349514563}
Step: 669 {'loss': 0.2047, 'grad_norm': 1.0617598295211792, 'learning_rate': 1.8651597896440133e-05, 'epoch': 0.8131067961165048}
Step: 674 {'loss': 0.2788, 'grad_norm': 0.9136356115341187, 'learning_rate': 1.864153519417476e-05, 'epoch': 0.8191747572815534}
Step: 679 {'loss': 0.2206, 'grad_norm': 0.8951679468154907, 'learning_rate': 1.8631472491909386e-05, 'epoch': 0.8252427184466019}
Step: 684 {'loss': 0.2438, 'grad_norm': 1.01711106300354, 'learning_rate': 1.8621409789644014e-05, 'epoch': 0.8313106796116505}
Step: 689 {'loss': 0.2071, 'grad_norm': 0.944473922252655, 'learning_rate': 1.8611347087378643e-05, 'epoch': 0.837378640776699}
Step: 694 {'loss': 0.2235, 'grad_norm': 0.9840872883796692, 'learning_rate': 1.860128438511327e-05, 'epoch': 0.8434466019417476}
Step: 699 {'loss': 0.2296, 'grad_norm': 1.0320663452148438, 'learning_rate': 1.8591221682847896e-05, 'epoch': 0.8495145631067961}
Step: 704 {'loss': 0.1654, 'grad_norm': 0.8796175122261047, 'learning_rate': 1.8581158980582524e-05, 'epoch': 0.8555825242718447}
Step: 709 {'loss': 0.2168, 'grad_norm': 0.6895102262496948, 'learning_rate': 1.8571096278317152e-05, 'epoch': 0.8616504854368932}
Step: 714 {'loss': 0.1662, 'grad_norm': 0.785328209400177, 'learning_rate': 1.856103357605178e-05, 'epoch': 0.8677184466019418}
Step: 719 {'loss': 0.2298, 'grad_norm': 0.7458878755569458, 'learning_rate': 1.855097087378641e-05, 'epoch': 0.8737864077669902}
Step: 724 {'loss': 0.2136, 'grad_norm': 0.6263097524642944, 'learning_rate': 1.8540908171521037e-05, 'epoch': 0.8798543689320388}
Step: 729 {'loss': 0.1943, 'grad_norm': 0.9595165252685547, 'learning_rate': 1.8530845469255665e-05, 'epoch': 0.8859223300970874}
Step: 734 {'loss': 0.241, 'grad_norm': 0.7870152592658997, 'learning_rate': 1.8520782766990293e-05, 'epoch': 0.8919902912621359}
Step: 739 {'loss': 0.1996, 'grad_norm': 0.7495624423027039, 'learning_rate': 1.8510720064724922e-05, 'epoch': 0.8980582524271845}
Step: 744 {'loss': 0.1842, 'grad_norm': 1.0533833503723145, 'learning_rate': 1.850065736245955e-05, 'epoch': 0.904126213592233}
Step: 749 {'loss': 0.219, 'grad_norm': 0.746076762676239, 'learning_rate': 1.8490594660194175e-05, 'epoch': 0.9101941747572816}
Step: 749 {'loss': 0.219, 'grad_norm': 0.746076762676239, 'learning_rate': 1.8490594660194175e-05, 'epoch': 0.9101941747572816}
Step: 754 {'loss': 0.1725, 'grad_norm': 0.9762694239616394, 'learning_rate': 1.8480531957928803e-05, 'epoch': 0.9162621359223301}
Step: 759 {'loss': 0.1878, 'grad_norm': 0.7907251715660095, 'learning_rate': 1.847046925566343e-05, 'epoch': 0.9223300970873787}
Step: 764 {'loss': 0.1997, 'grad_norm': 0.8428146243095398, 'learning_rate': 1.846040655339806e-05, 'epoch': 0.9283980582524272}
Step: 769 {'loss': 0.245, 'grad_norm': 0.883174479007721, 'learning_rate': 1.8450343851132688e-05, 'epoch': 0.9344660194174758}
Step: 774 {'loss': 0.2469, 'grad_norm': 0.7957308292388916, 'learning_rate': 1.8440281148867316e-05, 'epoch': 0.9405339805825242}
Step: 779 {'loss': 0.1677, 'grad_norm': 0.5986533164978027, 'learning_rate': 1.8430218446601944e-05, 'epoch': 0.9466019417475728}
Step: 784 {'loss': 0.2168, 'grad_norm': 0.9594400525093079, 'learning_rate': 1.8420155744336573e-05, 'epoch': 0.9526699029126213}
Step: 789 {'loss': 0.2353, 'grad_norm': 1.1843328475952148, 'learning_rate': 1.84100930420712e-05, 'epoch': 0.9587378640776699}
Step: 794 {'loss': 0.2186, 'grad_norm': 0.9562485218048096, 'learning_rate': 1.840003033980583e-05, 'epoch': 0.9648058252427184}
Step: 799 {'loss': 0.1525, 'grad_norm': 1.116662859916687, 'learning_rate': 1.8389967637540454e-05, 'epoch': 0.970873786407767}
Step: 804 {'loss': 0.2153, 'grad_norm': 0.7853860855102539, 'learning_rate': 1.8379904935275082e-05, 'epoch': 0.9769417475728155}
Step: 809 {'loss': 0.1868, 'grad_norm': 0.6937167048454285, 'learning_rate': 1.836984223300971e-05, 'epoch': 0.9830097087378641}
Step: 814 {'loss': 0.1898, 'grad_norm': 0.7708289623260498, 'learning_rate': 1.835977953074434e-05, 'epoch': 0.9890776699029126}
Step: 819 {'loss': 0.171, 'grad_norm': 0.9017183780670166, 'learning_rate': 1.8349716828478967e-05, 'epoch': 0.9951456310679612}
Step: 824 {'loss': 0.143, 'grad_norm': 0.6294885873794556, 'learning_rate': 1.8339654126213592e-05, 'epoch': 1.0012135922330097}
Step: 829 {'loss': 0.1382, 'grad_norm': 0.6312858462333679, 'learning_rate': 1.832959142394822e-05, 'epoch': 1.0072815533980584}
Step: 834 {'loss': 0.1238, 'grad_norm': 0.632146954536438, 'learning_rate': 1.831952872168285e-05, 'epoch': 1.0133495145631068}
Step: 839 {'loss': 0.1055, 'grad_norm': 0.46648576855659485, 'learning_rate': 1.8309466019417477e-05, 'epoch': 1.0194174757281553}
Step: 844 {'loss': 0.0777, 'grad_norm': 0.8568502068519592, 'learning_rate': 1.8299403317152105e-05, 'epoch': 1.0254854368932038}
Step: 849 {'loss': 0.1282, 'grad_norm': 0.6644611954689026, 'learning_rate': 1.8289340614886733e-05, 'epoch': 1.0315533980582525}
Step: 854 {'loss': 0.1088, 'grad_norm': 0.542986273765564, 'learning_rate': 1.827927791262136e-05, 'epoch': 1.037621359223301}
Step: 859 {'loss': 0.1162, 'grad_norm': 0.5835334062576294, 'learning_rate': 1.826921521035599e-05, 'epoch': 1.0436893203883495}
Step: 864 {'loss': 0.1653, 'grad_norm': 0.8654404878616333, 'learning_rate': 1.8259152508090618e-05, 'epoch': 1.049757281553398}
Step: 869 {'loss': 0.0964, 'grad_norm': 0.639387845993042, 'learning_rate': 1.8249089805825243e-05, 'epoch': 1.0558252427184467}
Step: 874 {'loss': 0.1193, 'grad_norm': 0.6238650679588318, 'learning_rate': 1.823902710355987e-05, 'epoch': 1.0618932038834952}
Step: 879 {'loss': 0.123, 'grad_norm': 0.6079656481742859, 'learning_rate': 1.82289644012945e-05, 'epoch': 1.0679611650485437}
Step: 884 {'loss': 0.1177, 'grad_norm': 0.7429604530334473, 'learning_rate': 1.8218901699029127e-05, 'epoch': 1.0740291262135921}
Step: 889 {'loss': 0.1114, 'grad_norm': 0.6748375296592712, 'learning_rate': 1.8208838996763756e-05, 'epoch': 1.0800970873786409}
Step: 894 {'loss': 0.1133, 'grad_norm': 0.6381520628929138, 'learning_rate': 1.8198776294498384e-05, 'epoch': 1.0861650485436893}
Step: 899 {'loss': 0.1388, 'grad_norm': 0.7581176161766052, 'learning_rate': 1.8188713592233012e-05, 'epoch': 1.0922330097087378}
Step: 904 {'loss': 0.1186, 'grad_norm': 0.6742581129074097, 'learning_rate': 1.817865088996764e-05, 'epoch': 1.0983009708737863}
Step: 909 {'loss': 0.1326, 'grad_norm': 0.6850492358207703, 'learning_rate': 1.816858818770227e-05, 'epoch': 1.104368932038835}
Step: 914 {'loss': 0.1285, 'grad_norm': 0.7971341013908386, 'learning_rate': 1.8158525485436894e-05, 'epoch': 1.1104368932038835}
Step: 919 {'loss': 0.1302, 'grad_norm': 0.6553541421890259, 'learning_rate': 1.8148462783171522e-05, 'epoch': 1.116504854368932}
Step: 924 {'loss': 0.1363, 'grad_norm': 1.0389859676361084, 'learning_rate': 1.813840008090615e-05, 'epoch': 1.1225728155339807}
Step: 929 {'loss': 0.139, 'grad_norm': 0.6914644837379456, 'learning_rate': 1.8128337378640778e-05, 'epoch': 1.1286407766990292}
Step: 934 {'loss': 0.1442, 'grad_norm': 0.8424041867256165, 'learning_rate': 1.8118274676375407e-05, 'epoch': 1.1347087378640777}
Step: 939 {'loss': 0.125, 'grad_norm': 0.9400150775909424, 'learning_rate': 1.810821197411003e-05, 'epoch': 1.1407766990291262}
Step: 944 {'loss': 0.1407, 'grad_norm': 0.6576378345489502, 'learning_rate': 1.809814927184466e-05, 'epoch': 1.1468446601941746}
Step: 949 {'loss': 0.1026, 'grad_norm': 0.7079713344573975, 'learning_rate': 1.8088086569579288e-05, 'epoch': 1.1529126213592233}
Step: 954 {'loss': 0.1303, 'grad_norm': 0.3615785837173462, 'learning_rate': 1.8078023867313916e-05, 'epoch': 1.1589805825242718}
Step: 959 {'loss': 0.1099, 'grad_norm': 0.8513123989105225, 'learning_rate': 1.8067961165048544e-05, 'epoch': 1.1650485436893203}
Step: 964 {'loss': 0.1173, 'grad_norm': 0.4400225877761841, 'learning_rate': 1.8057898462783173e-05, 'epoch': 1.171116504854369}
Step: 969 {'loss': 0.1136, 'grad_norm': 0.3543890714645386, 'learning_rate': 1.80478357605178e-05, 'epoch': 1.1771844660194175}
Step: 974 {'loss': 0.1276, 'grad_norm': 0.809300422668457, 'learning_rate': 1.803777305825243e-05, 'epoch': 1.183252427184466}
Step: 979 {'loss': 0.1252, 'grad_norm': 0.7841810584068298, 'learning_rate': 1.8027710355987057e-05, 'epoch': 1.1893203883495145}
Step: 984 {'loss': 0.1087, 'grad_norm': 0.5520283579826355, 'learning_rate': 1.8017647653721686e-05, 'epoch': 1.1953883495145632}
Step: 989 {'loss': 0.1035, 'grad_norm': 0.5602442026138306, 'learning_rate': 1.800758495145631e-05, 'epoch': 1.2014563106796117}
Step: 994 {'loss': 0.1279, 'grad_norm': 0.6306101679801941, 'learning_rate': 1.799752224919094e-05, 'epoch': 1.2075242718446602}
Step: 999 {'loss': 0.1071, 'grad_norm': 0.6500540971755981, 'learning_rate': 1.7987459546925567e-05, 'epoch': 1.2135922330097086}
Step: 1004 {'loss': 0.1012, 'grad_norm': 0.47448277473449707, 'learning_rate': 1.7977396844660195e-05, 'epoch': 1.2196601941747574}
Step: 1009 {'loss': 0.1325, 'grad_norm': 0.6133425235748291, 'learning_rate': 1.7967334142394824e-05, 'epoch': 1.2257281553398058}
Step: 1014 {'loss': 0.1194, 'grad_norm': 0.5934520363807678, 'learning_rate': 1.7957271440129452e-05, 'epoch': 1.2317961165048543}
Step: 1019 {'loss': 0.12, 'grad_norm': 0.961453378200531, 'learning_rate': 1.794720873786408e-05, 'epoch': 1.237864077669903}
Step: 1024 {'loss': 0.1454, 'grad_norm': 0.5824434757232666, 'learning_rate': 1.7937146035598708e-05, 'epoch': 1.2439320388349515}
Step: 1029 {'loss': 0.1569, 'grad_norm': 0.7642948627471924, 'learning_rate': 1.7927083333333337e-05, 'epoch': 1.25}
Step: 1034 {'loss': 0.1164, 'grad_norm': 0.5035591721534729, 'learning_rate': 1.7917020631067965e-05, 'epoch': 1.2560679611650485}
Step: 1039 {'loss': 0.119, 'grad_norm': 0.39984560012817383, 'learning_rate': 1.790695792880259e-05, 'epoch': 1.262135922330097}
Step: 1044 {'loss': 0.1402, 'grad_norm': 0.8323859572410583, 'learning_rate': 1.7896895226537218e-05, 'epoch': 1.2682038834951457}
Step: 1049 {'loss': 0.1275, 'grad_norm': 0.6281534433364868, 'learning_rate': 1.7886832524271846e-05, 'epoch': 1.2742718446601942}
Step: 1054 {'loss': 0.1268, 'grad_norm': 0.7724732756614685, 'learning_rate': 1.7876769822006474e-05, 'epoch': 1.2803398058252426}
Step: 1059 {'loss': 0.1371, 'grad_norm': 0.6198734045028687, 'learning_rate': 1.78667071197411e-05, 'epoch': 1.2864077669902914}
Step: 1064 {'loss': 0.1039, 'grad_norm': 0.701691746711731, 'learning_rate': 1.7856644417475728e-05, 'epoch': 1.2924757281553398}
Step: 1069 {'loss': 0.117, 'grad_norm': 0.7710168361663818, 'learning_rate': 1.7846581715210356e-05, 'epoch': 1.2985436893203883}
Step: 1074 {'loss': 0.1397, 'grad_norm': 0.6753209233283997, 'learning_rate': 1.7836519012944984e-05, 'epoch': 1.3046116504854368}
Step: 1079 {'loss': 0.1394, 'grad_norm': 0.36849233508110046, 'learning_rate': 1.7826456310679616e-05, 'epoch': 1.3106796116504853}
Step: 1084 {'loss': 0.1079, 'grad_norm': 0.4378155767917633, 'learning_rate': 1.781639360841424e-05, 'epoch': 1.316747572815534}
Step: 1089 {'loss': 0.0959, 'grad_norm': 0.43888235092163086, 'learning_rate': 1.780633090614887e-05, 'epoch': 1.3228155339805825}
Step: 1094 {'loss': 0.1593, 'grad_norm': 0.8900315761566162, 'learning_rate': 1.7796268203883497e-05, 'epoch': 1.328883495145631}
Step: 1099 {'loss': 0.1012, 'grad_norm': 0.851194441318512, 'learning_rate': 1.7786205501618125e-05, 'epoch': 1.3349514563106797}
Step: 1104 {'loss': 0.1675, 'grad_norm': 0.9292075037956238, 'learning_rate': 1.777614279935275e-05, 'epoch': 1.3410194174757282}
Step: 1109 {'loss': 0.1137, 'grad_norm': 0.7087326049804688, 'learning_rate': 1.776608009708738e-05, 'epoch': 1.3470873786407767}
Step: 1114 {'loss': 0.1232, 'grad_norm': 0.6893958449363708, 'learning_rate': 1.7756017394822007e-05, 'epoch': 1.3531553398058254}
Step: 1119 {'loss': 0.1155, 'grad_norm': 0.7057533264160156, 'learning_rate': 1.7745954692556635e-05, 'epoch': 1.3592233009708738}
Step: 1124 {'loss': 0.1088, 'grad_norm': 0.5623441934585571, 'learning_rate': 1.7735891990291263e-05, 'epoch': 1.3652912621359223}
Step: 1129 {'loss': 0.1152, 'grad_norm': 0.5360366106033325, 'learning_rate': 1.772582928802589e-05, 'epoch': 1.3713592233009708}
Step: 1134 {'loss': 0.1204, 'grad_norm': 0.88251793384552, 'learning_rate': 1.771576658576052e-05, 'epoch': 1.3774271844660193}
Step: 1139 {'loss': 0.1313, 'grad_norm': 0.5644915103912354, 'learning_rate': 1.7705703883495148e-05, 'epoch': 1.383495145631068}
Step: 1144 {'loss': 0.1446, 'grad_norm': 0.7582706212997437, 'learning_rate': 1.7695641181229776e-05, 'epoch': 1.3895631067961165}
Step: 1149 {'loss': 0.1203, 'grad_norm': 0.6705114245414734, 'learning_rate': 1.7685578478964404e-05, 'epoch': 1.395631067961165}
Step: 1154 {'loss': 0.1034, 'grad_norm': 0.530653178691864, 'learning_rate': 1.767551577669903e-05, 'epoch': 1.4016990291262137}
Step: 1159 {'loss': 0.1139, 'grad_norm': 0.4772796034812927, 'learning_rate': 1.7665453074433657e-05, 'epoch': 1.4077669902912622}
Step: 1164 {'loss': 0.1421, 'grad_norm': 0.6687723398208618, 'learning_rate': 1.7655390372168286e-05, 'epoch': 1.4138349514563107}
Step: 1169 {'loss': 0.1089, 'grad_norm': 0.6435022354125977, 'learning_rate': 1.7645327669902914e-05, 'epoch': 1.4199029126213591}
Step: 1174 {'loss': 0.1402, 'grad_norm': 0.49701082706451416, 'learning_rate': 1.7635264967637542e-05, 'epoch': 1.4259708737864076}
Step: 1179 {'loss': 0.1512, 'grad_norm': 0.7331725358963013, 'learning_rate': 1.762520226537217e-05, 'epoch': 1.4320388349514563}
Step: 1184 {'loss': 0.116, 'grad_norm': 0.5977991819381714, 'learning_rate': 1.76151395631068e-05, 'epoch': 1.4381067961165048}
Step: 1189 {'loss': 0.1158, 'grad_norm': 0.5300652980804443, 'learning_rate': 1.7605076860841427e-05, 'epoch': 1.4441747572815533}
Step: 1194 {'loss': 0.0974, 'grad_norm': 0.7383504509925842, 'learning_rate': 1.7595014158576055e-05, 'epoch': 1.450242718446602}
Step: 1199 {'loss': 0.1359, 'grad_norm': 0.744170606136322, 'learning_rate': 1.7584951456310683e-05, 'epoch': 1.4563106796116505}
Step: 1204 {'loss': 0.1472, 'grad_norm': 0.650635838508606, 'learning_rate': 1.757488875404531e-05, 'epoch': 1.462378640776699}
Step: 1209 {'loss': 0.1412, 'grad_norm': 0.78676438331604, 'learning_rate': 1.7564826051779937e-05, 'epoch': 1.4684466019417477}
Step: 1214 {'loss': 0.1249, 'grad_norm': 0.6286287903785706, 'learning_rate': 1.7554763349514565e-05, 'epoch': 1.4745145631067962}
Step: 1219 {'loss': 0.1414, 'grad_norm': 0.6514394879341125, 'learning_rate': 1.7544700647249193e-05, 'epoch': 1.4805825242718447}
Step: 1224 {'loss': 0.1075, 'grad_norm': 0.5065737366676331, 'learning_rate': 1.753463794498382e-05, 'epoch': 1.4866504854368932}
Step: 1229 {'loss': 0.1049, 'grad_norm': 0.6848370432853699, 'learning_rate': 1.7524575242718446e-05, 'epoch': 1.4927184466019416}
Step: 1234 {'loss': 0.1457, 'grad_norm': 0.8098088502883911, 'learning_rate': 1.7514512540453074e-05, 'epoch': 1.4987864077669903}
Step: 1239 {'loss': 0.1156, 'grad_norm': 0.4154895544052124, 'learning_rate': 1.7504449838187703e-05, 'epoch': 1.5048543689320388}
Step: 1244 {'loss': 0.1061, 'grad_norm': 0.49875113368034363, 'learning_rate': 1.749438713592233e-05, 'epoch': 1.5109223300970873}
Step: 1249 {'loss': 0.1609, 'grad_norm': 0.583534300327301, 'learning_rate': 1.748432443365696e-05, 'epoch': 1.516990291262136}
Step: 1254 {'loss': 0.1364, 'grad_norm': 0.53713458776474, 'learning_rate': 1.7474261731391587e-05, 'epoch': 1.5230582524271845}
Step: 1259 {'loss': 0.1166, 'grad_norm': 0.7092427611351013, 'learning_rate': 1.7464199029126216e-05, 'epoch': 1.529126213592233}
Step: 1264 {'loss': 0.1124, 'grad_norm': 0.5188352465629578, 'learning_rate': 1.7454136326860844e-05, 'epoch': 1.5351941747572817}
Step: 1269 {'loss': 0.156, 'grad_norm': 0.7542428374290466, 'learning_rate': 1.744407362459547e-05, 'epoch': 1.54126213592233}
Step: 1274 {'loss': 0.1448, 'grad_norm': 0.6237137317657471, 'learning_rate': 1.7434010922330097e-05, 'epoch': 1.5473300970873787}
Step: 1279 {'loss': 0.1197, 'grad_norm': 0.5381315350532532, 'learning_rate': 1.7423948220064725e-05, 'epoch': 1.5533980582524272}
Step: 1284 {'loss': 0.0949, 'grad_norm': 0.36517134308815, 'learning_rate': 1.7413885517799354e-05, 'epoch': 1.5594660194174756}
Step: 1289 {'loss': 0.1802, 'grad_norm': 0.7636951208114624, 'learning_rate': 1.7403822815533982e-05, 'epoch': 1.5655339805825244}
Step: 1294 {'loss': 0.1199, 'grad_norm': 0.6434131860733032, 'learning_rate': 1.739376011326861e-05, 'epoch': 1.5716019417475728}
Step: 1299 {'loss': 0.1031, 'grad_norm': 0.6352807283401489, 'learning_rate': 1.738369741100324e-05, 'epoch': 1.5776699029126213}
Step: 1304 {'loss': 0.1268, 'grad_norm': 0.779771089553833, 'learning_rate': 1.7373634708737867e-05, 'epoch': 1.58373786407767}
Step: 1309 {'loss': 0.1377, 'grad_norm': 0.754250705242157, 'learning_rate': 1.7363572006472495e-05, 'epoch': 1.5898058252427183}
Step: 1314 {'loss': 0.1904, 'grad_norm': 0.6735643148422241, 'learning_rate': 1.7353509304207123e-05, 'epoch': 1.595873786407767}
Step: 1319 {'loss': 0.1226, 'grad_norm': 0.9120863676071167, 'learning_rate': 1.7343446601941748e-05, 'epoch': 1.6019417475728155}
Step: 1324 {'loss': 0.1679, 'grad_norm': 0.625551700592041, 'learning_rate': 1.7333383899676376e-05, 'epoch': 1.608009708737864}
Step: 1329 {'loss': 0.1594, 'grad_norm': 0.9033403992652893, 'learning_rate': 1.7323321197411004e-05, 'epoch': 1.6140776699029127}
Step: 1334 {'loss': 0.0856, 'grad_norm': 0.5672329664230347, 'learning_rate': 1.7313258495145633e-05, 'epoch': 1.6201456310679612}
Step: 1339 {'loss': 0.1319, 'grad_norm': 0.56348717212677, 'learning_rate': 1.730319579288026e-05, 'epoch': 1.6262135922330097}
Step: 1344 {'loss': 0.1304, 'grad_norm': 1.2449568510055542, 'learning_rate': 1.7293133090614886e-05, 'epoch': 1.6322815533980584}
Step: 1349 {'loss': 0.1131, 'grad_norm': 0.4424305856227875, 'learning_rate': 1.7283070388349514e-05, 'epoch': 1.6383495145631068}
Step: 1354 {'loss': 0.1061, 'grad_norm': 0.4486583173274994, 'learning_rate': 1.7273007686084142e-05, 'epoch': 1.6444174757281553}
Step: 1359 {'loss': 0.1358, 'grad_norm': 0.7814309000968933, 'learning_rate': 1.726294498381877e-05, 'epoch': 1.650485436893204}
Step: 1364 {'loss': 0.1108, 'grad_norm': 0.6203411221504211, 'learning_rate': 1.72528822815534e-05, 'epoch': 1.6565533980582523}
Step: 1369 {'loss': 0.1443, 'grad_norm': 0.8268014788627625, 'learning_rate': 1.7242819579288027e-05, 'epoch': 1.662621359223301}
Step: 1374 {'loss': 0.128, 'grad_norm': 0.6406380534172058, 'learning_rate': 1.7232756877022655e-05, 'epoch': 1.6686893203883495}
Step: 1379 {'loss': 0.1238, 'grad_norm': 0.5297594666481018, 'learning_rate': 1.7222694174757284e-05, 'epoch': 1.674757281553398}
Step: 1384 {'loss': 0.1011, 'grad_norm': 0.619581401348114, 'learning_rate': 1.7212631472491912e-05, 'epoch': 1.6808252427184467}
Step: 1389 {'loss': 0.1244, 'grad_norm': 0.6402854919433594, 'learning_rate': 1.720256877022654e-05, 'epoch': 1.6868932038834952}
Step: 1394 {'loss': 0.1515, 'grad_norm': 0.6882646083831787, 'learning_rate': 1.7192506067961165e-05, 'epoch': 1.6929611650485437}
Step: 1399 {'loss': 0.1474, 'grad_norm': 0.8011645674705505, 'learning_rate': 1.7182443365695793e-05, 'epoch': 1.6990291262135924}
Step: 1404 {'loss': 0.1262, 'grad_norm': 0.6525002717971802, 'learning_rate': 1.717238066343042e-05, 'epoch': 1.7050970873786406}
Step: 1409 {'loss': 0.1273, 'grad_norm': 0.6492709517478943, 'learning_rate': 1.716231796116505e-05, 'epoch': 1.7111650485436893}
Step: 1414 {'loss': 0.1196, 'grad_norm': 0.5450489521026611, 'learning_rate': 1.7152255258899678e-05, 'epoch': 1.7172330097087378}
Step: 1419 {'loss': 0.0935, 'grad_norm': 0.4175277650356293, 'learning_rate': 1.7142192556634306e-05, 'epoch': 1.7233009708737863}
Step: 1424 {'loss': 0.0949, 'grad_norm': 0.4876457452774048, 'learning_rate': 1.7132129854368934e-05, 'epoch': 1.729368932038835}
Step: 1429 {'loss': 0.0883, 'grad_norm': 0.5094587802886963, 'learning_rate': 1.7122067152103563e-05, 'epoch': 1.7354368932038835}
Step: 1434 {'loss': 0.1107, 'grad_norm': 0.6076750159263611, 'learning_rate': 1.711200444983819e-05, 'epoch': 1.741504854368932}
Step: 1439 {'loss': 0.0955, 'grad_norm': 0.5776345729827881, 'learning_rate': 1.710194174757282e-05, 'epoch': 1.7475728155339807}
Step: 1444 {'loss': 0.1166, 'grad_norm': 0.5101337432861328, 'learning_rate': 1.7091879045307444e-05, 'epoch': 1.7536407766990292}
Step: 1449 {'loss': 0.1309, 'grad_norm': 0.6769804954528809, 'learning_rate': 1.7081816343042072e-05, 'epoch': 1.7597087378640777}
Step: 1454 {'loss': 0.1101, 'grad_norm': 0.6718364953994751, 'learning_rate': 1.70717536407767e-05, 'epoch': 1.7657766990291264}
Step: 1459 {'loss': 0.1484, 'grad_norm': 0.6157119870185852, 'learning_rate': 1.7061690938511325e-05, 'epoch': 1.7718446601941746}
Step: 1464 {'loss': 0.1121, 'grad_norm': 0.5538491010665894, 'learning_rate': 1.7051628236245954e-05, 'epoch': 1.7779126213592233}
Step: 1469 {'loss': 0.139, 'grad_norm': 0.7286614775657654, 'learning_rate': 1.7041565533980582e-05, 'epoch': 1.7839805825242718}
Step: 1474 {'loss': 0.1274, 'grad_norm': 0.6684991717338562, 'learning_rate': 1.703150283171521e-05, 'epoch': 1.7900485436893203}
Step: 1479 {'loss': 0.1375, 'grad_norm': 0.6562817692756653, 'learning_rate': 1.702144012944984e-05, 'epoch': 1.796116504854369}
Step: 1484 {'loss': 0.1362, 'grad_norm': 0.5085164308547974, 'learning_rate': 1.7011377427184467e-05, 'epoch': 1.8021844660194175}
Step: 1489 {'loss': 0.1027, 'grad_norm': 0.7918286323547363, 'learning_rate': 1.7001314724919095e-05, 'epoch': 1.808252427184466}
Step: 1494 {'loss': 0.1272, 'grad_norm': 0.910853385925293, 'learning_rate': 1.6991252022653723e-05, 'epoch': 1.8143203883495147}
Step: 1499 {'loss': 0.1779, 'grad_norm': 0.6984658241271973, 'learning_rate': 1.698118932038835e-05, 'epoch': 1.820388349514563}
Step: 1504 {'loss': 0.0977, 'grad_norm': 0.8343325853347778, 'learning_rate': 1.697112661812298e-05, 'epoch': 1.8264563106796117}
Step: 1509 {'loss': 0.1077, 'grad_norm': 0.5248911380767822, 'learning_rate': 1.6961063915857605e-05, 'epoch': 1.8325242718446602}
Step: 1514 {'loss': 0.1277, 'grad_norm': 0.7558386921882629, 'learning_rate': 1.6951001213592233e-05, 'epoch': 1.8385922330097086}
Step: 1519 {'loss': 0.128, 'grad_norm': 0.7445605397224426, 'learning_rate': 1.694093851132686e-05, 'epoch': 1.8446601941747574}
Step: 1524 {'loss': 0.1387, 'grad_norm': 0.6882188320159912, 'learning_rate': 1.693087580906149e-05, 'epoch': 1.8507281553398058}
Step: 1529 {'loss': 0.1503, 'grad_norm': 0.6704742908477783, 'learning_rate': 1.6920813106796118e-05, 'epoch': 1.8567961165048543}
Step: 1534 {'loss': 0.104, 'grad_norm': 0.7414402961730957, 'learning_rate': 1.6910750404530746e-05, 'epoch': 1.862864077669903}
Step: 1539 {'loss': 0.1144, 'grad_norm': 0.7968094348907471, 'learning_rate': 1.6900687702265374e-05, 'epoch': 1.8689320388349513}
Step: 1544 {'loss': 0.1346, 'grad_norm': 0.607425332069397, 'learning_rate': 1.6890625000000002e-05, 'epoch': 1.875}
Step: 1549 {'loss': 0.1369, 'grad_norm': 0.8049553036689758, 'learning_rate': 1.688056229773463e-05, 'epoch': 1.8810679611650487}
Step: 1554 {'loss': 0.1181, 'grad_norm': 0.8162063360214233, 'learning_rate': 1.687049959546926e-05, 'epoch': 1.887135922330097}
Step: 1559 {'loss': 0.1054, 'grad_norm': 0.5779040455818176, 'learning_rate': 1.6860436893203884e-05, 'epoch': 1.8932038834951457}
Step: 1564 {'loss': 0.1457, 'grad_norm': 0.9011325836181641, 'learning_rate': 1.6850374190938512e-05, 'epoch': 1.8992718446601942}
Step: 1569 {'loss': 0.1145, 'grad_norm': 0.5248551964759827, 'learning_rate': 1.684031148867314e-05, 'epoch': 1.9053398058252426}
Step: 1574 {'loss': 0.12, 'grad_norm': 0.605877161026001, 'learning_rate': 1.683024878640777e-05, 'epoch': 1.9114077669902914}
Step: 1579 {'loss': 0.1195, 'grad_norm': 0.4927634596824646, 'learning_rate': 1.6820186084142397e-05, 'epoch': 1.9174757281553398}
Step: 1584 {'loss': 0.14, 'grad_norm': 0.6430996656417847, 'learning_rate': 1.681012338187702e-05, 'epoch': 1.9235436893203883}
Step: 1589 {'loss': 0.1332, 'grad_norm': 0.6640208959579468, 'learning_rate': 1.6800060679611653e-05, 'epoch': 1.929611650485437}
Step: 1594 {'loss': 0.1149, 'grad_norm': 0.8645540475845337, 'learning_rate': 1.678999797734628e-05, 'epoch': 1.9356796116504853}
Step: 1599 {'loss': 0.1252, 'grad_norm': 0.5385764837265015, 'learning_rate': 1.677993527508091e-05, 'epoch': 1.941747572815534}
Step: 1604 {'loss': 0.1324, 'grad_norm': 0.6181178689002991, 'learning_rate': 1.6769872572815538e-05, 'epoch': 1.9478155339805825}
Step: 1609 {'loss': 0.1242, 'grad_norm': 0.8106412887573242, 'learning_rate': 1.6759809870550163e-05, 'epoch': 1.953883495145631}
Step: 1614 {'loss': 0.1065, 'grad_norm': 0.5509461164474487, 'learning_rate': 1.674974716828479e-05, 'epoch': 1.9599514563106797}
Step: 1619 {'loss': 0.1393, 'grad_norm': 0.5929784774780273, 'learning_rate': 1.673968446601942e-05, 'epoch': 1.9660194174757282}
Step: 1624 {'loss': 0.0828, 'grad_norm': 0.6785510778427124, 'learning_rate': 1.6729621763754048e-05, 'epoch': 1.9720873786407767}
Step: 1629 {'loss': 0.1238, 'grad_norm': 0.7034130096435547, 'learning_rate': 1.6719559061488676e-05, 'epoch': 1.9781553398058254}
Step: 1634 {'loss': 0.1089, 'grad_norm': 0.6833853721618652, 'learning_rate': 1.67094963592233e-05, 'epoch': 1.9842233009708736}
Step: 1639 {'loss': 0.0864, 'grad_norm': 0.5090553164482117, 'learning_rate': 1.669943365695793e-05, 'epoch': 1.9902912621359223}
Step: 1644 {'loss': 0.1123, 'grad_norm': 0.6346866488456726, 'learning_rate': 1.6689370954692557e-05, 'epoch': 1.9963592233009708}
Step: 1649 {'loss': 0.1071, 'grad_norm': 0.4755611717700958, 'learning_rate': 1.6679308252427185e-05, 'epoch': 2.0024271844660193}
Step: 1654 {'loss': 0.0691, 'grad_norm': 0.3183567225933075, 'learning_rate': 1.6669245550161814e-05, 'epoch': 2.008495145631068}
Step: 1659 {'loss': 0.0852, 'grad_norm': 0.2520294487476349, 'learning_rate': 1.6659182847896442e-05, 'epoch': 2.0145631067961167}
Step: 1664 {'loss': 0.0892, 'grad_norm': 0.7312373518943787, 'learning_rate': 1.664912014563107e-05, 'epoch': 2.020631067961165}
Step: 1669 {'loss': 0.0675, 'grad_norm': 0.2993949353694916, 'learning_rate': 1.66390574433657e-05, 'epoch': 2.0266990291262137}
Step: 1674 {'loss': 0.0797, 'grad_norm': 0.39580246806144714, 'learning_rate': 1.6628994741100323e-05, 'epoch': 2.032766990291262}
Step: 1679 {'loss': 0.0725, 'grad_norm': 0.4138758182525635, 'learning_rate': 1.661893203883495e-05, 'epoch': 2.0388349514563107}
Step: 1684 {'loss': 0.083, 'grad_norm': 0.5755720734596252, 'learning_rate': 1.660886933656958e-05, 'epoch': 2.0449029126213594}
Step: 1689 {'loss': 0.0883, 'grad_norm': 0.5876352787017822, 'learning_rate': 1.6598806634304208e-05, 'epoch': 2.0509708737864076}
Step: 1694 {'loss': 0.0637, 'grad_norm': 0.35440874099731445, 'learning_rate': 1.6588743932038836e-05, 'epoch': 2.0570388349514563}
Step: 1699 {'loss': 0.0756, 'grad_norm': 0.4504269063472748, 'learning_rate': 1.6578681229773465e-05, 'epoch': 2.063106796116505}
Step: 1704 {'loss': 0.0815, 'grad_norm': 0.47848960757255554, 'learning_rate': 1.6568618527508093e-05, 'epoch': 2.0691747572815533}
Step: 1709 {'loss': 0.0864, 'grad_norm': 0.41509321331977844, 'learning_rate': 1.655855582524272e-05, 'epoch': 2.075242718446602}
Step: 1714 {'loss': 0.0767, 'grad_norm': 0.6450930237770081, 'learning_rate': 1.654849312297735e-05, 'epoch': 2.0813106796116503}
Step: 1719 {'loss': 0.0721, 'grad_norm': 0.44495102763175964, 'learning_rate': 1.6538430420711978e-05, 'epoch': 2.087378640776699}
Step: 1724 {'loss': 0.0888, 'grad_norm': 0.5904701352119446, 'learning_rate': 1.6528367718446602e-05, 'epoch': 2.0934466019417477}
Step: 1729 {'loss': 0.0771, 'grad_norm': 0.4810492694377899, 'learning_rate': 1.651830501618123e-05, 'epoch': 2.099514563106796}
Step: 1734 {'loss': 0.0654, 'grad_norm': 0.4963434040546417, 'learning_rate': 1.650824231391586e-05, 'epoch': 2.1055825242718447}
Step: 1739 {'loss': 0.0716, 'grad_norm': 0.6018524169921875, 'learning_rate': 1.6498179611650487e-05, 'epoch': 2.1116504854368934}
Step: 1744 {'loss': 0.0702, 'grad_norm': 0.8312687277793884, 'learning_rate': 1.6488116909385115e-05, 'epoch': 2.1177184466019416}
Step: 1749 {'loss': 0.0789, 'grad_norm': 0.4941818416118622, 'learning_rate': 1.647805420711974e-05, 'epoch': 2.1237864077669903}
Step: 1754 {'loss': 0.0842, 'grad_norm': 0.637101411819458, 'learning_rate': 1.646799150485437e-05, 'epoch': 2.1298543689320386}
Step: 1759 {'loss': 0.0579, 'grad_norm': 0.30323526263237, 'learning_rate': 1.6457928802588997e-05, 'epoch': 2.1359223300970873}
Step: 1764 {'loss': 0.0732, 'grad_norm': 0.6359590291976929, 'learning_rate': 1.6447866100323625e-05, 'epoch': 2.141990291262136}
Step: 1769 {'loss': 0.049, 'grad_norm': 0.4601116478443146, 'learning_rate': 1.6437803398058253e-05, 'epoch': 2.1480582524271843}
Step: 1774 {'loss': 0.0886, 'grad_norm': 0.6472336649894714, 'learning_rate': 1.642774069579288e-05, 'epoch': 2.154126213592233}
Step: 1779 {'loss': 0.0716, 'grad_norm': 0.6910414695739746, 'learning_rate': 1.641767799352751e-05, 'epoch': 2.1601941747572817}
Step: 1784 {'loss': 0.0704, 'grad_norm': 0.3597729504108429, 'learning_rate': 1.6407615291262138e-05, 'epoch': 2.16626213592233}
Step: 1789 {'loss': 0.0749, 'grad_norm': 0.6749477982521057, 'learning_rate': 1.6397552588996766e-05, 'epoch': 2.1723300970873787}
Step: 1794 {'loss': 0.0784, 'grad_norm': 0.4296623170375824, 'learning_rate': 1.6387489886731394e-05, 'epoch': 2.1783980582524274}
Step: 1799 {'loss': 0.063, 'grad_norm': 0.3789113163948059, 'learning_rate': 1.637742718446602e-05, 'epoch': 2.1844660194174756}
Step: 1804 {'loss': 0.0595, 'grad_norm': 0.3381759822368622, 'learning_rate': 1.6367364482200648e-05, 'epoch': 2.1905339805825244}
Step: 1809 {'loss': 0.0803, 'grad_norm': 0.4951162040233612, 'learning_rate': 1.6357301779935276e-05, 'epoch': 2.1966019417475726}
Step: 1814 {'loss': 0.0812, 'grad_norm': 0.6488056778907776, 'learning_rate': 1.6347239077669904e-05, 'epoch': 2.2026699029126213}
Step: 1819 {'loss': 0.0887, 'grad_norm': 0.5989533066749573, 'learning_rate': 1.6337176375404532e-05, 'epoch': 2.20873786407767}
Step: 1824 {'loss': 0.0776, 'grad_norm': 0.446074515581131, 'learning_rate': 1.632711367313916e-05, 'epoch': 2.2148058252427183}
Step: 1829 {'loss': 0.0719, 'grad_norm': 0.4697136878967285, 'learning_rate': 1.631705097087379e-05, 'epoch': 2.220873786407767}
Step: 1834 {'loss': 0.0802, 'grad_norm': 0.6612656116485596, 'learning_rate': 1.6306988268608417e-05, 'epoch': 2.2269417475728157}
Step: 1839 {'loss': 0.0767, 'grad_norm': 0.38496431708335876, 'learning_rate': 1.6296925566343042e-05, 'epoch': 2.233009708737864}
Step: 1844 {'loss': 0.0761, 'grad_norm': 0.5394158959388733, 'learning_rate': 1.6286862864077674e-05, 'epoch': 2.2390776699029127}
Step: 1849 {'loss': 0.0847, 'grad_norm': 0.43793153762817383, 'learning_rate': 1.62768001618123e-05, 'epoch': 2.2451456310679614}
Step: 1854 {'loss': 0.0871, 'grad_norm': 0.9172083139419556, 'learning_rate': 1.6266737459546927e-05, 'epoch': 2.2512135922330097}
Step: 1859 {'loss': 0.0779, 'grad_norm': 0.5476963520050049, 'learning_rate': 1.6256674757281555e-05, 'epoch': 2.2572815533980584}
Step: 1864 {'loss': 0.065, 'grad_norm': 0.31049221754074097, 'learning_rate': 1.624661205501618e-05, 'epoch': 2.2633495145631066}
Step: 1869 {'loss': 0.0621, 'grad_norm': 0.3588782548904419, 'learning_rate': 1.6236549352750808e-05, 'epoch': 2.2694174757281553}
Step: 1874 {'loss': 0.0825, 'grad_norm': 0.4161442518234253, 'learning_rate': 1.6226486650485436e-05, 'epoch': 2.275485436893204}
Step: 1879 {'loss': 0.0936, 'grad_norm': 0.5958337187767029, 'learning_rate': 1.6216423948220065e-05, 'epoch': 2.2815533980582523}
Step: 1884 {'loss': 0.0664, 'grad_norm': 0.25248730182647705, 'learning_rate': 1.6206361245954693e-05, 'epoch': 2.287621359223301}
Step: 1889 {'loss': 0.0634, 'grad_norm': 0.5073704123497009, 'learning_rate': 1.619629854368932e-05, 'epoch': 2.2936893203883493}
Step: 1894 {'loss': 0.0642, 'grad_norm': 0.6632219552993774, 'learning_rate': 1.618623584142395e-05, 'epoch': 2.299757281553398}
Step: 1899 {'loss': 0.0595, 'grad_norm': 0.5878047347068787, 'learning_rate': 1.6176173139158578e-05, 'epoch': 2.3058252427184467}
Step: 1904 {'loss': 0.0731, 'grad_norm': 0.42657145857810974, 'learning_rate': 1.6166110436893206e-05, 'epoch': 2.311893203883495}
Step: 1909 {'loss': 0.0688, 'grad_norm': 0.5445041656494141, 'learning_rate': 1.6156047734627834e-05, 'epoch': 2.3179611650485437}
Step: 1914 {'loss': 0.0712, 'grad_norm': 0.3492489159107208, 'learning_rate': 1.614598503236246e-05, 'epoch': 2.3240291262135924}
Step: 1919 {'loss': 0.0611, 'grad_norm': 0.2730669677257538, 'learning_rate': 1.6135922330097087e-05, 'epoch': 2.3300970873786406}
Step: 1924 {'loss': 0.0755, 'grad_norm': 0.5298206210136414, 'learning_rate': 1.6125859627831715e-05, 'epoch': 2.3361650485436893}
Step: 1929 {'loss': 0.0663, 'grad_norm': 0.5032272934913635, 'learning_rate': 1.6115796925566344e-05, 'epoch': 2.342233009708738}
Step: 1934 {'loss': 0.1014, 'grad_norm': 0.4381330907344818, 'learning_rate': 1.6105734223300972e-05, 'epoch': 2.3483009708737863}
Step: 1939 {'loss': 0.0695, 'grad_norm': 0.5921576023101807, 'learning_rate': 1.60956715210356e-05, 'epoch': 2.354368932038835}
Step: 1944 {'loss': 0.0864, 'grad_norm': 0.5939043760299683, 'learning_rate': 1.608560881877023e-05, 'epoch': 2.3604368932038833}
Step: 1949 {'loss': 0.0792, 'grad_norm': 0.5824753046035767, 'learning_rate': 1.6075546116504857e-05, 'epoch': 2.366504854368932}
Step: 1954 {'loss': 0.0803, 'grad_norm': 0.39050862193107605, 'learning_rate': 1.6065483414239485e-05, 'epoch': 2.3725728155339807}
Step: 1959 {'loss': 0.0792, 'grad_norm': 0.3606078326702118, 'learning_rate': 1.6055420711974113e-05, 'epoch': 2.378640776699029}
Step: 1964 {'loss': 0.074, 'grad_norm': 0.5027792453765869, 'learning_rate': 1.6045358009708738e-05, 'epoch': 2.3847087378640777}
Step: 1969 {'loss': 0.063, 'grad_norm': 0.5392823815345764, 'learning_rate': 1.6035295307443366e-05, 'epoch': 2.3907766990291264}
Step: 1974 {'loss': 0.0828, 'grad_norm': 0.5268645286560059, 'learning_rate': 1.6025232605177995e-05, 'epoch': 2.3968446601941746}
Step: 1979 {'loss': 0.0902, 'grad_norm': 0.5775550603866577, 'learning_rate': 1.6015169902912623e-05, 'epoch': 2.4029126213592233}
Step: 1984 {'loss': 0.0735, 'grad_norm': 0.5618579387664795, 'learning_rate': 1.600510720064725e-05, 'epoch': 2.408980582524272}
Step: 1989 {'loss': 0.0626, 'grad_norm': 0.5404655933380127, 'learning_rate': 1.5995044498381876e-05, 'epoch': 2.4150485436893203}
Step: 1994 {'loss': 0.0778, 'grad_norm': 0.551922082901001, 'learning_rate': 1.5984981796116504e-05, 'epoch': 2.421116504854369}
Step: 1999 {'loss': 0.0801, 'grad_norm': 0.5168723464012146, 'learning_rate': 1.5974919093851132e-05, 'epoch': 2.4271844660194173}
Step: 2004 {'loss': 0.084, 'grad_norm': 0.3967045247554779, 'learning_rate': 1.5964856391585764e-05, 'epoch': 2.433252427184466}
Step: 2009 {'loss': 0.0614, 'grad_norm': 0.4551352858543396, 'learning_rate': 1.5954793689320392e-05, 'epoch': 2.4393203883495147}
Step: 2014 {'loss': 0.0735, 'grad_norm': 0.3566238582134247, 'learning_rate': 1.5944730987055017e-05, 'epoch': 2.445388349514563}
Step: 2019 {'loss': 0.086, 'grad_norm': 0.543429434299469, 'learning_rate': 1.5934668284789645e-05, 'epoch': 2.4514563106796117}
Step: 2024 {'loss': 0.0783, 'grad_norm': 0.3498842716217041, 'learning_rate': 1.5924605582524274e-05, 'epoch': 2.4575242718446604}
Step: 2029 {'loss': 0.0748, 'grad_norm': 0.3434104025363922, 'learning_rate': 1.59145428802589e-05, 'epoch': 2.4635922330097086}
Step: 2034 {'loss': 0.0679, 'grad_norm': 0.4279646873474121, 'learning_rate': 1.590448017799353e-05, 'epoch': 2.4696601941747574}
Step: 2039 {'loss': 0.0886, 'grad_norm': 0.4028267562389374, 'learning_rate': 1.5894417475728155e-05, 'epoch': 2.475728155339806}
Step: 2044 {'loss': 0.0888, 'grad_norm': 0.4728042185306549, 'learning_rate': 1.5884354773462783e-05, 'epoch': 2.4817961165048543}
Step: 2049 {'loss': 0.0821, 'grad_norm': 0.5963941812515259, 'learning_rate': 1.587429207119741e-05, 'epoch': 2.487864077669903}
Step: 2054 {'loss': 0.0625, 'grad_norm': 0.33480796217918396, 'learning_rate': 1.586422936893204e-05, 'epoch': 2.4939320388349513}
Step: 2059 {'loss': 0.0849, 'grad_norm': 0.36862248182296753, 'learning_rate': 1.5854166666666668e-05, 'epoch': 2.5}
Step: 2064 {'loss': 0.0724, 'grad_norm': 0.35207563638687134, 'learning_rate': 1.5844103964401296e-05, 'epoch': 2.5060679611650487}
Step: 2069 {'loss': 0.0802, 'grad_norm': 0.3993203341960907, 'learning_rate': 1.5834041262135925e-05, 'epoch': 2.512135922330097}
Step: 2074 {'loss': 0.066, 'grad_norm': 0.3539300560951233, 'learning_rate': 1.5823978559870553e-05, 'epoch': 2.5182038834951457}
Step: 2079 {'loss': 0.0717, 'grad_norm': 0.5251950621604919, 'learning_rate': 1.5813915857605178e-05, 'epoch': 2.524271844660194}
Step: 2084 {'loss': 0.0763, 'grad_norm': 0.38251036405563354, 'learning_rate': 1.5803853155339806e-05, 'epoch': 2.5303398058252426}
Step: 2089 {'loss': 0.0761, 'grad_norm': 0.4829709827899933, 'learning_rate': 1.5793790453074434e-05, 'epoch': 2.5364077669902914}
Step: 2094 {'loss': 0.0836, 'grad_norm': 0.4945363700389862, 'learning_rate': 1.5783727750809062e-05, 'epoch': 2.54247572815534}
Step: 2099 {'loss': 0.0924, 'grad_norm': 0.5502802133560181, 'learning_rate': 1.577366504854369e-05, 'epoch': 2.5485436893203883}
Step: 2104 {'loss': 0.0656, 'grad_norm': 0.6126424074172974, 'learning_rate': 1.576360234627832e-05, 'epoch': 2.554611650485437}
Step: 2109 {'loss': 0.0834, 'grad_norm': 0.5972371101379395, 'learning_rate': 1.5753539644012947e-05, 'epoch': 2.5606796116504853}
Step: 2114 {'loss': 0.062, 'grad_norm': 0.5009728670120239, 'learning_rate': 1.5743476941747575e-05, 'epoch': 2.566747572815534}
Step: 2119 {'loss': 0.0696, 'grad_norm': 0.7324998378753662, 'learning_rate': 1.5733414239482204e-05, 'epoch': 2.5728155339805827}
Step: 2124 {'loss': 0.0839, 'grad_norm': 0.6371392607688904, 'learning_rate': 1.5723351537216832e-05, 'epoch': 2.578883495145631}
Step: 2129 {'loss': 0.0767, 'grad_norm': 0.3903394043445587, 'learning_rate': 1.5713288834951457e-05, 'epoch': 2.5849514563106797}
Step: 2134 {'loss': 0.0646, 'grad_norm': 0.42618852853775024, 'learning_rate': 1.5703226132686085e-05, 'epoch': 2.591019417475728}
Step: 2139 {'loss': 0.0848, 'grad_norm': 0.49045124650001526, 'learning_rate': 1.5693163430420713e-05, 'epoch': 2.5970873786407767}
Step: 2144 {'loss': 0.0745, 'grad_norm': 0.5022423267364502, 'learning_rate': 1.568310072815534e-05, 'epoch': 2.6031553398058254}
Step: 2149 {'loss': 0.0855, 'grad_norm': 0.5711503624916077, 'learning_rate': 1.567303802588997e-05, 'epoch': 2.6092233009708736}
Step: 2154 {'loss': 0.071, 'grad_norm': 0.4068409204483032, 'learning_rate': 1.5662975323624595e-05, 'epoch': 2.6152912621359223}
Step: 2159 {'loss': 0.0835, 'grad_norm': 0.5842772722244263, 'learning_rate': 1.5652912621359223e-05, 'epoch': 2.6213592233009706}
Step: 2164 {'loss': 0.0696, 'grad_norm': 0.48267316818237305, 'learning_rate': 1.564284991909385e-05, 'epoch': 2.6274271844660193}
Step: 2169 {'loss': 0.0948, 'grad_norm': 0.57286137342453, 'learning_rate': 1.563278721682848e-05, 'epoch': 2.633495145631068}
Step: 2174 {'loss': 0.066, 'grad_norm': 0.5812405347824097, 'learning_rate': 1.5622724514563108e-05, 'epoch': 2.6395631067961167}
Step: 2179 {'loss': 0.0855, 'grad_norm': 0.5213007926940918, 'learning_rate': 1.5612661812297736e-05, 'epoch': 2.645631067961165}
Step: 2184 {'loss': 0.0873, 'grad_norm': 0.7589840292930603, 'learning_rate': 1.5602599110032364e-05, 'epoch': 2.6516990291262137}
Step: 2189 {'loss': 0.0733, 'grad_norm': 0.5363731384277344, 'learning_rate': 1.5592536407766992e-05, 'epoch': 2.657766990291262}
Step: 2194 {'loss': 0.0896, 'grad_norm': 0.86467045545578, 'learning_rate': 1.558247370550162e-05, 'epoch': 2.6638349514563107}
Step: 2199 {'loss': 0.0706, 'grad_norm': 0.5109805464744568, 'learning_rate': 1.557241100323625e-05, 'epoch': 2.6699029126213594}
Step: 2204 {'loss': 0.0856, 'grad_norm': 0.7669429183006287, 'learning_rate': 1.5562348300970874e-05, 'epoch': 2.6759708737864076}
Step: 2209 {'loss': 0.0837, 'grad_norm': 0.5899706482887268, 'learning_rate': 1.5552285598705502e-05, 'epoch': 2.6820388349514563}
Step: 2214 {'loss': 0.0732, 'grad_norm': 0.5215795636177063, 'learning_rate': 1.554222289644013e-05, 'epoch': 2.6881067961165046}
Step: 2219 {'loss': 0.0837, 'grad_norm': 0.6992548704147339, 'learning_rate': 1.553216019417476e-05, 'epoch': 2.6941747572815533}
Step: 2224 {'loss': 0.0786, 'grad_norm': 0.6373975872993469, 'learning_rate': 1.5522097491909387e-05, 'epoch': 2.700242718446602}
Step: 2229 {'loss': 0.0853, 'grad_norm': 0.6577532291412354, 'learning_rate': 1.5512034789644015e-05, 'epoch': 2.7063106796116507}