TroyDoesAI commited on
Commit
8310c51
·
verified ·
1 Parent(s): ca7e800

Training logs and graph

Browse files
Grokking_FROM_RAG_RP_BASE.png ADDED
training_log_1 - Copy.txt ADDED
@@ -0,0 +1,460 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ Step: 4 {'loss': 0.4353, 'grad_norm': 2.191624164581299, 'learning_rate': 1.998993729773463e-05, 'epoch': 0.006067961165048544}
2
+ Step: 9 {'loss': 0.2694, 'grad_norm': 1.3030037879943848, 'learning_rate': 1.9979874595469258e-05, 'epoch': 0.012135922330097087}
3
+ Step: 14 {'loss': 0.3331, 'grad_norm': 1.330862283706665, 'learning_rate': 1.9969811893203883e-05, 'epoch': 0.01820388349514563}
4
+ Step: 19 {'loss': 0.2848, 'grad_norm': 1.1659115552902222, 'learning_rate': 1.995974919093851e-05, 'epoch': 0.024271844660194174}
5
+ Step: 24 {'loss': 0.2563, 'grad_norm': 1.2497798204421997, 'learning_rate': 1.994968648867314e-05, 'epoch': 0.03033980582524272}
6
+ Step: 29 {'loss': 0.2698, 'grad_norm': 0.8746716976165771, 'learning_rate': 1.9939623786407768e-05, 'epoch': 0.03640776699029126}
7
+ Step: 34 {'loss': 0.2862, 'grad_norm': 1.4592615365982056, 'learning_rate': 1.9929561084142396e-05, 'epoch': 0.04247572815533981}
8
+ Step: 39 {'loss': 0.2631, 'grad_norm': 1.3354547023773193, 'learning_rate': 1.9919498381877024e-05, 'epoch': 0.04854368932038835}
9
+ Step: 44 {'loss': 0.2367, 'grad_norm': 1.1055876016616821, 'learning_rate': 1.9909435679611653e-05, 'epoch': 0.05461165048543689}
10
+ Step: 49 {'loss': 0.2582, 'grad_norm': 1.1806422472000122, 'learning_rate': 1.989937297734628e-05, 'epoch': 0.06067961165048544}
11
+ Step: 54 {'loss': 0.1856, 'grad_norm': 1.1648695468902588, 'learning_rate': 1.988931027508091e-05, 'epoch': 0.06674757281553398}
12
+ Step: 59 {'loss': 0.2013, 'grad_norm': 1.1026502847671509, 'learning_rate': 1.9879247572815534e-05, 'epoch': 0.07281553398058252}
13
+ Step: 64 {'loss': 0.2539, 'grad_norm': 1.0105054378509521, 'learning_rate': 1.9869184870550162e-05, 'epoch': 0.07888349514563107}
14
+ Step: 69 {'loss': 0.1897, 'grad_norm': 0.8003122806549072, 'learning_rate': 1.985912216828479e-05, 'epoch': 0.08495145631067962}
15
+ Step: 74 {'loss': 0.2982, 'grad_norm': 1.30860435962677, 'learning_rate': 1.984905946601942e-05, 'epoch': 0.09101941747572816}
16
+ Step: 79 {'loss': 0.2618, 'grad_norm': 0.9786990880966187, 'learning_rate': 1.9838996763754047e-05, 'epoch': 0.0970873786407767}
17
+ Step: 84 {'loss': 0.1838, 'grad_norm': 0.9980338215827942, 'learning_rate': 1.9828934061488675e-05, 'epoch': 0.10315533980582524}
18
+ Step: 89 {'loss': 0.2939, 'grad_norm': 1.2290782928466797, 'learning_rate': 1.9818871359223303e-05, 'epoch': 0.10922330097087378}
19
+ Step: 94 {'loss': 0.1541, 'grad_norm': 0.8592115044593811, 'learning_rate': 1.980880865695793e-05, 'epoch': 0.11529126213592233}
20
+ Step: 99 {'loss': 0.2188, 'grad_norm': 1.2046189308166504, 'learning_rate': 1.979874595469256e-05, 'epoch': 0.12135922330097088}
21
+ Step: 104 {'loss': 0.2323, 'grad_norm': 1.098689317703247, 'learning_rate': 1.9788683252427188e-05, 'epoch': 0.12742718446601942}
22
+ Step: 109 {'loss': 0.2505, 'grad_norm': 1.0833467245101929, 'learning_rate': 1.9778620550161813e-05, 'epoch': 0.13349514563106796}
23
+ Step: 114 {'loss': 0.2742, 'grad_norm': 1.0014370679855347, 'learning_rate': 1.976855784789644e-05, 'epoch': 0.1395631067961165}
24
+ Step: 119 {'loss': 0.2006, 'grad_norm': 0.9583337903022766, 'learning_rate': 1.975849514563107e-05, 'epoch': 0.14563106796116504}
25
+ Step: 124 {'loss': 0.2622, 'grad_norm': 1.2637274265289307, 'learning_rate': 1.9748432443365698e-05, 'epoch': 0.15169902912621358}
26
+ Step: 129 {'loss': 0.1872, 'grad_norm': 1.2578071355819702, 'learning_rate': 1.9738369741100326e-05, 'epoch': 0.15776699029126215}
27
+ Step: 134 {'loss': 0.2888, 'grad_norm': 0.9690183401107788, 'learning_rate': 1.972830703883495e-05, 'epoch': 0.1638349514563107}
28
+ Step: 139 {'loss': 0.1762, 'grad_norm': 1.0546433925628662, 'learning_rate': 1.971824433656958e-05, 'epoch': 0.16990291262135923}
29
+ Step: 144 {'loss': 0.2071, 'grad_norm': 1.2604581117630005, 'learning_rate': 1.9708181634304207e-05, 'epoch': 0.17597087378640777}
30
+ Step: 149 {'loss': 0.2165, 'grad_norm': 0.9639974236488342, 'learning_rate': 1.9698118932038836e-05, 'epoch': 0.1820388349514563}
31
+ Step: 154 {'loss': 0.1864, 'grad_norm': 0.63663649559021, 'learning_rate': 1.9688056229773464e-05, 'epoch': 0.18810679611650485}
32
+ Step: 159 {'loss': 0.2522, 'grad_norm': 1.2346426248550415, 'learning_rate': 1.9677993527508092e-05, 'epoch': 0.1941747572815534}
33
+ Step: 164 {'loss': 0.2713, 'grad_norm': 0.8547439575195312, 'learning_rate': 1.966793082524272e-05, 'epoch': 0.20024271844660194}
34
+ Step: 169 {'loss': 0.2253, 'grad_norm': 1.1515867710113525, 'learning_rate': 1.965786812297735e-05, 'epoch': 0.20631067961165048}
35
+ Step: 174 {'loss': 0.2729, 'grad_norm': 0.7747319936752319, 'learning_rate': 1.9647805420711977e-05, 'epoch': 0.21237864077669902}
36
+ Step: 179 {'loss': 0.1736, 'grad_norm': 0.8566315770149231, 'learning_rate': 1.9637742718446602e-05, 'epoch': 0.21844660194174756}
37
+ Step: 184 {'loss': 0.1797, 'grad_norm': 0.930243194103241, 'learning_rate': 1.962768001618123e-05, 'epoch': 0.22451456310679613}
38
+ Step: 189 {'loss': 0.1593, 'grad_norm': 0.7396715879440308, 'learning_rate': 1.9617617313915858e-05, 'epoch': 0.23058252427184467}
39
+ Step: 194 {'loss': 0.1797, 'grad_norm': 0.9246750473976135, 'learning_rate': 1.9607554611650486e-05, 'epoch': 0.2366504854368932}
40
+ Step: 199 {'loss': 0.1663, 'grad_norm': 1.042656660079956, 'learning_rate': 1.9597491909385115e-05, 'epoch': 0.24271844660194175}
41
+ Step: 204 {'loss': 0.2603, 'grad_norm': 1.0404695272445679, 'learning_rate': 1.9587429207119743e-05, 'epoch': 0.2487864077669903}
42
+ Step: 209 {'loss': 0.1658, 'grad_norm': 0.997435986995697, 'learning_rate': 1.957736650485437e-05, 'epoch': 0.25485436893203883}
43
+ Step: 214 {'loss': 0.2053, 'grad_norm': 0.7831973433494568, 'learning_rate': 1.9567303802589e-05, 'epoch': 0.2609223300970874}
44
+ Step: 219 {'loss': 0.2411, 'grad_norm': 1.0195039510726929, 'learning_rate': 1.9557241100323628e-05, 'epoch': 0.2669902912621359}
45
+ Step: 224 {'loss': 0.3144, 'grad_norm': 0.9981959462165833, 'learning_rate': 1.9547178398058256e-05, 'epoch': 0.27305825242718446}
46
+ Step: 229 {'loss': 0.1659, 'grad_norm': 0.47695374488830566, 'learning_rate': 1.953711569579288e-05, 'epoch': 0.279126213592233}
47
+ Step: 234 {'loss': 0.207, 'grad_norm': 0.8239030241966248, 'learning_rate': 1.952705299352751e-05, 'epoch': 0.28519417475728154}
48
+ Step: 239 {'loss': 0.2419, 'grad_norm': 0.8410345911979675, 'learning_rate': 1.9516990291262137e-05, 'epoch': 0.2912621359223301}
49
+ Step: 244 {'loss': 0.1809, 'grad_norm': 0.894312858581543, 'learning_rate': 1.9506927588996766e-05, 'epoch': 0.2973300970873786}
50
+ Step: 249 {'loss': 0.2362, 'grad_norm': 1.2174204587936401, 'learning_rate': 1.949686488673139e-05, 'epoch': 0.30339805825242716}
51
+ Step: 254 {'loss': 0.2075, 'grad_norm': 0.9695034027099609, 'learning_rate': 1.948680218446602e-05, 'epoch': 0.3094660194174757}
52
+ Step: 259 {'loss': 0.2188, 'grad_norm': 0.8815172910690308, 'learning_rate': 1.947673948220065e-05, 'epoch': 0.3155339805825243}
53
+ Step: 264 {'loss': 0.2164, 'grad_norm': 1.0944536924362183, 'learning_rate': 1.946667677993528e-05, 'epoch': 0.32160194174757284}
54
+ Step: 269 {'loss': 0.1602, 'grad_norm': 0.6769459843635559, 'learning_rate': 1.9456614077669907e-05, 'epoch': 0.3276699029126214}
55
+ Step: 274 {'loss': 0.206, 'grad_norm': 0.7965872287750244, 'learning_rate': 1.9446551375404532e-05, 'epoch': 0.3337378640776699}
56
+ Step: 279 {'loss': 0.1985, 'grad_norm': 0.8939245939254761, 'learning_rate': 1.943648867313916e-05, 'epoch': 0.33980582524271846}
57
+ Step: 284 {'loss': 0.24, 'grad_norm': 0.9971239566802979, 'learning_rate': 1.9426425970873788e-05, 'epoch': 0.345873786407767}
58
+ Step: 289 {'loss': 0.2093, 'grad_norm': 0.7558819651603699, 'learning_rate': 1.9416363268608416e-05, 'epoch': 0.35194174757281554}
59
+ Step: 294 {'loss': 0.2463, 'grad_norm': 1.2064250707626343, 'learning_rate': 1.9406300566343045e-05, 'epoch': 0.3580097087378641}
60
+ Step: 299 {'loss': 0.2051, 'grad_norm': 0.9998931288719177, 'learning_rate': 1.939623786407767e-05, 'epoch': 0.3640776699029126}
61
+ Step: 304 {'loss': 0.2726, 'grad_norm': 0.7514689564704895, 'learning_rate': 1.9386175161812298e-05, 'epoch': 0.37014563106796117}
62
+ Step: 309 {'loss': 0.2369, 'grad_norm': 1.0480842590332031, 'learning_rate': 1.9376112459546926e-05, 'epoch': 0.3762135922330097}
63
+ Step: 314 {'loss': 0.1333, 'grad_norm': 0.8085609078407288, 'learning_rate': 1.9366049757281554e-05, 'epoch': 0.38228155339805825}
64
+ Step: 319 {'loss': 0.1258, 'grad_norm': 0.9378578066825867, 'learning_rate': 1.9355987055016183e-05, 'epoch': 0.3883495145631068}
65
+ Step: 324 {'loss': 0.2512, 'grad_norm': 0.871959388256073, 'learning_rate': 1.934592435275081e-05, 'epoch': 0.39441747572815533}
66
+ Step: 329 {'loss': 0.2108, 'grad_norm': 1.0580884218215942, 'learning_rate': 1.933586165048544e-05, 'epoch': 0.40048543689320387}
67
+ Step: 334 {'loss': 0.1955, 'grad_norm': 0.9206604361534119, 'learning_rate': 1.9325798948220067e-05, 'epoch': 0.4065533980582524}
68
+ Step: 339 {'loss': 0.2176, 'grad_norm': 0.9999366998672485, 'learning_rate': 1.9315736245954696e-05, 'epoch': 0.41262135922330095}
69
+ Step: 344 {'loss': 0.2156, 'grad_norm': 0.8080392479896545, 'learning_rate': 1.930567354368932e-05, 'epoch': 0.4186893203883495}
70
+ Step: 349 {'loss': 0.2352, 'grad_norm': 1.074510931968689, 'learning_rate': 1.929561084142395e-05, 'epoch': 0.42475728155339804}
71
+ Step: 354 {'loss': 0.1531, 'grad_norm': 0.8173450827598572, 'learning_rate': 1.9285548139158577e-05, 'epoch': 0.4308252427184466}
72
+ Step: 359 {'loss': 0.2219, 'grad_norm': 0.878411054611206, 'learning_rate': 1.9275485436893205e-05, 'epoch': 0.4368932038834951}
73
+ Step: 364 {'loss': 0.2231, 'grad_norm': 0.7410285472869873, 'learning_rate': 1.9265422734627833e-05, 'epoch': 0.4429611650485437}
74
+ Step: 369 {'loss': 0.1981, 'grad_norm': 0.957639753818512, 'learning_rate': 1.925536003236246e-05, 'epoch': 0.44902912621359226}
75
+ Step: 374 {'loss': 0.158, 'grad_norm': 0.6763705015182495, 'learning_rate': 1.924529733009709e-05, 'epoch': 0.4550970873786408}
76
+ Step: 379 {'loss': 0.2641, 'grad_norm': 1.112599492073059, 'learning_rate': 1.9235234627831718e-05, 'epoch': 0.46116504854368934}
77
+ Step: 384 {'loss': 0.153, 'grad_norm': 1.2892094850540161, 'learning_rate': 1.9225171925566346e-05, 'epoch': 0.4672330097087379}
78
+ Step: 389 {'loss': 0.2538, 'grad_norm': 0.9439594745635986, 'learning_rate': 1.9215109223300975e-05, 'epoch': 0.4733009708737864}
79
+ Step: 394 {'loss': 0.2393, 'grad_norm': 0.6366087794303894, 'learning_rate': 1.92050465210356e-05, 'epoch': 0.47936893203883496}
80
+ Step: 399 {'loss': 0.1662, 'grad_norm': 0.9235426187515259, 'learning_rate': 1.9194983818770228e-05, 'epoch': 0.4854368932038835}
81
+ Step: 404 {'loss': 0.2334, 'grad_norm': 0.6829384565353394, 'learning_rate': 1.9184921116504856e-05, 'epoch': 0.49150485436893204}
82
+ Step: 409 {'loss': 0.213, 'grad_norm': 0.8323965072631836, 'learning_rate': 1.9174858414239484e-05, 'epoch': 0.4975728155339806}
83
+ Step: 414 {'loss': 0.1632, 'grad_norm': 1.013178825378418, 'learning_rate': 1.9164795711974113e-05, 'epoch': 0.5036407766990292}
84
+ Step: 419 {'loss': 0.2009, 'grad_norm': 1.0952664613723755, 'learning_rate': 1.9154733009708737e-05, 'epoch': 0.5097087378640777}
85
+ Step: 424 {'loss': 0.1606, 'grad_norm': 0.7694137692451477, 'learning_rate': 1.9144670307443366e-05, 'epoch': 0.5157766990291263}
86
+ Step: 429 {'loss': 0.282, 'grad_norm': 0.8987980484962463, 'learning_rate': 1.9134607605177994e-05, 'epoch': 0.5218446601941747}
87
+ Step: 434 {'loss': 0.3209, 'grad_norm': 0.9966284036636353, 'learning_rate': 1.9124544902912622e-05, 'epoch': 0.5279126213592233}
88
+ Step: 439 {'loss': 0.2293, 'grad_norm': 0.8699304461479187, 'learning_rate': 1.911448220064725e-05, 'epoch': 0.5339805825242718}
89
+ Step: 444 {'loss': 0.1906, 'grad_norm': 0.9858245253562927, 'learning_rate': 1.910441949838188e-05, 'epoch': 0.5400485436893204}
90
+ Step: 449 {'loss': 0.1349, 'grad_norm': 1.1222187280654907, 'learning_rate': 1.9094356796116507e-05, 'epoch': 0.5461165048543689}
91
+ Step: 454 {'loss': 0.159, 'grad_norm': 0.7627008557319641, 'learning_rate': 1.9084294093851135e-05, 'epoch': 0.5521844660194175}
92
+ Step: 459 {'loss': 0.1849, 'grad_norm': 1.238351583480835, 'learning_rate': 1.9074231391585763e-05, 'epoch': 0.558252427184466}
93
+ Step: 464 {'loss': 0.2338, 'grad_norm': 1.0170443058013916, 'learning_rate': 1.9064168689320388e-05, 'epoch': 0.5643203883495146}
94
+ Step: 469 {'loss': 0.2056, 'grad_norm': 0.8667766451835632, 'learning_rate': 1.9054105987055017e-05, 'epoch': 0.5703883495145631}
95
+ Step: 474 {'loss': 0.2013, 'grad_norm': 0.6214694380760193, 'learning_rate': 1.9044043284789645e-05, 'epoch': 0.5764563106796117}
96
+ Step: 479 {'loss': 0.2066, 'grad_norm': 0.8486121892929077, 'learning_rate': 1.9033980582524273e-05, 'epoch': 0.5825242718446602}
97
+ Step: 484 {'loss': 0.1987, 'grad_norm': 0.9001325368881226, 'learning_rate': 1.90239178802589e-05, 'epoch': 0.5885922330097088}
98
+ Step: 489 {'loss': 0.2118, 'grad_norm': 0.869692325592041, 'learning_rate': 1.901385517799353e-05, 'epoch': 0.5946601941747572}
99
+ Step: 494 {'loss': 0.2301, 'grad_norm': 0.7113281488418579, 'learning_rate': 1.9003792475728158e-05, 'epoch': 0.6007281553398058}
100
+ Step: 499 {'loss': 0.2067, 'grad_norm': 1.1124484539031982, 'learning_rate': 1.8993729773462786e-05, 'epoch': 0.6067961165048543}
101
+ Step: 504 {'loss': 0.2152, 'grad_norm': 0.7456199526786804, 'learning_rate': 1.8983667071197414e-05, 'epoch': 0.6128640776699029}
102
+ Step: 509 {'loss': 0.1517, 'grad_norm': 0.7943209409713745, 'learning_rate': 1.8973604368932043e-05, 'epoch': 0.6189320388349514}
103
+ Step: 514 {'loss': 0.1912, 'grad_norm': 0.8752085566520691, 'learning_rate': 1.8963541666666667e-05, 'epoch': 0.625}
104
+ Step: 519 {'loss': 0.2452, 'grad_norm': 0.9633551836013794, 'learning_rate': 1.8953478964401296e-05, 'epoch': 0.6310679611650486}
105
+ Step: 524 {'loss': 0.2229, 'grad_norm': 1.1388161182403564, 'learning_rate': 1.8943416262135924e-05, 'epoch': 0.6371359223300971}
106
+ Step: 529 {'loss': 0.1667, 'grad_norm': 0.9617443680763245, 'learning_rate': 1.8933353559870552e-05, 'epoch': 0.6432038834951457}
107
+ Step: 534 {'loss': 0.1331, 'grad_norm': 0.7382726073265076, 'learning_rate': 1.8923290857605177e-05, 'epoch': 0.6492718446601942}
108
+ Step: 539 {'loss': 0.2093, 'grad_norm': 0.8715484142303467, 'learning_rate': 1.8913228155339805e-05, 'epoch': 0.6553398058252428}
109
+ Step: 544 {'loss': 0.2058, 'grad_norm': 0.6962261199951172, 'learning_rate': 1.8903165453074434e-05, 'epoch': 0.6614077669902912}
110
+ Step: 549 {'loss': 0.1856, 'grad_norm': 1.0886905193328857, 'learning_rate': 1.8893102750809062e-05, 'epoch': 0.6674757281553398}
111
+ Step: 554 {'loss': 0.1404, 'grad_norm': 0.7885785102844238, 'learning_rate': 1.888304004854369e-05, 'epoch': 0.6735436893203883}
112
+ Step: 559 {'loss': 0.1698, 'grad_norm': 0.5633730888366699, 'learning_rate': 1.8872977346278318e-05, 'epoch': 0.6796116504854369}
113
+ Step: 564 {'loss': 0.1709, 'grad_norm': 0.7751277089118958, 'learning_rate': 1.8862914644012947e-05, 'epoch': 0.6856796116504854}
114
+ Step: 569 {'loss': 0.1644, 'grad_norm': 0.8143800497055054, 'learning_rate': 1.8852851941747575e-05, 'epoch': 0.691747572815534}
115
+ Step: 574 {'loss': 0.1862, 'grad_norm': 0.8518599271774292, 'learning_rate': 1.8842789239482203e-05, 'epoch': 0.6978155339805825}
116
+ Step: 579 {'loss': 0.2065, 'grad_norm': 0.8738468289375305, 'learning_rate': 1.883272653721683e-05, 'epoch': 0.7038834951456311}
117
+ Step: 584 {'loss': 0.2119, 'grad_norm': 1.2021156549453735, 'learning_rate': 1.8822663834951456e-05, 'epoch': 0.7099514563106796}
118
+ Step: 589 {'loss': 0.2275, 'grad_norm': 0.8621294498443604, 'learning_rate': 1.8812601132686084e-05, 'epoch': 0.7160194174757282}
119
+ Step: 594 {'loss': 0.1651, 'grad_norm': 0.8421756029129028, 'learning_rate': 1.8802538430420713e-05, 'epoch': 0.7220873786407767}
120
+ Step: 599 {'loss': 0.2114, 'grad_norm': 0.9143360257148743, 'learning_rate': 1.879247572815534e-05, 'epoch': 0.7281553398058253}
121
+ Step: 604 {'loss': 0.2533, 'grad_norm': 0.8538374900817871, 'learning_rate': 1.878241302588997e-05, 'epoch': 0.7342233009708737}
122
+ Step: 609 {'loss': 0.1975, 'grad_norm': 1.1804977655410767, 'learning_rate': 1.8772350323624597e-05, 'epoch': 0.7402912621359223}
123
+ Step: 614 {'loss': 0.1969, 'grad_norm': 0.9079969525337219, 'learning_rate': 1.8762287621359226e-05, 'epoch': 0.7463592233009708}
124
+ Step: 619 {'loss': 0.1565, 'grad_norm': 0.6387689113616943, 'learning_rate': 1.8752224919093854e-05, 'epoch': 0.7524271844660194}
125
+ Step: 624 {'loss': 0.2582, 'grad_norm': 0.6831167936325073, 'learning_rate': 1.8742162216828482e-05, 'epoch': 0.758495145631068}
126
+ Step: 629 {'loss': 0.2057, 'grad_norm': 0.8348905444145203, 'learning_rate': 1.873209951456311e-05, 'epoch': 0.7645631067961165}
127
+ Step: 634 {'loss': 0.2197, 'grad_norm': 0.7529647350311279, 'learning_rate': 1.8722036812297735e-05, 'epoch': 0.7706310679611651}
128
+ Step: 639 {'loss': 0.2179, 'grad_norm': 0.8273212313652039, 'learning_rate': 1.8711974110032363e-05, 'epoch': 0.7766990291262136}
129
+ Step: 644 {'loss': 0.1954, 'grad_norm': 0.8801465034484863, 'learning_rate': 1.8701911407766992e-05, 'epoch': 0.7827669902912622}
130
+ Step: 649 {'loss': 0.1978, 'grad_norm': 0.8065889477729797, 'learning_rate': 1.869184870550162e-05, 'epoch': 0.7888349514563107}
131
+ Step: 654 {'loss': 0.2171, 'grad_norm': 1.0800710916519165, 'learning_rate': 1.8681786003236248e-05, 'epoch': 0.7949029126213593}
132
+ Step: 659 {'loss': 0.1679, 'grad_norm': 0.825133204460144, 'learning_rate': 1.8671723300970873e-05, 'epoch': 0.8009708737864077}
133
+ Step: 664 {'loss': 0.2192, 'grad_norm': 0.7615567445755005, 'learning_rate': 1.86616605987055e-05, 'epoch': 0.8070388349514563}
134
+ Step: 669 {'loss': 0.2047, 'grad_norm': 1.0617598295211792, 'learning_rate': 1.8651597896440133e-05, 'epoch': 0.8131067961165048}
135
+ Step: 674 {'loss': 0.2788, 'grad_norm': 0.9136356115341187, 'learning_rate': 1.864153519417476e-05, 'epoch': 0.8191747572815534}
136
+ Step: 679 {'loss': 0.2206, 'grad_norm': 0.8951679468154907, 'learning_rate': 1.8631472491909386e-05, 'epoch': 0.8252427184466019}
137
+ Step: 684 {'loss': 0.2438, 'grad_norm': 1.01711106300354, 'learning_rate': 1.8621409789644014e-05, 'epoch': 0.8313106796116505}
138
+ Step: 689 {'loss': 0.2071, 'grad_norm': 0.944473922252655, 'learning_rate': 1.8611347087378643e-05, 'epoch': 0.837378640776699}
139
+ Step: 694 {'loss': 0.2235, 'grad_norm': 0.9840872883796692, 'learning_rate': 1.860128438511327e-05, 'epoch': 0.8434466019417476}
140
+ Step: 699 {'loss': 0.2296, 'grad_norm': 1.0320663452148438, 'learning_rate': 1.8591221682847896e-05, 'epoch': 0.8495145631067961}
141
+ Step: 704 {'loss': 0.1654, 'grad_norm': 0.8796175122261047, 'learning_rate': 1.8581158980582524e-05, 'epoch': 0.8555825242718447}
142
+ Step: 709 {'loss': 0.2168, 'grad_norm': 0.6895102262496948, 'learning_rate': 1.8571096278317152e-05, 'epoch': 0.8616504854368932}
143
+ Step: 714 {'loss': 0.1662, 'grad_norm': 0.785328209400177, 'learning_rate': 1.856103357605178e-05, 'epoch': 0.8677184466019418}
144
+ Step: 719 {'loss': 0.2298, 'grad_norm': 0.7458878755569458, 'learning_rate': 1.855097087378641e-05, 'epoch': 0.8737864077669902}
145
+ Step: 724 {'loss': 0.2136, 'grad_norm': 0.6263097524642944, 'learning_rate': 1.8540908171521037e-05, 'epoch': 0.8798543689320388}
146
+ Step: 729 {'loss': 0.1943, 'grad_norm': 0.9595165252685547, 'learning_rate': 1.8530845469255665e-05, 'epoch': 0.8859223300970874}
147
+ Step: 734 {'loss': 0.241, 'grad_norm': 0.7870152592658997, 'learning_rate': 1.8520782766990293e-05, 'epoch': 0.8919902912621359}
148
+ Step: 739 {'loss': 0.1996, 'grad_norm': 0.7495624423027039, 'learning_rate': 1.8510720064724922e-05, 'epoch': 0.8980582524271845}
149
+ Step: 744 {'loss': 0.1842, 'grad_norm': 1.0533833503723145, 'learning_rate': 1.850065736245955e-05, 'epoch': 0.904126213592233}
150
+ Step: 749 {'loss': 0.219, 'grad_norm': 0.746076762676239, 'learning_rate': 1.8490594660194175e-05, 'epoch': 0.9101941747572816}
151
+ Step: 749 {'loss': 0.219, 'grad_norm': 0.746076762676239, 'learning_rate': 1.8490594660194175e-05, 'epoch': 0.9101941747572816}
152
+ Step: 754 {'loss': 0.1725, 'grad_norm': 0.9762694239616394, 'learning_rate': 1.8480531957928803e-05, 'epoch': 0.9162621359223301}
153
+ Step: 759 {'loss': 0.1878, 'grad_norm': 0.7907251715660095, 'learning_rate': 1.847046925566343e-05, 'epoch': 0.9223300970873787}
154
+ Step: 764 {'loss': 0.1997, 'grad_norm': 0.8428146243095398, 'learning_rate': 1.846040655339806e-05, 'epoch': 0.9283980582524272}
155
+ Step: 769 {'loss': 0.245, 'grad_norm': 0.883174479007721, 'learning_rate': 1.8450343851132688e-05, 'epoch': 0.9344660194174758}
156
+ Step: 774 {'loss': 0.2469, 'grad_norm': 0.7957308292388916, 'learning_rate': 1.8440281148867316e-05, 'epoch': 0.9405339805825242}
157
+ Step: 779 {'loss': 0.1677, 'grad_norm': 0.5986533164978027, 'learning_rate': 1.8430218446601944e-05, 'epoch': 0.9466019417475728}
158
+ Step: 784 {'loss': 0.2168, 'grad_norm': 0.9594400525093079, 'learning_rate': 1.8420155744336573e-05, 'epoch': 0.9526699029126213}
159
+ Step: 789 {'loss': 0.2353, 'grad_norm': 1.1843328475952148, 'learning_rate': 1.84100930420712e-05, 'epoch': 0.9587378640776699}
160
+ Step: 794 {'loss': 0.2186, 'grad_norm': 0.9562485218048096, 'learning_rate': 1.840003033980583e-05, 'epoch': 0.9648058252427184}
161
+ Step: 799 {'loss': 0.1525, 'grad_norm': 1.116662859916687, 'learning_rate': 1.8389967637540454e-05, 'epoch': 0.970873786407767}
162
+ Step: 804 {'loss': 0.2153, 'grad_norm': 0.7853860855102539, 'learning_rate': 1.8379904935275082e-05, 'epoch': 0.9769417475728155}
163
+ Step: 809 {'loss': 0.1868, 'grad_norm': 0.6937167048454285, 'learning_rate': 1.836984223300971e-05, 'epoch': 0.9830097087378641}
164
+ Step: 814 {'loss': 0.1898, 'grad_norm': 0.7708289623260498, 'learning_rate': 1.835977953074434e-05, 'epoch': 0.9890776699029126}
165
+ Step: 819 {'loss': 0.171, 'grad_norm': 0.9017183780670166, 'learning_rate': 1.8349716828478967e-05, 'epoch': 0.9951456310679612}
166
+ Step: 824 {'loss': 0.143, 'grad_norm': 0.6294885873794556, 'learning_rate': 1.8339654126213592e-05, 'epoch': 1.0012135922330097}
167
+ Step: 829 {'loss': 0.1382, 'grad_norm': 0.6312858462333679, 'learning_rate': 1.832959142394822e-05, 'epoch': 1.0072815533980584}
168
+ Step: 834 {'loss': 0.1238, 'grad_norm': 0.632146954536438, 'learning_rate': 1.831952872168285e-05, 'epoch': 1.0133495145631068}
169
+ Step: 839 {'loss': 0.1055, 'grad_norm': 0.46648576855659485, 'learning_rate': 1.8309466019417477e-05, 'epoch': 1.0194174757281553}
170
+ Step: 844 {'loss': 0.0777, 'grad_norm': 0.8568502068519592, 'learning_rate': 1.8299403317152105e-05, 'epoch': 1.0254854368932038}
171
+ Step: 849 {'loss': 0.1282, 'grad_norm': 0.6644611954689026, 'learning_rate': 1.8289340614886733e-05, 'epoch': 1.0315533980582525}
172
+ Step: 854 {'loss': 0.1088, 'grad_norm': 0.542986273765564, 'learning_rate': 1.827927791262136e-05, 'epoch': 1.037621359223301}
173
+ Step: 859 {'loss': 0.1162, 'grad_norm': 0.5835334062576294, 'learning_rate': 1.826921521035599e-05, 'epoch': 1.0436893203883495}
174
+ Step: 864 {'loss': 0.1653, 'grad_norm': 0.8654404878616333, 'learning_rate': 1.8259152508090618e-05, 'epoch': 1.049757281553398}
175
+ Step: 869 {'loss': 0.0964, 'grad_norm': 0.639387845993042, 'learning_rate': 1.8249089805825243e-05, 'epoch': 1.0558252427184467}
176
+ Step: 874 {'loss': 0.1193, 'grad_norm': 0.6238650679588318, 'learning_rate': 1.823902710355987e-05, 'epoch': 1.0618932038834952}
177
+ Step: 879 {'loss': 0.123, 'grad_norm': 0.6079656481742859, 'learning_rate': 1.82289644012945e-05, 'epoch': 1.0679611650485437}
178
+ Step: 884 {'loss': 0.1177, 'grad_norm': 0.7429604530334473, 'learning_rate': 1.8218901699029127e-05, 'epoch': 1.0740291262135921}
179
+ Step: 889 {'loss': 0.1114, 'grad_norm': 0.6748375296592712, 'learning_rate': 1.8208838996763756e-05, 'epoch': 1.0800970873786409}
180
+ Step: 894 {'loss': 0.1133, 'grad_norm': 0.6381520628929138, 'learning_rate': 1.8198776294498384e-05, 'epoch': 1.0861650485436893}
181
+ Step: 899 {'loss': 0.1388, 'grad_norm': 0.7581176161766052, 'learning_rate': 1.8188713592233012e-05, 'epoch': 1.0922330097087378}
182
+ Step: 904 {'loss': 0.1186, 'grad_norm': 0.6742581129074097, 'learning_rate': 1.817865088996764e-05, 'epoch': 1.0983009708737863}
183
+ Step: 909 {'loss': 0.1326, 'grad_norm': 0.6850492358207703, 'learning_rate': 1.816858818770227e-05, 'epoch': 1.104368932038835}
184
+ Step: 914 {'loss': 0.1285, 'grad_norm': 0.7971341013908386, 'learning_rate': 1.8158525485436894e-05, 'epoch': 1.1104368932038835}
185
+ Step: 919 {'loss': 0.1302, 'grad_norm': 0.6553541421890259, 'learning_rate': 1.8148462783171522e-05, 'epoch': 1.116504854368932}
186
+ Step: 924 {'loss': 0.1363, 'grad_norm': 1.0389859676361084, 'learning_rate': 1.813840008090615e-05, 'epoch': 1.1225728155339807}
187
+ Step: 929 {'loss': 0.139, 'grad_norm': 0.6914644837379456, 'learning_rate': 1.8128337378640778e-05, 'epoch': 1.1286407766990292}
188
+ Step: 934 {'loss': 0.1442, 'grad_norm': 0.8424041867256165, 'learning_rate': 1.8118274676375407e-05, 'epoch': 1.1347087378640777}
189
+ Step: 939 {'loss': 0.125, 'grad_norm': 0.9400150775909424, 'learning_rate': 1.810821197411003e-05, 'epoch': 1.1407766990291262}
190
+ Step: 944 {'loss': 0.1407, 'grad_norm': 0.6576378345489502, 'learning_rate': 1.809814927184466e-05, 'epoch': 1.1468446601941746}
191
+ Step: 949 {'loss': 0.1026, 'grad_norm': 0.7079713344573975, 'learning_rate': 1.8088086569579288e-05, 'epoch': 1.1529126213592233}
192
+ Step: 954 {'loss': 0.1303, 'grad_norm': 0.3615785837173462, 'learning_rate': 1.8078023867313916e-05, 'epoch': 1.1589805825242718}
193
+ Step: 959 {'loss': 0.1099, 'grad_norm': 0.8513123989105225, 'learning_rate': 1.8067961165048544e-05, 'epoch': 1.1650485436893203}
194
+ Step: 964 {'loss': 0.1173, 'grad_norm': 0.4400225877761841, 'learning_rate': 1.8057898462783173e-05, 'epoch': 1.171116504854369}
195
+ Step: 969 {'loss': 0.1136, 'grad_norm': 0.3543890714645386, 'learning_rate': 1.80478357605178e-05, 'epoch': 1.1771844660194175}
196
+ Step: 974 {'loss': 0.1276, 'grad_norm': 0.809300422668457, 'learning_rate': 1.803777305825243e-05, 'epoch': 1.183252427184466}
197
+ Step: 979 {'loss': 0.1252, 'grad_norm': 0.7841810584068298, 'learning_rate': 1.8027710355987057e-05, 'epoch': 1.1893203883495145}
198
+ Step: 984 {'loss': 0.1087, 'grad_norm': 0.5520283579826355, 'learning_rate': 1.8017647653721686e-05, 'epoch': 1.1953883495145632}
199
+ Step: 989 {'loss': 0.1035, 'grad_norm': 0.5602442026138306, 'learning_rate': 1.800758495145631e-05, 'epoch': 1.2014563106796117}
200
+ Step: 994 {'loss': 0.1279, 'grad_norm': 0.6306101679801941, 'learning_rate': 1.799752224919094e-05, 'epoch': 1.2075242718446602}
201
+ Step: 999 {'loss': 0.1071, 'grad_norm': 0.6500540971755981, 'learning_rate': 1.7987459546925567e-05, 'epoch': 1.2135922330097086}
202
+ Step: 1004 {'loss': 0.1012, 'grad_norm': 0.47448277473449707, 'learning_rate': 1.7977396844660195e-05, 'epoch': 1.2196601941747574}
203
+ Step: 1009 {'loss': 0.1325, 'grad_norm': 0.6133425235748291, 'learning_rate': 1.7967334142394824e-05, 'epoch': 1.2257281553398058}
204
+ Step: 1014 {'loss': 0.1194, 'grad_norm': 0.5934520363807678, 'learning_rate': 1.7957271440129452e-05, 'epoch': 1.2317961165048543}
205
+ Step: 1019 {'loss': 0.12, 'grad_norm': 0.961453378200531, 'learning_rate': 1.794720873786408e-05, 'epoch': 1.237864077669903}
206
+ Step: 1024 {'loss': 0.1454, 'grad_norm': 0.5824434757232666, 'learning_rate': 1.7937146035598708e-05, 'epoch': 1.2439320388349515}
207
+ Step: 1029 {'loss': 0.1569, 'grad_norm': 0.7642948627471924, 'learning_rate': 1.7927083333333337e-05, 'epoch': 1.25}
208
+ Step: 1034 {'loss': 0.1164, 'grad_norm': 0.5035591721534729, 'learning_rate': 1.7917020631067965e-05, 'epoch': 1.2560679611650485}
209
+ Step: 1039 {'loss': 0.119, 'grad_norm': 0.39984560012817383, 'learning_rate': 1.790695792880259e-05, 'epoch': 1.262135922330097}
210
+ Step: 1044 {'loss': 0.1402, 'grad_norm': 0.8323859572410583, 'learning_rate': 1.7896895226537218e-05, 'epoch': 1.2682038834951457}
211
+ Step: 1049 {'loss': 0.1275, 'grad_norm': 0.6281534433364868, 'learning_rate': 1.7886832524271846e-05, 'epoch': 1.2742718446601942}
212
+ Step: 1054 {'loss': 0.1268, 'grad_norm': 0.7724732756614685, 'learning_rate': 1.7876769822006474e-05, 'epoch': 1.2803398058252426}
213
+ Step: 1059 {'loss': 0.1371, 'grad_norm': 0.6198734045028687, 'learning_rate': 1.78667071197411e-05, 'epoch': 1.2864077669902914}
214
+ Step: 1064 {'loss': 0.1039, 'grad_norm': 0.701691746711731, 'learning_rate': 1.7856644417475728e-05, 'epoch': 1.2924757281553398}
215
+ Step: 1069 {'loss': 0.117, 'grad_norm': 0.7710168361663818, 'learning_rate': 1.7846581715210356e-05, 'epoch': 1.2985436893203883}
216
+ Step: 1074 {'loss': 0.1397, 'grad_norm': 0.6753209233283997, 'learning_rate': 1.7836519012944984e-05, 'epoch': 1.3046116504854368}
217
+ Step: 1079 {'loss': 0.1394, 'grad_norm': 0.36849233508110046, 'learning_rate': 1.7826456310679616e-05, 'epoch': 1.3106796116504853}
218
+ Step: 1084 {'loss': 0.1079, 'grad_norm': 0.4378155767917633, 'learning_rate': 1.781639360841424e-05, 'epoch': 1.316747572815534}
219
+ Step: 1089 {'loss': 0.0959, 'grad_norm': 0.43888235092163086, 'learning_rate': 1.780633090614887e-05, 'epoch': 1.3228155339805825}
220
+ Step: 1094 {'loss': 0.1593, 'grad_norm': 0.8900315761566162, 'learning_rate': 1.7796268203883497e-05, 'epoch': 1.328883495145631}
221
+ Step: 1099 {'loss': 0.1012, 'grad_norm': 0.851194441318512, 'learning_rate': 1.7786205501618125e-05, 'epoch': 1.3349514563106797}
222
+ Step: 1104 {'loss': 0.1675, 'grad_norm': 0.9292075037956238, 'learning_rate': 1.777614279935275e-05, 'epoch': 1.3410194174757282}
223
+ Step: 1109 {'loss': 0.1137, 'grad_norm': 0.7087326049804688, 'learning_rate': 1.776608009708738e-05, 'epoch': 1.3470873786407767}
224
+ Step: 1114 {'loss': 0.1232, 'grad_norm': 0.6893958449363708, 'learning_rate': 1.7756017394822007e-05, 'epoch': 1.3531553398058254}
225
+ Step: 1119 {'loss': 0.1155, 'grad_norm': 0.7057533264160156, 'learning_rate': 1.7745954692556635e-05, 'epoch': 1.3592233009708738}
226
+ Step: 1124 {'loss': 0.1088, 'grad_norm': 0.5623441934585571, 'learning_rate': 1.7735891990291263e-05, 'epoch': 1.3652912621359223}
227
+ Step: 1129 {'loss': 0.1152, 'grad_norm': 0.5360366106033325, 'learning_rate': 1.772582928802589e-05, 'epoch': 1.3713592233009708}
228
+ Step: 1134 {'loss': 0.1204, 'grad_norm': 0.88251793384552, 'learning_rate': 1.771576658576052e-05, 'epoch': 1.3774271844660193}
229
+ Step: 1139 {'loss': 0.1313, 'grad_norm': 0.5644915103912354, 'learning_rate': 1.7705703883495148e-05, 'epoch': 1.383495145631068}
230
+ Step: 1144 {'loss': 0.1446, 'grad_norm': 0.7582706212997437, 'learning_rate': 1.7695641181229776e-05, 'epoch': 1.3895631067961165}
231
+ Step: 1149 {'loss': 0.1203, 'grad_norm': 0.6705114245414734, 'learning_rate': 1.7685578478964404e-05, 'epoch': 1.395631067961165}
232
+ Step: 1154 {'loss': 0.1034, 'grad_norm': 0.530653178691864, 'learning_rate': 1.767551577669903e-05, 'epoch': 1.4016990291262137}
233
+ Step: 1159 {'loss': 0.1139, 'grad_norm': 0.4772796034812927, 'learning_rate': 1.7665453074433657e-05, 'epoch': 1.4077669902912622}
234
+ Step: 1164 {'loss': 0.1421, 'grad_norm': 0.6687723398208618, 'learning_rate': 1.7655390372168286e-05, 'epoch': 1.4138349514563107}
235
+ Step: 1169 {'loss': 0.1089, 'grad_norm': 0.6435022354125977, 'learning_rate': 1.7645327669902914e-05, 'epoch': 1.4199029126213591}
236
+ Step: 1174 {'loss': 0.1402, 'grad_norm': 0.49701082706451416, 'learning_rate': 1.7635264967637542e-05, 'epoch': 1.4259708737864076}
237
+ Step: 1179 {'loss': 0.1512, 'grad_norm': 0.7331725358963013, 'learning_rate': 1.762520226537217e-05, 'epoch': 1.4320388349514563}
238
+ Step: 1184 {'loss': 0.116, 'grad_norm': 0.5977991819381714, 'learning_rate': 1.76151395631068e-05, 'epoch': 1.4381067961165048}
239
+ Step: 1189 {'loss': 0.1158, 'grad_norm': 0.5300652980804443, 'learning_rate': 1.7605076860841427e-05, 'epoch': 1.4441747572815533}
240
+ Step: 1194 {'loss': 0.0974, 'grad_norm': 0.7383504509925842, 'learning_rate': 1.7595014158576055e-05, 'epoch': 1.450242718446602}
241
+ Step: 1199 {'loss': 0.1359, 'grad_norm': 0.744170606136322, 'learning_rate': 1.7584951456310683e-05, 'epoch': 1.4563106796116505}
242
+ Step: 1204 {'loss': 0.1472, 'grad_norm': 0.650635838508606, 'learning_rate': 1.757488875404531e-05, 'epoch': 1.462378640776699}
243
+ Step: 1209 {'loss': 0.1412, 'grad_norm': 0.78676438331604, 'learning_rate': 1.7564826051779937e-05, 'epoch': 1.4684466019417477}
244
+ Step: 1214 {'loss': 0.1249, 'grad_norm': 0.6286287903785706, 'learning_rate': 1.7554763349514565e-05, 'epoch': 1.4745145631067962}
245
+ Step: 1219 {'loss': 0.1414, 'grad_norm': 0.6514394879341125, 'learning_rate': 1.7544700647249193e-05, 'epoch': 1.4805825242718447}
246
+ Step: 1224 {'loss': 0.1075, 'grad_norm': 0.5065737366676331, 'learning_rate': 1.753463794498382e-05, 'epoch': 1.4866504854368932}
247
+ Step: 1229 {'loss': 0.1049, 'grad_norm': 0.6848370432853699, 'learning_rate': 1.7524575242718446e-05, 'epoch': 1.4927184466019416}
248
+ Step: 1234 {'loss': 0.1457, 'grad_norm': 0.8098088502883911, 'learning_rate': 1.7514512540453074e-05, 'epoch': 1.4987864077669903}
249
+ Step: 1239 {'loss': 0.1156, 'grad_norm': 0.4154895544052124, 'learning_rate': 1.7504449838187703e-05, 'epoch': 1.5048543689320388}
250
+ Step: 1244 {'loss': 0.1061, 'grad_norm': 0.49875113368034363, 'learning_rate': 1.749438713592233e-05, 'epoch': 1.5109223300970873}
251
+ Step: 1249 {'loss': 0.1609, 'grad_norm': 0.583534300327301, 'learning_rate': 1.748432443365696e-05, 'epoch': 1.516990291262136}
252
+ Step: 1254 {'loss': 0.1364, 'grad_norm': 0.53713458776474, 'learning_rate': 1.7474261731391587e-05, 'epoch': 1.5230582524271845}
253
+ Step: 1259 {'loss': 0.1166, 'grad_norm': 0.7092427611351013, 'learning_rate': 1.7464199029126216e-05, 'epoch': 1.529126213592233}
254
+ Step: 1264 {'loss': 0.1124, 'grad_norm': 0.5188352465629578, 'learning_rate': 1.7454136326860844e-05, 'epoch': 1.5351941747572817}
255
+ Step: 1269 {'loss': 0.156, 'grad_norm': 0.7542428374290466, 'learning_rate': 1.744407362459547e-05, 'epoch': 1.54126213592233}
256
+ Step: 1274 {'loss': 0.1448, 'grad_norm': 0.6237137317657471, 'learning_rate': 1.7434010922330097e-05, 'epoch': 1.5473300970873787}
257
+ Step: 1279 {'loss': 0.1197, 'grad_norm': 0.5381315350532532, 'learning_rate': 1.7423948220064725e-05, 'epoch': 1.5533980582524272}
258
+ Step: 1284 {'loss': 0.0949, 'grad_norm': 0.36517134308815, 'learning_rate': 1.7413885517799354e-05, 'epoch': 1.5594660194174756}
259
+ Step: 1289 {'loss': 0.1802, 'grad_norm': 0.7636951208114624, 'learning_rate': 1.7403822815533982e-05, 'epoch': 1.5655339805825244}
260
+ Step: 1294 {'loss': 0.1199, 'grad_norm': 0.6434131860733032, 'learning_rate': 1.739376011326861e-05, 'epoch': 1.5716019417475728}
261
+ Step: 1299 {'loss': 0.1031, 'grad_norm': 0.6352807283401489, 'learning_rate': 1.738369741100324e-05, 'epoch': 1.5776699029126213}
262
+ Step: 1304 {'loss': 0.1268, 'grad_norm': 0.779771089553833, 'learning_rate': 1.7373634708737867e-05, 'epoch': 1.58373786407767}
263
+ Step: 1309 {'loss': 0.1377, 'grad_norm': 0.754250705242157, 'learning_rate': 1.7363572006472495e-05, 'epoch': 1.5898058252427183}
264
+ Step: 1314 {'loss': 0.1904, 'grad_norm': 0.6735643148422241, 'learning_rate': 1.7353509304207123e-05, 'epoch': 1.595873786407767}
265
+ Step: 1319 {'loss': 0.1226, 'grad_norm': 0.9120863676071167, 'learning_rate': 1.7343446601941748e-05, 'epoch': 1.6019417475728155}
266
+ Step: 1324 {'loss': 0.1679, 'grad_norm': 0.625551700592041, 'learning_rate': 1.7333383899676376e-05, 'epoch': 1.608009708737864}
267
+ Step: 1329 {'loss': 0.1594, 'grad_norm': 0.9033403992652893, 'learning_rate': 1.7323321197411004e-05, 'epoch': 1.6140776699029127}
268
+ Step: 1334 {'loss': 0.0856, 'grad_norm': 0.5672329664230347, 'learning_rate': 1.7313258495145633e-05, 'epoch': 1.6201456310679612}
269
+ Step: 1339 {'loss': 0.1319, 'grad_norm': 0.56348717212677, 'learning_rate': 1.730319579288026e-05, 'epoch': 1.6262135922330097}
270
+ Step: 1344 {'loss': 0.1304, 'grad_norm': 1.2449568510055542, 'learning_rate': 1.7293133090614886e-05, 'epoch': 1.6322815533980584}
271
+ Step: 1349 {'loss': 0.1131, 'grad_norm': 0.4424305856227875, 'learning_rate': 1.7283070388349514e-05, 'epoch': 1.6383495145631068}
272
+ Step: 1354 {'loss': 0.1061, 'grad_norm': 0.4486583173274994, 'learning_rate': 1.7273007686084142e-05, 'epoch': 1.6444174757281553}
273
+ Step: 1359 {'loss': 0.1358, 'grad_norm': 0.7814309000968933, 'learning_rate': 1.726294498381877e-05, 'epoch': 1.650485436893204}
274
+ Step: 1364 {'loss': 0.1108, 'grad_norm': 0.6203411221504211, 'learning_rate': 1.72528822815534e-05, 'epoch': 1.6565533980582523}
275
+ Step: 1369 {'loss': 0.1443, 'grad_norm': 0.8268014788627625, 'learning_rate': 1.7242819579288027e-05, 'epoch': 1.662621359223301}
276
+ Step: 1374 {'loss': 0.128, 'grad_norm': 0.6406380534172058, 'learning_rate': 1.7232756877022655e-05, 'epoch': 1.6686893203883495}
277
+ Step: 1379 {'loss': 0.1238, 'grad_norm': 0.5297594666481018, 'learning_rate': 1.7222694174757284e-05, 'epoch': 1.674757281553398}
278
+ Step: 1384 {'loss': 0.1011, 'grad_norm': 0.619581401348114, 'learning_rate': 1.7212631472491912e-05, 'epoch': 1.6808252427184467}
279
+ Step: 1389 {'loss': 0.1244, 'grad_norm': 0.6402854919433594, 'learning_rate': 1.720256877022654e-05, 'epoch': 1.6868932038834952}
280
+ Step: 1394 {'loss': 0.1515, 'grad_norm': 0.6882646083831787, 'learning_rate': 1.7192506067961165e-05, 'epoch': 1.6929611650485437}
281
+ Step: 1399 {'loss': 0.1474, 'grad_norm': 0.8011645674705505, 'learning_rate': 1.7182443365695793e-05, 'epoch': 1.6990291262135924}
282
+ Step: 1404 {'loss': 0.1262, 'grad_norm': 0.6525002717971802, 'learning_rate': 1.717238066343042e-05, 'epoch': 1.7050970873786406}
283
+ Step: 1409 {'loss': 0.1273, 'grad_norm': 0.6492709517478943, 'learning_rate': 1.716231796116505e-05, 'epoch': 1.7111650485436893}
284
+ Step: 1414 {'loss': 0.1196, 'grad_norm': 0.5450489521026611, 'learning_rate': 1.7152255258899678e-05, 'epoch': 1.7172330097087378}
285
+ Step: 1419 {'loss': 0.0935, 'grad_norm': 0.4175277650356293, 'learning_rate': 1.7142192556634306e-05, 'epoch': 1.7233009708737863}
286
+ Step: 1424 {'loss': 0.0949, 'grad_norm': 0.4876457452774048, 'learning_rate': 1.7132129854368934e-05, 'epoch': 1.729368932038835}
287
+ Step: 1429 {'loss': 0.0883, 'grad_norm': 0.5094587802886963, 'learning_rate': 1.7122067152103563e-05, 'epoch': 1.7354368932038835}
288
+ Step: 1434 {'loss': 0.1107, 'grad_norm': 0.6076750159263611, 'learning_rate': 1.711200444983819e-05, 'epoch': 1.741504854368932}
289
+ Step: 1439 {'loss': 0.0955, 'grad_norm': 0.5776345729827881, 'learning_rate': 1.710194174757282e-05, 'epoch': 1.7475728155339807}
290
+ Step: 1444 {'loss': 0.1166, 'grad_norm': 0.5101337432861328, 'learning_rate': 1.7091879045307444e-05, 'epoch': 1.7536407766990292}
291
+ Step: 1449 {'loss': 0.1309, 'grad_norm': 0.6769804954528809, 'learning_rate': 1.7081816343042072e-05, 'epoch': 1.7597087378640777}
292
+ Step: 1454 {'loss': 0.1101, 'grad_norm': 0.6718364953994751, 'learning_rate': 1.70717536407767e-05, 'epoch': 1.7657766990291264}
293
+ Step: 1459 {'loss': 0.1484, 'grad_norm': 0.6157119870185852, 'learning_rate': 1.7061690938511325e-05, 'epoch': 1.7718446601941746}
294
+ Step: 1464 {'loss': 0.1121, 'grad_norm': 0.5538491010665894, 'learning_rate': 1.7051628236245954e-05, 'epoch': 1.7779126213592233}
295
+ Step: 1469 {'loss': 0.139, 'grad_norm': 0.7286614775657654, 'learning_rate': 1.7041565533980582e-05, 'epoch': 1.7839805825242718}
296
+ Step: 1474 {'loss': 0.1274, 'grad_norm': 0.6684991717338562, 'learning_rate': 1.703150283171521e-05, 'epoch': 1.7900485436893203}
297
+ Step: 1479 {'loss': 0.1375, 'grad_norm': 0.6562817692756653, 'learning_rate': 1.702144012944984e-05, 'epoch': 1.796116504854369}
298
+ Step: 1484 {'loss': 0.1362, 'grad_norm': 0.5085164308547974, 'learning_rate': 1.7011377427184467e-05, 'epoch': 1.8021844660194175}
299
+ Step: 1489 {'loss': 0.1027, 'grad_norm': 0.7918286323547363, 'learning_rate': 1.7001314724919095e-05, 'epoch': 1.808252427184466}
300
+ Step: 1494 {'loss': 0.1272, 'grad_norm': 0.910853385925293, 'learning_rate': 1.6991252022653723e-05, 'epoch': 1.8143203883495147}
301
+ Step: 1499 {'loss': 0.1779, 'grad_norm': 0.6984658241271973, 'learning_rate': 1.698118932038835e-05, 'epoch': 1.820388349514563}
302
+ Step: 1504 {'loss': 0.0977, 'grad_norm': 0.8343325853347778, 'learning_rate': 1.697112661812298e-05, 'epoch': 1.8264563106796117}
303
+ Step: 1509 {'loss': 0.1077, 'grad_norm': 0.5248911380767822, 'learning_rate': 1.6961063915857605e-05, 'epoch': 1.8325242718446602}
304
+ Step: 1514 {'loss': 0.1277, 'grad_norm': 0.7558386921882629, 'learning_rate': 1.6951001213592233e-05, 'epoch': 1.8385922330097086}
305
+ Step: 1519 {'loss': 0.128, 'grad_norm': 0.7445605397224426, 'learning_rate': 1.694093851132686e-05, 'epoch': 1.8446601941747574}
306
+ Step: 1524 {'loss': 0.1387, 'grad_norm': 0.6882188320159912, 'learning_rate': 1.693087580906149e-05, 'epoch': 1.8507281553398058}
307
+ Step: 1529 {'loss': 0.1503, 'grad_norm': 0.6704742908477783, 'learning_rate': 1.6920813106796118e-05, 'epoch': 1.8567961165048543}
308
+ Step: 1534 {'loss': 0.104, 'grad_norm': 0.7414402961730957, 'learning_rate': 1.6910750404530746e-05, 'epoch': 1.862864077669903}
309
+ Step: 1539 {'loss': 0.1144, 'grad_norm': 0.7968094348907471, 'learning_rate': 1.6900687702265374e-05, 'epoch': 1.8689320388349513}
310
+ Step: 1544 {'loss': 0.1346, 'grad_norm': 0.607425332069397, 'learning_rate': 1.6890625000000002e-05, 'epoch': 1.875}
311
+ Step: 1549 {'loss': 0.1369, 'grad_norm': 0.8049553036689758, 'learning_rate': 1.688056229773463e-05, 'epoch': 1.8810679611650487}
312
+ Step: 1554 {'loss': 0.1181, 'grad_norm': 0.8162063360214233, 'learning_rate': 1.687049959546926e-05, 'epoch': 1.887135922330097}
313
+ Step: 1559 {'loss': 0.1054, 'grad_norm': 0.5779040455818176, 'learning_rate': 1.6860436893203884e-05, 'epoch': 1.8932038834951457}
314
+ Step: 1564 {'loss': 0.1457, 'grad_norm': 0.9011325836181641, 'learning_rate': 1.6850374190938512e-05, 'epoch': 1.8992718446601942}
315
+ Step: 1569 {'loss': 0.1145, 'grad_norm': 0.5248551964759827, 'learning_rate': 1.684031148867314e-05, 'epoch': 1.9053398058252426}
316
+ Step: 1574 {'loss': 0.12, 'grad_norm': 0.605877161026001, 'learning_rate': 1.683024878640777e-05, 'epoch': 1.9114077669902914}
317
+ Step: 1579 {'loss': 0.1195, 'grad_norm': 0.4927634596824646, 'learning_rate': 1.6820186084142397e-05, 'epoch': 1.9174757281553398}
318
+ Step: 1584 {'loss': 0.14, 'grad_norm': 0.6430996656417847, 'learning_rate': 1.681012338187702e-05, 'epoch': 1.9235436893203883}
319
+ Step: 1589 {'loss': 0.1332, 'grad_norm': 0.6640208959579468, 'learning_rate': 1.6800060679611653e-05, 'epoch': 1.929611650485437}
320
+ Step: 1594 {'loss': 0.1149, 'grad_norm': 0.8645540475845337, 'learning_rate': 1.678999797734628e-05, 'epoch': 1.9356796116504853}
321
+ Step: 1599 {'loss': 0.1252, 'grad_norm': 0.5385764837265015, 'learning_rate': 1.677993527508091e-05, 'epoch': 1.941747572815534}
322
+ Step: 1604 {'loss': 0.1324, 'grad_norm': 0.6181178689002991, 'learning_rate': 1.6769872572815538e-05, 'epoch': 1.9478155339805825}
323
+ Step: 1609 {'loss': 0.1242, 'grad_norm': 0.8106412887573242, 'learning_rate': 1.6759809870550163e-05, 'epoch': 1.953883495145631}
324
+ Step: 1614 {'loss': 0.1065, 'grad_norm': 0.5509461164474487, 'learning_rate': 1.674974716828479e-05, 'epoch': 1.9599514563106797}
325
+ Step: 1619 {'loss': 0.1393, 'grad_norm': 0.5929784774780273, 'learning_rate': 1.673968446601942e-05, 'epoch': 1.9660194174757282}
326
+ Step: 1624 {'loss': 0.0828, 'grad_norm': 0.6785510778427124, 'learning_rate': 1.6729621763754048e-05, 'epoch': 1.9720873786407767}
327
+ Step: 1629 {'loss': 0.1238, 'grad_norm': 0.7034130096435547, 'learning_rate': 1.6719559061488676e-05, 'epoch': 1.9781553398058254}
328
+ Step: 1634 {'loss': 0.1089, 'grad_norm': 0.6833853721618652, 'learning_rate': 1.67094963592233e-05, 'epoch': 1.9842233009708736}
329
+ Step: 1639 {'loss': 0.0864, 'grad_norm': 0.5090553164482117, 'learning_rate': 1.669943365695793e-05, 'epoch': 1.9902912621359223}
330
+ Step: 1644 {'loss': 0.1123, 'grad_norm': 0.6346866488456726, 'learning_rate': 1.6689370954692557e-05, 'epoch': 1.9963592233009708}
331
+ Step: 1649 {'loss': 0.1071, 'grad_norm': 0.4755611717700958, 'learning_rate': 1.6679308252427185e-05, 'epoch': 2.0024271844660193}
332
+ Step: 1654 {'loss': 0.0691, 'grad_norm': 0.3183567225933075, 'learning_rate': 1.6669245550161814e-05, 'epoch': 2.008495145631068}
333
+ Step: 1659 {'loss': 0.0852, 'grad_norm': 0.2520294487476349, 'learning_rate': 1.6659182847896442e-05, 'epoch': 2.0145631067961167}
334
+ Step: 1664 {'loss': 0.0892, 'grad_norm': 0.7312373518943787, 'learning_rate': 1.664912014563107e-05, 'epoch': 2.020631067961165}
335
+ Step: 1669 {'loss': 0.0675, 'grad_norm': 0.2993949353694916, 'learning_rate': 1.66390574433657e-05, 'epoch': 2.0266990291262137}
336
+ Step: 1674 {'loss': 0.0797, 'grad_norm': 0.39580246806144714, 'learning_rate': 1.6628994741100323e-05, 'epoch': 2.032766990291262}
337
+ Step: 1679 {'loss': 0.0725, 'grad_norm': 0.4138758182525635, 'learning_rate': 1.661893203883495e-05, 'epoch': 2.0388349514563107}
338
+ Step: 1684 {'loss': 0.083, 'grad_norm': 0.5755720734596252, 'learning_rate': 1.660886933656958e-05, 'epoch': 2.0449029126213594}
339
+ Step: 1689 {'loss': 0.0883, 'grad_norm': 0.5876352787017822, 'learning_rate': 1.6598806634304208e-05, 'epoch': 2.0509708737864076}
340
+ Step: 1694 {'loss': 0.0637, 'grad_norm': 0.35440874099731445, 'learning_rate': 1.6588743932038836e-05, 'epoch': 2.0570388349514563}
341
+ Step: 1699 {'loss': 0.0756, 'grad_norm': 0.4504269063472748, 'learning_rate': 1.6578681229773465e-05, 'epoch': 2.063106796116505}
342
+ Step: 1704 {'loss': 0.0815, 'grad_norm': 0.47848960757255554, 'learning_rate': 1.6568618527508093e-05, 'epoch': 2.0691747572815533}
343
+ Step: 1709 {'loss': 0.0864, 'grad_norm': 0.41509321331977844, 'learning_rate': 1.655855582524272e-05, 'epoch': 2.075242718446602}
344
+ Step: 1714 {'loss': 0.0767, 'grad_norm': 0.6450930237770081, 'learning_rate': 1.654849312297735e-05, 'epoch': 2.0813106796116503}
345
+ Step: 1719 {'loss': 0.0721, 'grad_norm': 0.44495102763175964, 'learning_rate': 1.6538430420711978e-05, 'epoch': 2.087378640776699}
346
+ Step: 1724 {'loss': 0.0888, 'grad_norm': 0.5904701352119446, 'learning_rate': 1.6528367718446602e-05, 'epoch': 2.0934466019417477}
347
+ Step: 1729 {'loss': 0.0771, 'grad_norm': 0.4810492694377899, 'learning_rate': 1.651830501618123e-05, 'epoch': 2.099514563106796}
348
+ Step: 1734 {'loss': 0.0654, 'grad_norm': 0.4963434040546417, 'learning_rate': 1.650824231391586e-05, 'epoch': 2.1055825242718447}
349
+ Step: 1739 {'loss': 0.0716, 'grad_norm': 0.6018524169921875, 'learning_rate': 1.6498179611650487e-05, 'epoch': 2.1116504854368934}
350
+ Step: 1744 {'loss': 0.0702, 'grad_norm': 0.8312687277793884, 'learning_rate': 1.6488116909385115e-05, 'epoch': 2.1177184466019416}
351
+ Step: 1749 {'loss': 0.0789, 'grad_norm': 0.4941818416118622, 'learning_rate': 1.647805420711974e-05, 'epoch': 2.1237864077669903}
352
+ Step: 1754 {'loss': 0.0842, 'grad_norm': 0.637101411819458, 'learning_rate': 1.646799150485437e-05, 'epoch': 2.1298543689320386}
353
+ Step: 1759 {'loss': 0.0579, 'grad_norm': 0.30323526263237, 'learning_rate': 1.6457928802588997e-05, 'epoch': 2.1359223300970873}
354
+ Step: 1764 {'loss': 0.0732, 'grad_norm': 0.6359590291976929, 'learning_rate': 1.6447866100323625e-05, 'epoch': 2.141990291262136}
355
+ Step: 1769 {'loss': 0.049, 'grad_norm': 0.4601116478443146, 'learning_rate': 1.6437803398058253e-05, 'epoch': 2.1480582524271843}
356
+ Step: 1774 {'loss': 0.0886, 'grad_norm': 0.6472336649894714, 'learning_rate': 1.642774069579288e-05, 'epoch': 2.154126213592233}
357
+ Step: 1779 {'loss': 0.0716, 'grad_norm': 0.6910414695739746, 'learning_rate': 1.641767799352751e-05, 'epoch': 2.1601941747572817}
358
+ Step: 1784 {'loss': 0.0704, 'grad_norm': 0.3597729504108429, 'learning_rate': 1.6407615291262138e-05, 'epoch': 2.16626213592233}
359
+ Step: 1789 {'loss': 0.0749, 'grad_norm': 0.6749477982521057, 'learning_rate': 1.6397552588996766e-05, 'epoch': 2.1723300970873787}
360
+ Step: 1794 {'loss': 0.0784, 'grad_norm': 0.4296623170375824, 'learning_rate': 1.6387489886731394e-05, 'epoch': 2.1783980582524274}
361
+ Step: 1799 {'loss': 0.063, 'grad_norm': 0.3789113163948059, 'learning_rate': 1.637742718446602e-05, 'epoch': 2.1844660194174756}
362
+ Step: 1804 {'loss': 0.0595, 'grad_norm': 0.3381759822368622, 'learning_rate': 1.6367364482200648e-05, 'epoch': 2.1905339805825244}
363
+ Step: 1809 {'loss': 0.0803, 'grad_norm': 0.4951162040233612, 'learning_rate': 1.6357301779935276e-05, 'epoch': 2.1966019417475726}
364
+ Step: 1814 {'loss': 0.0812, 'grad_norm': 0.6488056778907776, 'learning_rate': 1.6347239077669904e-05, 'epoch': 2.2026699029126213}
365
+ Step: 1819 {'loss': 0.0887, 'grad_norm': 0.5989533066749573, 'learning_rate': 1.6337176375404532e-05, 'epoch': 2.20873786407767}
366
+ Step: 1824 {'loss': 0.0776, 'grad_norm': 0.446074515581131, 'learning_rate': 1.632711367313916e-05, 'epoch': 2.2148058252427183}
367
+ Step: 1829 {'loss': 0.0719, 'grad_norm': 0.4697136878967285, 'learning_rate': 1.631705097087379e-05, 'epoch': 2.220873786407767}
368
+ Step: 1834 {'loss': 0.0802, 'grad_norm': 0.6612656116485596, 'learning_rate': 1.6306988268608417e-05, 'epoch': 2.2269417475728157}
369
+ Step: 1839 {'loss': 0.0767, 'grad_norm': 0.38496431708335876, 'learning_rate': 1.6296925566343042e-05, 'epoch': 2.233009708737864}
370
+ Step: 1844 {'loss': 0.0761, 'grad_norm': 0.5394158959388733, 'learning_rate': 1.6286862864077674e-05, 'epoch': 2.2390776699029127}
371
+ Step: 1849 {'loss': 0.0847, 'grad_norm': 0.43793153762817383, 'learning_rate': 1.62768001618123e-05, 'epoch': 2.2451456310679614}
372
+ Step: 1854 {'loss': 0.0871, 'grad_norm': 0.9172083139419556, 'learning_rate': 1.6266737459546927e-05, 'epoch': 2.2512135922330097}
373
+ Step: 1859 {'loss': 0.0779, 'grad_norm': 0.5476963520050049, 'learning_rate': 1.6256674757281555e-05, 'epoch': 2.2572815533980584}
374
+ Step: 1864 {'loss': 0.065, 'grad_norm': 0.31049221754074097, 'learning_rate': 1.624661205501618e-05, 'epoch': 2.2633495145631066}
375
+ Step: 1869 {'loss': 0.0621, 'grad_norm': 0.3588782548904419, 'learning_rate': 1.6236549352750808e-05, 'epoch': 2.2694174757281553}
376
+ Step: 1874 {'loss': 0.0825, 'grad_norm': 0.4161442518234253, 'learning_rate': 1.6226486650485436e-05, 'epoch': 2.275485436893204}
377
+ Step: 1879 {'loss': 0.0936, 'grad_norm': 0.5958337187767029, 'learning_rate': 1.6216423948220065e-05, 'epoch': 2.2815533980582523}
378
+ Step: 1884 {'loss': 0.0664, 'grad_norm': 0.25248730182647705, 'learning_rate': 1.6206361245954693e-05, 'epoch': 2.287621359223301}
379
+ Step: 1889 {'loss': 0.0634, 'grad_norm': 0.5073704123497009, 'learning_rate': 1.619629854368932e-05, 'epoch': 2.2936893203883493}
380
+ Step: 1894 {'loss': 0.0642, 'grad_norm': 0.6632219552993774, 'learning_rate': 1.618623584142395e-05, 'epoch': 2.299757281553398}
381
+ Step: 1899 {'loss': 0.0595, 'grad_norm': 0.5878047347068787, 'learning_rate': 1.6176173139158578e-05, 'epoch': 2.3058252427184467}
382
+ Step: 1904 {'loss': 0.0731, 'grad_norm': 0.42657145857810974, 'learning_rate': 1.6166110436893206e-05, 'epoch': 2.311893203883495}
383
+ Step: 1909 {'loss': 0.0688, 'grad_norm': 0.5445041656494141, 'learning_rate': 1.6156047734627834e-05, 'epoch': 2.3179611650485437}
384
+ Step: 1914 {'loss': 0.0712, 'grad_norm': 0.3492489159107208, 'learning_rate': 1.614598503236246e-05, 'epoch': 2.3240291262135924}
385
+ Step: 1919 {'loss': 0.0611, 'grad_norm': 0.2730669677257538, 'learning_rate': 1.6135922330097087e-05, 'epoch': 2.3300970873786406}
386
+ Step: 1924 {'loss': 0.0755, 'grad_norm': 0.5298206210136414, 'learning_rate': 1.6125859627831715e-05, 'epoch': 2.3361650485436893}
387
+ Step: 1929 {'loss': 0.0663, 'grad_norm': 0.5032272934913635, 'learning_rate': 1.6115796925566344e-05, 'epoch': 2.342233009708738}
388
+ Step: 1934 {'loss': 0.1014, 'grad_norm': 0.4381330907344818, 'learning_rate': 1.6105734223300972e-05, 'epoch': 2.3483009708737863}
389
+ Step: 1939 {'loss': 0.0695, 'grad_norm': 0.5921576023101807, 'learning_rate': 1.60956715210356e-05, 'epoch': 2.354368932038835}
390
+ Step: 1944 {'loss': 0.0864, 'grad_norm': 0.5939043760299683, 'learning_rate': 1.608560881877023e-05, 'epoch': 2.3604368932038833}
391
+ Step: 1949 {'loss': 0.0792, 'grad_norm': 0.5824753046035767, 'learning_rate': 1.6075546116504857e-05, 'epoch': 2.366504854368932}
392
+ Step: 1954 {'loss': 0.0803, 'grad_norm': 0.39050862193107605, 'learning_rate': 1.6065483414239485e-05, 'epoch': 2.3725728155339807}
393
+ Step: 1959 {'loss': 0.0792, 'grad_norm': 0.3606078326702118, 'learning_rate': 1.6055420711974113e-05, 'epoch': 2.378640776699029}
394
+ Step: 1964 {'loss': 0.074, 'grad_norm': 0.5027792453765869, 'learning_rate': 1.6045358009708738e-05, 'epoch': 2.3847087378640777}
395
+ Step: 1969 {'loss': 0.063, 'grad_norm': 0.5392823815345764, 'learning_rate': 1.6035295307443366e-05, 'epoch': 2.3907766990291264}
396
+ Step: 1974 {'loss': 0.0828, 'grad_norm': 0.5268645286560059, 'learning_rate': 1.6025232605177995e-05, 'epoch': 2.3968446601941746}
397
+ Step: 1979 {'loss': 0.0902, 'grad_norm': 0.5775550603866577, 'learning_rate': 1.6015169902912623e-05, 'epoch': 2.4029126213592233}
398
+ Step: 1984 {'loss': 0.0735, 'grad_norm': 0.5618579387664795, 'learning_rate': 1.600510720064725e-05, 'epoch': 2.408980582524272}
399
+ Step: 1989 {'loss': 0.0626, 'grad_norm': 0.5404655933380127, 'learning_rate': 1.5995044498381876e-05, 'epoch': 2.4150485436893203}
400
+ Step: 1994 {'loss': 0.0778, 'grad_norm': 0.551922082901001, 'learning_rate': 1.5984981796116504e-05, 'epoch': 2.421116504854369}
401
+ Step: 1999 {'loss': 0.0801, 'grad_norm': 0.5168723464012146, 'learning_rate': 1.5974919093851132e-05, 'epoch': 2.4271844660194173}
402
+ Step: 2004 {'loss': 0.084, 'grad_norm': 0.3967045247554779, 'learning_rate': 1.5964856391585764e-05, 'epoch': 2.433252427184466}
403
+ Step: 2009 {'loss': 0.0614, 'grad_norm': 0.4551352858543396, 'learning_rate': 1.5954793689320392e-05, 'epoch': 2.4393203883495147}
404
+ Step: 2014 {'loss': 0.0735, 'grad_norm': 0.3566238582134247, 'learning_rate': 1.5944730987055017e-05, 'epoch': 2.445388349514563}
405
+ Step: 2019 {'loss': 0.086, 'grad_norm': 0.543429434299469, 'learning_rate': 1.5934668284789645e-05, 'epoch': 2.4514563106796117}
406
+ Step: 2024 {'loss': 0.0783, 'grad_norm': 0.3498842716217041, 'learning_rate': 1.5924605582524274e-05, 'epoch': 2.4575242718446604}
407
+ Step: 2029 {'loss': 0.0748, 'grad_norm': 0.3434104025363922, 'learning_rate': 1.59145428802589e-05, 'epoch': 2.4635922330097086}
408
+ Step: 2034 {'loss': 0.0679, 'grad_norm': 0.4279646873474121, 'learning_rate': 1.590448017799353e-05, 'epoch': 2.4696601941747574}
409
+ Step: 2039 {'loss': 0.0886, 'grad_norm': 0.4028267562389374, 'learning_rate': 1.5894417475728155e-05, 'epoch': 2.475728155339806}
410
+ Step: 2044 {'loss': 0.0888, 'grad_norm': 0.4728042185306549, 'learning_rate': 1.5884354773462783e-05, 'epoch': 2.4817961165048543}
411
+ Step: 2049 {'loss': 0.0821, 'grad_norm': 0.5963941812515259, 'learning_rate': 1.587429207119741e-05, 'epoch': 2.487864077669903}
412
+ Step: 2054 {'loss': 0.0625, 'grad_norm': 0.33480796217918396, 'learning_rate': 1.586422936893204e-05, 'epoch': 2.4939320388349513}
413
+ Step: 2059 {'loss': 0.0849, 'grad_norm': 0.36862248182296753, 'learning_rate': 1.5854166666666668e-05, 'epoch': 2.5}
414
+ Step: 2064 {'loss': 0.0724, 'grad_norm': 0.35207563638687134, 'learning_rate': 1.5844103964401296e-05, 'epoch': 2.5060679611650487}
415
+ Step: 2069 {'loss': 0.0802, 'grad_norm': 0.3993203341960907, 'learning_rate': 1.5834041262135925e-05, 'epoch': 2.512135922330097}
416
+ Step: 2074 {'loss': 0.066, 'grad_norm': 0.3539300560951233, 'learning_rate': 1.5823978559870553e-05, 'epoch': 2.5182038834951457}
417
+ Step: 2079 {'loss': 0.0717, 'grad_norm': 0.5251950621604919, 'learning_rate': 1.5813915857605178e-05, 'epoch': 2.524271844660194}
418
+ Step: 2084 {'loss': 0.0763, 'grad_norm': 0.38251036405563354, 'learning_rate': 1.5803853155339806e-05, 'epoch': 2.5303398058252426}
419
+ Step: 2089 {'loss': 0.0761, 'grad_norm': 0.4829709827899933, 'learning_rate': 1.5793790453074434e-05, 'epoch': 2.5364077669902914}
420
+ Step: 2094 {'loss': 0.0836, 'grad_norm': 0.4945363700389862, 'learning_rate': 1.5783727750809062e-05, 'epoch': 2.54247572815534}
421
+ Step: 2099 {'loss': 0.0924, 'grad_norm': 0.5502802133560181, 'learning_rate': 1.577366504854369e-05, 'epoch': 2.5485436893203883}
422
+ Step: 2104 {'loss': 0.0656, 'grad_norm': 0.6126424074172974, 'learning_rate': 1.576360234627832e-05, 'epoch': 2.554611650485437}
423
+ Step: 2109 {'loss': 0.0834, 'grad_norm': 0.5972371101379395, 'learning_rate': 1.5753539644012947e-05, 'epoch': 2.5606796116504853}
424
+ Step: 2114 {'loss': 0.062, 'grad_norm': 0.5009728670120239, 'learning_rate': 1.5743476941747575e-05, 'epoch': 2.566747572815534}
425
+ Step: 2119 {'loss': 0.0696, 'grad_norm': 0.7324998378753662, 'learning_rate': 1.5733414239482204e-05, 'epoch': 2.5728155339805827}
426
+ Step: 2124 {'loss': 0.0839, 'grad_norm': 0.6371392607688904, 'learning_rate': 1.5723351537216832e-05, 'epoch': 2.578883495145631}
427
+ Step: 2129 {'loss': 0.0767, 'grad_norm': 0.3903394043445587, 'learning_rate': 1.5713288834951457e-05, 'epoch': 2.5849514563106797}
428
+ Step: 2134 {'loss': 0.0646, 'grad_norm': 0.42618852853775024, 'learning_rate': 1.5703226132686085e-05, 'epoch': 2.591019417475728}
429
+ Step: 2139 {'loss': 0.0848, 'grad_norm': 0.49045124650001526, 'learning_rate': 1.5693163430420713e-05, 'epoch': 2.5970873786407767}
430
+ Step: 2144 {'loss': 0.0745, 'grad_norm': 0.5022423267364502, 'learning_rate': 1.568310072815534e-05, 'epoch': 2.6031553398058254}
431
+ Step: 2149 {'loss': 0.0855, 'grad_norm': 0.5711503624916077, 'learning_rate': 1.567303802588997e-05, 'epoch': 2.6092233009708736}
432
+ Step: 2154 {'loss': 0.071, 'grad_norm': 0.4068409204483032, 'learning_rate': 1.5662975323624595e-05, 'epoch': 2.6152912621359223}
433
+ Step: 2159 {'loss': 0.0835, 'grad_norm': 0.5842772722244263, 'learning_rate': 1.5652912621359223e-05, 'epoch': 2.6213592233009706}
434
+ Step: 2164 {'loss': 0.0696, 'grad_norm': 0.48267316818237305, 'learning_rate': 1.564284991909385e-05, 'epoch': 2.6274271844660193}
435
+ Step: 2169 {'loss': 0.0948, 'grad_norm': 0.57286137342453, 'learning_rate': 1.563278721682848e-05, 'epoch': 2.633495145631068}
436
+ Step: 2174 {'loss': 0.066, 'grad_norm': 0.5812405347824097, 'learning_rate': 1.5622724514563108e-05, 'epoch': 2.6395631067961167}
437
+ Step: 2179 {'loss': 0.0855, 'grad_norm': 0.5213007926940918, 'learning_rate': 1.5612661812297736e-05, 'epoch': 2.645631067961165}
438
+ Step: 2184 {'loss': 0.0873, 'grad_norm': 0.7589840292930603, 'learning_rate': 1.5602599110032364e-05, 'epoch': 2.6516990291262137}
439
+ Step: 2189 {'loss': 0.0733, 'grad_norm': 0.5363731384277344, 'learning_rate': 1.5592536407766992e-05, 'epoch': 2.657766990291262}
440
+ Step: 2194 {'loss': 0.0896, 'grad_norm': 0.86467045545578, 'learning_rate': 1.558247370550162e-05, 'epoch': 2.6638349514563107}
441
+ Step: 2199 {'loss': 0.0706, 'grad_norm': 0.5109805464744568, 'learning_rate': 1.557241100323625e-05, 'epoch': 2.6699029126213594}
442
+ Step: 2204 {'loss': 0.0856, 'grad_norm': 0.7669429183006287, 'learning_rate': 1.5562348300970874e-05, 'epoch': 2.6759708737864076}
443
+ Step: 2209 {'loss': 0.0837, 'grad_norm': 0.5899706482887268, 'learning_rate': 1.5552285598705502e-05, 'epoch': 2.6820388349514563}
444
+ Step: 2214 {'loss': 0.0732, 'grad_norm': 0.5215795636177063, 'learning_rate': 1.554222289644013e-05, 'epoch': 2.6881067961165046}
445
+ Step: 2219 {'loss': 0.0837, 'grad_norm': 0.6992548704147339, 'learning_rate': 1.553216019417476e-05, 'epoch': 2.6941747572815533}
446
+ Step: 2224 {'loss': 0.0786, 'grad_norm': 0.6373975872993469, 'learning_rate': 1.5522097491909387e-05, 'epoch': 2.700242718446602}
447
+ Step: 2229 {'loss': 0.0853, 'grad_norm': 0.6577532291412354, 'learning_rate': 1.5512034789644015e-05, 'epoch': 2.7063106796116507}
448
+
449
+
450
+
451
+
452
+
453
+
454
+
455
+
456
+
457
+
458
+
459
+
460
+