{'loss': 1.3877, 'grad_norm': 0.3732655942440033, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.18}
{'loss': 1.3877, 'grad_norm': 0.29982370138168335, 'learning_rate': 4.416637498541594e-05, 'epoch': 0.35}
{'loss': 1.3869, 'grad_norm': 0.2956711947917938, 'learning_rate': 4.124956247812391e-05, 'epoch': 0.53}
{'loss': 1.3872, 'grad_norm': 0.2780778706073761, 'learning_rate': 3.8332749970831875e-05, 'epoch': 0.7}
{'loss': 1.387, 'grad_norm': 0.264312207698822, 'learning_rate': 3.5415937463539846e-05, 'epoch': 0.88}
[3 0 2 ... 3 0 2] [0 0 2 ... 0 1 0]
{'eval_loss': 1.3862732648849487, 'eval_accuracy': 0.30121922065503226, 'eval_runtime': 13.092, 'eval_samples_per_second': 319.509, 'eval_steps_per_second': 5.041, 'epoch': 1.0}
{'loss': 1.387, 'grad_norm': 0.26451143622398376, 'learning_rate': 3.249912495624781e-05, 'epoch': 1.05}
{'loss': 1.3867, 'grad_norm': 0.2525206506252289, 'learning_rate': 2.9582312448955786e-05, 'epoch': 1.23}
{'loss': 1.3869, 'grad_norm': 0.35128626227378845, 'learning_rate': 2.666549994166375e-05, 'epoch': 1.4}
{'loss': 1.3839, 'grad_norm': 0.34846463799476624, 'learning_rate': 2.374868743437172e-05, 'epoch': 1.58}
{'loss': 1.3823, 'grad_norm': 0.2991259694099426, 'learning_rate': 2.083187492707969e-05, 'epoch': 1.75}
{'loss': 1.3819, 'grad_norm': 0.26775607466697693, 'learning_rate': 1.7915062419787655e-05, 'epoch': 1.93}
[3 0 2 ... 0 0 2] [0 0 2 ... 0 1 0]
{'eval_loss': 1.3778901100158691, 'eval_accuracy': 0.30337078651685395, 'eval_runtime': 12.7415, 'eval_samples_per_second': 328.298, 'eval_steps_per_second': 5.18, 'epoch': 2.0}
{'loss': 1.3815, 'grad_norm': 0.27853405475616455, 'learning_rate': 1.4998249912495627e-05, 'epoch': 2.1}
{'loss': 1.3816, 'grad_norm': 0.2806904911994934, 'learning_rate': 1.2081437405203595e-05, 'epoch': 2.28}
{'loss': 1.3814, 'grad_norm': 0.3078901469707489, 'learning_rate': 9.164624897911563e-06, 'epoch': 2.45}
{'loss': 1.3806, 'grad_norm': 0.29834234714508057, 'learning_rate': 6.247812390619531e-06, 'epoch': 2.63}
{'loss': 1.3804, 'grad_norm': 0.3194376826286316, 'learning_rate': 3.3309998833275e-06, 'epoch': 2.8}
{'loss': 1.382, 'grad_norm': 0.28209424018859863, 'learning_rate': 4.141873760354685e-07, 'epoch': 2.98}