fats-fme commited on
Commit
378470e
1 Parent(s): e48baf5

Training in progress, step 1073, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8749b47670a2e925e33b4240c72c9315bb32774bfbade24d92eeb3fa1f6a0420
3
  size 35237104
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:35391f828d6a65dfb30116575782c1078d38ebbf05b07f0df7ad400119e875bb
3
  size 35237104
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3e5059d365a7adc711a26959102a70a84780be0ab50f5130c6985f3b31274a7e
3
  size 70667778
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4fc07d0557c6f4c953db9a61497b8de246246c744bdfb7befff45007f8b159be
3
  size 70667778
last-checkpoint/rng_state_0.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:53bb182c45093549cf363bcb4da4539a39a626174492b2e33a729bea766c14b1
3
  size 14512
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:14fcaee8795c235151c3385e44919e8fe5f67a07e67372d5baefe16a71da137a
3
  size 14512
last-checkpoint/rng_state_1.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a815323c566d383d0b7bf56658890e831b94fa325094f2755225b1456ada80c7
3
  size 14512
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:de1dc5b07f9e5751c30f2f36b200155f98d26d9e6c4a4a993e98ac5f2d093a2d
3
  size 14512
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:488808dd8a947fca367866231d567be44427043ccee154e8cafbe236b07d8262
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:966e055b42cf10d79243d6fb4d4f4ad5954bc720f1b053796dbdfd80c9cf8da7
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7520969245107176,
5
  "eval_steps": 269,
6
- "global_step": 807,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5688,6 +5688,1868 @@
5688
  "eval_samples_per_second": 14.12,
5689
  "eval_steps_per_second": 3.532,
5690
  "step": 807
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5691
  }
5692
  ],
5693
  "logging_steps": 1,
@@ -5702,12 +7564,12 @@
5702
  "should_evaluate": false,
5703
  "should_log": false,
5704
  "should_save": true,
5705
- "should_training_stop": false
5706
  },
5707
  "attributes": {}
5708
  }
5709
  },
5710
- "total_flos": 1.1636202415325184e+17,
5711
  "train_batch_size": 2,
5712
  "trial_name": null,
5713
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.0,
5
  "eval_steps": 269,
6
+ "global_step": 1073,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5688
  "eval_samples_per_second": 14.12,
5689
  "eval_steps_per_second": 3.532,
5690
  "step": 807
5691
+ },
5692
+ {
5693
+ "epoch": 0.7530288909599254,
5694
+ "grad_norm": 0.1286248415708542,
5695
+ "learning_rate": 1.5663106812083743e-05,
5696
+ "loss": 0.0035,
5697
+ "step": 808
5698
+ },
5699
+ {
5700
+ "epoch": 0.7539608574091333,
5701
+ "grad_norm": 0.29819682240486145,
5702
+ "learning_rate": 1.555165404621567e-05,
5703
+ "loss": 0.0043,
5704
+ "step": 809
5705
+ },
5706
+ {
5707
+ "epoch": 0.7548928238583411,
5708
+ "grad_norm": 1.4682197570800781,
5709
+ "learning_rate": 1.5440526155510763e-05,
5710
+ "loss": 0.0349,
5711
+ "step": 810
5712
+ },
5713
+ {
5714
+ "epoch": 0.7558247903075489,
5715
+ "grad_norm": 2.5306453704833984,
5716
+ "learning_rate": 1.532972418799298e-05,
5717
+ "loss": 0.1089,
5718
+ "step": 811
5719
+ },
5720
+ {
5721
+ "epoch": 0.7567567567567568,
5722
+ "grad_norm": 0.7194310426712036,
5723
+ "learning_rate": 1.5219249188612556e-05,
5724
+ "loss": 0.0092,
5725
+ "step": 812
5726
+ },
5727
+ {
5728
+ "epoch": 0.7576887232059646,
5729
+ "grad_norm": 0.7676751613616943,
5730
+ "learning_rate": 1.5109102199236152e-05,
5731
+ "loss": 0.0195,
5732
+ "step": 813
5733
+ },
5734
+ {
5735
+ "epoch": 0.7586206896551724,
5736
+ "grad_norm": 0.3930986225605011,
5737
+ "learning_rate": 1.4999284258637053e-05,
5738
+ "loss": 0.0055,
5739
+ "step": 814
5740
+ },
5741
+ {
5742
+ "epoch": 0.7595526561043803,
5743
+ "grad_norm": 1.3155858516693115,
5744
+ "learning_rate": 1.488979640248534e-05,
5745
+ "loss": 0.0408,
5746
+ "step": 815
5747
+ },
5748
+ {
5749
+ "epoch": 0.7604846225535881,
5750
+ "grad_norm": 0.8961852788925171,
5751
+ "learning_rate": 1.4780639663338125e-05,
5752
+ "loss": 0.014,
5753
+ "step": 816
5754
+ },
5755
+ {
5756
+ "epoch": 0.7614165890027959,
5757
+ "grad_norm": 0.16851025819778442,
5758
+ "learning_rate": 1.4671815070629868e-05,
5759
+ "loss": 0.0031,
5760
+ "step": 817
5761
+ },
5762
+ {
5763
+ "epoch": 0.7623485554520038,
5764
+ "grad_norm": 0.2377876490354538,
5765
+ "learning_rate": 1.4563323650662586e-05,
5766
+ "loss": 0.0036,
5767
+ "step": 818
5768
+ },
5769
+ {
5770
+ "epoch": 0.7632805219012115,
5771
+ "grad_norm": 0.26792046427726746,
5772
+ "learning_rate": 1.4455166426596223e-05,
5773
+ "loss": 0.0053,
5774
+ "step": 819
5775
+ },
5776
+ {
5777
+ "epoch": 0.7642124883504194,
5778
+ "grad_norm": 0.1533597856760025,
5779
+ "learning_rate": 1.434734441843899e-05,
5780
+ "loss": 0.0032,
5781
+ "step": 820
5782
+ },
5783
+ {
5784
+ "epoch": 0.7651444547996272,
5785
+ "grad_norm": 0.13230851292610168,
5786
+ "learning_rate": 1.4239858643037751e-05,
5787
+ "loss": 0.0025,
5788
+ "step": 821
5789
+ },
5790
+ {
5791
+ "epoch": 0.766076421248835,
5792
+ "grad_norm": 0.42541301250457764,
5793
+ "learning_rate": 1.4132710114068426e-05,
5794
+ "loss": 0.0078,
5795
+ "step": 822
5796
+ },
5797
+ {
5798
+ "epoch": 0.7670083876980429,
5799
+ "grad_norm": 1.640199899673462,
5800
+ "learning_rate": 1.4025899842026442e-05,
5801
+ "loss": 0.0358,
5802
+ "step": 823
5803
+ },
5804
+ {
5805
+ "epoch": 0.7679403541472507,
5806
+ "grad_norm": 3.3744680881500244,
5807
+ "learning_rate": 1.3919428834217163e-05,
5808
+ "loss": 0.066,
5809
+ "step": 824
5810
+ },
5811
+ {
5812
+ "epoch": 0.7688723205964585,
5813
+ "grad_norm": 4.397242069244385,
5814
+ "learning_rate": 1.3813298094746491e-05,
5815
+ "loss": 0.1446,
5816
+ "step": 825
5817
+ },
5818
+ {
5819
+ "epoch": 0.7698042870456664,
5820
+ "grad_norm": 1.2552555799484253,
5821
+ "learning_rate": 1.3707508624511262e-05,
5822
+ "loss": 0.0247,
5823
+ "step": 826
5824
+ },
5825
+ {
5826
+ "epoch": 0.7707362534948742,
5827
+ "grad_norm": 0.9916906356811523,
5828
+ "learning_rate": 1.36020614211899e-05,
5829
+ "loss": 0.033,
5830
+ "step": 827
5831
+ },
5832
+ {
5833
+ "epoch": 0.771668219944082,
5834
+ "grad_norm": 1.0547466278076172,
5835
+ "learning_rate": 1.349695747923298e-05,
5836
+ "loss": 0.0706,
5837
+ "step": 828
5838
+ },
5839
+ {
5840
+ "epoch": 0.7726001863932899,
5841
+ "grad_norm": 0.8943658471107483,
5842
+ "learning_rate": 1.339219778985385e-05,
5843
+ "loss": 0.0239,
5844
+ "step": 829
5845
+ },
5846
+ {
5847
+ "epoch": 0.7735321528424977,
5848
+ "grad_norm": 1.5261614322662354,
5849
+ "learning_rate": 1.3287783341019278e-05,
5850
+ "loss": 0.0195,
5851
+ "step": 830
5852
+ },
5853
+ {
5854
+ "epoch": 0.7744641192917054,
5855
+ "grad_norm": 0.11581642925739288,
5856
+ "learning_rate": 1.3183715117440142e-05,
5857
+ "loss": 0.0019,
5858
+ "step": 831
5859
+ },
5860
+ {
5861
+ "epoch": 0.7753960857409133,
5862
+ "grad_norm": 0.190779909491539,
5863
+ "learning_rate": 1.3079994100562159e-05,
5864
+ "loss": 0.0051,
5865
+ "step": 832
5866
+ },
5867
+ {
5868
+ "epoch": 0.7763280521901211,
5869
+ "grad_norm": 0.7171970009803772,
5870
+ "learning_rate": 1.2976621268556571e-05,
5871
+ "loss": 0.0258,
5872
+ "step": 833
5873
+ },
5874
+ {
5875
+ "epoch": 0.777260018639329,
5876
+ "grad_norm": 1.5177792310714722,
5877
+ "learning_rate": 1.2873597596311027e-05,
5878
+ "loss": 0.0589,
5879
+ "step": 834
5880
+ },
5881
+ {
5882
+ "epoch": 0.7781919850885368,
5883
+ "grad_norm": 0.1316295564174652,
5884
+ "learning_rate": 1.2770924055420258e-05,
5885
+ "loss": 0.0026,
5886
+ "step": 835
5887
+ },
5888
+ {
5889
+ "epoch": 0.7791239515377446,
5890
+ "grad_norm": 0.5268474221229553,
5891
+ "learning_rate": 1.2668601614177017e-05,
5892
+ "loss": 0.0101,
5893
+ "step": 836
5894
+ },
5895
+ {
5896
+ "epoch": 0.7800559179869525,
5897
+ "grad_norm": 0.8330385684967041,
5898
+ "learning_rate": 1.2566631237562893e-05,
5899
+ "loss": 0.0351,
5900
+ "step": 837
5901
+ },
5902
+ {
5903
+ "epoch": 0.7809878844361603,
5904
+ "grad_norm": 0.4103114902973175,
5905
+ "learning_rate": 1.246501388723923e-05,
5906
+ "loss": 0.009,
5907
+ "step": 838
5908
+ },
5909
+ {
5910
+ "epoch": 0.7819198508853681,
5911
+ "grad_norm": 0.7705252766609192,
5912
+ "learning_rate": 1.2363750521538064e-05,
5913
+ "loss": 0.0211,
5914
+ "step": 839
5915
+ },
5916
+ {
5917
+ "epoch": 0.782851817334576,
5918
+ "grad_norm": 1.3898861408233643,
5919
+ "learning_rate": 1.2262842095453065e-05,
5920
+ "loss": 0.0678,
5921
+ "step": 840
5922
+ },
5923
+ {
5924
+ "epoch": 0.7837837837837838,
5925
+ "grad_norm": 2.382798910140991,
5926
+ "learning_rate": 1.2162289560630524e-05,
5927
+ "loss": 0.0201,
5928
+ "step": 841
5929
+ },
5930
+ {
5931
+ "epoch": 0.7847157502329916,
5932
+ "grad_norm": 0.8590038418769836,
5933
+ "learning_rate": 1.2062093865360458e-05,
5934
+ "loss": 0.0196,
5935
+ "step": 842
5936
+ },
5937
+ {
5938
+ "epoch": 0.7856477166821995,
5939
+ "grad_norm": 0.4806217849254608,
5940
+ "learning_rate": 1.1962255954567537e-05,
5941
+ "loss": 0.0081,
5942
+ "step": 843
5943
+ },
5944
+ {
5945
+ "epoch": 0.7865796831314072,
5946
+ "grad_norm": 0.6536293625831604,
5947
+ "learning_rate": 1.1862776769802276e-05,
5948
+ "loss": 0.01,
5949
+ "step": 844
5950
+ },
5951
+ {
5952
+ "epoch": 0.7875116495806151,
5953
+ "grad_norm": 1.8112365007400513,
5954
+ "learning_rate": 1.1763657249232107e-05,
5955
+ "loss": 0.0299,
5956
+ "step": 845
5957
+ },
5958
+ {
5959
+ "epoch": 0.7884436160298229,
5960
+ "grad_norm": 0.0851447582244873,
5961
+ "learning_rate": 1.1664898327632551e-05,
5962
+ "loss": 0.0015,
5963
+ "step": 846
5964
+ },
5965
+ {
5966
+ "epoch": 0.7893755824790307,
5967
+ "grad_norm": 3.3141989707946777,
5968
+ "learning_rate": 1.1566500936378388e-05,
5969
+ "loss": 0.0935,
5970
+ "step": 847
5971
+ },
5972
+ {
5973
+ "epoch": 0.7903075489282386,
5974
+ "grad_norm": 0.655958354473114,
5975
+ "learning_rate": 1.146846600343488e-05,
5976
+ "loss": 0.0092,
5977
+ "step": 848
5978
+ },
5979
+ {
5980
+ "epoch": 0.7912395153774464,
5981
+ "grad_norm": 2.1537182331085205,
5982
+ "learning_rate": 1.1370794453349037e-05,
5983
+ "loss": 0.0292,
5984
+ "step": 849
5985
+ },
5986
+ {
5987
+ "epoch": 0.7921714818266542,
5988
+ "grad_norm": 1.5979948043823242,
5989
+ "learning_rate": 1.1273487207240847e-05,
5990
+ "loss": 0.0682,
5991
+ "step": 850
5992
+ },
5993
+ {
5994
+ "epoch": 0.7931034482758621,
5995
+ "grad_norm": 0.32921919226646423,
5996
+ "learning_rate": 1.1176545182794674e-05,
5997
+ "loss": 0.0051,
5998
+ "step": 851
5999
+ },
6000
+ {
6001
+ "epoch": 0.7940354147250699,
6002
+ "grad_norm": 0.3104652762413025,
6003
+ "learning_rate": 1.1079969294250514e-05,
6004
+ "loss": 0.0053,
6005
+ "step": 852
6006
+ },
6007
+ {
6008
+ "epoch": 0.7949673811742777,
6009
+ "grad_norm": 0.23145949840545654,
6010
+ "learning_rate": 1.0983760452395413e-05,
6011
+ "loss": 0.0033,
6012
+ "step": 853
6013
+ },
6014
+ {
6015
+ "epoch": 0.7958993476234856,
6016
+ "grad_norm": 0.44747766852378845,
6017
+ "learning_rate": 1.0887919564554894e-05,
6018
+ "loss": 0.0089,
6019
+ "step": 854
6020
+ },
6021
+ {
6022
+ "epoch": 0.7968313140726934,
6023
+ "grad_norm": 2.918243169784546,
6024
+ "learning_rate": 1.079244753458437e-05,
6025
+ "loss": 0.0767,
6026
+ "step": 855
6027
+ },
6028
+ {
6029
+ "epoch": 0.7977632805219013,
6030
+ "grad_norm": 0.6843606233596802,
6031
+ "learning_rate": 1.0697345262860636e-05,
6032
+ "loss": 0.0144,
6033
+ "step": 856
6034
+ },
6035
+ {
6036
+ "epoch": 0.798695246971109,
6037
+ "grad_norm": 0.1016877144575119,
6038
+ "learning_rate": 1.0602613646273374e-05,
6039
+ "loss": 0.0033,
6040
+ "step": 857
6041
+ },
6042
+ {
6043
+ "epoch": 0.7996272134203168,
6044
+ "grad_norm": 0.7905264496803284,
6045
+ "learning_rate": 1.0508253578216693e-05,
6046
+ "loss": 0.0268,
6047
+ "step": 858
6048
+ },
6049
+ {
6050
+ "epoch": 0.8005591798695247,
6051
+ "grad_norm": 1.3822872638702393,
6052
+ "learning_rate": 1.0414265948580692e-05,
6053
+ "loss": 0.0685,
6054
+ "step": 859
6055
+ },
6056
+ {
6057
+ "epoch": 0.8014911463187325,
6058
+ "grad_norm": 0.5625484585762024,
6059
+ "learning_rate": 1.032065164374313e-05,
6060
+ "loss": 0.0123,
6061
+ "step": 860
6062
+ },
6063
+ {
6064
+ "epoch": 0.8024231127679403,
6065
+ "grad_norm": 0.05632966756820679,
6066
+ "learning_rate": 1.0227411546560962e-05,
6067
+ "loss": 0.001,
6068
+ "step": 861
6069
+ },
6070
+ {
6071
+ "epoch": 0.8033550792171482,
6072
+ "grad_norm": 0.7446116805076599,
6073
+ "learning_rate": 1.01345465363621e-05,
6074
+ "loss": 0.0202,
6075
+ "step": 862
6076
+ },
6077
+ {
6078
+ "epoch": 0.804287045666356,
6079
+ "grad_norm": 0.09283380210399628,
6080
+ "learning_rate": 1.0042057488937067e-05,
6081
+ "loss": 0.0016,
6082
+ "step": 863
6083
+ },
6084
+ {
6085
+ "epoch": 0.8052190121155638,
6086
+ "grad_norm": 0.27069157361984253,
6087
+ "learning_rate": 9.949945276530781e-06,
6088
+ "loss": 0.0053,
6089
+ "step": 864
6090
+ },
6091
+ {
6092
+ "epoch": 0.8061509785647717,
6093
+ "grad_norm": 0.8382067680358887,
6094
+ "learning_rate": 9.858210767834292e-06,
6095
+ "loss": 0.0226,
6096
+ "step": 865
6097
+ },
6098
+ {
6099
+ "epoch": 0.8070829450139795,
6100
+ "grad_norm": 1.0016965866088867,
6101
+ "learning_rate": 9.766854827976617e-06,
6102
+ "loss": 0.041,
6103
+ "step": 866
6104
+ },
6105
+ {
6106
+ "epoch": 0.8080149114631874,
6107
+ "grad_norm": 1.245935320854187,
6108
+ "learning_rate": 9.675878318516546e-06,
6109
+ "loss": 0.0404,
6110
+ "step": 867
6111
+ },
6112
+ {
6113
+ "epoch": 0.8089468779123952,
6114
+ "grad_norm": 0.5361421704292297,
6115
+ "learning_rate": 9.58528209743459e-06,
6116
+ "loss": 0.0076,
6117
+ "step": 868
6118
+ },
6119
+ {
6120
+ "epoch": 0.809878844361603,
6121
+ "grad_norm": 0.09631752967834473,
6122
+ "learning_rate": 9.495067019124792e-06,
6123
+ "loss": 0.0028,
6124
+ "step": 869
6125
+ },
6126
+ {
6127
+ "epoch": 0.8108108108108109,
6128
+ "grad_norm": 0.6793972253799438,
6129
+ "learning_rate": 9.405233934386726e-06,
6130
+ "loss": 0.0057,
6131
+ "step": 870
6132
+ },
6133
+ {
6134
+ "epoch": 0.8117427772600186,
6135
+ "grad_norm": 3.4450275897979736,
6136
+ "learning_rate": 9.315783690417479e-06,
6137
+ "loss": 0.053,
6138
+ "step": 871
6139
+ },
6140
+ {
6141
+ "epoch": 0.8126747437092264,
6142
+ "grad_norm": 1.280646800994873,
6143
+ "learning_rate": 9.226717130803636e-06,
6144
+ "loss": 0.042,
6145
+ "step": 872
6146
+ },
6147
+ {
6148
+ "epoch": 0.8136067101584343,
6149
+ "grad_norm": 1.587612509727478,
6150
+ "learning_rate": 9.138035095513336e-06,
6151
+ "loss": 0.0671,
6152
+ "step": 873
6153
+ },
6154
+ {
6155
+ "epoch": 0.8145386766076421,
6156
+ "grad_norm": 1.265060305595398,
6157
+ "learning_rate": 9.049738420888349e-06,
6158
+ "loss": 0.014,
6159
+ "step": 874
6160
+ },
6161
+ {
6162
+ "epoch": 0.8154706430568499,
6163
+ "grad_norm": 1.8084266185760498,
6164
+ "learning_rate": 8.961827939636196e-06,
6165
+ "loss": 0.0891,
6166
+ "step": 875
6167
+ },
6168
+ {
6169
+ "epoch": 0.8164026095060578,
6170
+ "grad_norm": 0.39547011256217957,
6171
+ "learning_rate": 8.87430448082227e-06,
6172
+ "loss": 0.0022,
6173
+ "step": 876
6174
+ },
6175
+ {
6176
+ "epoch": 0.8173345759552656,
6177
+ "grad_norm": 0.3031284213066101,
6178
+ "learning_rate": 8.787168869862066e-06,
6179
+ "loss": 0.0066,
6180
+ "step": 877
6181
+ },
6182
+ {
6183
+ "epoch": 0.8182665424044734,
6184
+ "grad_norm": 0.15621918439865112,
6185
+ "learning_rate": 8.700421928513352e-06,
6186
+ "loss": 0.0032,
6187
+ "step": 878
6188
+ },
6189
+ {
6190
+ "epoch": 0.8191985088536813,
6191
+ "grad_norm": 0.22168925404548645,
6192
+ "learning_rate": 8.614064474868421e-06,
6193
+ "loss": 0.0042,
6194
+ "step": 879
6195
+ },
6196
+ {
6197
+ "epoch": 0.8201304753028891,
6198
+ "grad_norm": 1.5389249324798584,
6199
+ "learning_rate": 8.528097323346407e-06,
6200
+ "loss": 0.0427,
6201
+ "step": 880
6202
+ },
6203
+ {
6204
+ "epoch": 0.821062441752097,
6205
+ "grad_norm": 1.5170341730117798,
6206
+ "learning_rate": 8.442521284685573e-06,
6207
+ "loss": 0.0335,
6208
+ "step": 881
6209
+ },
6210
+ {
6211
+ "epoch": 0.8219944082013048,
6212
+ "grad_norm": 0.08587615191936493,
6213
+ "learning_rate": 8.357337165935675e-06,
6214
+ "loss": 0.0023,
6215
+ "step": 882
6216
+ },
6217
+ {
6218
+ "epoch": 0.8229263746505125,
6219
+ "grad_norm": 0.17892524600028992,
6220
+ "learning_rate": 8.27254577045039e-06,
6221
+ "loss": 0.0027,
6222
+ "step": 883
6223
+ },
6224
+ {
6225
+ "epoch": 0.8238583410997204,
6226
+ "grad_norm": 0.17656829953193665,
6227
+ "learning_rate": 8.188147897879667e-06,
6228
+ "loss": 0.0046,
6229
+ "step": 884
6230
+ },
6231
+ {
6232
+ "epoch": 0.8247903075489282,
6233
+ "grad_norm": 0.5518335700035095,
6234
+ "learning_rate": 8.104144344162229e-06,
6235
+ "loss": 0.0124,
6236
+ "step": 885
6237
+ },
6238
+ {
6239
+ "epoch": 0.825722273998136,
6240
+ "grad_norm": 0.30466359853744507,
6241
+ "learning_rate": 8.02053590151805e-06,
6242
+ "loss": 0.0077,
6243
+ "step": 886
6244
+ },
6245
+ {
6246
+ "epoch": 0.8266542404473439,
6247
+ "grad_norm": 0.7674888372421265,
6248
+ "learning_rate": 7.937323358440935e-06,
6249
+ "loss": 0.0248,
6250
+ "step": 887
6251
+ },
6252
+ {
6253
+ "epoch": 0.8275862068965517,
6254
+ "grad_norm": 0.055480506271123886,
6255
+ "learning_rate": 7.854507499691005e-06,
6256
+ "loss": 0.0011,
6257
+ "step": 888
6258
+ },
6259
+ {
6260
+ "epoch": 0.8285181733457595,
6261
+ "grad_norm": 0.22888953983783722,
6262
+ "learning_rate": 7.772089106287344e-06,
6263
+ "loss": 0.0029,
6264
+ "step": 889
6265
+ },
6266
+ {
6267
+ "epoch": 0.8294501397949674,
6268
+ "grad_norm": 0.0735834464430809,
6269
+ "learning_rate": 7.690068955500624e-06,
6270
+ "loss": 0.0015,
6271
+ "step": 890
6272
+ },
6273
+ {
6274
+ "epoch": 0.8303821062441752,
6275
+ "grad_norm": 1.0018421411514282,
6276
+ "learning_rate": 7.608447820845771e-06,
6277
+ "loss": 0.0309,
6278
+ "step": 891
6279
+ },
6280
+ {
6281
+ "epoch": 0.8313140726933831,
6282
+ "grad_norm": 1.2352806329727173,
6283
+ "learning_rate": 7.527226472074678e-06,
6284
+ "loss": 0.0362,
6285
+ "step": 892
6286
+ },
6287
+ {
6288
+ "epoch": 0.8322460391425909,
6289
+ "grad_norm": 0.9229680299758911,
6290
+ "learning_rate": 7.446405675168938e-06,
6291
+ "loss": 0.0236,
6292
+ "step": 893
6293
+ },
6294
+ {
6295
+ "epoch": 0.8331780055917987,
6296
+ "grad_norm": 0.12361752986907959,
6297
+ "learning_rate": 7.365986192332625e-06,
6298
+ "loss": 0.0015,
6299
+ "step": 894
6300
+ },
6301
+ {
6302
+ "epoch": 0.8341099720410066,
6303
+ "grad_norm": 0.18358244001865387,
6304
+ "learning_rate": 7.285968781985092e-06,
6305
+ "loss": 0.0041,
6306
+ "step": 895
6307
+ },
6308
+ {
6309
+ "epoch": 0.8350419384902144,
6310
+ "grad_norm": 1.7125695943832397,
6311
+ "learning_rate": 7.206354198753862e-06,
6312
+ "loss": 0.0712,
6313
+ "step": 896
6314
+ },
6315
+ {
6316
+ "epoch": 0.8359739049394221,
6317
+ "grad_norm": 2.4467711448669434,
6318
+ "learning_rate": 7.127143193467445e-06,
6319
+ "loss": 0.0988,
6320
+ "step": 897
6321
+ },
6322
+ {
6323
+ "epoch": 0.83690587138863,
6324
+ "grad_norm": 2.2507357597351074,
6325
+ "learning_rate": 7.048336513148307e-06,
6326
+ "loss": 0.0513,
6327
+ "step": 898
6328
+ },
6329
+ {
6330
+ "epoch": 0.8378378378378378,
6331
+ "grad_norm": 2.246809720993042,
6332
+ "learning_rate": 6.969934901005809e-06,
6333
+ "loss": 0.0265,
6334
+ "step": 899
6335
+ },
6336
+ {
6337
+ "epoch": 0.8387698042870456,
6338
+ "grad_norm": 1.8378955125808716,
6339
+ "learning_rate": 6.8919390964291895e-06,
6340
+ "loss": 0.1061,
6341
+ "step": 900
6342
+ },
6343
+ {
6344
+ "epoch": 0.8397017707362535,
6345
+ "grad_norm": 0.47382405400276184,
6346
+ "learning_rate": 6.814349834980621e-06,
6347
+ "loss": 0.011,
6348
+ "step": 901
6349
+ },
6350
+ {
6351
+ "epoch": 0.8406337371854613,
6352
+ "grad_norm": 1.1276845932006836,
6353
+ "learning_rate": 6.7371678483882264e-06,
6354
+ "loss": 0.025,
6355
+ "step": 902
6356
+ },
6357
+ {
6358
+ "epoch": 0.8415657036346692,
6359
+ "grad_norm": 0.5048341155052185,
6360
+ "learning_rate": 6.660393864539222e-06,
6361
+ "loss": 0.0053,
6362
+ "step": 903
6363
+ },
6364
+ {
6365
+ "epoch": 0.842497670083877,
6366
+ "grad_norm": 0.9290698766708374,
6367
+ "learning_rate": 6.58402860747302e-06,
6368
+ "loss": 0.0501,
6369
+ "step": 904
6370
+ },
6371
+ {
6372
+ "epoch": 0.8434296365330848,
6373
+ "grad_norm": 1.0195822715759277,
6374
+ "learning_rate": 6.508072797374454e-06,
6375
+ "loss": 0.0182,
6376
+ "step": 905
6377
+ },
6378
+ {
6379
+ "epoch": 0.8443616029822927,
6380
+ "grad_norm": 0.4818008244037628,
6381
+ "learning_rate": 6.4325271505669025e-06,
6382
+ "loss": 0.0074,
6383
+ "step": 906
6384
+ },
6385
+ {
6386
+ "epoch": 0.8452935694315005,
6387
+ "grad_norm": 0.051283132284879684,
6388
+ "learning_rate": 6.3573923795056e-06,
6389
+ "loss": 0.0011,
6390
+ "step": 907
6391
+ },
6392
+ {
6393
+ "epoch": 0.8462255358807083,
6394
+ "grad_norm": 1.3800734281539917,
6395
+ "learning_rate": 6.282669192770896e-06,
6396
+ "loss": 0.0442,
6397
+ "step": 908
6398
+ },
6399
+ {
6400
+ "epoch": 0.8471575023299162,
6401
+ "grad_norm": 1.0327776670455933,
6402
+ "learning_rate": 6.208358295061572e-06,
6403
+ "loss": 0.037,
6404
+ "step": 909
6405
+ },
6406
+ {
6407
+ "epoch": 0.848089468779124,
6408
+ "grad_norm": 0.1635047346353531,
6409
+ "learning_rate": 6.134460387188206e-06,
6410
+ "loss": 0.003,
6411
+ "step": 910
6412
+ },
6413
+ {
6414
+ "epoch": 0.8490214352283317,
6415
+ "grad_norm": 0.17982259392738342,
6416
+ "learning_rate": 6.060976166066546e-06,
6417
+ "loss": 0.0032,
6418
+ "step": 911
6419
+ },
6420
+ {
6421
+ "epoch": 0.8499534016775396,
6422
+ "grad_norm": 0.2328854650259018,
6423
+ "learning_rate": 5.9879063247109405e-06,
6424
+ "loss": 0.0049,
6425
+ "step": 912
6426
+ },
6427
+ {
6428
+ "epoch": 0.8508853681267474,
6429
+ "grad_norm": 1.2415688037872314,
6430
+ "learning_rate": 5.915251552227829e-06,
6431
+ "loss": 0.0307,
6432
+ "step": 913
6433
+ },
6434
+ {
6435
+ "epoch": 0.8518173345759553,
6436
+ "grad_norm": 0.3968764841556549,
6437
+ "learning_rate": 5.8430125338092115e-06,
6438
+ "loss": 0.0087,
6439
+ "step": 914
6440
+ },
6441
+ {
6442
+ "epoch": 0.8527493010251631,
6443
+ "grad_norm": 1.2752315998077393,
6444
+ "learning_rate": 5.771189950726191e-06,
6445
+ "loss": 0.0312,
6446
+ "step": 915
6447
+ },
6448
+ {
6449
+ "epoch": 0.8536812674743709,
6450
+ "grad_norm": 0.7192822098731995,
6451
+ "learning_rate": 5.699784480322568e-06,
6452
+ "loss": 0.0108,
6453
+ "step": 916
6454
+ },
6455
+ {
6456
+ "epoch": 0.8546132339235788,
6457
+ "grad_norm": 0.34972473978996277,
6458
+ "learning_rate": 5.628796796008434e-06,
6459
+ "loss": 0.0029,
6460
+ "step": 917
6461
+ },
6462
+ {
6463
+ "epoch": 0.8555452003727866,
6464
+ "grad_norm": 0.3486124277114868,
6465
+ "learning_rate": 5.558227567253832e-06,
6466
+ "loss": 0.0051,
6467
+ "step": 918
6468
+ },
6469
+ {
6470
+ "epoch": 0.8564771668219944,
6471
+ "grad_norm": 0.3966856300830841,
6472
+ "learning_rate": 5.488077459582425e-06,
6473
+ "loss": 0.0074,
6474
+ "step": 919
6475
+ },
6476
+ {
6477
+ "epoch": 0.8574091332712023,
6478
+ "grad_norm": 0.9853683114051819,
6479
+ "learning_rate": 5.418347134565249e-06,
6480
+ "loss": 0.0151,
6481
+ "step": 920
6482
+ },
6483
+ {
6484
+ "epoch": 0.8583410997204101,
6485
+ "grad_norm": 0.6727381348609924,
6486
+ "learning_rate": 5.349037249814442e-06,
6487
+ "loss": 0.0114,
6488
+ "step": 921
6489
+ },
6490
+ {
6491
+ "epoch": 0.8592730661696178,
6492
+ "grad_norm": 1.942173719406128,
6493
+ "learning_rate": 5.28014845897708e-06,
6494
+ "loss": 0.0432,
6495
+ "step": 922
6496
+ },
6497
+ {
6498
+ "epoch": 0.8602050326188257,
6499
+ "grad_norm": 0.726831316947937,
6500
+ "learning_rate": 5.211681411728969e-06,
6501
+ "loss": 0.0217,
6502
+ "step": 923
6503
+ },
6504
+ {
6505
+ "epoch": 0.8611369990680335,
6506
+ "grad_norm": 1.3569886684417725,
6507
+ "learning_rate": 5.143636753768549e-06,
6508
+ "loss": 0.0124,
6509
+ "step": 924
6510
+ },
6511
+ {
6512
+ "epoch": 0.8620689655172413,
6513
+ "grad_norm": 1.4848052263259888,
6514
+ "learning_rate": 5.076015126810784e-06,
6515
+ "loss": 0.0913,
6516
+ "step": 925
6517
+ },
6518
+ {
6519
+ "epoch": 0.8630009319664492,
6520
+ "grad_norm": 0.08492793142795563,
6521
+ "learning_rate": 5.008817168581137e-06,
6522
+ "loss": 0.0021,
6523
+ "step": 926
6524
+ },
6525
+ {
6526
+ "epoch": 0.863932898415657,
6527
+ "grad_norm": 0.3844028115272522,
6528
+ "learning_rate": 4.94204351280953e-06,
6529
+ "loss": 0.0082,
6530
+ "step": 927
6531
+ },
6532
+ {
6533
+ "epoch": 0.8648648648648649,
6534
+ "grad_norm": 0.3236229717731476,
6535
+ "learning_rate": 4.8756947892243725e-06,
6536
+ "loss": 0.0026,
6537
+ "step": 928
6538
+ },
6539
+ {
6540
+ "epoch": 0.8657968313140727,
6541
+ "grad_norm": 0.13389159739017487,
6542
+ "learning_rate": 4.809771623546627e-06,
6543
+ "loss": 0.0024,
6544
+ "step": 929
6545
+ },
6546
+ {
6547
+ "epoch": 0.8667287977632805,
6548
+ "grad_norm": 0.4836329519748688,
6549
+ "learning_rate": 4.744274637483936e-06,
6550
+ "loss": 0.0089,
6551
+ "step": 930
6552
+ },
6553
+ {
6554
+ "epoch": 0.8676607642124884,
6555
+ "grad_norm": 0.7628198862075806,
6556
+ "learning_rate": 4.6792044487247e-06,
6557
+ "loss": 0.0091,
6558
+ "step": 931
6559
+ },
6560
+ {
6561
+ "epoch": 0.8685927306616962,
6562
+ "grad_norm": 0.9907669425010681,
6563
+ "learning_rate": 4.614561670932288e-06,
6564
+ "loss": 0.0322,
6565
+ "step": 932
6566
+ },
6567
+ {
6568
+ "epoch": 0.869524697110904,
6569
+ "grad_norm": 0.8017989993095398,
6570
+ "learning_rate": 4.550346913739256e-06,
6571
+ "loss": 0.0208,
6572
+ "step": 933
6573
+ },
6574
+ {
6575
+ "epoch": 0.8704566635601119,
6576
+ "grad_norm": 0.680810272693634,
6577
+ "learning_rate": 4.486560782741578e-06,
6578
+ "loss": 0.0122,
6579
+ "step": 934
6580
+ },
6581
+ {
6582
+ "epoch": 0.8713886300093197,
6583
+ "grad_norm": 2.3900279998779297,
6584
+ "learning_rate": 4.423203879492943e-06,
6585
+ "loss": 0.0444,
6586
+ "step": 935
6587
+ },
6588
+ {
6589
+ "epoch": 0.8723205964585274,
6590
+ "grad_norm": 0.30623510479927063,
6591
+ "learning_rate": 4.360276801499086e-06,
6592
+ "loss": 0.006,
6593
+ "step": 936
6594
+ },
6595
+ {
6596
+ "epoch": 0.8732525629077353,
6597
+ "grad_norm": 0.19743725657463074,
6598
+ "learning_rate": 4.29778014221216e-06,
6599
+ "loss": 0.004,
6600
+ "step": 937
6601
+ },
6602
+ {
6603
+ "epoch": 0.8741845293569431,
6604
+ "grad_norm": 0.06322675198316574,
6605
+ "learning_rate": 4.2357144910251e-06,
6606
+ "loss": 0.0012,
6607
+ "step": 938
6608
+ },
6609
+ {
6610
+ "epoch": 0.875116495806151,
6611
+ "grad_norm": 0.14598406851291656,
6612
+ "learning_rate": 4.174080433266136e-06,
6613
+ "loss": 0.0035,
6614
+ "step": 939
6615
+ },
6616
+ {
6617
+ "epoch": 0.8760484622553588,
6618
+ "grad_norm": 0.20462970435619354,
6619
+ "learning_rate": 4.112878550193194e-06,
6620
+ "loss": 0.0028,
6621
+ "step": 940
6622
+ },
6623
+ {
6624
+ "epoch": 0.8769804287045666,
6625
+ "grad_norm": 1.6550384759902954,
6626
+ "learning_rate": 4.05210941898847e-06,
6627
+ "loss": 0.0479,
6628
+ "step": 941
6629
+ },
6630
+ {
6631
+ "epoch": 0.8779123951537745,
6632
+ "grad_norm": 0.5954486131668091,
6633
+ "learning_rate": 3.991773612752952e-06,
6634
+ "loss": 0.0106,
6635
+ "step": 942
6636
+ },
6637
+ {
6638
+ "epoch": 0.8788443616029823,
6639
+ "grad_norm": 0.2953099310398102,
6640
+ "learning_rate": 3.9318717005010495e-06,
6641
+ "loss": 0.0049,
6642
+ "step": 943
6643
+ },
6644
+ {
6645
+ "epoch": 0.8797763280521901,
6646
+ "grad_norm": 0.3062129020690918,
6647
+ "learning_rate": 3.872404247155193e-06,
6648
+ "loss": 0.0024,
6649
+ "step": 944
6650
+ },
6651
+ {
6652
+ "epoch": 0.880708294501398,
6653
+ "grad_norm": 0.44278305768966675,
6654
+ "learning_rate": 3.8133718135405285e-06,
6655
+ "loss": 0.0084,
6656
+ "step": 945
6657
+ },
6658
+ {
6659
+ "epoch": 0.8816402609506058,
6660
+ "grad_norm": 0.15503761172294617,
6661
+ "learning_rate": 3.754774956379614e-06,
6662
+ "loss": 0.0025,
6663
+ "step": 946
6664
+ },
6665
+ {
6666
+ "epoch": 0.8825722273998136,
6667
+ "grad_norm": 0.15528859198093414,
6668
+ "learning_rate": 3.696614228287187e-06,
6669
+ "loss": 0.0022,
6670
+ "step": 947
6671
+ },
6672
+ {
6673
+ "epoch": 0.8835041938490215,
6674
+ "grad_norm": 0.3577142655849457,
6675
+ "learning_rate": 3.6388901777649477e-06,
6676
+ "loss": 0.006,
6677
+ "step": 948
6678
+ },
6679
+ {
6680
+ "epoch": 0.8844361602982292,
6681
+ "grad_norm": 1.3068500757217407,
6682
+ "learning_rate": 3.581603349196372e-06,
6683
+ "loss": 0.0105,
6684
+ "step": 949
6685
+ },
6686
+ {
6687
+ "epoch": 0.8853681267474371,
6688
+ "grad_norm": 1.0203229188919067,
6689
+ "learning_rate": 3.5247542828415747e-06,
6690
+ "loss": 0.0584,
6691
+ "step": 950
6692
+ },
6693
+ {
6694
+ "epoch": 0.8863000931966449,
6695
+ "grad_norm": 1.07167387008667,
6696
+ "learning_rate": 3.468343514832251e-06,
6697
+ "loss": 0.0127,
6698
+ "step": 951
6699
+ },
6700
+ {
6701
+ "epoch": 0.8872320596458527,
6702
+ "grad_norm": 0.17283280193805695,
6703
+ "learning_rate": 3.4123715771665786e-06,
6704
+ "loss": 0.0023,
6705
+ "step": 952
6706
+ },
6707
+ {
6708
+ "epoch": 0.8881640260950606,
6709
+ "grad_norm": 0.06770434975624084,
6710
+ "learning_rate": 3.356838997704226e-06,
6711
+ "loss": 0.0018,
6712
+ "step": 953
6713
+ },
6714
+ {
6715
+ "epoch": 0.8890959925442684,
6716
+ "grad_norm": 0.20179446041584015,
6717
+ "learning_rate": 3.3017463001613626e-06,
6718
+ "loss": 0.0036,
6719
+ "step": 954
6720
+ },
6721
+ {
6722
+ "epoch": 0.8900279589934762,
6723
+ "grad_norm": 1.307664394378662,
6724
+ "learning_rate": 3.2470940041057106e-06,
6725
+ "loss": 0.0415,
6726
+ "step": 955
6727
+ },
6728
+ {
6729
+ "epoch": 0.8909599254426841,
6730
+ "grad_norm": 0.3763882517814636,
6731
+ "learning_rate": 3.1928826249516987e-06,
6732
+ "loss": 0.008,
6733
+ "step": 956
6734
+ },
6735
+ {
6736
+ "epoch": 0.8918918918918919,
6737
+ "grad_norm": 0.4271828532218933,
6738
+ "learning_rate": 3.139112673955513e-06,
6739
+ "loss": 0.0088,
6740
+ "step": 957
6741
+ },
6742
+ {
6743
+ "epoch": 0.8928238583410997,
6744
+ "grad_norm": 0.5596781969070435,
6745
+ "learning_rate": 3.08578465821035e-06,
6746
+ "loss": 0.0064,
6747
+ "step": 958
6748
+ },
6749
+ {
6750
+ "epoch": 0.8937558247903076,
6751
+ "grad_norm": 0.9955370426177979,
6752
+ "learning_rate": 3.0328990806415934e-06,
6753
+ "loss": 0.0293,
6754
+ "step": 959
6755
+ },
6756
+ {
6757
+ "epoch": 0.8946877912395154,
6758
+ "grad_norm": 0.6744177341461182,
6759
+ "learning_rate": 2.9804564400020994e-06,
6760
+ "loss": 0.0115,
6761
+ "step": 960
6762
+ },
6763
+ {
6764
+ "epoch": 0.8956197576887233,
6765
+ "grad_norm": 1.0342707633972168,
6766
+ "learning_rate": 2.9284572308674596e-06,
6767
+ "loss": 0.0688,
6768
+ "step": 961
6769
+ },
6770
+ {
6771
+ "epoch": 0.896551724137931,
6772
+ "grad_norm": 0.36630138754844666,
6773
+ "learning_rate": 2.8769019436313715e-06,
6774
+ "loss": 0.0069,
6775
+ "step": 962
6776
+ },
6777
+ {
6778
+ "epoch": 0.8974836905871388,
6779
+ "grad_norm": 0.9983659982681274,
6780
+ "learning_rate": 2.825791064500993e-06,
6781
+ "loss": 0.032,
6782
+ "step": 963
6783
+ },
6784
+ {
6785
+ "epoch": 0.8984156570363467,
6786
+ "grad_norm": 0.27666184306144714,
6787
+ "learning_rate": 2.7751250754923573e-06,
6788
+ "loss": 0.0053,
6789
+ "step": 964
6790
+ },
6791
+ {
6792
+ "epoch": 0.8993476234855545,
6793
+ "grad_norm": 0.03350253403186798,
6794
+ "learning_rate": 2.7249044544258363e-06,
6795
+ "loss": 0.0009,
6796
+ "step": 965
6797
+ },
6798
+ {
6799
+ "epoch": 0.9002795899347623,
6800
+ "grad_norm": 0.501646876335144,
6801
+ "learning_rate": 2.675129674921639e-06,
6802
+ "loss": 0.0064,
6803
+ "step": 966
6804
+ },
6805
+ {
6806
+ "epoch": 0.9012115563839702,
6807
+ "grad_norm": 0.07862615585327148,
6808
+ "learning_rate": 2.625801206395312e-06,
6809
+ "loss": 0.0015,
6810
+ "step": 967
6811
+ },
6812
+ {
6813
+ "epoch": 0.902143522833178,
6814
+ "grad_norm": 0.849259078502655,
6815
+ "learning_rate": 2.576919514053355e-06,
6816
+ "loss": 0.0202,
6817
+ "step": 968
6818
+ },
6819
+ {
6820
+ "epoch": 0.9030754892823858,
6821
+ "grad_norm": 0.0796375498175621,
6822
+ "learning_rate": 2.528485058888813e-06,
6823
+ "loss": 0.0017,
6824
+ "step": 969
6825
+ },
6826
+ {
6827
+ "epoch": 0.9040074557315937,
6828
+ "grad_norm": 1.963661789894104,
6829
+ "learning_rate": 2.48049829767692e-06,
6830
+ "loss": 0.0798,
6831
+ "step": 970
6832
+ },
6833
+ {
6834
+ "epoch": 0.9049394221808015,
6835
+ "grad_norm": 0.7925097346305847,
6836
+ "learning_rate": 2.4329596829708144e-06,
6837
+ "loss": 0.0099,
6838
+ "step": 971
6839
+ },
6840
+ {
6841
+ "epoch": 0.9058713886300093,
6842
+ "grad_norm": 0.11906258761882782,
6843
+ "learning_rate": 2.385869663097251e-06,
6844
+ "loss": 0.002,
6845
+ "step": 972
6846
+ },
6847
+ {
6848
+ "epoch": 0.9068033550792172,
6849
+ "grad_norm": 1.8423750400543213,
6850
+ "learning_rate": 2.3392286821523724e-06,
6851
+ "loss": 0.0678,
6852
+ "step": 973
6853
+ },
6854
+ {
6855
+ "epoch": 0.907735321528425,
6856
+ "grad_norm": 0.6542656421661377,
6857
+ "learning_rate": 2.2930371799975594e-06,
6858
+ "loss": 0.0111,
6859
+ "step": 974
6860
+ },
6861
+ {
6862
+ "epoch": 0.9086672879776329,
6863
+ "grad_norm": 1.2632553577423096,
6864
+ "learning_rate": 2.2472955922552163e-06,
6865
+ "loss": 0.0662,
6866
+ "step": 975
6867
+ },
6868
+ {
6869
+ "epoch": 0.9095992544268406,
6870
+ "grad_norm": 0.9758872985839844,
6871
+ "learning_rate": 2.202004350304715e-06,
6872
+ "loss": 0.0104,
6873
+ "step": 976
6874
+ },
6875
+ {
6876
+ "epoch": 0.9105312208760484,
6877
+ "grad_norm": 0.615419864654541,
6878
+ "learning_rate": 2.157163881278312e-06,
6879
+ "loss": 0.0131,
6880
+ "step": 977
6881
+ },
6882
+ {
6883
+ "epoch": 0.9114631873252563,
6884
+ "grad_norm": 0.07674716413021088,
6885
+ "learning_rate": 2.112774608057111e-06,
6886
+ "loss": 0.001,
6887
+ "step": 978
6888
+ },
6889
+ {
6890
+ "epoch": 0.9123951537744641,
6891
+ "grad_norm": 0.2658063471317291,
6892
+ "learning_rate": 2.068836949267089e-06,
6893
+ "loss": 0.0017,
6894
+ "step": 979
6895
+ },
6896
+ {
6897
+ "epoch": 0.9133271202236719,
6898
+ "grad_norm": 1.0758992433547974,
6899
+ "learning_rate": 2.0253513192751373e-06,
6900
+ "loss": 0.0118,
6901
+ "step": 980
6902
+ },
6903
+ {
6904
+ "epoch": 0.9142590866728798,
6905
+ "grad_norm": 0.5867937803268433,
6906
+ "learning_rate": 1.982318128185151e-06,
6907
+ "loss": 0.0053,
6908
+ "step": 981
6909
+ },
6910
+ {
6911
+ "epoch": 0.9151910531220876,
6912
+ "grad_norm": 0.7973155379295349,
6913
+ "learning_rate": 1.9397377818341944e-06,
6914
+ "loss": 0.0145,
6915
+ "step": 982
6916
+ },
6917
+ {
6918
+ "epoch": 0.9161230195712954,
6919
+ "grad_norm": 0.16484799981117249,
6920
+ "learning_rate": 1.8976106817886196e-06,
6921
+ "loss": 0.0033,
6922
+ "step": 983
6923
+ },
6924
+ {
6925
+ "epoch": 0.9170549860205033,
6926
+ "grad_norm": 0.21485017240047455,
6927
+ "learning_rate": 1.855937225340315e-06,
6928
+ "loss": 0.0038,
6929
+ "step": 984
6930
+ },
6931
+ {
6932
+ "epoch": 0.9179869524697111,
6933
+ "grad_norm": 0.0540773943066597,
6934
+ "learning_rate": 1.8147178055029579e-06,
6935
+ "loss": 0.0012,
6936
+ "step": 985
6937
+ },
6938
+ {
6939
+ "epoch": 0.918918918918919,
6940
+ "grad_norm": 0.10457666218280792,
6941
+ "learning_rate": 1.7739528110083004e-06,
6942
+ "loss": 0.0014,
6943
+ "step": 986
6944
+ },
6945
+ {
6946
+ "epoch": 0.9198508853681268,
6947
+ "grad_norm": 0.07089216262102127,
6948
+ "learning_rate": 1.7336426263024897e-06,
6949
+ "loss": 0.0012,
6950
+ "step": 987
6951
+ },
6952
+ {
6953
+ "epoch": 0.9207828518173345,
6954
+ "grad_norm": 0.041863564401865005,
6955
+ "learning_rate": 1.6937876315424705e-06,
6956
+ "loss": 0.0008,
6957
+ "step": 988
6958
+ },
6959
+ {
6960
+ "epoch": 0.9217148182665424,
6961
+ "grad_norm": 0.1343851238489151,
6962
+ "learning_rate": 1.6543882025923886e-06,
6963
+ "loss": 0.0024,
6964
+ "step": 989
6965
+ },
6966
+ {
6967
+ "epoch": 0.9226467847157502,
6968
+ "grad_norm": 0.04936739057302475,
6969
+ "learning_rate": 1.6154447110200255e-06,
6970
+ "loss": 0.0008,
6971
+ "step": 990
6972
+ },
6973
+ {
6974
+ "epoch": 0.923578751164958,
6975
+ "grad_norm": 0.6000242233276367,
6976
+ "learning_rate": 1.5769575240933422e-06,
6977
+ "loss": 0.0095,
6978
+ "step": 991
6979
+ },
6980
+ {
6981
+ "epoch": 0.9245107176141659,
6982
+ "grad_norm": 0.7469452619552612,
6983
+ "learning_rate": 1.5389270047769578e-06,
6984
+ "loss": 0.0163,
6985
+ "step": 992
6986
+ },
6987
+ {
6988
+ "epoch": 0.9254426840633737,
6989
+ "grad_norm": 0.09905730932950974,
6990
+ "learning_rate": 1.5013535117287647e-06,
6991
+ "loss": 0.0014,
6992
+ "step": 993
6993
+ },
6994
+ {
6995
+ "epoch": 0.9263746505125815,
6996
+ "grad_norm": 0.9133400917053223,
6997
+ "learning_rate": 1.4642373992965364e-06,
6998
+ "loss": 0.0117,
6999
+ "step": 994
7000
+ },
7001
+ {
7002
+ "epoch": 0.9273066169617894,
7003
+ "grad_norm": 1.5601509809494019,
7004
+ "learning_rate": 1.4275790175145908e-06,
7005
+ "loss": 0.0671,
7006
+ "step": 995
7007
+ },
7008
+ {
7009
+ "epoch": 0.9282385834109972,
7010
+ "grad_norm": 1.1153135299682617,
7011
+ "learning_rate": 1.3913787121004719e-06,
7012
+ "loss": 0.0184,
7013
+ "step": 996
7014
+ },
7015
+ {
7016
+ "epoch": 0.9291705498602051,
7017
+ "grad_norm": 1.7211925983428955,
7018
+ "learning_rate": 1.3556368244517114e-06,
7019
+ "loss": 0.0227,
7020
+ "step": 997
7021
+ },
7022
+ {
7023
+ "epoch": 0.9301025163094129,
7024
+ "grad_norm": 0.985527753829956,
7025
+ "learning_rate": 1.3203536916425841e-06,
7026
+ "loss": 0.0273,
7027
+ "step": 998
7028
+ },
7029
+ {
7030
+ "epoch": 0.9310344827586207,
7031
+ "grad_norm": 1.213148832321167,
7032
+ "learning_rate": 1.2855296464209688e-06,
7033
+ "loss": 0.0441,
7034
+ "step": 999
7035
+ },
7036
+ {
7037
+ "epoch": 0.9319664492078286,
7038
+ "grad_norm": 1.5918529033660889,
7039
+ "learning_rate": 1.2511650172051637e-06,
7040
+ "loss": 0.0944,
7041
+ "step": 1000
7042
+ },
7043
+ {
7044
+ "epoch": 0.9328984156570364,
7045
+ "grad_norm": 0.06392987817525864,
7046
+ "learning_rate": 1.217260128080816e-06,
7047
+ "loss": 0.0012,
7048
+ "step": 1001
7049
+ },
7050
+ {
7051
+ "epoch": 0.9338303821062441,
7052
+ "grad_norm": 1.1391026973724365,
7053
+ "learning_rate": 1.1838152987978578e-06,
7054
+ "loss": 0.0308,
7055
+ "step": 1002
7056
+ },
7057
+ {
7058
+ "epoch": 0.934762348555452,
7059
+ "grad_norm": 0.05295366048812866,
7060
+ "learning_rate": 1.1508308447674975e-06,
7061
+ "loss": 0.0008,
7062
+ "step": 1003
7063
+ },
7064
+ {
7065
+ "epoch": 0.9356943150046598,
7066
+ "grad_norm": 1.0572638511657715,
7067
+ "learning_rate": 1.1183070770592441e-06,
7068
+ "loss": 0.0262,
7069
+ "step": 1004
7070
+ },
7071
+ {
7072
+ "epoch": 0.9366262814538676,
7073
+ "grad_norm": 0.37860023975372314,
7074
+ "learning_rate": 1.0862443023979651e-06,
7075
+ "loss": 0.0069,
7076
+ "step": 1005
7077
+ },
7078
+ {
7079
+ "epoch": 0.9375582479030755,
7080
+ "grad_norm": 0.15000490844249725,
7081
+ "learning_rate": 1.0546428231609895e-06,
7082
+ "loss": 0.0035,
7083
+ "step": 1006
7084
+ },
7085
+ {
7086
+ "epoch": 0.9384902143522833,
7087
+ "grad_norm": 0.05710078775882721,
7088
+ "learning_rate": 1.0235029373752758e-06,
7089
+ "loss": 0.001,
7090
+ "step": 1007
7091
+ },
7092
+ {
7093
+ "epoch": 0.9394221808014911,
7094
+ "grad_norm": 0.5820727348327637,
7095
+ "learning_rate": 9.928249387145982e-07,
7096
+ "loss": 0.0101,
7097
+ "step": 1008
7098
+ },
7099
+ {
7100
+ "epoch": 0.940354147250699,
7101
+ "grad_norm": 0.19106589257717133,
7102
+ "learning_rate": 9.6260911649676e-07,
7103
+ "loss": 0.0041,
7104
+ "step": 1009
7105
+ },
7106
+ {
7107
+ "epoch": 0.9412861136999068,
7108
+ "grad_norm": 0.3644753396511078,
7109
+ "learning_rate": 9.32855755680867e-07,
7110
+ "loss": 0.0098,
7111
+ "step": 1010
7112
+ },
7113
+ {
7114
+ "epoch": 0.9422180801491147,
7115
+ "grad_norm": 0.2526366114616394,
7116
+ "learning_rate": 9.035651368646648e-07,
7117
+ "loss": 0.0055,
7118
+ "step": 1011
7119
+ },
7120
+ {
7121
+ "epoch": 0.9431500465983225,
7122
+ "grad_norm": 0.6924790143966675,
7123
+ "learning_rate": 8.747375362818666e-07,
7124
+ "loss": 0.0188,
7125
+ "step": 1012
7126
+ },
7127
+ {
7128
+ "epoch": 0.9440820130475303,
7129
+ "grad_norm": 1.0197707414627075,
7130
+ "learning_rate": 8.463732257995571e-07,
7131
+ "loss": 0.0265,
7132
+ "step": 1013
7133
+ },
7134
+ {
7135
+ "epoch": 0.9450139794967382,
7136
+ "grad_norm": 0.5194602608680725,
7137
+ "learning_rate": 8.184724729156379e-07,
7138
+ "loss": 0.0094,
7139
+ "step": 1014
7140
+ },
7141
+ {
7142
+ "epoch": 0.9459459459459459,
7143
+ "grad_norm": 0.5754898190498352,
7144
+ "learning_rate": 7.910355407562742e-07,
7145
+ "loss": 0.0105,
7146
+ "step": 1015
7147
+ },
7148
+ {
7149
+ "epoch": 0.9468779123951537,
7150
+ "grad_norm": 0.28730660676956177,
7151
+ "learning_rate": 7.640626880734581e-07,
7152
+ "loss": 0.0034,
7153
+ "step": 1016
7154
+ },
7155
+ {
7156
+ "epoch": 0.9478098788443616,
7157
+ "grad_norm": 1.0178496837615967,
7158
+ "learning_rate": 7.375541692425326e-07,
7159
+ "loss": 0.0199,
7160
+ "step": 1017
7161
+ },
7162
+ {
7163
+ "epoch": 0.9487418452935694,
7164
+ "grad_norm": 0.2701060473918915,
7165
+ "learning_rate": 7.115102342598101e-07,
7166
+ "loss": 0.003,
7167
+ "step": 1018
7168
+ },
7169
+ {
7170
+ "epoch": 0.9496738117427772,
7171
+ "grad_norm": 0.5945216417312622,
7172
+ "learning_rate": 6.859311287402081e-07,
7173
+ "loss": 0.0105,
7174
+ "step": 1019
7175
+ },
7176
+ {
7177
+ "epoch": 0.9506057781919851,
7178
+ "grad_norm": 0.7214066982269287,
7179
+ "learning_rate": 6.608170939149283e-07,
7180
+ "loss": 0.0132,
7181
+ "step": 1020
7182
+ },
7183
+ {
7184
+ "epoch": 0.9515377446411929,
7185
+ "grad_norm": 0.11991623789072037,
7186
+ "learning_rate": 6.361683666291973e-07,
7187
+ "loss": 0.0031,
7188
+ "step": 1021
7189
+ },
7190
+ {
7191
+ "epoch": 0.9524697110904008,
7192
+ "grad_norm": 0.24525563418865204,
7193
+ "learning_rate": 6.119851793400189e-07,
7194
+ "loss": 0.0026,
7195
+ "step": 1022
7196
+ },
7197
+ {
7198
+ "epoch": 0.9534016775396086,
7199
+ "grad_norm": 1.5672634840011597,
7200
+ "learning_rate": 5.882677601139919e-07,
7201
+ "loss": 0.0275,
7202
+ "step": 1023
7203
+ },
7204
+ {
7205
+ "epoch": 0.9543336439888164,
7206
+ "grad_norm": 0.9412722587585449,
7207
+ "learning_rate": 5.650163326251345e-07,
7208
+ "loss": 0.0178,
7209
+ "step": 1024
7210
+ },
7211
+ {
7212
+ "epoch": 0.9552656104380243,
7213
+ "grad_norm": 0.39089635014533997,
7214
+ "learning_rate": 5.422311161528193e-07,
7215
+ "loss": 0.0224,
7216
+ "step": 1025
7217
+ },
7218
+ {
7219
+ "epoch": 0.9561975768872321,
7220
+ "grad_norm": 0.03957606479525566,
7221
+ "learning_rate": 5.199123255796634e-07,
7222
+ "loss": 0.0009,
7223
+ "step": 1026
7224
+ },
7225
+ {
7226
+ "epoch": 0.9571295433364398,
7227
+ "grad_norm": 1.1148029565811157,
7228
+ "learning_rate": 4.980601713895305e-07,
7229
+ "loss": 0.023,
7230
+ "step": 1027
7231
+ },
7232
+ {
7233
+ "epoch": 0.9580615097856477,
7234
+ "grad_norm": 0.12970255315303802,
7235
+ "learning_rate": 4.7667485966552685e-07,
7236
+ "loss": 0.0021,
7237
+ "step": 1028
7238
+ },
7239
+ {
7240
+ "epoch": 0.9589934762348555,
7241
+ "grad_norm": 0.9582773447036743,
7242
+ "learning_rate": 4.55756592088058e-07,
7243
+ "loss": 0.0134,
7244
+ "step": 1029
7245
+ },
7246
+ {
7247
+ "epoch": 0.9599254426840633,
7248
+ "grad_norm": 0.3440712094306946,
7249
+ "learning_rate": 4.353055659329419e-07,
7250
+ "loss": 0.0089,
7251
+ "step": 1030
7252
+ },
7253
+ {
7254
+ "epoch": 0.9608574091332712,
7255
+ "grad_norm": 0.0910550057888031,
7256
+ "learning_rate": 4.153219740695435e-07,
7257
+ "loss": 0.0022,
7258
+ "step": 1031
7259
+ },
7260
+ {
7261
+ "epoch": 0.961789375582479,
7262
+ "grad_norm": 0.5724707841873169,
7263
+ "learning_rate": 3.958060049589485e-07,
7264
+ "loss": 0.008,
7265
+ "step": 1032
7266
+ },
7267
+ {
7268
+ "epoch": 0.9627213420316869,
7269
+ "grad_norm": 0.7248005867004395,
7270
+ "learning_rate": 3.767578426521923e-07,
7271
+ "loss": 0.0209,
7272
+ "step": 1033
7273
+ },
7274
+ {
7275
+ "epoch": 0.9636533084808947,
7276
+ "grad_norm": 1.4421683549880981,
7277
+ "learning_rate": 3.5817766678850615e-07,
7278
+ "loss": 0.0059,
7279
+ "step": 1034
7280
+ },
7281
+ {
7282
+ "epoch": 0.9645852749301025,
7283
+ "grad_norm": 0.555047869682312,
7284
+ "learning_rate": 3.4006565259366295e-07,
7285
+ "loss": 0.0095,
7286
+ "step": 1035
7287
+ },
7288
+ {
7289
+ "epoch": 0.9655172413793104,
7290
+ "grad_norm": 0.6058024764060974,
7291
+ "learning_rate": 3.224219708782894e-07,
7292
+ "loss": 0.0113,
7293
+ "step": 1036
7294
+ },
7295
+ {
7296
+ "epoch": 0.9664492078285182,
7297
+ "grad_norm": 0.9548462629318237,
7298
+ "learning_rate": 3.052467880362675e-07,
7299
+ "loss": 0.0218,
7300
+ "step": 1037
7301
+ },
7302
+ {
7303
+ "epoch": 0.967381174277726,
7304
+ "grad_norm": 0.2721622586250305,
7305
+ "learning_rate": 2.88540266043158e-07,
7306
+ "loss": 0.0058,
7307
+ "step": 1038
7308
+ },
7309
+ {
7310
+ "epoch": 0.9683131407269339,
7311
+ "grad_norm": 0.2145017385482788,
7312
+ "learning_rate": 2.723025624546849e-07,
7313
+ "loss": 0.0034,
7314
+ "step": 1039
7315
+ },
7316
+ {
7317
+ "epoch": 0.9692451071761417,
7318
+ "grad_norm": 0.4106197655200958,
7319
+ "learning_rate": 2.5653383040524227e-07,
7320
+ "loss": 0.0055,
7321
+ "step": 1040
7322
+ },
7323
+ {
7324
+ "epoch": 0.9701770736253494,
7325
+ "grad_norm": 0.16109812259674072,
7326
+ "learning_rate": 2.412342186064565e-07,
7327
+ "loss": 0.0024,
7328
+ "step": 1041
7329
+ },
7330
+ {
7331
+ "epoch": 0.9711090400745573,
7332
+ "grad_norm": 1.1901835203170776,
7333
+ "learning_rate": 2.2640387134577058e-07,
7334
+ "loss": 0.0369,
7335
+ "step": 1042
7336
+ },
7337
+ {
7338
+ "epoch": 0.9720410065237651,
7339
+ "grad_norm": 0.8408852815628052,
7340
+ "learning_rate": 2.1204292848509555e-07,
7341
+ "loss": 0.019,
7342
+ "step": 1043
7343
+ },
7344
+ {
7345
+ "epoch": 0.972972972972973,
7346
+ "grad_norm": 0.14452603459358215,
7347
+ "learning_rate": 1.98151525459489e-07,
7348
+ "loss": 0.0023,
7349
+ "step": 1044
7350
+ },
7351
+ {
7352
+ "epoch": 0.9739049394221808,
7353
+ "grad_norm": 0.34769976139068604,
7354
+ "learning_rate": 1.8472979327587292e-07,
7355
+ "loss": 0.0066,
7356
+ "step": 1045
7357
+ },
7358
+ {
7359
+ "epoch": 0.9748369058713886,
7360
+ "grad_norm": 0.8973527550697327,
7361
+ "learning_rate": 1.717778585118013e-07,
7362
+ "loss": 0.0171,
7363
+ "step": 1046
7364
+ },
7365
+ {
7366
+ "epoch": 0.9757688723205965,
7367
+ "grad_norm": 0.06965801864862442,
7368
+ "learning_rate": 1.5929584331427216e-07,
7369
+ "loss": 0.0011,
7370
+ "step": 1047
7371
+ },
7372
+ {
7373
+ "epoch": 0.9767008387698043,
7374
+ "grad_norm": 0.5106223225593567,
7375
+ "learning_rate": 1.4728386539856754e-07,
7376
+ "loss": 0.0086,
7377
+ "step": 1048
7378
+ },
7379
+ {
7380
+ "epoch": 0.9776328052190121,
7381
+ "grad_norm": 1.0167614221572876,
7382
+ "learning_rate": 1.3574203804713747e-07,
7383
+ "loss": 0.0193,
7384
+ "step": 1049
7385
+ },
7386
+ {
7387
+ "epoch": 0.97856477166822,
7388
+ "grad_norm": 1.6071141958236694,
7389
+ "learning_rate": 1.246704701085566e-07,
7390
+ "loss": 0.0923,
7391
+ "step": 1050
7392
+ },
7393
+ {
7394
+ "epoch": 0.9794967381174278,
7395
+ "grad_norm": 0.06256900727748871,
7396
+ "learning_rate": 1.1406926599646373e-07,
7397
+ "loss": 0.001,
7398
+ "step": 1051
7399
+ },
7400
+ {
7401
+ "epoch": 0.9804287045666356,
7402
+ "grad_norm": 0.6707242727279663,
7403
+ "learning_rate": 1.0393852568860719e-07,
7404
+ "loss": 0.0157,
7405
+ "step": 1052
7406
+ },
7407
+ {
7408
+ "epoch": 0.9813606710158435,
7409
+ "grad_norm": 0.9473837614059448,
7410
+ "learning_rate": 9.427834472588992e-08,
7411
+ "loss": 0.0473,
7412
+ "step": 1053
7413
+ },
7414
+ {
7415
+ "epoch": 0.9822926374650512,
7416
+ "grad_norm": 0.40152788162231445,
7417
+ "learning_rate": 8.508881421145365e-08,
7418
+ "loss": 0.0091,
7419
+ "step": 1054
7420
+ },
7421
+ {
7422
+ "epoch": 0.983224603914259,
7423
+ "grad_norm": 0.11309801042079926,
7424
+ "learning_rate": 7.637002080985168e-08,
7425
+ "loss": 0.002,
7426
+ "step": 1055
7427
+ },
7428
+ {
7429
+ "epoch": 0.9841565703634669,
7430
+ "grad_norm": 0.1226629987359047,
7431
+ "learning_rate": 6.812204674619959e-08,
7432
+ "loss": 0.0025,
7433
+ "step": 1056
7434
+ },
7435
+ {
7436
+ "epoch": 0.9850885368126747,
7437
+ "grad_norm": 0.6275689601898193,
7438
+ "learning_rate": 6.034496980542037e-08,
7439
+ "loss": 0.0149,
7440
+ "step": 1057
7441
+ },
7442
+ {
7443
+ "epoch": 0.9860205032618826,
7444
+ "grad_norm": 0.6120526194572449,
7445
+ "learning_rate": 5.303886333151153e-08,
7446
+ "loss": 0.0088,
7447
+ "step": 1058
7448
+ },
7449
+ {
7450
+ "epoch": 0.9869524697110904,
7451
+ "grad_norm": 0.8378371000289917,
7452
+ "learning_rate": 4.620379622682358e-08,
7453
+ "loss": 0.0166,
7454
+ "step": 1059
7455
+ },
7456
+ {
7457
+ "epoch": 0.9878844361602982,
7458
+ "grad_norm": 0.06605886667966843,
7459
+ "learning_rate": 3.9839832951465986e-08,
7460
+ "loss": 0.0012,
7461
+ "step": 1060
7462
+ },
7463
+ {
7464
+ "epoch": 0.9888164026095061,
7465
+ "grad_norm": 0.9707759618759155,
7466
+ "learning_rate": 3.394703352263551e-08,
7467
+ "loss": 0.0434,
7468
+ "step": 1061
7469
+ },
7470
+ {
7471
+ "epoch": 0.9897483690587139,
7472
+ "grad_norm": 0.12164362519979477,
7473
+ "learning_rate": 2.8525453514099965e-08,
7474
+ "loss": 0.0018,
7475
+ "step": 1062
7476
+ },
7477
+ {
7478
+ "epoch": 0.9906803355079217,
7479
+ "grad_norm": 0.4129875898361206,
7480
+ "learning_rate": 2.3575144055643094e-08,
7481
+ "loss": 0.0093,
7482
+ "step": 1063
7483
+ },
7484
+ {
7485
+ "epoch": 0.9916123019571296,
7486
+ "grad_norm": 0.6688860654830933,
7487
+ "learning_rate": 1.9096151832609375e-08,
7488
+ "loss": 0.0118,
7489
+ "step": 1064
7490
+ },
7491
+ {
7492
+ "epoch": 0.9925442684063374,
7493
+ "grad_norm": 0.1448785960674286,
7494
+ "learning_rate": 1.5088519085437734e-08,
7495
+ "loss": 0.0021,
7496
+ "step": 1065
7497
+ },
7498
+ {
7499
+ "epoch": 0.9934762348555451,
7500
+ "grad_norm": 0.17577403783798218,
7501
+ "learning_rate": 1.1552283609272962e-08,
7502
+ "loss": 0.0036,
7503
+ "step": 1066
7504
+ },
7505
+ {
7506
+ "epoch": 0.994408201304753,
7507
+ "grad_norm": 0.0788675993680954,
7508
+ "learning_rate": 8.487478753615997e-09,
7509
+ "loss": 0.0016,
7510
+ "step": 1067
7511
+ },
7512
+ {
7513
+ "epoch": 0.9953401677539608,
7514
+ "grad_norm": 0.3536447286605835,
7515
+ "learning_rate": 5.894133422001957e-09,
7516
+ "loss": 0.004,
7517
+ "step": 1068
7518
+ },
7519
+ {
7520
+ "epoch": 0.9962721342031687,
7521
+ "grad_norm": 1.099785327911377,
7522
+ "learning_rate": 3.772272071722593e-09,
7523
+ "loss": 0.016,
7524
+ "step": 1069
7525
+ },
7526
+ {
7527
+ "epoch": 0.9972041006523765,
7528
+ "grad_norm": 1.2353144884109497,
7529
+ "learning_rate": 2.1219147136264382e-09,
7530
+ "loss": 0.024,
7531
+ "step": 1070
7532
+ },
7533
+ {
7534
+ "epoch": 0.9981360671015843,
7535
+ "grad_norm": 0.8307344317436218,
7536
+ "learning_rate": 9.43076911874563e-10,
7537
+ "loss": 0.0139,
7538
+ "step": 1071
7539
+ },
7540
+ {
7541
+ "epoch": 0.9990680335507922,
7542
+ "grad_norm": 2.4767701625823975,
7543
+ "learning_rate": 2.3576978384065584e-10,
7544
+ "loss": 0.0363,
7545
+ "step": 1072
7546
+ },
7547
+ {
7548
+ "epoch": 1.0,
7549
+ "grad_norm": 1.866561770439148,
7550
+ "learning_rate": 0.0,
7551
+ "loss": 0.0964,
7552
+ "step": 1073
7553
  }
7554
  ],
7555
  "logging_steps": 1,
 
7564
  "should_evaluate": false,
7565
  "should_log": false,
7566
  "should_save": true,
7567
+ "should_training_stop": true
7568
  },
7569
  "attributes": {}
7570
  }
7571
  },
7572
+ "total_flos": 1.5471679295717376e+17,
7573
  "train_batch_size": 2,
7574
  "trial_name": null,
7575
  "trial_params": null