diaenra commited on
Commit
eac5008
·
verified ·
1 Parent(s): a24fafc

Training in progress, step 937, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e35f54a429c6de55c1f233fd71a200e7d866517a97e5dafc54078781c6bc8e20
3
  size 4102239984
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0ec5d4e85b4b2b01c9ffcd604688835ae1a7f5fa20569b216a0e590222072e86
3
  size 4102239984
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c007dbfc424d14fbc8820d2d267510584cf5d046189b54a95234c45f875ff9f4
3
  size 8204830696
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:864849a05c066555e793597b6fab85cc6da3e2acf75b0179a472d8000c4b1b7c
3
  size 8204830696
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c6b4f0ba89c38aaea40b96e028091b966aea9143375090d4de52a5816adccb95
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d8b60c837d596a3ced4d864bdd9ac9e022e64500c8a0c3de7b1a5515bed7f61b
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3b6c7dbbef80fb8c214f307684c8dbe1b72bc760991634130e5bddee3e454cc6
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2982127b3bd380c10a83e88ec6cdb13087dd3bcf10319900ecad520c33cb08c2
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7645961077046121,
5
  "eval_steps": 500,
6
- "global_step": 717,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5026,6 +5026,1546 @@
5026
  "learning_rate": 1.6099602899673083e-05,
5027
  "loss": 0.0007,
5028
  "step": 717
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5029
  }
5030
  ],
5031
  "logging_steps": 1,
@@ -5040,12 +6580,12 @@
5040
  "should_evaluate": false,
5041
  "should_log": false,
5042
  "should_save": true,
5043
- "should_training_stop": false
5044
  },
5045
  "attributes": {}
5046
  }
5047
  },
5048
- "total_flos": 3.295034607874867e+17,
5049
  "train_batch_size": 4,
5050
  "trial_name": null,
5051
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.9992002132764596,
5
  "eval_steps": 500,
6
+ "global_step": 937,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5026
  "learning_rate": 1.6099602899673083e-05,
5027
  "loss": 0.0007,
5028
  "step": 717
5029
+ },
5030
+ {
5031
+ "epoch": 0.765662490002666,
5032
+ "grad_norm": 0.012030128389596939,
5033
+ "learning_rate": 1.5961894463176942e-05,
5034
+ "loss": 0.0003,
5035
+ "step": 718
5036
+ },
5037
+ {
5038
+ "epoch": 0.7667288723007198,
5039
+ "grad_norm": 0.19891726970672607,
5040
+ "learning_rate": 1.582466555438158e-05,
5041
+ "loss": 0.002,
5042
+ "step": 719
5043
+ },
5044
+ {
5045
+ "epoch": 0.7677952545987736,
5046
+ "grad_norm": 0.022642523050308228,
5047
+ "learning_rate": 1.5687918106563326e-05,
5048
+ "loss": 0.0004,
5049
+ "step": 720
5050
+ },
5051
+ {
5052
+ "epoch": 0.7688616368968275,
5053
+ "grad_norm": 0.03008243627846241,
5054
+ "learning_rate": 1.555165404621567e-05,
5055
+ "loss": 0.0007,
5056
+ "step": 721
5057
+ },
5058
+ {
5059
+ "epoch": 0.7699280191948814,
5060
+ "grad_norm": 0.018216097727417946,
5061
+ "learning_rate": 1.5415875293022182e-05,
5062
+ "loss": 0.0005,
5063
+ "step": 722
5064
+ },
5065
+ {
5066
+ "epoch": 0.7709944014929352,
5067
+ "grad_norm": 0.0316886305809021,
5068
+ "learning_rate": 1.5280583759829436e-05,
5069
+ "loss": 0.0005,
5070
+ "step": 723
5071
+ },
5072
+ {
5073
+ "epoch": 0.7720607837909891,
5074
+ "grad_norm": 0.006309879012405872,
5075
+ "learning_rate": 1.5145781352620053e-05,
5076
+ "loss": 0.0002,
5077
+ "step": 724
5078
+ },
5079
+ {
5080
+ "epoch": 0.773127166089043,
5081
+ "grad_norm": 0.024186374619603157,
5082
+ "learning_rate": 1.5011469970485853e-05,
5083
+ "loss": 0.0005,
5084
+ "step": 725
5085
+ },
5086
+ {
5087
+ "epoch": 0.7741935483870968,
5088
+ "grad_norm": 0.03155244141817093,
5089
+ "learning_rate": 1.4877651505601158e-05,
5090
+ "loss": 0.0007,
5091
+ "step": 726
5092
+ },
5093
+ {
5094
+ "epoch": 0.7752599306851506,
5095
+ "grad_norm": 0.005562330596148968,
5096
+ "learning_rate": 1.4744327843196043e-05,
5097
+ "loss": 0.0002,
5098
+ "step": 727
5099
+ },
5100
+ {
5101
+ "epoch": 0.7763263129832044,
5102
+ "grad_norm": 0.03465036302804947,
5103
+ "learning_rate": 1.4611500861529825e-05,
5104
+ "loss": 0.0006,
5105
+ "step": 728
5106
+ },
5107
+ {
5108
+ "epoch": 0.7773926952812583,
5109
+ "grad_norm": 0.009592439979314804,
5110
+ "learning_rate": 1.4479172431864646e-05,
5111
+ "loss": 0.0002,
5112
+ "step": 729
5113
+ },
5114
+ {
5115
+ "epoch": 0.7784590775793122,
5116
+ "grad_norm": 0.01366474200040102,
5117
+ "learning_rate": 1.434734441843899e-05,
5118
+ "loss": 0.0003,
5119
+ "step": 730
5120
+ },
5121
+ {
5122
+ "epoch": 0.779525459877366,
5123
+ "grad_norm": 0.019273320212960243,
5124
+ "learning_rate": 1.4216018678441556e-05,
5125
+ "loss": 0.0004,
5126
+ "step": 731
5127
+ },
5128
+ {
5129
+ "epoch": 0.7805918421754199,
5130
+ "grad_norm": 0.007322750985622406,
5131
+ "learning_rate": 1.4085197061985023e-05,
5132
+ "loss": 0.0002,
5133
+ "step": 732
5134
+ },
5135
+ {
5136
+ "epoch": 0.7816582244734738,
5137
+ "grad_norm": 0.06155271455645561,
5138
+ "learning_rate": 1.3954881412079945e-05,
5139
+ "loss": 0.0011,
5140
+ "step": 733
5141
+ },
5142
+ {
5143
+ "epoch": 0.7827246067715276,
5144
+ "grad_norm": 0.00942557118833065,
5145
+ "learning_rate": 1.3825073564608909e-05,
5146
+ "loss": 0.0002,
5147
+ "step": 734
5148
+ },
5149
+ {
5150
+ "epoch": 0.7837909890695814,
5151
+ "grad_norm": 0.01583426259458065,
5152
+ "learning_rate": 1.3695775348300533e-05,
5153
+ "loss": 0.0003,
5154
+ "step": 735
5155
+ },
5156
+ {
5157
+ "epoch": 0.7848573713676353,
5158
+ "grad_norm": 0.4624207615852356,
5159
+ "learning_rate": 1.3566988584703816e-05,
5160
+ "loss": 0.0126,
5161
+ "step": 736
5162
+ },
5163
+ {
5164
+ "epoch": 0.7859237536656891,
5165
+ "grad_norm": 0.37781426310539246,
5166
+ "learning_rate": 1.3438715088162401e-05,
5167
+ "loss": 0.0168,
5168
+ "step": 737
5169
+ },
5170
+ {
5171
+ "epoch": 0.786990135963743,
5172
+ "grad_norm": 0.010702108964323997,
5173
+ "learning_rate": 1.3310956665789026e-05,
5174
+ "loss": 0.0002,
5175
+ "step": 738
5176
+ },
5177
+ {
5178
+ "epoch": 0.7880565182617969,
5179
+ "grad_norm": 0.40751180052757263,
5180
+ "learning_rate": 1.3183715117440142e-05,
5181
+ "loss": 0.0021,
5182
+ "step": 739
5183
+ },
5184
+ {
5185
+ "epoch": 0.7891229005598507,
5186
+ "grad_norm": 0.09710689634084702,
5187
+ "learning_rate": 1.305699223569043e-05,
5188
+ "loss": 0.0015,
5189
+ "step": 740
5190
+ },
5191
+ {
5192
+ "epoch": 0.7901892828579046,
5193
+ "grad_norm": 0.004762916825711727,
5194
+ "learning_rate": 1.2930789805807659e-05,
5195
+ "loss": 0.0002,
5196
+ "step": 741
5197
+ },
5198
+ {
5199
+ "epoch": 0.7912556651559585,
5200
+ "grad_norm": 0.019869035109877586,
5201
+ "learning_rate": 1.280510960572745e-05,
5202
+ "loss": 0.0004,
5203
+ "step": 742
5204
+ },
5205
+ {
5206
+ "epoch": 0.7923220474540122,
5207
+ "grad_norm": 0.3784305155277252,
5208
+ "learning_rate": 1.2679953406028317e-05,
5209
+ "loss": 0.0357,
5210
+ "step": 743
5211
+ },
5212
+ {
5213
+ "epoch": 0.7933884297520661,
5214
+ "grad_norm": 0.010028552263975143,
5215
+ "learning_rate": 1.2555322969906618e-05,
5216
+ "loss": 0.0003,
5217
+ "step": 744
5218
+ },
5219
+ {
5220
+ "epoch": 0.7944548120501199,
5221
+ "grad_norm": 0.14310139417648315,
5222
+ "learning_rate": 1.2431220053151833e-05,
5223
+ "loss": 0.0012,
5224
+ "step": 745
5225
+ },
5226
+ {
5227
+ "epoch": 0.7955211943481738,
5228
+ "grad_norm": 0.010279890149831772,
5229
+ "learning_rate": 1.2307646404121692e-05,
5230
+ "loss": 0.0003,
5231
+ "step": 746
5232
+ },
5233
+ {
5234
+ "epoch": 0.7965875766462277,
5235
+ "grad_norm": 0.010400409810245037,
5236
+ "learning_rate": 1.2184603763717684e-05,
5237
+ "loss": 0.0003,
5238
+ "step": 747
5239
+ },
5240
+ {
5241
+ "epoch": 0.7976539589442815,
5242
+ "grad_norm": 0.19656755030155182,
5243
+ "learning_rate": 1.2062093865360458e-05,
5244
+ "loss": 0.0027,
5245
+ "step": 748
5246
+ },
5247
+ {
5248
+ "epoch": 0.7987203412423354,
5249
+ "grad_norm": 0.025430811569094658,
5250
+ "learning_rate": 1.194011843496537e-05,
5251
+ "loss": 0.0006,
5252
+ "step": 749
5253
+ },
5254
+ {
5255
+ "epoch": 0.7997867235403893,
5256
+ "grad_norm": 0.018771683797240257,
5257
+ "learning_rate": 1.1818679190918247e-05,
5258
+ "loss": 0.0005,
5259
+ "step": 750
5260
+ },
5261
+ {
5262
+ "epoch": 0.800853105838443,
5263
+ "grad_norm": 0.036095619201660156,
5264
+ "learning_rate": 1.1697777844051105e-05,
5265
+ "loss": 0.0005,
5266
+ "step": 751
5267
+ },
5268
+ {
5269
+ "epoch": 0.8019194881364969,
5270
+ "grad_norm": 0.010772421956062317,
5271
+ "learning_rate": 1.1577416097618137e-05,
5272
+ "loss": 0.0003,
5273
+ "step": 752
5274
+ },
5275
+ {
5276
+ "epoch": 0.8029858704345508,
5277
+ "grad_norm": 0.0590975359082222,
5278
+ "learning_rate": 1.1457595647271602e-05,
5279
+ "loss": 0.0011,
5280
+ "step": 753
5281
+ },
5282
+ {
5283
+ "epoch": 0.8040522527326046,
5284
+ "grad_norm": 0.004293241072446108,
5285
+ "learning_rate": 1.1338318181038038e-05,
5286
+ "loss": 0.0001,
5287
+ "step": 754
5288
+ },
5289
+ {
5290
+ "epoch": 0.8051186350306585,
5291
+ "grad_norm": 0.021963993087410927,
5292
+ "learning_rate": 1.1219585379294444e-05,
5293
+ "loss": 0.0006,
5294
+ "step": 755
5295
+ },
5296
+ {
5297
+ "epoch": 0.8061850173287124,
5298
+ "grad_norm": 0.0076378388330340385,
5299
+ "learning_rate": 1.1101398914744566e-05,
5300
+ "loss": 0.0002,
5301
+ "step": 756
5302
+ },
5303
+ {
5304
+ "epoch": 0.8072513996267662,
5305
+ "grad_norm": 0.2593614459037781,
5306
+ "learning_rate": 1.0983760452395413e-05,
5307
+ "loss": 0.0164,
5308
+ "step": 757
5309
+ },
5310
+ {
5311
+ "epoch": 0.8083177819248201,
5312
+ "grad_norm": 0.15556533634662628,
5313
+ "learning_rate": 1.0866671649533722e-05,
5314
+ "loss": 0.0055,
5315
+ "step": 758
5316
+ },
5317
+ {
5318
+ "epoch": 0.8093841642228738,
5319
+ "grad_norm": 0.1670495867729187,
5320
+ "learning_rate": 1.0750134155702674e-05,
5321
+ "loss": 0.001,
5322
+ "step": 759
5323
+ },
5324
+ {
5325
+ "epoch": 0.8104505465209277,
5326
+ "grad_norm": 0.02173975668847561,
5327
+ "learning_rate": 1.063414961267859e-05,
5328
+ "loss": 0.0005,
5329
+ "step": 760
5330
+ },
5331
+ {
5332
+ "epoch": 0.8115169288189816,
5333
+ "grad_norm": 0.048297807574272156,
5334
+ "learning_rate": 1.0518719654447894e-05,
5335
+ "loss": 0.0006,
5336
+ "step": 761
5337
+ },
5338
+ {
5339
+ "epoch": 0.8125833111170354,
5340
+ "grad_norm": 0.031382959336042404,
5341
+ "learning_rate": 1.040384590718399e-05,
5342
+ "loss": 0.0004,
5343
+ "step": 762
5344
+ },
5345
+ {
5346
+ "epoch": 0.8136496934150893,
5347
+ "grad_norm": 0.006396553944796324,
5348
+ "learning_rate": 1.02895299892244e-05,
5349
+ "loss": 0.0002,
5350
+ "step": 763
5351
+ },
5352
+ {
5353
+ "epoch": 0.8147160757131432,
5354
+ "grad_norm": 0.007619079668074846,
5355
+ "learning_rate": 1.017577351104801e-05,
5356
+ "loss": 0.0002,
5357
+ "step": 764
5358
+ },
5359
+ {
5360
+ "epoch": 0.815782458011197,
5361
+ "grad_norm": 0.019957121461629868,
5362
+ "learning_rate": 1.0062578075252283e-05,
5363
+ "loss": 0.0005,
5364
+ "step": 765
5365
+ },
5366
+ {
5367
+ "epoch": 0.8168488403092509,
5368
+ "grad_norm": 0.011204512789845467,
5369
+ "learning_rate": 9.949945276530781e-06,
5370
+ "loss": 0.0002,
5371
+ "step": 766
5372
+ },
5373
+ {
5374
+ "epoch": 0.8179152226073048,
5375
+ "grad_norm": 0.008724085055291653,
5376
+ "learning_rate": 9.837876701650606e-06,
5377
+ "loss": 0.0002,
5378
+ "step": 767
5379
+ },
5380
+ {
5381
+ "epoch": 0.8189816049053585,
5382
+ "grad_norm": 0.08012081682682037,
5383
+ "learning_rate": 9.726373929430154e-06,
5384
+ "loss": 0.001,
5385
+ "step": 768
5386
+ },
5387
+ {
5388
+ "epoch": 0.8200479872034124,
5389
+ "grad_norm": 0.0606585331261158,
5390
+ "learning_rate": 9.615438530716753e-06,
5391
+ "loss": 0.0008,
5392
+ "step": 769
5393
+ },
5394
+ {
5395
+ "epoch": 0.8211143695014663,
5396
+ "grad_norm": 0.1962718665599823,
5397
+ "learning_rate": 9.505072068364624e-06,
5398
+ "loss": 0.0025,
5399
+ "step": 770
5400
+ },
5401
+ {
5402
+ "epoch": 0.8221807517995201,
5403
+ "grad_norm": 0.05189717561006546,
5404
+ "learning_rate": 9.39527609721284e-06,
5405
+ "loss": 0.0007,
5406
+ "step": 771
5407
+ },
5408
+ {
5409
+ "epoch": 0.823247134097574,
5410
+ "grad_norm": 0.013195768930017948,
5411
+ "learning_rate": 9.28605216406337e-06,
5412
+ "loss": 0.0003,
5413
+ "step": 772
5414
+ },
5415
+ {
5416
+ "epoch": 0.8243135163956279,
5417
+ "grad_norm": 0.015235373750329018,
5418
+ "learning_rate": 9.177401807659385e-06,
5419
+ "loss": 0.0003,
5420
+ "step": 773
5421
+ },
5422
+ {
5423
+ "epoch": 0.8253798986936817,
5424
+ "grad_norm": 0.005428910255432129,
5425
+ "learning_rate": 9.069326558663488e-06,
5426
+ "loss": 0.0002,
5427
+ "step": 774
5428
+ },
5429
+ {
5430
+ "epoch": 0.8264462809917356,
5431
+ "grad_norm": 0.022677181288599968,
5432
+ "learning_rate": 8.961827939636196e-06,
5433
+ "loss": 0.0004,
5434
+ "step": 775
5435
+ },
5436
+ {
5437
+ "epoch": 0.8275126632897893,
5438
+ "grad_norm": 0.004976468160748482,
5439
+ "learning_rate": 8.854907465014477e-06,
5440
+ "loss": 0.0001,
5441
+ "step": 776
5442
+ },
5443
+ {
5444
+ "epoch": 0.8285790455878432,
5445
+ "grad_norm": 0.08786796778440475,
5446
+ "learning_rate": 8.748566641090433e-06,
5447
+ "loss": 0.0013,
5448
+ "step": 777
5449
+ },
5450
+ {
5451
+ "epoch": 0.8296454278858971,
5452
+ "grad_norm": 0.40387263894081116,
5453
+ "learning_rate": 8.64280696599008e-06,
5454
+ "loss": 0.0094,
5455
+ "step": 778
5456
+ },
5457
+ {
5458
+ "epoch": 0.8307118101839509,
5459
+ "grad_norm": 0.011585093103349209,
5460
+ "learning_rate": 8.537629929652186e-06,
5461
+ "loss": 0.0003,
5462
+ "step": 779
5463
+ },
5464
+ {
5465
+ "epoch": 0.8317781924820048,
5466
+ "grad_norm": 0.00565929152071476,
5467
+ "learning_rate": 8.433037013807365e-06,
5468
+ "loss": 0.0001,
5469
+ "step": 780
5470
+ },
5471
+ {
5472
+ "epoch": 0.8328445747800587,
5473
+ "grad_norm": 0.012812900356948376,
5474
+ "learning_rate": 8.329029691957124e-06,
5475
+ "loss": 0.0003,
5476
+ "step": 781
5477
+ },
5478
+ {
5479
+ "epoch": 0.8339109570781125,
5480
+ "grad_norm": 0.0063051446340978146,
5481
+ "learning_rate": 8.225609429353187e-06,
5482
+ "loss": 0.0001,
5483
+ "step": 782
5484
+ },
5485
+ {
5486
+ "epoch": 0.8349773393761664,
5487
+ "grad_norm": 0.09649275243282318,
5488
+ "learning_rate": 8.122777682976745e-06,
5489
+ "loss": 0.002,
5490
+ "step": 783
5491
+ },
5492
+ {
5493
+ "epoch": 0.8360437216742203,
5494
+ "grad_norm": 0.03791379928588867,
5495
+ "learning_rate": 8.02053590151805e-06,
5496
+ "loss": 0.0008,
5497
+ "step": 784
5498
+ },
5499
+ {
5500
+ "epoch": 0.837110103972274,
5501
+ "grad_norm": 0.2502143681049347,
5502
+ "learning_rate": 7.918885525355935e-06,
5503
+ "loss": 0.001,
5504
+ "step": 785
5505
+ },
5506
+ {
5507
+ "epoch": 0.8381764862703279,
5508
+ "grad_norm": 0.05838427320122719,
5509
+ "learning_rate": 7.817827986537507e-06,
5510
+ "loss": 0.0006,
5511
+ "step": 786
5512
+ },
5513
+ {
5514
+ "epoch": 0.8392428685683818,
5515
+ "grad_norm": 0.010844585485756397,
5516
+ "learning_rate": 7.717364708758024e-06,
5517
+ "loss": 0.0003,
5518
+ "step": 787
5519
+ },
5520
+ {
5521
+ "epoch": 0.8403092508664356,
5522
+ "grad_norm": 0.24611002206802368,
5523
+ "learning_rate": 7.617497107340788e-06,
5524
+ "loss": 0.0038,
5525
+ "step": 788
5526
+ },
5527
+ {
5528
+ "epoch": 0.8413756331644895,
5529
+ "grad_norm": 0.004596321377903223,
5530
+ "learning_rate": 7.518226589217287e-06,
5531
+ "loss": 0.0001,
5532
+ "step": 789
5533
+ },
5534
+ {
5535
+ "epoch": 0.8424420154625433,
5536
+ "grad_norm": 0.003910887520760298,
5537
+ "learning_rate": 7.41955455290726e-06,
5538
+ "loss": 0.0001,
5539
+ "step": 790
5540
+ },
5541
+ {
5542
+ "epoch": 0.8435083977605972,
5543
+ "grad_norm": 0.011446366086602211,
5544
+ "learning_rate": 7.321482388499096e-06,
5545
+ "loss": 0.0002,
5546
+ "step": 791
5547
+ },
5548
+ {
5549
+ "epoch": 0.844574780058651,
5550
+ "grad_norm": 0.005088797304779291,
5551
+ "learning_rate": 7.224011477630166e-06,
5552
+ "loss": 0.0002,
5553
+ "step": 792
5554
+ },
5555
+ {
5556
+ "epoch": 0.8456411623567048,
5557
+ "grad_norm": 0.01832517422735691,
5558
+ "learning_rate": 7.127143193467445e-06,
5559
+ "loss": 0.0005,
5560
+ "step": 793
5561
+ },
5562
+ {
5563
+ "epoch": 0.8467075446547587,
5564
+ "grad_norm": 0.010378585197031498,
5565
+ "learning_rate": 7.030878900688115e-06,
5566
+ "loss": 0.0003,
5567
+ "step": 794
5568
+ },
5569
+ {
5570
+ "epoch": 0.8477739269528126,
5571
+ "grad_norm": 0.006652985233813524,
5572
+ "learning_rate": 6.93521995546031e-06,
5573
+ "loss": 0.0002,
5574
+ "step": 795
5575
+ },
5576
+ {
5577
+ "epoch": 0.8488403092508664,
5578
+ "grad_norm": 0.01605672389268875,
5579
+ "learning_rate": 6.840167705424105e-06,
5580
+ "loss": 0.0004,
5581
+ "step": 796
5582
+ },
5583
+ {
5584
+ "epoch": 0.8499066915489203,
5585
+ "grad_norm": 0.003394564613699913,
5586
+ "learning_rate": 6.745723489672412e-06,
5587
+ "loss": 0.0001,
5588
+ "step": 797
5589
+ },
5590
+ {
5591
+ "epoch": 0.8509730738469742,
5592
+ "grad_norm": 0.4180551767349243,
5593
+ "learning_rate": 6.651888638732229e-06,
5594
+ "loss": 0.0054,
5595
+ "step": 798
5596
+ },
5597
+ {
5598
+ "epoch": 0.852039456145028,
5599
+ "grad_norm": 0.019269771873950958,
5600
+ "learning_rate": 6.558664474545817e-06,
5601
+ "loss": 0.0004,
5602
+ "step": 799
5603
+ },
5604
+ {
5605
+ "epoch": 0.8531058384430819,
5606
+ "grad_norm": 0.017314445227384567,
5607
+ "learning_rate": 6.466052310452092e-06,
5608
+ "loss": 0.0005,
5609
+ "step": 800
5610
+ },
5611
+ {
5612
+ "epoch": 0.8541722207411357,
5613
+ "grad_norm": 0.005645404104143381,
5614
+ "learning_rate": 6.374053451168166e-06,
5615
+ "loss": 0.0001,
5616
+ "step": 801
5617
+ },
5618
+ {
5619
+ "epoch": 0.8552386030391895,
5620
+ "grad_norm": 0.006349225994199514,
5621
+ "learning_rate": 6.282669192770896e-06,
5622
+ "loss": 0.0002,
5623
+ "step": 802
5624
+ },
5625
+ {
5626
+ "epoch": 0.8563049853372434,
5627
+ "grad_norm": 0.0033127523493021727,
5628
+ "learning_rate": 6.191900822678698e-06,
5629
+ "loss": 0.0001,
5630
+ "step": 803
5631
+ },
5632
+ {
5633
+ "epoch": 0.8573713676352972,
5634
+ "grad_norm": 0.5225967168807983,
5635
+ "learning_rate": 6.101749619633346e-06,
5636
+ "loss": 0.0082,
5637
+ "step": 804
5638
+ },
5639
+ {
5640
+ "epoch": 0.8584377499333511,
5641
+ "grad_norm": 0.007548854220658541,
5642
+ "learning_rate": 6.012216853682001e-06,
5643
+ "loss": 0.0002,
5644
+ "step": 805
5645
+ },
5646
+ {
5647
+ "epoch": 0.859504132231405,
5648
+ "grad_norm": 0.04941653832793236,
5649
+ "learning_rate": 5.92330378615929e-06,
5650
+ "loss": 0.0005,
5651
+ "step": 806
5652
+ },
5653
+ {
5654
+ "epoch": 0.8605705145294588,
5655
+ "grad_norm": 0.18256814777851105,
5656
+ "learning_rate": 5.83501166966956e-06,
5657
+ "loss": 0.0014,
5658
+ "step": 807
5659
+ },
5660
+ {
5661
+ "epoch": 0.8616368968275127,
5662
+ "grad_norm": 0.030704107135534286,
5663
+ "learning_rate": 5.747341748069229e-06,
5664
+ "loss": 0.0005,
5665
+ "step": 808
5666
+ },
5667
+ {
5668
+ "epoch": 0.8627032791255665,
5669
+ "grad_norm": 0.009448669850826263,
5670
+ "learning_rate": 5.660295256449233e-06,
5671
+ "loss": 0.0002,
5672
+ "step": 809
5673
+ },
5674
+ {
5675
+ "epoch": 0.8637696614236203,
5676
+ "grad_norm": 0.01559404656291008,
5677
+ "learning_rate": 5.573873421117642e-06,
5678
+ "loss": 0.0003,
5679
+ "step": 810
5680
+ },
5681
+ {
5682
+ "epoch": 0.8648360437216742,
5683
+ "grad_norm": 0.033919911831617355,
5684
+ "learning_rate": 5.488077459582425e-06,
5685
+ "loss": 0.0006,
5686
+ "step": 811
5687
+ },
5688
+ {
5689
+ "epoch": 0.8659024260197281,
5690
+ "grad_norm": 0.6849818229675293,
5691
+ "learning_rate": 5.402908580534233e-06,
5692
+ "loss": 0.0135,
5693
+ "step": 812
5694
+ },
5695
+ {
5696
+ "epoch": 0.8669688083177819,
5697
+ "grad_norm": 0.005436232313513756,
5698
+ "learning_rate": 5.318367983829392e-06,
5699
+ "loss": 0.0001,
5700
+ "step": 813
5701
+ },
5702
+ {
5703
+ "epoch": 0.8680351906158358,
5704
+ "grad_norm": 0.005175617057830095,
5705
+ "learning_rate": 5.234456860473042e-06,
5706
+ "loss": 0.0002,
5707
+ "step": 814
5708
+ },
5709
+ {
5710
+ "epoch": 0.8691015729138897,
5711
+ "grad_norm": 0.006666592322289944,
5712
+ "learning_rate": 5.151176392602292e-06,
5713
+ "loss": 0.0002,
5714
+ "step": 815
5715
+ },
5716
+ {
5717
+ "epoch": 0.8701679552119435,
5718
+ "grad_norm": 0.05537564679980278,
5719
+ "learning_rate": 5.068527753469604e-06,
5720
+ "loss": 0.0014,
5721
+ "step": 816
5722
+ },
5723
+ {
5724
+ "epoch": 0.8712343375099973,
5725
+ "grad_norm": 0.016136392951011658,
5726
+ "learning_rate": 4.986512107426283e-06,
5727
+ "loss": 0.0002,
5728
+ "step": 817
5729
+ },
5730
+ {
5731
+ "epoch": 0.8723007198080512,
5732
+ "grad_norm": 0.004150747321546078,
5733
+ "learning_rate": 4.905130609906005e-06,
5734
+ "loss": 0.0001,
5735
+ "step": 818
5736
+ },
5737
+ {
5738
+ "epoch": 0.873367102106105,
5739
+ "grad_norm": 0.0023105363361537457,
5740
+ "learning_rate": 4.824384407408622e-06,
5741
+ "loss": 0.0001,
5742
+ "step": 819
5743
+ },
5744
+ {
5745
+ "epoch": 0.8744334844041589,
5746
+ "grad_norm": 0.0036519451532512903,
5747
+ "learning_rate": 4.744274637483936e-06,
5748
+ "loss": 0.0001,
5749
+ "step": 820
5750
+ },
5751
+ {
5752
+ "epoch": 0.8754998667022127,
5753
+ "grad_norm": 0.4714241623878479,
5754
+ "learning_rate": 4.6648024287157536e-06,
5755
+ "loss": 0.0017,
5756
+ "step": 821
5757
+ },
5758
+ {
5759
+ "epoch": 0.8765662490002666,
5760
+ "grad_norm": 0.009708943776786327,
5761
+ "learning_rate": 4.585968900705889e-06,
5762
+ "loss": 0.0002,
5763
+ "step": 822
5764
+ },
5765
+ {
5766
+ "epoch": 0.8776326312983205,
5767
+ "grad_norm": 0.0021507502533495426,
5768
+ "learning_rate": 4.507775164058469e-06,
5769
+ "loss": 0.0001,
5770
+ "step": 823
5771
+ },
5772
+ {
5773
+ "epoch": 0.8786990135963743,
5774
+ "grad_norm": 0.005819080397486687,
5775
+ "learning_rate": 4.43022232036428e-06,
5776
+ "loss": 0.0001,
5777
+ "step": 824
5778
+ },
5779
+ {
5780
+ "epoch": 0.8797653958944281,
5781
+ "grad_norm": 0.003718499094247818,
5782
+ "learning_rate": 4.353311462185183e-06,
5783
+ "loss": 0.0001,
5784
+ "step": 825
5785
+ },
5786
+ {
5787
+ "epoch": 0.880831778192482,
5788
+ "grad_norm": 0.003342332784086466,
5789
+ "learning_rate": 4.277043673038816e-06,
5790
+ "loss": 0.0001,
5791
+ "step": 826
5792
+ },
5793
+ {
5794
+ "epoch": 0.8818981604905358,
5795
+ "grad_norm": 0.008588786236941814,
5796
+ "learning_rate": 4.20142002738324e-06,
5797
+ "loss": 0.0002,
5798
+ "step": 827
5799
+ },
5800
+ {
5801
+ "epoch": 0.8829645427885897,
5802
+ "grad_norm": 0.671940267086029,
5803
+ "learning_rate": 4.126441590601893e-06,
5804
+ "loss": 0.0103,
5805
+ "step": 828
5806
+ },
5807
+ {
5808
+ "epoch": 0.8840309250866436,
5809
+ "grad_norm": 0.03621124476194382,
5810
+ "learning_rate": 4.05210941898847e-06,
5811
+ "loss": 0.0005,
5812
+ "step": 829
5813
+ },
5814
+ {
5815
+ "epoch": 0.8850973073846974,
5816
+ "grad_norm": 0.006909804884344339,
5817
+ "learning_rate": 3.978424559732158e-06,
5818
+ "loss": 0.0002,
5819
+ "step": 830
5820
+ },
5821
+ {
5822
+ "epoch": 0.8861636896827513,
5823
+ "grad_norm": 0.03682345896959305,
5824
+ "learning_rate": 3.905388050902809e-06,
5825
+ "loss": 0.0006,
5826
+ "step": 831
5827
+ },
5828
+ {
5829
+ "epoch": 0.8872300719808052,
5830
+ "grad_norm": 0.021985987201333046,
5831
+ "learning_rate": 3.833000921436319e-06,
5832
+ "loss": 0.0005,
5833
+ "step": 832
5834
+ },
5835
+ {
5836
+ "epoch": 0.888296454278859,
5837
+ "grad_norm": 0.005545215681195259,
5838
+ "learning_rate": 3.7612641911201894e-06,
5839
+ "loss": 0.0001,
5840
+ "step": 833
5841
+ },
5842
+ {
5843
+ "epoch": 0.8893628365769128,
5844
+ "grad_norm": 0.0029357897583395243,
5845
+ "learning_rate": 3.690178870579075e-06,
5846
+ "loss": 0.0001,
5847
+ "step": 834
5848
+ },
5849
+ {
5850
+ "epoch": 0.8904292188749666,
5851
+ "grad_norm": 0.44927045702934265,
5852
+ "learning_rate": 3.619745961260623e-06,
5853
+ "loss": 0.008,
5854
+ "step": 835
5855
+ },
5856
+ {
5857
+ "epoch": 0.8914956011730205,
5858
+ "grad_norm": 0.010482368990778923,
5859
+ "learning_rate": 3.549966455421305e-06,
5860
+ "loss": 0.0002,
5861
+ "step": 836
5862
+ },
5863
+ {
5864
+ "epoch": 0.8925619834710744,
5865
+ "grad_norm": 0.008478675968945026,
5866
+ "learning_rate": 3.4808413361125e-06,
5867
+ "loss": 0.0003,
5868
+ "step": 837
5869
+ },
5870
+ {
5871
+ "epoch": 0.8936283657691282,
5872
+ "grad_norm": 0.005715550389140844,
5873
+ "learning_rate": 3.4123715771665786e-06,
5874
+ "loss": 0.0001,
5875
+ "step": 838
5876
+ },
5877
+ {
5878
+ "epoch": 0.8946947480671821,
5879
+ "grad_norm": 0.00493262056261301,
5880
+ "learning_rate": 3.3445581431832463e-06,
5881
+ "loss": 0.0001,
5882
+ "step": 839
5883
+ },
5884
+ {
5885
+ "epoch": 0.895761130365236,
5886
+ "grad_norm": 0.07337388396263123,
5887
+ "learning_rate": 3.27740198951591e-06,
5888
+ "loss": 0.0012,
5889
+ "step": 840
5890
+ },
5891
+ {
5892
+ "epoch": 0.8968275126632897,
5893
+ "grad_norm": 0.03428462892770767,
5894
+ "learning_rate": 3.2109040622582186e-06,
5895
+ "loss": 0.0006,
5896
+ "step": 841
5897
+ },
5898
+ {
5899
+ "epoch": 0.8978938949613436,
5900
+ "grad_norm": 0.6033999919891357,
5901
+ "learning_rate": 3.1450652982307816e-06,
5902
+ "loss": 0.0076,
5903
+ "step": 842
5904
+ },
5905
+ {
5906
+ "epoch": 0.8989602772593975,
5907
+ "grad_norm": 0.005725290160626173,
5908
+ "learning_rate": 3.079886624967904e-06,
5909
+ "loss": 0.0002,
5910
+ "step": 843
5911
+ },
5912
+ {
5913
+ "epoch": 0.9000266595574513,
5914
+ "grad_norm": 0.5092418789863586,
5915
+ "learning_rate": 3.0153689607045845e-06,
5916
+ "loss": 0.0196,
5917
+ "step": 844
5918
+ },
5919
+ {
5920
+ "epoch": 0.9010930418555052,
5921
+ "grad_norm": 0.5069144368171692,
5922
+ "learning_rate": 2.9515132143635215e-06,
5923
+ "loss": 0.032,
5924
+ "step": 845
5925
+ },
5926
+ {
5927
+ "epoch": 0.9021594241535591,
5928
+ "grad_norm": 0.004980255849659443,
5929
+ "learning_rate": 2.8883202855423676e-06,
5930
+ "loss": 0.0001,
5931
+ "step": 846
5932
+ },
5933
+ {
5934
+ "epoch": 0.9032258064516129,
5935
+ "grad_norm": 0.012960120104253292,
5936
+ "learning_rate": 2.825791064500993e-06,
5937
+ "loss": 0.0002,
5938
+ "step": 847
5939
+ },
5940
+ {
5941
+ "epoch": 0.9042921887496668,
5942
+ "grad_norm": 0.017126217484474182,
5943
+ "learning_rate": 2.763926432148989e-06,
5944
+ "loss": 0.0004,
5945
+ "step": 848
5946
+ },
5947
+ {
5948
+ "epoch": 0.9053585710477207,
5949
+ "grad_norm": 0.21750324964523315,
5950
+ "learning_rate": 2.702727260033244e-06,
5951
+ "loss": 0.0033,
5952
+ "step": 849
5953
+ },
5954
+ {
5955
+ "epoch": 0.9064249533457744,
5956
+ "grad_norm": 0.033922020345926285,
5957
+ "learning_rate": 2.6421944103256657e-06,
5958
+ "loss": 0.0007,
5959
+ "step": 850
5960
+ },
5961
+ {
5962
+ "epoch": 0.9074913356438283,
5963
+ "grad_norm": 0.03163854032754898,
5964
+ "learning_rate": 2.5823287358110294e-06,
5965
+ "loss": 0.0005,
5966
+ "step": 851
5967
+ },
5968
+ {
5969
+ "epoch": 0.9085577179418821,
5970
+ "grad_norm": 0.024384107440710068,
5971
+ "learning_rate": 2.523131079874963e-06,
5972
+ "loss": 0.0003,
5973
+ "step": 852
5974
+ },
5975
+ {
5976
+ "epoch": 0.909624100239936,
5977
+ "grad_norm": 0.003758068894967437,
5978
+ "learning_rate": 2.464602276492084e-06,
5979
+ "loss": 0.0001,
5980
+ "step": 853
5981
+ },
5982
+ {
5983
+ "epoch": 0.9106904825379899,
5984
+ "grad_norm": 0.009570575319230556,
5985
+ "learning_rate": 2.406743150214241e-06,
5986
+ "loss": 0.0002,
5987
+ "step": 854
5988
+ },
5989
+ {
5990
+ "epoch": 0.9117568648360437,
5991
+ "grad_norm": 0.011624293401837349,
5992
+ "learning_rate": 2.3495545161588696e-06,
5993
+ "loss": 0.0003,
5994
+ "step": 855
5995
+ },
5996
+ {
5997
+ "epoch": 0.9128232471340976,
5998
+ "grad_norm": 0.003363889642059803,
5999
+ "learning_rate": 2.2930371799975594e-06,
6000
+ "loss": 0.0001,
6001
+ "step": 856
6002
+ },
6003
+ {
6004
+ "epoch": 0.9138896294321515,
6005
+ "grad_norm": 0.18208551406860352,
6006
+ "learning_rate": 2.2371919379446495e-06,
6007
+ "loss": 0.0016,
6008
+ "step": 857
6009
+ },
6010
+ {
6011
+ "epoch": 0.9149560117302052,
6012
+ "grad_norm": 0.004443952813744545,
6013
+ "learning_rate": 2.1820195767460805e-06,
6014
+ "loss": 0.0001,
6015
+ "step": 858
6016
+ },
6017
+ {
6018
+ "epoch": 0.9160223940282591,
6019
+ "grad_norm": 0.07205750048160553,
6020
+ "learning_rate": 2.127520873668226e-06,
6021
+ "loss": 0.0009,
6022
+ "step": 859
6023
+ },
6024
+ {
6025
+ "epoch": 0.917088776326313,
6026
+ "grad_norm": 0.004706911742687225,
6027
+ "learning_rate": 2.0736965964870127e-06,
6028
+ "loss": 0.0001,
6029
+ "step": 860
6030
+ },
6031
+ {
6032
+ "epoch": 0.9181551586243668,
6033
+ "grad_norm": 0.568541944026947,
6034
+ "learning_rate": 2.0205475034770604e-06,
6035
+ "loss": 0.041,
6036
+ "step": 861
6037
+ },
6038
+ {
6039
+ "epoch": 0.9192215409224207,
6040
+ "grad_norm": 0.01811330020427704,
6041
+ "learning_rate": 1.9680743434010384e-06,
6042
+ "loss": 0.0004,
6043
+ "step": 862
6044
+ },
6045
+ {
6046
+ "epoch": 0.9202879232204746,
6047
+ "grad_norm": 0.006233413703739643,
6048
+ "learning_rate": 1.9162778554990824e-06,
6049
+ "loss": 0.0001,
6050
+ "step": 863
6051
+ },
6052
+ {
6053
+ "epoch": 0.9213543055185284,
6054
+ "grad_norm": 0.015661677345633507,
6055
+ "learning_rate": 1.8651587694783923e-06,
6056
+ "loss": 0.0003,
6057
+ "step": 864
6058
+ },
6059
+ {
6060
+ "epoch": 0.9224206878165823,
6061
+ "grad_norm": 0.00473360437899828,
6062
+ "learning_rate": 1.8147178055029579e-06,
6063
+ "loss": 0.0001,
6064
+ "step": 865
6065
+ },
6066
+ {
6067
+ "epoch": 0.923487070114636,
6068
+ "grad_norm": 0.011882445774972439,
6069
+ "learning_rate": 1.7649556741833995e-06,
6070
+ "loss": 0.0003,
6071
+ "step": 866
6072
+ },
6073
+ {
6074
+ "epoch": 0.9245534524126899,
6075
+ "grad_norm": 0.18409405648708344,
6076
+ "learning_rate": 1.7158730765669817e-06,
6077
+ "loss": 0.0035,
6078
+ "step": 867
6079
+ },
6080
+ {
6081
+ "epoch": 0.9256198347107438,
6082
+ "grad_norm": 0.007312040776014328,
6083
+ "learning_rate": 1.6674707041276938e-06,
6084
+ "loss": 0.0002,
6085
+ "step": 868
6086
+ },
6087
+ {
6088
+ "epoch": 0.9266862170087976,
6089
+ "grad_norm": 0.008804773911833763,
6090
+ "learning_rate": 1.6197492387565627e-06,
6091
+ "loss": 0.0002,
6092
+ "step": 869
6093
+ },
6094
+ {
6095
+ "epoch": 0.9277525993068515,
6096
+ "grad_norm": 0.3166285753250122,
6097
+ "learning_rate": 1.572709352752011e-06,
6098
+ "loss": 0.0201,
6099
+ "step": 870
6100
+ },
6101
+ {
6102
+ "epoch": 0.9288189816049054,
6103
+ "grad_norm": 0.005019339732825756,
6104
+ "learning_rate": 1.5263517088103863e-06,
6105
+ "loss": 0.0001,
6106
+ "step": 871
6107
+ },
6108
+ {
6109
+ "epoch": 0.9298853639029592,
6110
+ "grad_norm": 0.003396758111193776,
6111
+ "learning_rate": 1.4806769600166359e-06,
6112
+ "loss": 0.0001,
6113
+ "step": 872
6114
+ },
6115
+ {
6116
+ "epoch": 0.9309517462010131,
6117
+ "grad_norm": 0.022154012694954872,
6118
+ "learning_rate": 1.4356857498351029e-06,
6119
+ "loss": 0.0003,
6120
+ "step": 873
6121
+ },
6122
+ {
6123
+ "epoch": 0.932018128499067,
6124
+ "grad_norm": 0.011645108461380005,
6125
+ "learning_rate": 1.3913787121004719e-06,
6126
+ "loss": 0.0003,
6127
+ "step": 874
6128
+ },
6129
+ {
6130
+ "epoch": 0.9330845107971207,
6131
+ "grad_norm": 0.004831390921026468,
6132
+ "learning_rate": 1.3477564710088098e-06,
6133
+ "loss": 0.0001,
6134
+ "step": 875
6135
+ },
6136
+ {
6137
+ "epoch": 0.9341508930951746,
6138
+ "grad_norm": 0.005583819001913071,
6139
+ "learning_rate": 1.304819641108801e-06,
6140
+ "loss": 0.0002,
6141
+ "step": 876
6142
+ },
6143
+ {
6144
+ "epoch": 0.9352172753932285,
6145
+ "grad_norm": 0.025920310989022255,
6146
+ "learning_rate": 1.2625688272930926e-06,
6147
+ "loss": 0.0002,
6148
+ "step": 877
6149
+ },
6150
+ {
6151
+ "epoch": 0.9362836576912823,
6152
+ "grad_norm": 0.010310935787856579,
6153
+ "learning_rate": 1.2210046247897344e-06,
6154
+ "loss": 0.0003,
6155
+ "step": 878
6156
+ },
6157
+ {
6158
+ "epoch": 0.9373500399893362,
6159
+ "grad_norm": 0.005592814180999994,
6160
+ "learning_rate": 1.180127619153837e-06,
6161
+ "loss": 0.0001,
6162
+ "step": 879
6163
+ },
6164
+ {
6165
+ "epoch": 0.9384164222873901,
6166
+ "grad_norm": 0.0035225884057581425,
6167
+ "learning_rate": 1.1399383862592927e-06,
6168
+ "loss": 0.0001,
6169
+ "step": 880
6170
+ },
6171
+ {
6172
+ "epoch": 0.9394828045854439,
6173
+ "grad_norm": 0.014407276175916195,
6174
+ "learning_rate": 1.1004374922906847e-06,
6175
+ "loss": 0.0002,
6176
+ "step": 881
6177
+ },
6178
+ {
6179
+ "epoch": 0.9405491868834978,
6180
+ "grad_norm": 0.01085433829575777,
6181
+ "learning_rate": 1.0616254937352966e-06,
6182
+ "loss": 0.0002,
6183
+ "step": 882
6184
+ },
6185
+ {
6186
+ "epoch": 0.9416155691815515,
6187
+ "grad_norm": 0.0071522849611938,
6188
+ "learning_rate": 1.0235029373752758e-06,
6189
+ "loss": 0.0001,
6190
+ "step": 883
6191
+ },
6192
+ {
6193
+ "epoch": 0.9426819514796054,
6194
+ "grad_norm": 0.005545539781451225,
6195
+ "learning_rate": 9.860703602799281e-07,
6196
+ "loss": 0.0002,
6197
+ "step": 884
6198
+ },
6199
+ {
6200
+ "epoch": 0.9437483337776593,
6201
+ "grad_norm": 0.01488356851041317,
6202
+ "learning_rate": 9.49328289798157e-07,
6203
+ "loss": 0.0003,
6204
+ "step": 885
6205
+ },
6206
+ {
6207
+ "epoch": 0.9448147160757131,
6208
+ "grad_norm": 0.39096885919570923,
6209
+ "learning_rate": 9.132772435510362e-07,
6210
+ "loss": 0.0359,
6211
+ "step": 886
6212
+ },
6213
+ {
6214
+ "epoch": 0.945881098373767,
6215
+ "grad_norm": 0.023358656093478203,
6216
+ "learning_rate": 8.779177294245045e-07,
6217
+ "loss": 0.0004,
6218
+ "step": 887
6219
+ },
6220
+ {
6221
+ "epoch": 0.9469474806718209,
6222
+ "grad_norm": 0.04002382233738899,
6223
+ "learning_rate": 8.432502455622216e-07,
6224
+ "loss": 0.0007,
6225
+ "step": 888
6226
+ },
6227
+ {
6228
+ "epoch": 0.9480138629698747,
6229
+ "grad_norm": 0.005228077061474323,
6230
+ "learning_rate": 8.092752803585513e-07,
6231
+ "loss": 0.0002,
6232
+ "step": 889
6233
+ },
6234
+ {
6235
+ "epoch": 0.9490802452679286,
6236
+ "grad_norm": 0.007714355830103159,
6237
+ "learning_rate": 7.759933124516727e-07,
6238
+ "loss": 0.0002,
6239
+ "step": 890
6240
+ },
6241
+ {
6242
+ "epoch": 0.9501466275659824,
6243
+ "grad_norm": 0.06364113837480545,
6244
+ "learning_rate": 7.434048107168523e-07,
6245
+ "loss": 0.0008,
6246
+ "step": 891
6247
+ },
6248
+ {
6249
+ "epoch": 0.9512130098640362,
6250
+ "grad_norm": 0.022954344749450684,
6251
+ "learning_rate": 7.115102342598101e-07,
6252
+ "loss": 0.0004,
6253
+ "step": 892
6254
+ },
6255
+ {
6256
+ "epoch": 0.9522793921620901,
6257
+ "grad_norm": 0.013913022354245186,
6258
+ "learning_rate": 6.803100324102918e-07,
6259
+ "loss": 0.0004,
6260
+ "step": 893
6261
+ },
6262
+ {
6263
+ "epoch": 0.953345774460144,
6264
+ "grad_norm": 0.27097034454345703,
6265
+ "learning_rate": 6.498046447156958e-07,
6266
+ "loss": 0.0041,
6267
+ "step": 894
6268
+ },
6269
+ {
6270
+ "epoch": 0.9544121567581978,
6271
+ "grad_norm": 0.2270175814628601,
6272
+ "learning_rate": 6.199945009349173e-07,
6273
+ "loss": 0.0028,
6274
+ "step": 895
6275
+ },
6276
+ {
6277
+ "epoch": 0.9554785390562517,
6278
+ "grad_norm": 0.010744959115982056,
6279
+ "learning_rate": 5.908800210322696e-07,
6280
+ "loss": 0.0002,
6281
+ "step": 896
6282
+ },
6283
+ {
6284
+ "epoch": 0.9565449213543055,
6285
+ "grad_norm": 0.027118468657135963,
6286
+ "learning_rate": 5.624616151715834e-07,
6287
+ "loss": 0.0005,
6288
+ "step": 897
6289
+ },
6290
+ {
6291
+ "epoch": 0.9576113036523594,
6292
+ "grad_norm": 0.008466150611639023,
6293
+ "learning_rate": 5.347396837104057e-07,
6294
+ "loss": 0.0003,
6295
+ "step": 898
6296
+ },
6297
+ {
6298
+ "epoch": 0.9586776859504132,
6299
+ "grad_norm": 0.5483177900314331,
6300
+ "learning_rate": 5.077146171943936e-07,
6301
+ "loss": 0.0265,
6302
+ "step": 899
6303
+ },
6304
+ {
6305
+ "epoch": 0.959744068248467,
6306
+ "grad_norm": 0.10898708552122116,
6307
+ "learning_rate": 4.813867963517904e-07,
6308
+ "loss": 0.0019,
6309
+ "step": 900
6310
+ },
6311
+ {
6312
+ "epoch": 0.9608104505465209,
6313
+ "grad_norm": 0.9734861254692078,
6314
+ "learning_rate": 4.55756592088058e-07,
6315
+ "loss": 0.0241,
6316
+ "step": 901
6317
+ },
6318
+ {
6319
+ "epoch": 0.9618768328445748,
6320
+ "grad_norm": 0.010221785865724087,
6321
+ "learning_rate": 4.308243654806643e-07,
6322
+ "loss": 0.0002,
6323
+ "step": 902
6324
+ },
6325
+ {
6326
+ "epoch": 0.9629432151426286,
6327
+ "grad_norm": 0.0044042919762432575,
6328
+ "learning_rate": 4.0659046777398736e-07,
6329
+ "loss": 0.0001,
6330
+ "step": 903
6331
+ },
6332
+ {
6333
+ "epoch": 0.9640095974406825,
6334
+ "grad_norm": 0.03026667982339859,
6335
+ "learning_rate": 3.8305524037438034e-07,
6336
+ "loss": 0.0004,
6337
+ "step": 904
6338
+ },
6339
+ {
6340
+ "epoch": 0.9650759797387364,
6341
+ "grad_norm": 0.01675579324364662,
6342
+ "learning_rate": 3.602190148453366e-07,
6343
+ "loss": 0.0003,
6344
+ "step": 905
6345
+ },
6346
+ {
6347
+ "epoch": 0.9661423620367902,
6348
+ "grad_norm": 0.025279685854911804,
6349
+ "learning_rate": 3.380821129028489e-07,
6350
+ "loss": 0.0006,
6351
+ "step": 906
6352
+ },
6353
+ {
6354
+ "epoch": 0.967208744334844,
6355
+ "grad_norm": 0.004679596517235041,
6356
+ "learning_rate": 3.1664484641086287e-07,
6357
+ "loss": 0.0001,
6358
+ "step": 907
6359
+ },
6360
+ {
6361
+ "epoch": 0.9682751266328979,
6362
+ "grad_norm": 0.015383715741336346,
6363
+ "learning_rate": 2.9590751737685883e-07,
6364
+ "loss": 0.0002,
6365
+ "step": 908
6366
+ },
6367
+ {
6368
+ "epoch": 0.9693415089309517,
6369
+ "grad_norm": 0.23335658013820648,
6370
+ "learning_rate": 2.758704179476601e-07,
6371
+ "loss": 0.0022,
6372
+ "step": 909
6373
+ },
6374
+ {
6375
+ "epoch": 0.9704078912290056,
6376
+ "grad_norm": 0.0032410675194114447,
6377
+ "learning_rate": 2.5653383040524227e-07,
6378
+ "loss": 0.0001,
6379
+ "step": 910
6380
+ },
6381
+ {
6382
+ "epoch": 0.9714742735270594,
6383
+ "grad_norm": 0.0194519255310297,
6384
+ "learning_rate": 2.378980271628195e-07,
6385
+ "loss": 0.0004,
6386
+ "step": 911
6387
+ },
6388
+ {
6389
+ "epoch": 0.9725406558251133,
6390
+ "grad_norm": 0.004819793161004782,
6391
+ "learning_rate": 2.1996327076096447e-07,
6392
+ "loss": 0.0001,
6393
+ "step": 912
6394
+ },
6395
+ {
6396
+ "epoch": 0.9736070381231672,
6397
+ "grad_norm": 0.010149155743420124,
6398
+ "learning_rate": 2.027298138639333e-07,
6399
+ "loss": 0.0002,
6400
+ "step": 913
6401
+ },
6402
+ {
6403
+ "epoch": 0.974673420421221,
6404
+ "grad_norm": 0.004880509339272976,
6405
+ "learning_rate": 1.8619789925608534e-07,
6406
+ "loss": 0.0001,
6407
+ "step": 914
6408
+ },
6409
+ {
6410
+ "epoch": 0.9757398027192749,
6411
+ "grad_norm": 0.12890613079071045,
6412
+ "learning_rate": 1.7036775983849674e-07,
6413
+ "loss": 0.0025,
6414
+ "step": 915
6415
+ },
6416
+ {
6417
+ "epoch": 0.9768061850173287,
6418
+ "grad_norm": 0.038326557725667953,
6419
+ "learning_rate": 1.5523961862564106e-07,
6420
+ "loss": 0.0004,
6421
+ "step": 916
6422
+ },
6423
+ {
6424
+ "epoch": 0.9778725673153825,
6425
+ "grad_norm": 0.010187475942075253,
6426
+ "learning_rate": 1.4081368874226398e-07,
6427
+ "loss": 0.0002,
6428
+ "step": 917
6429
+ },
6430
+ {
6431
+ "epoch": 0.9789389496134364,
6432
+ "grad_norm": 0.01759922318160534,
6433
+ "learning_rate": 1.2709017342039664e-07,
6434
+ "loss": 0.0003,
6435
+ "step": 918
6436
+ },
6437
+ {
6438
+ "epoch": 0.9800053319114903,
6439
+ "grad_norm": 0.008808497339487076,
6440
+ "learning_rate": 1.1406926599646373e-07,
6441
+ "loss": 0.0002,
6442
+ "step": 919
6443
+ },
6444
+ {
6445
+ "epoch": 0.9810717142095441,
6446
+ "grad_norm": 0.0033097113482654095,
6447
+ "learning_rate": 1.0175114990857437e-07,
6448
+ "loss": 0.0001,
6449
+ "step": 920
6450
+ },
6451
+ {
6452
+ "epoch": 0.982138096507598,
6453
+ "grad_norm": 0.003725285641849041,
6454
+ "learning_rate": 9.013599869394095e-08,
6455
+ "loss": 0.0001,
6456
+ "step": 921
6457
+ },
6458
+ {
6459
+ "epoch": 0.9832044788056519,
6460
+ "grad_norm": 0.0028154279571026564,
6461
+ "learning_rate": 7.92239759864255e-08,
6462
+ "loss": 0.0001,
6463
+ "step": 922
6464
+ },
6465
+ {
6466
+ "epoch": 0.9842708611037057,
6467
+ "grad_norm": 0.009455343708395958,
6468
+ "learning_rate": 6.901523551424705e-08,
6469
+ "loss": 0.0002,
6470
+ "step": 923
6471
+ },
6472
+ {
6473
+ "epoch": 0.9853372434017595,
6474
+ "grad_norm": 0.0037830194924026728,
6475
+ "learning_rate": 5.950992109779452e-08,
6476
+ "loss": 0.0001,
6477
+ "step": 924
6478
+ },
6479
+ {
6480
+ "epoch": 0.9864036256998134,
6481
+ "grad_norm": 0.003709913929924369,
6482
+ "learning_rate": 5.070816664762834e-08,
6483
+ "loss": 0.0001,
6484
+ "step": 925
6485
+ },
6486
+ {
6487
+ "epoch": 0.9874700079978672,
6488
+ "grad_norm": 0.012310587801039219,
6489
+ "learning_rate": 4.261009616257639e-08,
6490
+ "loss": 0.0002,
6491
+ "step": 926
6492
+ },
6493
+ {
6494
+ "epoch": 0.9885363902959211,
6495
+ "grad_norm": 0.3587518632411957,
6496
+ "learning_rate": 3.521582372797427e-08,
6497
+ "loss": 0.0017,
6498
+ "step": 927
6499
+ },
6500
+ {
6501
+ "epoch": 0.9896027725939749,
6502
+ "grad_norm": 0.10922612249851227,
6503
+ "learning_rate": 2.8525453514099965e-08,
6504
+ "loss": 0.0012,
6505
+ "step": 928
6506
+ },
6507
+ {
6508
+ "epoch": 0.9906691548920288,
6509
+ "grad_norm": 0.027902130037546158,
6510
+ "learning_rate": 2.25390797746583e-08,
6511
+ "loss": 0.0006,
6512
+ "step": 929
6513
+ },
6514
+ {
6515
+ "epoch": 0.9917355371900827,
6516
+ "grad_norm": 0.06684616953134537,
6517
+ "learning_rate": 1.725678684548204e-08,
6518
+ "loss": 0.0013,
6519
+ "step": 930
6520
+ },
6521
+ {
6522
+ "epoch": 0.9928019194881365,
6523
+ "grad_norm": 0.05900757759809494,
6524
+ "learning_rate": 1.2678649143349486e-08,
6525
+ "loss": 0.0002,
6526
+ "step": 931
6527
+ },
6528
+ {
6529
+ "epoch": 0.9938683017861903,
6530
+ "grad_norm": 0.0055292327888309956,
6531
+ "learning_rate": 8.804731164901991e-09,
6532
+ "loss": 0.0002,
6533
+ "step": 932
6534
+ },
6535
+ {
6536
+ "epoch": 0.9949346840842442,
6537
+ "grad_norm": 0.02153046801686287,
6538
+ "learning_rate": 5.6350874857724615e-09,
6539
+ "loss": 0.0005,
6540
+ "step": 933
6541
+ },
6542
+ {
6543
+ "epoch": 0.996001066382298,
6544
+ "grad_norm": 0.30450108647346497,
6545
+ "learning_rate": 3.1697627597970793e-09,
6546
+ "loss": 0.0061,
6547
+ "step": 934
6548
+ },
6549
+ {
6550
+ "epoch": 0.9970674486803519,
6551
+ "grad_norm": 0.0034953670110553503,
6552
+ "learning_rate": 1.408791718382485e-09,
6553
+ "loss": 0.0001,
6554
+ "step": 935
6555
+ },
6556
+ {
6557
+ "epoch": 0.9981338309784058,
6558
+ "grad_norm": 0.007382003124803305,
6559
+ "learning_rate": 3.5219917003948e-10,
6560
+ "loss": 0.0002,
6561
+ "step": 936
6562
+ },
6563
+ {
6564
+ "epoch": 0.9992002132764596,
6565
+ "grad_norm": 0.01729605346918106,
6566
+ "learning_rate": 0.0,
6567
+ "loss": 0.0004,
6568
+ "step": 937
6569
  }
6570
  ],
6571
  "logging_steps": 1,
 
6580
  "should_evaluate": false,
6581
  "should_log": false,
6582
  "should_save": true,
6583
+ "should_training_stop": true
6584
  },
6585
  "attributes": {}
6586
  }
6587
  },
6588
+ "total_flos": 4.306063357850419e+17,
6589
  "train_batch_size": 4,
6590
  "trial_name": null,
6591
  "trial_params": null