xezpeleta commited on
Commit
9ddd378
1 Parent(s): 4f35e29

End of training

Browse files
Files changed (5) hide show
  1. README.md +9 -6
  2. all_results.json +11 -10
  3. eval_results.json +6 -6
  4. train_results.json +6 -5
  5. trainer_state.json +1398 -1061
README.md CHANGED
@@ -1,22 +1,25 @@
1
  ---
2
  library_name: transformers
 
 
3
  license: apache-2.0
4
  base_model: openai/whisper-medium
5
  tags:
 
6
  - generated_from_trainer
7
  datasets:
8
- - common_voice_17_0
9
  metrics:
10
  - wer
11
  model-index:
12
- - name: openai/whisper-medium
13
  results:
14
  - task:
15
  name: Automatic Speech Recognition
16
  type: automatic-speech-recognition
17
  dataset:
18
- name: common_voice_17_0
19
- type: common_voice_17_0
20
  config: eu
21
  split: test
22
  args: eu
@@ -29,9 +32,9 @@ model-index:
29
  <!-- This model card has been generated automatically according to the information the Trainer had access to. You
30
  should probably proofread and complete it, then remove this comment. -->
31
 
32
- # openai/whisper-medium
33
 
34
- This model is a fine-tuned version of [openai/whisper-medium](https://huggingface.co/openai/whisper-medium) on the common_voice_17_0 dataset.
35
  It achieves the following results on the evaluation set:
36
  - Loss: 0.1787
37
  - Wer: 8.8021
 
1
  ---
2
  library_name: transformers
3
+ language:
4
+ - eu
5
  license: apache-2.0
6
  base_model: openai/whisper-medium
7
  tags:
8
+ - whisper-event
9
  - generated_from_trainer
10
  datasets:
11
+ - mozilla-foundation/common_voice_17_0
12
  metrics:
13
  - wer
14
  model-index:
15
+ - name: Whisper Medium Basque
16
  results:
17
  - task:
18
  name: Automatic Speech Recognition
19
  type: automatic-speech-recognition
20
  dataset:
21
+ name: mozilla-foundation/common_voice_17_0 eu
22
+ type: mozilla-foundation/common_voice_17_0
23
  config: eu
24
  split: test
25
  args: eu
 
32
  <!-- This model card has been generated automatically according to the information the Trainer had access to. You
33
  should probably proofread and complete it, then remove this comment. -->
34
 
35
+ # Whisper Medium Basque
36
 
37
+ This model is a fine-tuned version of [openai/whisper-medium](https://huggingface.co/openai/whisper-medium) on the mozilla-foundation/common_voice_17_0 eu dataset.
38
  It achieves the following results on the evaluation set:
39
  - Loss: 0.1787
40
  - Wer: 8.8021
all_results.json CHANGED
@@ -1,12 +1,13 @@
1
  {
2
- "epoch": 1.22,
3
- "eval_loss": 0.1502576321363449,
4
- "eval_runtime": 3335.5627,
5
- "eval_samples_per_second": 3.752,
6
- "eval_steps_per_second": 0.469,
7
- "eval_wer": 9.188591686749389,
8
- "train_loss": 0.22703151334822178,
9
- "train_runtime": 64728.0354,
10
- "train_samples_per_second": 0.494,
11
- "train_steps_per_second": 0.124
 
12
  }
 
1
  {
2
+ "epoch": 4.148,
3
+ "eval_loss": 0.17873740196228027,
4
+ "eval_runtime": 2417.8154,
5
+ "eval_samples_per_second": 5.637,
6
+ "eval_steps_per_second": 0.705,
7
+ "eval_wer": 8.8020814247499,
8
+ "total_flos": 1.3062109848403968e+20,
9
+ "train_loss": 0.11351343880966305,
10
+ "train_runtime": 52381.6915,
11
+ "train_samples_per_second": 2.444,
12
+ "train_steps_per_second": 0.153
13
  }
eval_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "epoch": 1.22,
3
- "eval_loss": 0.1502576321363449,
4
- "eval_runtime": 3335.5627,
5
- "eval_samples_per_second": 3.752,
6
- "eval_steps_per_second": 0.469,
7
- "eval_wer": 9.188591686749389
8
  }
 
1
  {
2
+ "epoch": 4.148,
3
+ "eval_loss": 0.17873740196228027,
4
+ "eval_runtime": 2417.8154,
5
+ "eval_samples_per_second": 5.637,
6
+ "eval_steps_per_second": 0.705,
7
+ "eval_wer": 8.8020814247499
8
  }
train_results.json CHANGED
@@ -1,7 +1,8 @@
1
  {
2
- "epoch": 1.22,
3
- "train_loss": 0.22703151334822178,
4
- "train_runtime": 64728.0354,
5
- "train_samples_per_second": 0.494,
6
- "train_steps_per_second": 0.124
 
7
  }
 
1
  {
2
+ "epoch": 4.148,
3
+ "total_flos": 1.3062109848403968e+20,
4
+ "train_loss": 0.11351343880966305,
5
+ "train_runtime": 52381.6915,
6
+ "train_samples_per_second": 2.444,
7
+ "train_steps_per_second": 0.153
8
  }
trainer_state.json CHANGED
@@ -1,2089 +1,2426 @@
1
  {
2
- "best_metric": 9.188591686749389,
3
  "best_model_checkpoint": "./checkpoint-8000",
4
- "epoch": 1.21775,
 
5
  "global_step": 8000,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
9
  "log_history": [
10
  {
11
- "epoch": 0.0,
12
- "learning_rate": 4.4e-07,
13
- "loss": 1.3639,
 
14
  "step": 25
15
  },
16
  {
17
- "epoch": 0.01,
18
- "learning_rate": 9.400000000000001e-07,
19
- "loss": 1.236,
 
20
  "step": 50
21
  },
22
  {
23
- "epoch": 0.01,
24
- "learning_rate": 1.44e-06,
25
- "loss": 0.9697,
 
26
  "step": 75
27
  },
28
  {
29
- "epoch": 0.01,
30
- "learning_rate": 1.94e-06,
31
- "loss": 0.738,
 
32
  "step": 100
33
  },
34
  {
35
- "epoch": 0.02,
36
- "learning_rate": 2.4400000000000004e-06,
37
- "loss": 0.6628,
 
38
  "step": 125
39
  },
40
  {
41
- "epoch": 0.02,
42
- "learning_rate": 2.9400000000000002e-06,
43
- "loss": 0.6145,
 
44
  "step": 150
45
  },
46
  {
47
- "epoch": 0.02,
48
- "learning_rate": 3.44e-06,
49
- "loss": 0.6136,
 
50
  "step": 175
51
  },
52
  {
53
- "epoch": 0.03,
54
- "learning_rate": 3.94e-06,
55
- "loss": 0.5953,
 
56
  "step": 200
57
  },
58
  {
59
- "epoch": 0.03,
60
- "learning_rate": 4.440000000000001e-06,
61
- "loss": 0.555,
 
62
  "step": 225
63
  },
64
  {
65
- "epoch": 0.03,
66
- "learning_rate": 4.94e-06,
67
- "loss": 0.5698,
 
68
  "step": 250
69
  },
70
  {
71
- "epoch": 0.03,
72
- "learning_rate": 5.4400000000000004e-06,
73
- "loss": 0.5822,
 
74
  "step": 275
75
  },
76
  {
77
- "epoch": 0.04,
78
- "learning_rate": 5.94e-06,
79
- "loss": 0.5853,
 
80
  "step": 300
81
  },
82
  {
83
- "epoch": 0.04,
84
- "learning_rate": 6.440000000000001e-06,
85
- "loss": 0.519,
 
86
  "step": 325
87
  },
88
  {
89
- "epoch": 0.04,
90
- "learning_rate": 6.9400000000000005e-06,
91
- "loss": 0.5191,
 
92
  "step": 350
93
  },
94
  {
95
- "epoch": 0.05,
96
- "learning_rate": 7.440000000000001e-06,
97
- "loss": 0.4598,
 
98
  "step": 375
99
  },
100
  {
101
  "epoch": 0.05,
102
- "learning_rate": 7.94e-06,
103
- "loss": 0.4241,
 
104
  "step": 400
105
  },
106
  {
107
- "epoch": 0.05,
108
- "learning_rate": 8.44e-06,
109
- "loss": 0.4775,
 
110
  "step": 425
111
  },
112
  {
113
- "epoch": 0.06,
114
- "learning_rate": 8.94e-06,
115
- "loss": 0.5065,
 
116
  "step": 450
117
  },
118
  {
119
- "epoch": 0.06,
120
- "learning_rate": 9.440000000000001e-06,
121
- "loss": 0.508,
 
122
  "step": 475
123
  },
124
  {
125
- "epoch": 0.06,
126
- "learning_rate": 9.940000000000001e-06,
127
- "loss": 0.4647,
 
128
  "step": 500
129
  },
130
  {
131
- "epoch": 0.06,
132
- "eval_loss": 0.4529259502887726,
133
- "eval_runtime": 3329.2866,
134
- "eval_samples_per_second": 3.759,
135
- "eval_steps_per_second": 0.47,
136
- "eval_wer": 34.21398554044096,
137
  "step": 500
138
  },
139
  {
140
- "epoch": 0.07,
141
- "learning_rate": 9.970666666666668e-06,
142
- "loss": 0.4087,
 
143
  "step": 525
144
  },
145
  {
146
- "epoch": 0.07,
147
- "learning_rate": 9.937333333333334e-06,
148
- "loss": 0.4787,
 
149
  "step": 550
150
  },
151
  {
152
- "epoch": 0.07,
153
- "learning_rate": 9.904e-06,
154
- "loss": 0.4892,
 
155
  "step": 575
156
  },
157
  {
158
- "epoch": 0.07,
159
- "learning_rate": 9.870666666666667e-06,
160
- "loss": 0.3942,
 
161
  "step": 600
162
  },
163
  {
164
- "epoch": 0.08,
165
- "learning_rate": 9.837333333333335e-06,
166
- "loss": 0.3465,
 
167
  "step": 625
168
  },
169
  {
170
- "epoch": 0.08,
171
- "learning_rate": 9.804000000000001e-06,
172
- "loss": 0.4254,
 
173
  "step": 650
174
  },
175
  {
176
- "epoch": 0.08,
177
- "learning_rate": 9.770666666666668e-06,
178
- "loss": 0.4092,
 
179
  "step": 675
180
  },
181
  {
182
- "epoch": 0.09,
183
- "learning_rate": 9.737333333333334e-06,
184
- "loss": 0.3829,
 
185
  "step": 700
186
  },
187
  {
188
- "epoch": 0.09,
189
- "learning_rate": 9.704e-06,
190
- "loss": 0.4054,
 
191
  "step": 725
192
  },
193
  {
194
- "epoch": 0.09,
195
- "learning_rate": 9.670666666666667e-06,
196
- "loss": 0.3684,
 
197
  "step": 750
198
  },
199
  {
200
- "epoch": 0.1,
201
- "learning_rate": 9.637333333333333e-06,
202
- "loss": 0.357,
 
203
  "step": 775
204
  },
205
  {
206
  "epoch": 0.1,
207
- "learning_rate": 9.604000000000002e-06,
208
- "loss": 0.4327,
 
209
  "step": 800
210
  },
211
  {
212
- "epoch": 0.1,
213
- "learning_rate": 9.572000000000001e-06,
214
- "loss": 0.4048,
 
215
  "step": 825
216
  },
217
  {
218
- "epoch": 0.11,
219
- "learning_rate": 9.538666666666667e-06,
220
- "loss": 0.4062,
 
221
  "step": 850
222
  },
223
  {
224
- "epoch": 0.11,
225
- "learning_rate": 9.505333333333334e-06,
226
- "loss": 0.4098,
 
227
  "step": 875
228
  },
229
  {
230
- "epoch": 0.11,
231
- "learning_rate": 9.472000000000002e-06,
232
- "loss": 0.338,
 
233
  "step": 900
234
  },
235
  {
236
- "epoch": 0.12,
237
- "learning_rate": 9.438666666666667e-06,
238
- "loss": 0.3389,
 
239
  "step": 925
240
  },
241
  {
242
- "epoch": 0.12,
243
- "learning_rate": 9.405333333333335e-06,
244
- "loss": 0.3298,
 
245
  "step": 950
246
  },
247
  {
248
- "epoch": 0.12,
249
- "learning_rate": 9.372000000000001e-06,
250
- "loss": 0.353,
 
251
  "step": 975
252
  },
253
  {
254
- "epoch": 0.12,
255
- "learning_rate": 9.338666666666667e-06,
256
- "loss": 0.3163,
 
257
  "step": 1000
258
  },
259
  {
260
- "epoch": 0.12,
261
- "eval_loss": 0.3516156077384949,
262
- "eval_runtime": 3323.4129,
263
- "eval_samples_per_second": 3.766,
264
- "eval_steps_per_second": 0.471,
265
- "eval_wer": 26.02322292816029,
266
  "step": 1000
267
  },
268
  {
269
- "epoch": 0.13,
270
- "learning_rate": 9.305333333333334e-06,
271
- "loss": 0.3638,
 
272
  "step": 1025
273
  },
274
  {
275
- "epoch": 0.13,
276
- "learning_rate": 9.272e-06,
277
- "loss": 0.3595,
 
278
  "step": 1050
279
  },
280
  {
281
- "epoch": 0.13,
282
- "learning_rate": 9.238666666666667e-06,
283
- "loss": 0.3488,
 
284
  "step": 1075
285
  },
286
  {
287
- "epoch": 0.14,
288
- "learning_rate": 9.205333333333333e-06,
289
- "loss": 0.351,
 
290
  "step": 1100
291
  },
292
  {
293
- "epoch": 0.14,
294
- "learning_rate": 9.172000000000001e-06,
295
- "loss": 0.3676,
 
296
  "step": 1125
297
  },
298
  {
299
- "epoch": 0.14,
300
- "learning_rate": 9.138666666666668e-06,
301
- "loss": 0.3005,
 
302
  "step": 1150
303
  },
304
  {
305
- "epoch": 0.15,
306
- "learning_rate": 9.105333333333334e-06,
307
- "loss": 0.3119,
 
308
  "step": 1175
309
  },
310
  {
311
  "epoch": 0.15,
312
- "learning_rate": 9.072e-06,
313
- "loss": 0.3612,
 
314
  "step": 1200
315
  },
316
  {
317
- "epoch": 0.15,
318
- "learning_rate": 9.038666666666667e-06,
319
- "loss": 0.3515,
 
320
  "step": 1225
321
  },
322
  {
323
- "epoch": 0.16,
324
- "learning_rate": 9.005333333333333e-06,
325
- "loss": 0.3318,
 
326
  "step": 1250
327
  },
328
  {
329
- "epoch": 0.16,
330
- "learning_rate": 8.972000000000002e-06,
331
- "loss": 0.2935,
 
332
  "step": 1275
333
  },
334
  {
335
- "epoch": 0.16,
336
- "learning_rate": 8.938666666666668e-06,
337
- "loss": 0.2934,
 
338
  "step": 1300
339
  },
340
  {
341
- "epoch": 0.17,
342
- "learning_rate": 8.905333333333334e-06,
343
- "loss": 0.3221,
 
344
  "step": 1325
345
  },
346
  {
347
- "epoch": 0.17,
348
- "learning_rate": 8.872e-06,
349
- "loss": 0.2943,
 
350
  "step": 1350
351
  },
352
  {
353
- "epoch": 0.17,
354
- "learning_rate": 8.838666666666667e-06,
355
- "loss": 0.2951,
 
356
  "step": 1375
357
  },
358
  {
359
- "epoch": 0.17,
360
- "learning_rate": 8.805333333333334e-06,
361
- "loss": 0.3143,
 
362
  "step": 1400
363
  },
364
  {
365
- "epoch": 0.18,
366
- "learning_rate": 8.772e-06,
367
- "loss": 0.3435,
 
368
  "step": 1425
369
  },
370
  {
371
- "epoch": 0.18,
372
- "learning_rate": 8.738666666666668e-06,
373
- "loss": 0.2893,
 
374
  "step": 1450
375
  },
376
  {
377
- "epoch": 0.18,
378
- "learning_rate": 8.705333333333335e-06,
379
- "loss": 0.3155,
 
380
  "step": 1475
381
  },
382
  {
383
- "epoch": 0.19,
384
- "learning_rate": 8.672000000000001e-06,
385
- "loss": 0.3232,
 
386
  "step": 1500
387
  },
388
  {
389
- "epoch": 0.19,
390
- "eval_loss": 0.29963329434394836,
391
- "eval_runtime": 3353.8745,
392
- "eval_samples_per_second": 3.732,
393
- "eval_steps_per_second": 0.467,
394
- "eval_wer": 21.182457328367423,
395
  "step": 1500
396
  },
397
  {
398
- "epoch": 0.19,
399
- "learning_rate": 8.638666666666667e-06,
400
- "loss": 0.3055,
 
401
  "step": 1525
402
  },
403
  {
404
- "epoch": 0.19,
405
- "learning_rate": 8.605333333333334e-06,
406
- "loss": 0.2964,
 
407
  "step": 1550
408
  },
409
  {
410
- "epoch": 0.2,
411
- "learning_rate": 8.572e-06,
412
- "loss": 0.2702,
 
413
  "step": 1575
414
  },
415
  {
416
  "epoch": 0.2,
417
- "learning_rate": 8.538666666666667e-06,
418
- "loss": 0.2622,
 
419
  "step": 1600
420
  },
421
  {
422
- "epoch": 0.2,
423
- "learning_rate": 8.505333333333335e-06,
424
- "loss": 0.3048,
 
425
  "step": 1625
426
  },
427
  {
428
- "epoch": 0.21,
429
- "learning_rate": 8.472e-06,
430
- "loss": 0.2816,
 
431
  "step": 1650
432
  },
433
  {
434
- "epoch": 0.21,
435
- "learning_rate": 8.438666666666668e-06,
436
- "loss": 0.2776,
 
437
  "step": 1675
438
  },
439
  {
440
- "epoch": 0.21,
441
- "learning_rate": 8.405333333333334e-06,
442
- "loss": 0.252,
 
443
  "step": 1700
444
  },
445
  {
446
- "epoch": 0.22,
447
- "learning_rate": 8.372e-06,
448
- "loss": 0.2983,
 
449
  "step": 1725
450
  },
451
  {
452
- "epoch": 0.22,
453
- "learning_rate": 8.338666666666667e-06,
454
- "loss": 0.3161,
 
455
  "step": 1750
456
  },
457
  {
458
- "epoch": 0.22,
459
- "learning_rate": 8.305333333333333e-06,
460
- "loss": 0.2659,
 
461
  "step": 1775
462
  },
463
  {
464
- "epoch": 0.23,
465
- "learning_rate": 8.272000000000001e-06,
466
- "loss": 0.302,
 
467
  "step": 1800
468
  },
469
  {
470
- "epoch": 0.23,
471
- "learning_rate": 8.238666666666668e-06,
472
- "loss": 0.2609,
 
473
  "step": 1825
474
  },
475
  {
476
- "epoch": 0.23,
477
- "learning_rate": 8.205333333333334e-06,
478
- "loss": 0.2239,
 
479
  "step": 1850
480
  },
481
  {
482
- "epoch": 0.23,
483
- "learning_rate": 8.172e-06,
484
- "loss": 0.2722,
 
485
  "step": 1875
486
  },
487
  {
488
- "epoch": 0.24,
489
- "learning_rate": 8.138666666666667e-06,
490
- "loss": 0.2554,
 
491
  "step": 1900
492
  },
493
  {
494
- "epoch": 0.24,
495
- "learning_rate": 8.105333333333334e-06,
496
- "loss": 0.2439,
 
497
  "step": 1925
498
  },
499
  {
500
- "epoch": 0.24,
501
- "learning_rate": 8.072000000000002e-06,
502
- "loss": 0.281,
 
503
  "step": 1950
504
  },
505
  {
506
- "epoch": 0.25,
507
- "learning_rate": 8.038666666666666e-06,
508
- "loss": 0.3073,
 
509
  "step": 1975
510
  },
511
  {
512
- "epoch": 0.25,
513
- "learning_rate": 8.005333333333335e-06,
514
- "loss": 0.266,
 
515
  "step": 2000
516
  },
517
  {
518
- "epoch": 0.25,
519
- "eval_loss": 0.2686236798763275,
520
- "eval_runtime": 3329.6296,
521
- "eval_samples_per_second": 3.759,
522
- "eval_steps_per_second": 0.47,
523
- "eval_wer": 18.512617259853812,
524
  "step": 2000
525
  },
526
  {
527
- "epoch": 0.25,
528
- "learning_rate": 7.972000000000001e-06,
529
- "loss": 0.2607,
 
530
  "step": 2025
531
  },
532
  {
533
- "epoch": 0.26,
534
- "learning_rate": 7.938666666666667e-06,
535
- "loss": 0.2272,
 
536
  "step": 2050
537
  },
538
  {
539
- "epoch": 0.26,
540
- "learning_rate": 7.905333333333334e-06,
541
- "loss": 0.2522,
 
542
  "step": 2075
543
  },
544
  {
545
- "epoch": 0.26,
546
- "learning_rate": 7.872e-06,
547
- "loss": 0.2749,
 
548
  "step": 2100
549
  },
550
  {
551
- "epoch": 0.27,
552
- "learning_rate": 7.838666666666668e-06,
553
- "loss": 0.2354,
 
554
  "step": 2125
555
  },
556
  {
557
- "epoch": 0.27,
558
- "learning_rate": 7.805333333333333e-06,
559
- "loss": 0.246,
 
560
  "step": 2150
561
  },
562
  {
563
- "epoch": 0.27,
564
- "learning_rate": 7.772000000000001e-06,
565
- "loss": 0.295,
 
566
  "step": 2175
567
  },
568
  {
569
- "epoch": 0.28,
570
- "learning_rate": 7.738666666666668e-06,
571
- "loss": 0.2672,
 
572
  "step": 2200
573
  },
574
  {
575
- "epoch": 0.28,
576
- "learning_rate": 7.705333333333334e-06,
577
- "loss": 0.2779,
 
578
  "step": 2225
579
  },
580
  {
581
- "epoch": 0.28,
582
- "learning_rate": 7.672e-06,
583
- "loss": 0.3284,
 
584
  "step": 2250
585
  },
586
  {
587
- "epoch": 0.28,
588
- "learning_rate": 7.638666666666667e-06,
589
- "loss": 0.2481,
 
590
  "step": 2275
591
  },
592
  {
593
- "epoch": 0.29,
594
- "learning_rate": 7.605333333333333e-06,
595
- "loss": 0.2249,
 
596
  "step": 2300
597
  },
598
  {
599
- "epoch": 0.29,
600
- "learning_rate": 7.5720000000000005e-06,
601
- "loss": 0.2653,
 
602
  "step": 2325
603
  },
604
  {
605
- "epoch": 0.29,
606
- "learning_rate": 7.538666666666668e-06,
607
- "loss": 0.2598,
 
608
  "step": 2350
609
  },
610
  {
611
- "epoch": 0.3,
612
- "learning_rate": 7.505333333333334e-06,
613
- "loss": 0.2372,
 
614
  "step": 2375
615
  },
616
  {
617
- "epoch": 0.3,
618
- "learning_rate": 7.472000000000001e-06,
619
- "loss": 0.2495,
 
620
  "step": 2400
621
  },
622
  {
623
- "epoch": 0.3,
624
- "learning_rate": 7.438666666666667e-06,
625
- "loss": 0.2553,
 
626
  "step": 2425
627
  },
628
  {
629
- "epoch": 0.31,
630
- "learning_rate": 7.405333333333334e-06,
631
- "loss": 0.2501,
 
632
  "step": 2450
633
  },
634
  {
635
- "epoch": 0.31,
636
- "learning_rate": 7.372e-06,
637
- "loss": 0.2461,
 
638
  "step": 2475
639
  },
640
  {
641
- "epoch": 0.31,
642
- "learning_rate": 7.338666666666667e-06,
643
- "loss": 0.2383,
 
644
  "step": 2500
645
  },
646
  {
647
- "epoch": 0.31,
648
- "eval_loss": 0.2489350140094757,
649
- "eval_runtime": 3323.7931,
650
- "eval_samples_per_second": 3.765,
651
- "eval_steps_per_second": 0.471,
652
- "eval_wer": 16.94118584317553,
653
  "step": 2500
654
  },
655
  {
656
- "epoch": 0.32,
657
- "learning_rate": 7.3053333333333344e-06,
658
- "loss": 0.2605,
 
659
  "step": 2525
660
  },
661
  {
662
- "epoch": 0.32,
663
- "learning_rate": 7.272e-06,
664
- "loss": 0.2511,
 
665
  "step": 2550
666
  },
667
  {
668
- "epoch": 0.32,
669
- "learning_rate": 7.238666666666667e-06,
670
- "loss": 0.291,
 
671
  "step": 2575
672
  },
673
  {
674
- "epoch": 0.33,
675
- "learning_rate": 7.2053333333333345e-06,
676
- "loss": 0.2511,
 
677
  "step": 2600
678
  },
679
  {
680
- "epoch": 0.33,
681
- "learning_rate": 7.172e-06,
682
- "loss": 0.2554,
 
683
  "step": 2625
684
  },
685
  {
686
- "epoch": 0.33,
687
- "learning_rate": 7.138666666666667e-06,
688
- "loss": 0.2098,
 
689
  "step": 2650
690
  },
691
  {
692
- "epoch": 0.33,
693
- "learning_rate": 7.105333333333334e-06,
694
- "loss": 0.2104,
 
695
  "step": 2675
696
  },
697
  {
698
- "epoch": 0.34,
699
- "learning_rate": 7.072000000000001e-06,
700
- "loss": 0.2166,
 
701
  "step": 2700
702
  },
703
  {
704
- "epoch": 0.34,
705
- "learning_rate": 7.038666666666667e-06,
706
- "loss": 0.2676,
 
707
  "step": 2725
708
  },
709
  {
710
- "epoch": 0.34,
711
- "learning_rate": 7.005333333333334e-06,
712
- "loss": 0.2106,
 
713
  "step": 2750
714
  },
715
  {
716
- "epoch": 0.35,
717
- "learning_rate": 6.972000000000001e-06,
718
- "loss": 0.2181,
 
719
  "step": 2775
720
  },
721
  {
722
- "epoch": 0.35,
723
- "learning_rate": 6.938666666666667e-06,
724
- "loss": 0.2665,
 
725
  "step": 2800
726
  },
727
  {
728
- "epoch": 0.35,
729
- "learning_rate": 6.905333333333334e-06,
730
- "loss": 0.2499,
 
731
  "step": 2825
732
  },
733
  {
734
- "epoch": 0.36,
735
- "learning_rate": 6.872000000000001e-06,
736
- "loss": 0.25,
 
737
  "step": 2850
738
  },
739
  {
740
- "epoch": 0.36,
741
- "learning_rate": 6.838666666666667e-06,
742
- "loss": 0.2383,
 
743
  "step": 2875
744
  },
745
  {
746
- "epoch": 0.36,
747
- "learning_rate": 6.805333333333334e-06,
748
- "loss": 0.2358,
 
749
  "step": 2900
750
  },
751
  {
752
- "epoch": 0.37,
753
- "learning_rate": 6.7720000000000006e-06,
754
- "loss": 0.2393,
 
755
  "step": 2925
756
  },
757
  {
758
- "epoch": 0.37,
759
- "learning_rate": 6.738666666666667e-06,
760
- "loss": 0.2805,
 
761
  "step": 2950
762
  },
763
  {
764
- "epoch": 0.37,
765
- "learning_rate": 6.705333333333333e-06,
766
- "loss": 0.2236,
 
767
  "step": 2975
768
  },
769
  {
770
- "epoch": 0.38,
771
- "learning_rate": 6.672000000000001e-06,
772
- "loss": 0.1916,
 
773
  "step": 3000
774
  },
775
  {
776
- "epoch": 0.38,
777
- "eval_loss": 0.2232765406370163,
778
- "eval_runtime": 3320.9028,
779
- "eval_samples_per_second": 3.769,
780
- "eval_steps_per_second": 0.471,
781
- "eval_wer": 15.283116572726005,
782
  "step": 3000
783
  },
784
  {
785
- "epoch": 0.38,
786
- "learning_rate": 6.638666666666668e-06,
787
- "loss": 0.2244,
 
788
  "step": 3025
789
  },
790
  {
791
- "epoch": 0.38,
792
- "learning_rate": 6.6053333333333335e-06,
793
- "loss": 0.1758,
 
794
  "step": 3050
795
  },
796
  {
797
- "epoch": 0.38,
798
- "learning_rate": 6.572000000000001e-06,
799
- "loss": 0.2088,
 
800
  "step": 3075
801
  },
802
  {
803
- "epoch": 0.39,
804
- "learning_rate": 6.538666666666667e-06,
805
- "loss": 0.2062,
 
806
  "step": 3100
807
  },
808
  {
809
- "epoch": 0.39,
810
- "learning_rate": 6.505333333333334e-06,
811
- "loss": 0.203,
 
812
  "step": 3125
813
  },
814
  {
815
- "epoch": 0.39,
816
- "learning_rate": 6.472000000000001e-06,
817
- "loss": 0.2325,
 
818
  "step": 3150
819
  },
820
  {
821
- "epoch": 0.4,
822
- "learning_rate": 6.438666666666667e-06,
823
- "loss": 0.2017,
 
824
  "step": 3175
825
  },
826
  {
827
- "epoch": 0.4,
828
- "learning_rate": 6.405333333333334e-06,
829
- "loss": 0.2164,
 
830
  "step": 3200
831
  },
832
  {
833
- "epoch": 0.4,
834
- "learning_rate": 6.372e-06,
835
- "loss": 0.2082,
 
836
  "step": 3225
837
  },
838
  {
839
- "epoch": 0.41,
840
- "learning_rate": 6.338666666666667e-06,
841
- "loss": 0.2174,
 
842
  "step": 3250
843
  },
844
  {
845
- "epoch": 0.41,
846
- "learning_rate": 6.305333333333333e-06,
847
- "loss": 0.2214,
 
848
  "step": 3275
849
  },
850
  {
851
- "epoch": 0.41,
852
- "learning_rate": 6.272e-06,
853
- "loss": 0.2266,
 
854
  "step": 3300
855
  },
856
  {
857
- "epoch": 0.42,
858
- "learning_rate": 6.2386666666666675e-06,
859
- "loss": 0.2207,
 
860
  "step": 3325
861
  },
862
  {
863
- "epoch": 0.42,
864
- "learning_rate": 6.205333333333334e-06,
865
- "loss": 0.2103,
 
866
  "step": 3350
867
  },
868
  {
869
- "epoch": 0.42,
870
- "learning_rate": 6.172e-06,
871
- "loss": 0.1985,
 
872
  "step": 3375
873
  },
874
  {
875
- "epoch": 0.42,
876
- "learning_rate": 6.138666666666668e-06,
877
- "loss": 0.2457,
 
878
  "step": 3400
879
  },
880
  {
881
- "epoch": 0.43,
882
- "learning_rate": 6.105333333333334e-06,
883
- "loss": 0.2165,
 
884
  "step": 3425
885
  },
886
  {
887
- "epoch": 0.43,
888
- "learning_rate": 6.0720000000000005e-06,
889
- "loss": 0.2096,
 
890
  "step": 3450
891
  },
892
  {
893
- "epoch": 0.43,
894
- "learning_rate": 6.038666666666667e-06,
895
- "loss": 0.2265,
 
896
  "step": 3475
897
  },
898
  {
899
- "epoch": 0.44,
900
- "learning_rate": 6.005333333333334e-06,
901
- "loss": 0.2009,
 
902
  "step": 3500
903
  },
904
  {
905
- "epoch": 0.44,
906
- "eval_loss": 0.21342946588993073,
907
- "eval_runtime": 3316.3031,
908
- "eval_samples_per_second": 3.774,
909
- "eval_steps_per_second": 0.472,
910
- "eval_wer": 14.141886912704893,
911
  "step": 3500
912
  },
913
  {
914
- "epoch": 0.44,
915
- "learning_rate": 5.972e-06,
916
- "loss": 0.1848,
 
917
  "step": 3525
918
  },
919
  {
920
- "epoch": 0.44,
921
- "learning_rate": 5.938666666666667e-06,
922
- "loss": 0.211,
 
923
  "step": 3550
924
  },
925
  {
926
- "epoch": 0.45,
927
- "learning_rate": 5.905333333333334e-06,
928
- "loss": 0.2098,
 
929
  "step": 3575
930
  },
931
  {
932
- "epoch": 0.45,
933
- "learning_rate": 5.872000000000001e-06,
934
- "loss": 0.1881,
 
935
  "step": 3600
936
  },
937
  {
938
- "epoch": 0.45,
939
- "learning_rate": 5.838666666666667e-06,
940
- "loss": 0.2239,
 
941
  "step": 3625
942
  },
943
  {
944
- "epoch": 0.46,
945
- "learning_rate": 5.8053333333333335e-06,
946
- "loss": 0.174,
 
947
  "step": 3650
948
  },
949
  {
950
- "epoch": 0.46,
951
- "learning_rate": 5.772000000000001e-06,
952
- "loss": 0.1689,
 
953
  "step": 3675
954
  },
955
  {
956
- "epoch": 0.46,
957
- "learning_rate": 5.738666666666667e-06,
958
- "loss": 0.1808,
 
959
  "step": 3700
960
  },
961
  {
962
- "epoch": 0.47,
963
- "learning_rate": 5.705333333333334e-06,
964
- "loss": 0.1944,
 
965
  "step": 3725
966
  },
967
  {
968
- "epoch": 0.47,
969
- "learning_rate": 5.672000000000001e-06,
970
- "loss": 0.1629,
 
971
  "step": 3750
972
  },
973
  {
974
- "epoch": 0.47,
975
- "learning_rate": 5.6386666666666665e-06,
976
- "loss": 0.1916,
 
977
  "step": 3775
978
  },
979
  {
980
- "epoch": 0.47,
981
- "learning_rate": 5.605333333333334e-06,
982
- "loss": 0.1757,
 
983
  "step": 3800
984
  },
985
  {
986
- "epoch": 0.48,
987
- "learning_rate": 5.572000000000001e-06,
988
- "loss": 0.1737,
 
989
  "step": 3825
990
  },
991
  {
992
- "epoch": 0.48,
993
- "learning_rate": 5.538666666666667e-06,
994
- "loss": 0.2059,
 
995
  "step": 3850
996
  },
997
  {
998
- "epoch": 0.48,
999
- "learning_rate": 5.505333333333334e-06,
1000
- "loss": 0.204,
 
1001
  "step": 3875
1002
  },
1003
  {
1004
- "epoch": 0.49,
1005
- "learning_rate": 5.472e-06,
1006
- "loss": 0.1792,
 
1007
  "step": 3900
1008
  },
1009
  {
1010
- "epoch": 0.49,
1011
- "learning_rate": 5.4386666666666676e-06,
1012
- "loss": 0.1647,
 
1013
  "step": 3925
1014
  },
1015
  {
1016
- "epoch": 0.49,
1017
- "learning_rate": 5.405333333333333e-06,
1018
- "loss": 0.1769,
 
1019
  "step": 3950
1020
  },
1021
  {
1022
- "epoch": 0.5,
1023
- "learning_rate": 5.372e-06,
1024
- "loss": 0.1794,
 
1025
  "step": 3975
1026
  },
1027
  {
1028
- "epoch": 0.5,
1029
- "learning_rate": 5.338666666666668e-06,
1030
- "loss": 0.2014,
 
1031
  "step": 4000
1032
  },
1033
  {
1034
- "epoch": 0.5,
1035
- "eval_loss": 0.20149476826190948,
1036
- "eval_runtime": 3320.3757,
1037
- "eval_samples_per_second": 3.769,
1038
- "eval_steps_per_second": 0.471,
1039
- "eval_wer": 13.657909936465574,
1040
  "step": 4000
1041
  },
1042
  {
1043
- "epoch": 0.5,
1044
- "learning_rate": 5.305333333333333e-06,
1045
- "loss": 0.18,
 
1046
  "step": 4025
1047
  },
1048
  {
1049
- "epoch": 0.51,
1050
- "learning_rate": 5.2720000000000005e-06,
1051
- "loss": 0.1964,
 
1052
  "step": 4050
1053
  },
1054
  {
1055
- "epoch": 0.51,
1056
- "learning_rate": 5.238666666666668e-06,
1057
- "loss": 0.1922,
 
1058
  "step": 4075
1059
  },
1060
  {
1061
- "epoch": 0.51,
1062
- "learning_rate": 5.205333333333333e-06,
1063
- "loss": 0.1392,
 
1064
  "step": 4100
1065
  },
1066
  {
1067
- "epoch": 0.52,
1068
- "learning_rate": 5.172000000000001e-06,
1069
- "loss": 0.1832,
 
1070
  "step": 4125
1071
  },
1072
  {
1073
- "epoch": 0.52,
1074
- "learning_rate": 5.138666666666667e-06,
1075
- "loss": 0.2205,
 
1076
  "step": 4150
1077
  },
1078
  {
1079
- "epoch": 0.52,
1080
- "learning_rate": 5.1053333333333335e-06,
1081
- "loss": 0.1943,
 
1082
  "step": 4175
1083
  },
1084
  {
1085
- "epoch": 0.53,
1086
- "learning_rate": 5.072e-06,
1087
- "loss": 0.2042,
 
1088
  "step": 4200
1089
  },
1090
  {
1091
- "epoch": 0.53,
1092
- "learning_rate": 5.038666666666667e-06,
1093
- "loss": 0.185,
 
1094
  "step": 4225
1095
  },
1096
  {
1097
- "epoch": 0.53,
1098
- "learning_rate": 5.0053333333333344e-06,
1099
- "loss": 0.1826,
 
1100
  "step": 4250
1101
  },
1102
  {
1103
- "epoch": 0.53,
1104
- "learning_rate": 4.972e-06,
1105
- "loss": 0.1791,
 
1106
  "step": 4275
1107
  },
1108
  {
1109
- "epoch": 0.54,
1110
- "learning_rate": 4.938666666666667e-06,
1111
- "loss": 0.186,
 
1112
  "step": 4300
1113
  },
1114
  {
1115
- "epoch": 0.54,
1116
- "learning_rate": 4.905333333333334e-06,
1117
- "loss": 0.1592,
 
1118
  "step": 4325
1119
  },
1120
  {
1121
- "epoch": 0.54,
1122
- "learning_rate": 4.872000000000001e-06,
1123
- "loss": 0.1738,
 
1124
  "step": 4350
1125
  },
1126
  {
1127
- "epoch": 0.55,
1128
- "learning_rate": 4.838666666666667e-06,
1129
- "loss": 0.1623,
 
1130
  "step": 4375
1131
  },
1132
  {
1133
- "epoch": 0.55,
1134
- "learning_rate": 4.805333333333334e-06,
1135
- "loss": 0.1726,
 
1136
  "step": 4400
1137
  },
1138
  {
1139
- "epoch": 0.55,
1140
- "learning_rate": 4.772e-06,
1141
- "loss": 0.1762,
 
1142
  "step": 4425
1143
  },
1144
  {
1145
- "epoch": 0.56,
1146
- "learning_rate": 4.738666666666667e-06,
1147
- "loss": 0.1759,
 
1148
  "step": 4450
1149
  },
1150
  {
1151
- "epoch": 0.56,
1152
- "learning_rate": 4.705333333333334e-06,
1153
- "loss": 0.1989,
 
1154
  "step": 4475
1155
  },
1156
  {
1157
- "epoch": 0.56,
1158
- "learning_rate": 4.672e-06,
1159
- "loss": 0.1964,
 
1160
  "step": 4500
1161
  },
1162
  {
1163
- "epoch": 0.56,
1164
- "eval_loss": 0.1852688044309616,
1165
- "eval_runtime": 3333.8587,
1166
- "eval_samples_per_second": 3.754,
1167
- "eval_steps_per_second": 0.469,
1168
- "eval_wer": 12.01975741400944,
1169
  "step": 4500
1170
  },
1171
  {
1172
- "epoch": 0.57,
1173
- "learning_rate": 4.638666666666667e-06,
1174
- "loss": 0.1765,
 
1175
  "step": 4525
1176
  },
1177
  {
1178
- "epoch": 0.57,
1179
- "learning_rate": 4.605333333333334e-06,
1180
- "loss": 0.1653,
 
1181
  "step": 4550
1182
  },
1183
  {
1184
- "epoch": 0.57,
1185
- "learning_rate": 4.5720000000000004e-06,
1186
- "loss": 0.1883,
 
1187
  "step": 4575
1188
  },
1189
  {
1190
- "epoch": 0.57,
1191
- "learning_rate": 4.538666666666667e-06,
1192
- "loss": 0.1939,
 
1193
  "step": 4600
1194
  },
1195
  {
1196
- "epoch": 0.58,
1197
- "learning_rate": 4.505333333333334e-06,
1198
- "loss": 0.2085,
 
1199
  "step": 4625
1200
  },
1201
  {
1202
- "epoch": 0.58,
1203
- "learning_rate": 4.4720000000000006e-06,
1204
- "loss": 0.2141,
 
1205
  "step": 4650
1206
  },
1207
  {
1208
- "epoch": 0.58,
1209
- "learning_rate": 4.438666666666667e-06,
1210
- "loss": 0.1711,
 
1211
  "step": 4675
1212
  },
1213
  {
1214
- "epoch": 0.59,
1215
- "learning_rate": 4.405333333333333e-06,
1216
- "loss": 0.2193,
 
1217
  "step": 4700
1218
  },
1219
  {
1220
- "epoch": 0.59,
1221
- "learning_rate": 4.372e-06,
1222
- "loss": 0.2125,
 
1223
  "step": 4725
1224
  },
1225
  {
1226
- "epoch": 0.59,
1227
- "learning_rate": 4.338666666666667e-06,
1228
- "loss": 0.1798,
 
1229
  "step": 4750
1230
  },
1231
  {
1232
- "epoch": 0.6,
1233
- "learning_rate": 4.3053333333333335e-06,
1234
- "loss": 0.1768,
 
1235
  "step": 4775
1236
  },
1237
  {
1238
- "epoch": 0.6,
1239
- "learning_rate": 4.272000000000001e-06,
1240
- "loss": 0.1966,
 
1241
  "step": 4800
1242
  },
1243
  {
1244
- "epoch": 0.6,
1245
- "learning_rate": 4.238666666666667e-06,
1246
- "loss": 0.184,
 
1247
  "step": 4825
1248
  },
1249
  {
1250
- "epoch": 0.61,
1251
- "learning_rate": 4.205333333333334e-06,
1252
- "loss": 0.1613,
 
1253
  "step": 4850
1254
  },
1255
  {
1256
- "epoch": 0.61,
1257
- "learning_rate": 4.173333333333334e-06,
1258
- "loss": 0.1796,
 
1259
  "step": 4875
1260
  },
1261
  {
1262
- "epoch": 0.61,
1263
- "learning_rate": 4.14e-06,
1264
- "loss": 0.1846,
 
1265
  "step": 4900
1266
  },
1267
  {
1268
- "epoch": 0.62,
1269
- "learning_rate": 4.1066666666666674e-06,
1270
- "loss": 0.1478,
 
1271
  "step": 4925
1272
  },
1273
  {
1274
- "epoch": 0.62,
1275
- "learning_rate": 4.073333333333334e-06,
1276
- "loss": 0.1774,
 
1277
  "step": 4950
1278
  },
1279
  {
1280
- "epoch": 0.62,
1281
- "learning_rate": 4.04e-06,
1282
- "loss": 0.1715,
 
1283
  "step": 4975
1284
  },
1285
  {
1286
- "epoch": 0.62,
1287
- "learning_rate": 4.006666666666667e-06,
1288
- "loss": 0.1758,
 
1289
  "step": 5000
1290
  },
1291
  {
1292
- "epoch": 0.62,
1293
- "eval_loss": 0.17962510883808136,
1294
- "eval_runtime": 3334.4979,
1295
- "eval_samples_per_second": 3.753,
1296
- "eval_steps_per_second": 0.469,
1297
- "eval_wer": 11.465075982393595,
1298
  "step": 5000
1299
  },
1300
  {
1301
- "epoch": 0.63,
1302
- "learning_rate": 3.973333333333333e-06,
1303
- "loss": 0.1796,
 
1304
  "step": 5025
1305
  },
1306
  {
1307
- "epoch": 0.63,
1308
- "learning_rate": 3.94e-06,
1309
- "loss": 0.1438,
 
1310
  "step": 5050
1311
  },
1312
  {
1313
- "epoch": 0.63,
1314
- "learning_rate": 3.906666666666667e-06,
1315
- "loss": 0.1234,
 
1316
  "step": 5075
1317
  },
1318
  {
1319
- "epoch": 0.64,
1320
- "learning_rate": 3.873333333333333e-06,
1321
- "loss": 0.1468,
 
1322
  "step": 5100
1323
  },
1324
  {
1325
- "epoch": 0.64,
1326
- "learning_rate": 3.8400000000000005e-06,
1327
- "loss": 0.1617,
 
1328
  "step": 5125
1329
  },
1330
  {
1331
- "epoch": 0.64,
1332
- "learning_rate": 3.806666666666667e-06,
1333
- "loss": 0.1658,
 
1334
  "step": 5150
1335
  },
1336
  {
1337
- "epoch": 0.65,
1338
- "learning_rate": 3.7733333333333338e-06,
1339
- "loss": 0.1731,
 
1340
  "step": 5175
1341
  },
1342
  {
1343
- "epoch": 0.65,
1344
- "learning_rate": 3.74e-06,
1345
- "loss": 0.179,
 
1346
  "step": 5200
1347
  },
1348
  {
1349
- "epoch": 0.65,
1350
- "learning_rate": 3.7066666666666666e-06,
1351
- "loss": 0.1393,
 
1352
  "step": 5225
1353
  },
1354
  {
1355
- "epoch": 0.66,
1356
- "learning_rate": 3.673333333333334e-06,
1357
- "loss": 0.1495,
 
1358
  "step": 5250
1359
  },
1360
  {
1361
- "epoch": 0.66,
1362
- "learning_rate": 3.6400000000000003e-06,
1363
- "loss": 0.1542,
 
1364
  "step": 5275
1365
  },
1366
  {
1367
- "epoch": 0.66,
1368
- "learning_rate": 3.606666666666667e-06,
1369
- "loss": 0.2375,
 
1370
  "step": 5300
1371
  },
1372
  {
1373
- "epoch": 0.67,
1374
- "learning_rate": 3.574666666666667e-06,
1375
- "loss": 0.3725,
 
1376
  "step": 5325
1377
  },
1378
  {
1379
- "epoch": 0.67,
1380
- "learning_rate": 3.5413333333333337e-06,
1381
- "loss": 0.2577,
 
1382
  "step": 5350
1383
  },
1384
  {
1385
- "epoch": 0.67,
1386
- "learning_rate": 3.508e-06,
1387
- "loss": 0.1703,
 
1388
  "step": 5375
1389
  },
1390
  {
1391
- "epoch": 0.68,
1392
- "learning_rate": 3.4746666666666665e-06,
1393
- "loss": 0.2592,
 
1394
  "step": 5400
1395
  },
1396
  {
1397
- "epoch": 0.68,
1398
- "learning_rate": 3.441333333333334e-06,
1399
- "loss": 0.1457,
 
1400
  "step": 5425
1401
  },
1402
  {
1403
- "epoch": 0.68,
1404
- "learning_rate": 3.4080000000000002e-06,
1405
- "loss": 0.3386,
 
1406
  "step": 5450
1407
  },
1408
  {
1409
- "epoch": 0.68,
1410
- "learning_rate": 3.374666666666667e-06,
1411
- "loss": 0.1799,
 
1412
  "step": 5475
1413
  },
1414
  {
1415
- "epoch": 0.69,
1416
- "learning_rate": 3.3413333333333335e-06,
1417
- "loss": 0.2067,
 
1418
  "step": 5500
1419
  },
1420
  {
1421
- "epoch": 0.69,
1422
- "eval_loss": 0.1678764820098877,
1423
- "eval_runtime": 3328.8844,
1424
- "eval_samples_per_second": 3.76,
1425
- "eval_steps_per_second": 0.47,
1426
- "eval_wer": 10.798860762014778,
1427
  "step": 5500
1428
  },
1429
  {
1430
- "epoch": 0.69,
1431
- "learning_rate": 3.308e-06,
1432
- "loss": 0.1286,
 
1433
  "step": 5525
1434
  },
1435
  {
1436
- "epoch": 0.69,
1437
- "learning_rate": 3.274666666666667e-06,
1438
- "loss": 0.1846,
 
1439
  "step": 5550
1440
  },
1441
  {
1442
- "epoch": 0.7,
1443
- "learning_rate": 3.2413333333333336e-06,
1444
- "loss": 0.2227,
 
1445
  "step": 5575
1446
  },
1447
  {
1448
- "epoch": 0.7,
1449
- "learning_rate": 3.208e-06,
1450
- "loss": 0.1749,
 
1451
  "step": 5600
1452
  },
1453
  {
1454
- "epoch": 0.7,
1455
- "learning_rate": 3.174666666666667e-06,
1456
- "loss": 0.1783,
 
1457
  "step": 5625
1458
  },
1459
  {
1460
- "epoch": 0.71,
1461
- "learning_rate": 3.1413333333333333e-06,
1462
- "loss": 0.1497,
 
1463
  "step": 5650
1464
  },
1465
  {
1466
- "epoch": 0.71,
1467
- "learning_rate": 3.1080000000000006e-06,
1468
- "loss": 0.1604,
 
1469
  "step": 5675
1470
  },
1471
  {
1472
- "epoch": 0.71,
1473
- "learning_rate": 3.074666666666667e-06,
1474
- "loss": 0.1525,
 
1475
  "step": 5700
1476
  },
1477
  {
1478
- "epoch": 0.72,
1479
- "learning_rate": 3.0413333333333334e-06,
1480
- "loss": 0.1675,
 
1481
  "step": 5725
1482
  },
1483
  {
1484
- "epoch": 0.72,
1485
- "learning_rate": 3.0080000000000003e-06,
1486
- "loss": 0.1463,
 
1487
  "step": 5750
1488
  },
1489
  {
1490
- "epoch": 0.72,
1491
- "learning_rate": 2.9746666666666667e-06,
1492
- "loss": 0.1432,
 
1493
  "step": 5775
1494
  },
1495
  {
1496
- "epoch": 0.72,
1497
- "learning_rate": 2.941333333333334e-06,
1498
- "loss": 0.1619,
 
1499
  "step": 5800
1500
  },
1501
  {
1502
- "epoch": 0.73,
1503
- "learning_rate": 2.9080000000000004e-06,
1504
- "loss": 0.1569,
 
1505
  "step": 5825
1506
  },
1507
  {
1508
- "epoch": 0.73,
1509
- "learning_rate": 2.8746666666666668e-06,
1510
- "loss": 0.1494,
 
1511
  "step": 5850
1512
  },
1513
  {
1514
- "epoch": 0.73,
1515
- "learning_rate": 2.8413333333333336e-06,
1516
- "loss": 0.1582,
 
1517
  "step": 5875
1518
  },
1519
  {
1520
- "epoch": 0.74,
1521
- "learning_rate": 2.808e-06,
1522
- "loss": 0.1521,
 
1523
  "step": 5900
1524
  },
1525
  {
1526
- "epoch": 0.74,
1527
- "learning_rate": 2.7746666666666665e-06,
1528
- "loss": 0.1552,
 
1529
  "step": 5925
1530
  },
1531
  {
1532
- "epoch": 0.74,
1533
- "learning_rate": 2.7413333333333337e-06,
1534
- "loss": 0.1522,
 
1535
  "step": 5950
1536
  },
1537
  {
1538
- "epoch": 0.75,
1539
- "learning_rate": 2.708e-06,
1540
- "loss": 0.1506,
 
1541
  "step": 5975
1542
  },
1543
  {
1544
- "epoch": 0.75,
1545
- "learning_rate": 2.674666666666667e-06,
1546
- "loss": 0.213,
 
1547
  "step": 6000
1548
  },
1549
  {
1550
- "epoch": 0.75,
1551
- "eval_loss": 0.1617831289768219,
1552
- "eval_runtime": 3314.2578,
1553
- "eval_samples_per_second": 3.776,
1554
- "eval_steps_per_second": 0.472,
1555
- "eval_wer": 10.31388794837579,
1556
  "step": 6000
1557
  },
1558
  {
1559
- "epoch": 0.75,
1560
- "learning_rate": 2.6413333333333334e-06,
1561
- "loss": 0.1562,
 
1562
  "step": 6025
1563
  },
1564
  {
1565
- "epoch": 0.76,
1566
- "learning_rate": 2.608e-06,
1567
- "loss": 0.1477,
 
1568
  "step": 6050
1569
  },
1570
  {
1571
- "epoch": 0.76,
1572
- "learning_rate": 2.574666666666667e-06,
1573
- "loss": 0.1455,
 
1574
  "step": 6075
1575
  },
1576
  {
1577
- "epoch": 0.76,
1578
- "learning_rate": 2.5413333333333335e-06,
1579
- "loss": 0.2236,
 
1580
  "step": 6100
1581
  },
1582
  {
1583
- "epoch": 0.77,
1584
- "learning_rate": 2.5080000000000004e-06,
1585
- "loss": 0.1652,
 
1586
  "step": 6125
1587
  },
1588
  {
1589
- "epoch": 0.77,
1590
- "learning_rate": 2.474666666666667e-06,
1591
- "loss": 0.1631,
 
1592
  "step": 6150
1593
  },
1594
  {
1595
- "epoch": 0.77,
1596
- "learning_rate": 2.4413333333333336e-06,
1597
- "loss": 0.1451,
 
1598
  "step": 6175
1599
  },
1600
  {
1601
- "epoch": 0.78,
1602
- "learning_rate": 2.408e-06,
1603
- "loss": 0.2085,
 
1604
  "step": 6200
1605
  },
1606
  {
1607
- "epoch": 0.78,
1608
- "learning_rate": 2.374666666666667e-06,
1609
- "loss": 0.2082,
 
1610
  "step": 6225
1611
  },
1612
  {
1613
- "epoch": 0.78,
1614
- "learning_rate": 2.3413333333333333e-06,
1615
- "loss": 0.1651,
 
1616
  "step": 6250
1617
  },
1618
  {
1619
- "epoch": 1.0,
1620
- "learning_rate": 2.308e-06,
1621
- "loss": 0.139,
 
1622
  "step": 6275
1623
  },
1624
  {
1625
- "epoch": 1.01,
1626
- "learning_rate": 2.274666666666667e-06,
1627
- "loss": 0.1151,
 
1628
  "step": 6300
1629
  },
1630
  {
1631
- "epoch": 1.01,
1632
- "learning_rate": 2.2413333333333334e-06,
1633
- "loss": 0.1152,
 
1634
  "step": 6325
1635
  },
1636
  {
1637
- "epoch": 1.01,
1638
- "learning_rate": 2.2080000000000003e-06,
1639
- "loss": 0.1198,
 
1640
  "step": 6350
1641
  },
1642
  {
1643
- "epoch": 1.01,
1644
- "learning_rate": 2.1746666666666667e-06,
1645
- "loss": 0.1503,
 
1646
  "step": 6375
1647
  },
1648
  {
1649
- "epoch": 1.02,
1650
- "learning_rate": 2.1413333333333336e-06,
1651
- "loss": 0.1159,
 
1652
  "step": 6400
1653
  },
1654
  {
1655
- "epoch": 1.02,
1656
- "learning_rate": 2.108e-06,
1657
- "loss": 0.1244,
 
1658
  "step": 6425
1659
  },
1660
  {
1661
- "epoch": 1.02,
1662
- "learning_rate": 2.074666666666667e-06,
1663
- "loss": 0.1137,
 
1664
  "step": 6450
1665
  },
1666
  {
1667
- "epoch": 1.03,
1668
- "learning_rate": 2.0413333333333337e-06,
1669
- "loss": 0.1431,
 
1670
  "step": 6475
1671
  },
1672
  {
1673
- "epoch": 1.03,
1674
- "learning_rate": 2.008e-06,
1675
- "loss": 0.1272,
 
1676
  "step": 6500
1677
  },
1678
  {
1679
- "epoch": 1.03,
1680
- "eval_loss": 0.15506044030189514,
1681
- "eval_runtime": 3328.4728,
1682
- "eval_samples_per_second": 3.76,
1683
- "eval_steps_per_second": 0.47,
1684
- "eval_wer": 9.868748630723575,
1685
  "step": 6500
1686
  },
1687
  {
1688
- "epoch": 1.03,
1689
- "learning_rate": 1.974666666666667e-06,
1690
- "loss": 0.1147,
 
1691
  "step": 6525
1692
  },
1693
  {
1694
- "epoch": 1.04,
1695
- "learning_rate": 1.9413333333333334e-06,
1696
- "loss": 0.1085,
 
1697
  "step": 6550
1698
  },
1699
  {
1700
- "epoch": 1.04,
1701
- "learning_rate": 1.908e-06,
1702
- "loss": 0.1201,
 
1703
  "step": 6575
1704
  },
1705
  {
1706
- "epoch": 1.04,
1707
- "learning_rate": 1.8746666666666668e-06,
1708
- "loss": 0.0979,
 
1709
  "step": 6600
1710
  },
1711
  {
1712
- "epoch": 1.05,
1713
- "learning_rate": 1.8413333333333337e-06,
1714
- "loss": 0.1025,
 
1715
  "step": 6625
1716
  },
1717
  {
1718
- "epoch": 1.05,
1719
- "learning_rate": 1.808e-06,
1720
- "loss": 0.0848,
 
1721
  "step": 6650
1722
  },
1723
  {
1724
- "epoch": 1.05,
1725
- "learning_rate": 1.7746666666666667e-06,
1726
- "loss": 0.0941,
 
1727
  "step": 6675
1728
  },
1729
  {
1730
- "epoch": 1.06,
1731
- "learning_rate": 1.7413333333333336e-06,
1732
- "loss": 0.0979,
 
1733
  "step": 6700
1734
  },
1735
  {
1736
- "epoch": 1.06,
1737
- "learning_rate": 1.7080000000000002e-06,
1738
- "loss": 0.1006,
 
1739
  "step": 6725
1740
  },
1741
  {
1742
- "epoch": 1.06,
1743
- "learning_rate": 1.6746666666666668e-06,
1744
- "loss": 0.0948,
 
1745
  "step": 6750
1746
  },
1747
  {
1748
- "epoch": 1.06,
1749
- "learning_rate": 1.6413333333333335e-06,
1750
- "loss": 0.0891,
 
1751
  "step": 6775
1752
  },
1753
  {
1754
- "epoch": 1.07,
1755
- "learning_rate": 1.608e-06,
1756
- "loss": 0.1119,
 
1757
  "step": 6800
1758
  },
1759
  {
1760
- "epoch": 1.07,
1761
- "learning_rate": 1.5746666666666667e-06,
1762
- "loss": 0.1002,
 
1763
  "step": 6825
1764
  },
1765
  {
1766
- "epoch": 1.07,
1767
- "learning_rate": 1.5413333333333336e-06,
1768
- "loss": 0.088,
 
1769
  "step": 6850
1770
  },
1771
  {
1772
- "epoch": 1.08,
1773
- "learning_rate": 1.508e-06,
1774
- "loss": 0.0871,
 
1775
  "step": 6875
1776
  },
1777
  {
1778
- "epoch": 1.08,
1779
- "learning_rate": 1.4746666666666668e-06,
1780
- "loss": 0.0796,
 
1781
  "step": 6900
1782
  },
1783
  {
1784
- "epoch": 1.08,
1785
- "learning_rate": 1.4413333333333335e-06,
1786
- "loss": 0.0669,
 
1787
  "step": 6925
1788
  },
1789
  {
1790
- "epoch": 1.09,
1791
- "learning_rate": 1.4080000000000001e-06,
1792
- "loss": 0.082,
 
1793
  "step": 6950
1794
  },
1795
  {
1796
- "epoch": 1.09,
1797
- "learning_rate": 1.3746666666666667e-06,
1798
- "loss": 0.0581,
 
1799
  "step": 6975
1800
  },
1801
  {
1802
- "epoch": 1.09,
1803
- "learning_rate": 1.3413333333333334e-06,
1804
- "loss": 0.0744,
 
1805
  "step": 7000
1806
  },
1807
  {
1808
- "epoch": 1.09,
1809
- "eval_loss": 0.15340346097946167,
1810
- "eval_runtime": 3332.489,
1811
- "eval_samples_per_second": 3.755,
1812
- "eval_steps_per_second": 0.47,
1813
- "eval_wer": 9.517218028640285,
1814
  "step": 7000
1815
  },
1816
  {
1817
- "epoch": 1.1,
1818
- "learning_rate": 1.308e-06,
1819
- "loss": 0.0732,
 
1820
  "step": 7025
1821
  },
1822
  {
1823
- "epoch": 1.1,
1824
- "learning_rate": 1.2746666666666669e-06,
1825
- "loss": 0.0809,
 
1826
  "step": 7050
1827
  },
1828
  {
1829
- "epoch": 1.1,
1830
- "learning_rate": 1.2413333333333335e-06,
1831
- "loss": 0.0786,
 
1832
  "step": 7075
1833
  },
1834
  {
1835
- "epoch": 1.11,
1836
- "learning_rate": 1.2080000000000001e-06,
1837
- "loss": 0.0641,
 
1838
  "step": 7100
1839
  },
1840
  {
1841
- "epoch": 1.11,
1842
- "learning_rate": 1.1746666666666668e-06,
1843
- "loss": 0.08,
 
1844
  "step": 7125
1845
  },
1846
  {
1847
- "epoch": 1.11,
1848
- "learning_rate": 1.1413333333333334e-06,
1849
- "loss": 0.0732,
 
1850
  "step": 7150
1851
  },
1852
  {
1853
- "epoch": 1.11,
1854
- "learning_rate": 1.108e-06,
1855
- "loss": 0.0752,
 
1856
  "step": 7175
1857
  },
1858
  {
1859
- "epoch": 1.12,
1860
- "learning_rate": 1.0746666666666669e-06,
1861
- "loss": 0.0657,
 
1862
  "step": 7200
1863
  },
1864
  {
1865
- "epoch": 1.12,
1866
- "learning_rate": 1.0413333333333333e-06,
1867
- "loss": 0.0713,
 
1868
  "step": 7225
1869
  },
1870
  {
1871
- "epoch": 1.12,
1872
- "learning_rate": 1.0080000000000001e-06,
1873
- "loss": 0.0676,
 
1874
  "step": 7250
1875
  },
1876
  {
1877
- "epoch": 1.13,
1878
- "learning_rate": 9.746666666666668e-07,
1879
- "loss": 0.0748,
 
1880
  "step": 7275
1881
  },
1882
  {
1883
- "epoch": 1.13,
1884
- "learning_rate": 9.413333333333334e-07,
1885
- "loss": 0.0617,
 
1886
  "step": 7300
1887
  },
1888
  {
1889
- "epoch": 1.13,
1890
- "learning_rate": 9.080000000000001e-07,
1891
- "loss": 0.0545,
 
1892
  "step": 7325
1893
  },
1894
  {
1895
- "epoch": 1.14,
1896
- "learning_rate": 8.746666666666668e-07,
1897
- "loss": 0.0718,
 
1898
  "step": 7350
1899
  },
1900
  {
1901
- "epoch": 1.14,
1902
- "learning_rate": 8.413333333333334e-07,
1903
- "loss": 0.0502,
 
1904
  "step": 7375
1905
  },
1906
  {
1907
- "epoch": 1.14,
1908
- "learning_rate": 8.08e-07,
1909
- "loss": 0.0611,
 
1910
  "step": 7400
1911
  },
1912
  {
1913
- "epoch": 1.15,
1914
- "learning_rate": 7.746666666666668e-07,
1915
- "loss": 0.0547,
 
1916
  "step": 7425
1917
  },
1918
  {
1919
- "epoch": 1.15,
1920
- "learning_rate": 7.413333333333333e-07,
1921
- "loss": 0.0605,
 
1922
  "step": 7450
1923
  },
1924
  {
1925
- "epoch": 1.15,
1926
- "learning_rate": 7.08e-07,
1927
- "loss": 0.0735,
 
1928
  "step": 7475
1929
  },
1930
  {
1931
- "epoch": 1.16,
1932
- "learning_rate": 6.746666666666667e-07,
1933
- "loss": 0.0726,
 
1934
  "step": 7500
1935
  },
1936
  {
1937
- "epoch": 1.16,
1938
- "eval_loss": 0.1517735719680786,
1939
- "eval_runtime": 3337.7248,
1940
- "eval_samples_per_second": 3.75,
1941
- "eval_steps_per_second": 0.469,
1942
- "eval_wer": 9.324025573104423,
1943
  "step": 7500
1944
  },
1945
  {
1946
- "epoch": 1.16,
1947
- "learning_rate": 6.413333333333334e-07,
1948
- "loss": 0.0558,
 
1949
  "step": 7525
1950
  },
1951
  {
1952
- "epoch": 1.16,
1953
- "learning_rate": 6.08e-07,
1954
- "loss": 0.071,
 
1955
  "step": 7550
1956
  },
1957
  {
1958
- "epoch": 1.16,
1959
- "learning_rate": 5.746666666666667e-07,
1960
- "loss": 0.0473,
 
1961
  "step": 7575
1962
  },
1963
  {
1964
- "epoch": 1.17,
1965
- "learning_rate": 5.413333333333334e-07,
1966
- "loss": 0.0571,
 
1967
  "step": 7600
1968
  },
1969
  {
1970
- "epoch": 1.17,
1971
- "learning_rate": 5.08e-07,
1972
- "loss": 0.0625,
 
1973
  "step": 7625
1974
  },
1975
  {
1976
- "epoch": 1.17,
1977
- "learning_rate": 4.746666666666667e-07,
1978
- "loss": 0.0577,
 
1979
  "step": 7650
1980
  },
1981
  {
1982
- "epoch": 1.18,
1983
- "learning_rate": 4.413333333333333e-07,
1984
- "loss": 0.0582,
 
1985
  "step": 7675
1986
  },
1987
  {
1988
- "epoch": 1.18,
1989
- "learning_rate": 4.0800000000000005e-07,
1990
- "loss": 0.0515,
 
1991
  "step": 7700
1992
  },
1993
  {
1994
- "epoch": 1.18,
1995
- "learning_rate": 3.7466666666666674e-07,
1996
- "loss": 0.0597,
 
1997
  "step": 7725
1998
  },
1999
  {
2000
- "epoch": 1.19,
2001
- "learning_rate": 3.4133333333333337e-07,
2002
- "loss": 0.0574,
 
2003
  "step": 7750
2004
  },
2005
  {
2006
- "epoch": 1.19,
2007
- "learning_rate": 3.0800000000000006e-07,
2008
- "loss": 0.0582,
 
2009
  "step": 7775
2010
  },
2011
  {
2012
- "epoch": 1.19,
2013
- "learning_rate": 2.746666666666667e-07,
2014
- "loss": 0.0537,
 
2015
  "step": 7800
2016
  },
2017
  {
2018
- "epoch": 1.2,
2019
- "learning_rate": 2.413333333333333e-07,
2020
- "loss": 0.0486,
 
2021
  "step": 7825
2022
  },
2023
  {
2024
- "epoch": 1.2,
2025
- "learning_rate": 2.08e-07,
2026
- "loss": 0.0624,
 
2027
  "step": 7850
2028
  },
2029
  {
2030
- "epoch": 1.2,
2031
- "learning_rate": 1.7466666666666667e-07,
2032
- "loss": 0.0601,
 
2033
  "step": 7875
2034
  },
2035
  {
2036
- "epoch": 1.21,
2037
- "learning_rate": 1.4133333333333333e-07,
2038
- "loss": 0.0532,
 
2039
  "step": 7900
2040
  },
2041
  {
2042
- "epoch": 1.21,
2043
- "learning_rate": 1.0800000000000001e-07,
2044
- "loss": 0.0512,
 
2045
  "step": 7925
2046
  },
2047
  {
2048
- "epoch": 1.21,
2049
- "learning_rate": 7.466666666666667e-08,
2050
- "loss": 0.0502,
 
2051
  "step": 7950
2052
  },
2053
  {
2054
- "epoch": 1.21,
2055
- "learning_rate": 4.133333333333334e-08,
2056
- "loss": 0.0613,
 
2057
  "step": 7975
2058
  },
2059
  {
2060
- "epoch": 1.22,
2061
- "learning_rate": 8e-09,
2062
- "loss": 0.0627,
 
2063
  "step": 8000
2064
  },
2065
  {
2066
- "epoch": 1.22,
2067
- "eval_loss": 0.1502576321363449,
2068
- "eval_runtime": 3330.0534,
2069
- "eval_samples_per_second": 3.758,
2070
- "eval_steps_per_second": 0.47,
2071
- "eval_wer": 9.188591686749389,
2072
  "step": 8000
2073
  },
2074
  {
2075
- "epoch": 1.22,
2076
  "step": 8000,
2077
- "total_flos": 3.265731583082496e+19,
2078
- "train_loss": 0.22703151334822178,
2079
- "train_runtime": 64728.0354,
2080
- "train_samples_per_second": 0.494,
2081
- "train_steps_per_second": 0.124
2082
  }
2083
  ],
 
2084
  "max_steps": 8000,
 
2085
  "num_train_epochs": 9223372036854775807,
2086
- "total_flos": 3.265731583082496e+19,
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2087
  "trial_name": null,
2088
  "trial_params": null
2089
  }
 
1
  {
2
+ "best_metric": 8.8020814247499,
3
  "best_model_checkpoint": "./checkpoint-8000",
4
+ "epoch": 4.148,
5
+ "eval_steps": 500,
6
  "global_step": 8000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
+ "epoch": 0.003125,
13
+ "grad_norm": 15.080086708068848,
14
+ "learning_rate": 2.875e-07,
15
+ "loss": 1.3478,
16
  "step": 25
17
  },
18
  {
19
+ "epoch": 0.00625,
20
+ "grad_norm": 11.962413787841797,
21
+ "learning_rate": 6.000000000000001e-07,
22
+ "loss": 1.14,
23
  "step": 50
24
  },
25
  {
26
+ "epoch": 0.009375,
27
+ "grad_norm": 10.828227996826172,
28
+ "learning_rate": 9.124999999999999e-07,
29
+ "loss": 0.8401,
30
  "step": 75
31
  },
32
  {
33
+ "epoch": 0.0125,
34
+ "grad_norm": 9.401681900024414,
35
+ "learning_rate": 1.2250000000000001e-06,
36
+ "loss": 0.7112,
37
  "step": 100
38
  },
39
  {
40
+ "epoch": 0.015625,
41
+ "grad_norm": 9.252142906188965,
42
+ "learning_rate": 1.5375e-06,
43
+ "loss": 0.6528,
44
  "step": 125
45
  },
46
  {
47
+ "epoch": 0.01875,
48
+ "grad_norm": 10.718783378601074,
49
+ "learning_rate": 1.85e-06,
50
+ "loss": 0.6492,
51
  "step": 150
52
  },
53
  {
54
+ "epoch": 0.021875,
55
+ "grad_norm": 7.8105082511901855,
56
+ "learning_rate": 2.1625e-06,
57
+ "loss": 0.5886,
58
  "step": 175
59
  },
60
  {
61
+ "epoch": 0.025,
62
+ "grad_norm": 8.969450950622559,
63
+ "learning_rate": 2.4750000000000004e-06,
64
+ "loss": 0.5284,
65
  "step": 200
66
  },
67
  {
68
+ "epoch": 0.028125,
69
+ "grad_norm": 8.110017776489258,
70
+ "learning_rate": 2.7875e-06,
71
+ "loss": 0.5097,
72
  "step": 225
73
  },
74
  {
75
+ "epoch": 0.03125,
76
+ "grad_norm": 8.07854175567627,
77
+ "learning_rate": 3.1e-06,
78
+ "loss": 0.48,
79
  "step": 250
80
  },
81
  {
82
+ "epoch": 0.034375,
83
+ "grad_norm": 9.469429016113281,
84
+ "learning_rate": 3.4125000000000004e-06,
85
+ "loss": 0.4453,
86
  "step": 275
87
  },
88
  {
89
+ "epoch": 0.0375,
90
+ "grad_norm": 6.849759578704834,
91
+ "learning_rate": 3.725e-06,
92
+ "loss": 0.4249,
93
  "step": 300
94
  },
95
  {
96
+ "epoch": 0.040625,
97
+ "grad_norm": 8.43980598449707,
98
+ "learning_rate": 4.037500000000001e-06,
99
+ "loss": 0.4093,
100
  "step": 325
101
  },
102
  {
103
+ "epoch": 0.04375,
104
+ "grad_norm": 7.9978132247924805,
105
+ "learning_rate": 4.35e-06,
106
+ "loss": 0.4179,
107
  "step": 350
108
  },
109
  {
110
+ "epoch": 0.046875,
111
+ "grad_norm": 7.179676532745361,
112
+ "learning_rate": 4.6625e-06,
113
+ "loss": 0.366,
114
  "step": 375
115
  },
116
  {
117
  "epoch": 0.05,
118
+ "grad_norm": 8.746236801147461,
119
+ "learning_rate": 4.975000000000001e-06,
120
+ "loss": 0.3484,
121
  "step": 400
122
  },
123
  {
124
+ "epoch": 0.053125,
125
+ "grad_norm": 6.08207893371582,
126
+ "learning_rate": 5.2875e-06,
127
+ "loss": 0.3177,
128
  "step": 425
129
  },
130
  {
131
+ "epoch": 0.05625,
132
+ "grad_norm": 7.5096235275268555,
133
+ "learning_rate": 5.600000000000001e-06,
134
+ "loss": 0.3407,
135
  "step": 450
136
  },
137
  {
138
+ "epoch": 0.059375,
139
+ "grad_norm": 6.521783828735352,
140
+ "learning_rate": 5.9125e-06,
141
+ "loss": 0.3323,
142
  "step": 475
143
  },
144
  {
145
+ "epoch": 0.0625,
146
+ "grad_norm": 6.018587589263916,
147
+ "learning_rate": 6.2250000000000005e-06,
148
+ "loss": 0.3171,
149
  "step": 500
150
  },
151
  {
152
+ "epoch": 0.0625,
153
+ "eval_loss": 0.33685919642448425,
154
+ "eval_runtime": 2424.3615,
155
+ "eval_samples_per_second": 5.622,
156
+ "eval_steps_per_second": 0.703,
157
+ "eval_wer": 25.53043350800689,
158
  "step": 500
159
  },
160
  {
161
+ "epoch": 0.065625,
162
+ "grad_norm": 6.343411922454834,
163
+ "learning_rate": 6.230833333333334e-06,
164
+ "loss": 0.323,
165
  "step": 525
166
  },
167
  {
168
+ "epoch": 0.06875,
169
+ "grad_norm": 6.164433479309082,
170
+ "learning_rate": 6.210000000000001e-06,
171
+ "loss": 0.2979,
172
  "step": 550
173
  },
174
  {
175
+ "epoch": 0.071875,
176
+ "grad_norm": 7.514057159423828,
177
+ "learning_rate": 6.1891666666666666e-06,
178
+ "loss": 0.2956,
179
  "step": 575
180
  },
181
  {
182
+ "epoch": 0.075,
183
+ "grad_norm": 5.7609992027282715,
184
+ "learning_rate": 6.168333333333333e-06,
185
+ "loss": 0.2966,
186
  "step": 600
187
  },
188
  {
189
+ "epoch": 0.078125,
190
+ "grad_norm": 6.035708427429199,
191
+ "learning_rate": 6.147500000000001e-06,
192
+ "loss": 0.2914,
193
  "step": 625
194
  },
195
  {
196
+ "epoch": 0.08125,
197
+ "grad_norm": 6.485240459442139,
198
+ "learning_rate": 6.126666666666667e-06,
199
+ "loss": 0.2929,
200
  "step": 650
201
  },
202
  {
203
+ "epoch": 0.084375,
204
+ "grad_norm": 5.631970405578613,
205
+ "learning_rate": 6.1058333333333335e-06,
206
+ "loss": 0.2676,
207
  "step": 675
208
  },
209
  {
210
+ "epoch": 0.0875,
211
+ "grad_norm": 6.642117977142334,
212
+ "learning_rate": 6.085e-06,
213
+ "loss": 0.2756,
214
  "step": 700
215
  },
216
  {
217
+ "epoch": 0.090625,
218
+ "grad_norm": 6.473007678985596,
219
+ "learning_rate": 6.064166666666667e-06,
220
+ "loss": 0.2613,
221
  "step": 725
222
  },
223
  {
224
+ "epoch": 0.09375,
225
+ "grad_norm": 6.47869348526001,
226
+ "learning_rate": 6.043333333333334e-06,
227
+ "loss": 0.2667,
228
  "step": 750
229
  },
230
  {
231
+ "epoch": 0.096875,
232
+ "grad_norm": 6.658367156982422,
233
+ "learning_rate": 6.0225e-06,
234
+ "loss": 0.2778,
235
  "step": 775
236
  },
237
  {
238
  "epoch": 0.1,
239
+ "grad_norm": 7.887542724609375,
240
+ "learning_rate": 6.001666666666667e-06,
241
+ "loss": 0.3095,
242
  "step": 800
243
  },
244
  {
245
+ "epoch": 0.103125,
246
+ "grad_norm": 6.103913307189941,
247
+ "learning_rate": 5.980833333333334e-06,
248
+ "loss": 0.297,
249
  "step": 825
250
  },
251
  {
252
+ "epoch": 0.10625,
253
+ "grad_norm": 6.087416648864746,
254
+ "learning_rate": 5.9600000000000005e-06,
255
+ "loss": 0.2326,
256
  "step": 850
257
  },
258
  {
259
+ "epoch": 0.109375,
260
+ "grad_norm": 5.486704349517822,
261
+ "learning_rate": 5.939166666666667e-06,
262
+ "loss": 0.2215,
263
  "step": 875
264
  },
265
  {
266
+ "epoch": 0.1125,
267
+ "grad_norm": 5.353816986083984,
268
+ "learning_rate": 5.918333333333333e-06,
269
+ "loss": 0.205,
270
  "step": 900
271
  },
272
  {
273
+ "epoch": 0.115625,
274
+ "grad_norm": 5.429187774658203,
275
+ "learning_rate": 5.8975e-06,
276
+ "loss": 0.2185,
277
  "step": 925
278
  },
279
  {
280
+ "epoch": 0.11875,
281
+ "grad_norm": 5.181328773498535,
282
+ "learning_rate": 5.8766666666666674e-06,
283
+ "loss": 0.2069,
284
  "step": 950
285
  },
286
  {
287
+ "epoch": 0.121875,
288
+ "grad_norm": 4.126291751861572,
289
+ "learning_rate": 5.855833333333333e-06,
290
+ "loss": 0.2062,
291
  "step": 975
292
  },
293
  {
294
+ "epoch": 0.125,
295
+ "grad_norm": 5.896920204162598,
296
+ "learning_rate": 5.835e-06,
297
+ "loss": 0.1852,
298
  "step": 1000
299
  },
300
  {
301
+ "epoch": 0.125,
302
+ "eval_loss": 0.2408558428287506,
303
+ "eval_runtime": 2415.6545,
304
+ "eval_samples_per_second": 5.642,
305
+ "eval_steps_per_second": 0.705,
306
+ "eval_wer": 17.311004434021037,
307
  "step": 1000
308
  },
309
  {
310
+ "epoch": 0.128125,
311
+ "grad_norm": 5.046872138977051,
312
+ "learning_rate": 5.814166666666667e-06,
313
+ "loss": 0.2142,
314
  "step": 1025
315
  },
316
  {
317
+ "epoch": 0.13125,
318
+ "grad_norm": 6.671748638153076,
319
+ "learning_rate": 5.793333333333334e-06,
320
+ "loss": 0.2208,
321
  "step": 1050
322
  },
323
  {
324
+ "epoch": 0.134375,
325
+ "grad_norm": 6.533191680908203,
326
+ "learning_rate": 5.7725e-06,
327
+ "loss": 0.1944,
328
  "step": 1075
329
  },
330
  {
331
+ "epoch": 0.1375,
332
+ "grad_norm": 4.43493127822876,
333
+ "learning_rate": 5.751666666666667e-06,
334
+ "loss": 0.1816,
335
  "step": 1100
336
  },
337
  {
338
+ "epoch": 0.140625,
339
+ "grad_norm": 5.601134777069092,
340
+ "learning_rate": 5.730833333333334e-06,
341
+ "loss": 0.1884,
342
  "step": 1125
343
  },
344
  {
345
+ "epoch": 0.14375,
346
+ "grad_norm": 4.886395454406738,
347
+ "learning_rate": 5.71e-06,
348
+ "loss": 0.1712,
349
  "step": 1150
350
  },
351
  {
352
+ "epoch": 0.146875,
353
+ "grad_norm": 5.513830184936523,
354
+ "learning_rate": 5.689166666666667e-06,
355
+ "loss": 0.1835,
356
  "step": 1175
357
  },
358
  {
359
  "epoch": 0.15,
360
+ "grad_norm": 6.305610179901123,
361
+ "learning_rate": 5.668333333333334e-06,
362
+ "loss": 0.2221,
363
  "step": 1200
364
  },
365
  {
366
+ "epoch": 0.153125,
367
+ "grad_norm": 6.482845306396484,
368
+ "learning_rate": 5.6475e-06,
369
+ "loss": 0.2138,
370
  "step": 1225
371
  },
372
  {
373
+ "epoch": 0.15625,
374
+ "grad_norm": 6.316329002380371,
375
+ "learning_rate": 5.626666666666667e-06,
376
+ "loss": 0.2338,
377
  "step": 1250
378
  },
379
  {
380
+ "epoch": 0.159375,
381
+ "grad_norm": 6.650278091430664,
382
+ "learning_rate": 5.605833333333334e-06,
383
+ "loss": 0.2231,
384
  "step": 1275
385
  },
386
  {
387
+ "epoch": 0.1625,
388
+ "grad_norm": 5.289668560028076,
389
+ "learning_rate": 5.585e-06,
390
+ "loss": 0.2018,
391
  "step": 1300
392
  },
393
  {
394
+ "epoch": 0.165625,
395
+ "grad_norm": 6.051737308502197,
396
+ "learning_rate": 5.564166666666667e-06,
397
+ "loss": 0.2092,
398
  "step": 1325
399
  },
400
  {
401
+ "epoch": 0.16875,
402
+ "grad_norm": 4.950199604034424,
403
+ "learning_rate": 5.543333333333333e-06,
404
+ "loss": 0.1934,
405
  "step": 1350
406
  },
407
  {
408
+ "epoch": 0.171875,
409
+ "grad_norm": 5.296252727508545,
410
+ "learning_rate": 5.522500000000001e-06,
411
+ "loss": 0.1806,
412
  "step": 1375
413
  },
414
  {
415
+ "epoch": 0.175,
416
+ "grad_norm": 5.999615669250488,
417
+ "learning_rate": 5.501666666666667e-06,
418
+ "loss": 0.1782,
419
  "step": 1400
420
  },
421
  {
422
+ "epoch": 0.178125,
423
+ "grad_norm": 3.7982959747314453,
424
+ "learning_rate": 5.4808333333333335e-06,
425
+ "loss": 0.1712,
426
  "step": 1425
427
  },
428
  {
429
+ "epoch": 0.18125,
430
+ "grad_norm": 6.798803806304932,
431
+ "learning_rate": 5.46e-06,
432
+ "loss": 0.1972,
433
  "step": 1450
434
  },
435
  {
436
+ "epoch": 0.184375,
437
+ "grad_norm": 5.545141220092773,
438
+ "learning_rate": 5.439166666666667e-06,
439
+ "loss": 0.2153,
440
  "step": 1475
441
  },
442
  {
443
+ "epoch": 0.1875,
444
+ "grad_norm": 5.619574546813965,
445
+ "learning_rate": 5.418333333333334e-06,
446
+ "loss": 0.2353,
447
  "step": 1500
448
  },
449
  {
450
+ "epoch": 0.1875,
451
+ "eval_loss": 0.20496371388435364,
452
+ "eval_runtime": 2428.1499,
453
+ "eval_samples_per_second": 5.613,
454
+ "eval_steps_per_second": 0.702,
455
+ "eval_wer": 14.222763750961926,
456
  "step": 1500
457
  },
458
  {
459
+ "epoch": 0.190625,
460
+ "grad_norm": 6.522052764892578,
461
+ "learning_rate": 5.3975e-06,
462
+ "loss": 0.2049,
463
  "step": 1525
464
  },
465
  {
466
+ "epoch": 0.19375,
467
+ "grad_norm": 5.805539608001709,
468
+ "learning_rate": 5.376666666666666e-06,
469
+ "loss": 0.1931,
470
  "step": 1550
471
  },
472
  {
473
+ "epoch": 0.196875,
474
+ "grad_norm": 5.707961082458496,
475
+ "learning_rate": 5.355833333333334e-06,
476
+ "loss": 0.1944,
477
  "step": 1575
478
  },
479
  {
480
  "epoch": 0.2,
481
+ "grad_norm": 6.126225471496582,
482
+ "learning_rate": 5.335000000000001e-06,
483
+ "loss": 0.225,
484
  "step": 1600
485
  },
486
  {
487
+ "epoch": 0.203125,
488
+ "grad_norm": 5.682012557983398,
489
+ "learning_rate": 5.3141666666666665e-06,
490
+ "loss": 0.2225,
491
  "step": 1625
492
  },
493
  {
494
+ "epoch": 0.20625,
495
+ "grad_norm": 5.529600620269775,
496
+ "learning_rate": 5.293333333333333e-06,
497
+ "loss": 0.2154,
498
  "step": 1650
499
  },
500
  {
501
+ "epoch": 0.209375,
502
+ "grad_norm": 8.373395919799805,
503
+ "learning_rate": 5.272500000000001e-06,
504
+ "loss": 0.1866,
505
  "step": 1675
506
  },
507
  {
508
+ "epoch": 0.2125,
509
+ "grad_norm": 4.936291694641113,
510
+ "learning_rate": 5.2516666666666675e-06,
511
+ "loss": 0.1615,
512
  "step": 1700
513
  },
514
  {
515
+ "epoch": 1.002625,
516
+ "grad_norm": 4.893776893615723,
517
+ "learning_rate": 5.230833333333333e-06,
518
+ "loss": 0.172,
519
  "step": 1725
520
  },
521
  {
522
+ "epoch": 1.00575,
523
+ "grad_norm": 4.98813533782959,
524
+ "learning_rate": 5.21e-06,
525
+ "loss": 0.1591,
526
  "step": 1750
527
  },
528
  {
529
+ "epoch": 1.008875,
530
+ "grad_norm": 6.166538715362549,
531
+ "learning_rate": 5.189166666666667e-06,
532
+ "loss": 0.1712,
533
  "step": 1775
534
  },
535
  {
536
+ "epoch": 1.012,
537
+ "grad_norm": 4.1829071044921875,
538
+ "learning_rate": 5.1683333333333335e-06,
539
+ "loss": 0.1908,
540
  "step": 1800
541
  },
542
  {
543
+ "epoch": 1.015125,
544
+ "grad_norm": 5.497808456420898,
545
+ "learning_rate": 5.1475e-06,
546
+ "loss": 0.1791,
547
  "step": 1825
548
  },
549
  {
550
+ "epoch": 1.01825,
551
+ "grad_norm": 4.581858158111572,
552
+ "learning_rate": 5.126666666666667e-06,
553
+ "loss": 0.1685,
554
  "step": 1850
555
  },
556
  {
557
+ "epoch": 1.021375,
558
+ "grad_norm": 4.6282267570495605,
559
+ "learning_rate": 5.105833333333334e-06,
560
+ "loss": 0.1691,
561
  "step": 1875
562
  },
563
  {
564
+ "epoch": 1.0245,
565
+ "grad_norm": 5.748936653137207,
566
+ "learning_rate": 5.0850000000000004e-06,
567
+ "loss": 0.1577,
568
  "step": 1900
569
  },
570
  {
571
+ "epoch": 1.027625,
572
+ "grad_norm": 4.339770793914795,
573
+ "learning_rate": 5.064166666666667e-06,
574
+ "loss": 0.168,
575
  "step": 1925
576
  },
577
  {
578
+ "epoch": 1.03075,
579
+ "grad_norm": 3.72379469871521,
580
+ "learning_rate": 5.043333333333333e-06,
581
+ "loss": 0.1616,
582
  "step": 1950
583
  },
584
  {
585
+ "epoch": 1.033875,
586
+ "grad_norm": 5.169766902923584,
587
+ "learning_rate": 5.0225e-06,
588
+ "loss": 0.1663,
589
  "step": 1975
590
  },
591
  {
592
+ "epoch": 1.037,
593
+ "grad_norm": 6.120935440063477,
594
+ "learning_rate": 5.001666666666667e-06,
595
+ "loss": 0.1569,
596
  "step": 2000
597
  },
598
  {
599
+ "epoch": 1.037,
600
+ "eval_loss": 0.181504026055336,
601
+ "eval_runtime": 2441.5281,
602
+ "eval_samples_per_second": 5.583,
603
+ "eval_steps_per_second": 0.698,
604
+ "eval_wer": 12.286085968705338,
605
  "step": 2000
606
  },
607
  {
608
+ "epoch": 1.040125,
609
+ "grad_norm": 3.2327628135681152,
610
+ "learning_rate": 4.980833333333334e-06,
611
+ "loss": 0.1526,
612
  "step": 2025
613
  },
614
  {
615
+ "epoch": 1.04325,
616
+ "grad_norm": 4.2089948654174805,
617
+ "learning_rate": 4.96e-06,
618
+ "loss": 0.1427,
619
  "step": 2050
620
  },
621
  {
622
+ "epoch": 1.046375,
623
+ "grad_norm": 4.837276458740234,
624
+ "learning_rate": 4.939166666666667e-06,
625
+ "loss": 0.1429,
626
  "step": 2075
627
  },
628
  {
629
+ "epoch": 1.0495,
630
+ "grad_norm": 4.590527057647705,
631
+ "learning_rate": 4.918333333333334e-06,
632
+ "loss": 0.1306,
633
  "step": 2100
634
  },
635
  {
636
+ "epoch": 1.052625,
637
+ "grad_norm": 5.821957111358643,
638
+ "learning_rate": 4.8975e-06,
639
+ "loss": 0.1504,
640
  "step": 2125
641
  },
642
  {
643
+ "epoch": 1.05575,
644
+ "grad_norm": 4.136687278747559,
645
+ "learning_rate": 4.876666666666667e-06,
646
+ "loss": 0.1431,
647
  "step": 2150
648
  },
649
  {
650
+ "epoch": 1.058875,
651
+ "grad_norm": 4.310347080230713,
652
+ "learning_rate": 4.8558333333333336e-06,
653
+ "loss": 0.1364,
654
  "step": 2175
655
  },
656
  {
657
+ "epoch": 1.062,
658
+ "grad_norm": 4.1295485496521,
659
+ "learning_rate": 4.835e-06,
660
+ "loss": 0.1272,
661
  "step": 2200
662
  },
663
  {
664
+ "epoch": 1.065125,
665
+ "grad_norm": 4.432501316070557,
666
+ "learning_rate": 4.814166666666667e-06,
667
+ "loss": 0.1256,
668
  "step": 2225
669
  },
670
  {
671
+ "epoch": 1.06825,
672
+ "grad_norm": 3.792029619216919,
673
+ "learning_rate": 4.793333333333334e-06,
674
+ "loss": 0.1322,
675
  "step": 2250
676
  },
677
  {
678
+ "epoch": 1.071375,
679
+ "grad_norm": 4.919213771820068,
680
+ "learning_rate": 4.7725e-06,
681
+ "loss": 0.1477,
682
  "step": 2275
683
  },
684
  {
685
+ "epoch": 1.0745,
686
+ "grad_norm": 5.92459774017334,
687
+ "learning_rate": 4.751666666666666e-06,
688
+ "loss": 0.1518,
689
  "step": 2300
690
  },
691
  {
692
+ "epoch": 1.077625,
693
+ "grad_norm": 5.6381635665893555,
694
+ "learning_rate": 4.730833333333334e-06,
695
+ "loss": 0.1489,
696
  "step": 2325
697
  },
698
  {
699
+ "epoch": 1.08075,
700
+ "grad_norm": 4.690910816192627,
701
+ "learning_rate": 4.710000000000001e-06,
702
+ "loss": 0.1216,
703
  "step": 2350
704
  },
705
  {
706
+ "epoch": 1.083875,
707
+ "grad_norm": 3.847102165222168,
708
+ "learning_rate": 4.6891666666666665e-06,
709
+ "loss": 0.1243,
710
  "step": 2375
711
  },
712
  {
713
+ "epoch": 1.087,
714
+ "grad_norm": 2.3183677196502686,
715
+ "learning_rate": 4.668333333333333e-06,
716
+ "loss": 0.1301,
717
  "step": 2400
718
  },
719
  {
720
+ "epoch": 1.090125,
721
+ "grad_norm": 3.9808385372161865,
722
+ "learning_rate": 4.647500000000001e-06,
723
+ "loss": 0.1289,
724
  "step": 2425
725
  },
726
  {
727
+ "epoch": 1.09325,
728
+ "grad_norm": 4.1279616355896,
729
+ "learning_rate": 4.626666666666667e-06,
730
+ "loss": 0.119,
731
  "step": 2450
732
  },
733
  {
734
+ "epoch": 1.096375,
735
+ "grad_norm": 4.029735088348389,
736
+ "learning_rate": 4.605833333333333e-06,
737
+ "loss": 0.1235,
738
  "step": 2475
739
  },
740
  {
741
+ "epoch": 1.0995,
742
+ "grad_norm": 5.72581148147583,
743
+ "learning_rate": 4.585e-06,
744
+ "loss": 0.125,
745
  "step": 2500
746
  },
747
  {
748
+ "epoch": 1.0995,
749
+ "eval_loss": 0.16921907663345337,
750
+ "eval_runtime": 2457.6523,
751
+ "eval_samples_per_second": 5.546,
752
+ "eval_steps_per_second": 0.693,
753
+ "eval_wer": 11.114368426838652,
754
  "step": 2500
755
  },
756
  {
757
+ "epoch": 1.102625,
758
+ "grad_norm": 4.8854875564575195,
759
+ "learning_rate": 4.564166666666667e-06,
760
+ "loss": 0.122,
761
  "step": 2525
762
  },
763
  {
764
+ "epoch": 1.10575,
765
+ "grad_norm": 3.682393789291382,
766
+ "learning_rate": 4.543333333333334e-06,
767
+ "loss": 0.1169,
768
  "step": 2550
769
  },
770
  {
771
+ "epoch": 1.108875,
772
+ "grad_norm": 3.8288307189941406,
773
+ "learning_rate": 4.5225e-06,
774
+ "loss": 0.1184,
775
  "step": 2575
776
  },
777
  {
778
+ "epoch": 1.112,
779
+ "grad_norm": 5.098357677459717,
780
+ "learning_rate": 4.501666666666667e-06,
781
+ "loss": 0.1235,
782
  "step": 2600
783
  },
784
  {
785
+ "epoch": 1.115125,
786
+ "grad_norm": 3.420466899871826,
787
+ "learning_rate": 4.480833333333334e-06,
788
+ "loss": 0.1277,
789
  "step": 2625
790
  },
791
  {
792
+ "epoch": 1.11825,
793
+ "grad_norm": 4.542791843414307,
794
+ "learning_rate": 4.4600000000000005e-06,
795
+ "loss": 0.1214,
796
  "step": 2650
797
  },
798
  {
799
+ "epoch": 1.121375,
800
+ "grad_norm": 3.245755195617676,
801
+ "learning_rate": 4.439166666666667e-06,
802
+ "loss": 0.1109,
803
  "step": 2675
804
  },
805
  {
806
+ "epoch": 1.1245,
807
+ "grad_norm": 5.041585445404053,
808
+ "learning_rate": 4.418333333333333e-06,
809
+ "loss": 0.1295,
810
  "step": 2700
811
  },
812
  {
813
+ "epoch": 1.127625,
814
+ "grad_norm": 4.113171577453613,
815
+ "learning_rate": 4.3975e-06,
816
+ "loss": 0.1153,
817
  "step": 2725
818
  },
819
  {
820
+ "epoch": 1.13075,
821
+ "grad_norm": 5.032025337219238,
822
+ "learning_rate": 4.376666666666667e-06,
823
+ "loss": 0.1204,
824
  "step": 2750
825
  },
826
  {
827
+ "epoch": 1.133875,
828
+ "grad_norm": 5.080983638763428,
829
+ "learning_rate": 4.355833333333333e-06,
830
+ "loss": 0.1213,
831
  "step": 2775
832
  },
833
  {
834
+ "epoch": 1.137,
835
+ "grad_norm": 4.304152011871338,
836
+ "learning_rate": 4.335e-06,
837
+ "loss": 0.1069,
838
  "step": 2800
839
  },
840
  {
841
+ "epoch": 1.140125,
842
+ "grad_norm": 3.1360485553741455,
843
+ "learning_rate": 4.314166666666667e-06,
844
+ "loss": 0.1167,
845
  "step": 2825
846
  },
847
  {
848
+ "epoch": 1.14325,
849
+ "grad_norm": 4.444480895996094,
850
+ "learning_rate": 4.2933333333333334e-06,
851
+ "loss": 0.1117,
852
  "step": 2850
853
  },
854
  {
855
+ "epoch": 1.146375,
856
+ "grad_norm": 3.8886942863464355,
857
+ "learning_rate": 4.2725e-06,
858
+ "loss": 0.1134,
859
  "step": 2875
860
  },
861
  {
862
+ "epoch": 1.1495,
863
+ "grad_norm": 4.360485076904297,
864
+ "learning_rate": 4.251666666666667e-06,
865
+ "loss": 0.1334,
866
  "step": 2900
867
  },
868
  {
869
+ "epoch": 1.152625,
870
+ "grad_norm": 5.376945972442627,
871
+ "learning_rate": 4.230833333333334e-06,
872
+ "loss": 0.1163,
873
  "step": 2925
874
  },
875
  {
876
+ "epoch": 1.15575,
877
+ "grad_norm": 4.359200954437256,
878
+ "learning_rate": 4.21e-06,
879
+ "loss": 0.1351,
880
  "step": 2950
881
  },
882
  {
883
+ "epoch": 1.158875,
884
+ "grad_norm": 5.360095977783203,
885
+ "learning_rate": 4.189166666666667e-06,
886
+ "loss": 0.1113,
887
  "step": 2975
888
  },
889
  {
890
+ "epoch": 1.162,
891
+ "grad_norm": 3.6014363765716553,
892
+ "learning_rate": 4.168333333333334e-06,
893
+ "loss": 0.12,
894
  "step": 3000
895
  },
896
  {
897
+ "epoch": 1.162,
898
+ "eval_loss": 0.15999051928520203,
899
+ "eval_runtime": 2448.4453,
900
+ "eval_samples_per_second": 5.567,
901
+ "eval_steps_per_second": 0.696,
902
+ "eval_wer": 10.697533804829785,
903
  "step": 3000
904
  },
905
  {
906
+ "epoch": 1.165125,
907
+ "grad_norm": 4.150473594665527,
908
+ "learning_rate": 4.1475e-06,
909
+ "loss": 0.1196,
910
  "step": 3025
911
  },
912
  {
913
+ "epoch": 1.16825,
914
+ "grad_norm": 4.962148666381836,
915
+ "learning_rate": 4.126666666666667e-06,
916
+ "loss": 0.1261,
917
  "step": 3050
918
  },
919
  {
920
+ "epoch": 1.171375,
921
+ "grad_norm": 2.9675393104553223,
922
+ "learning_rate": 4.105833333333334e-06,
923
+ "loss": 0.1087,
924
  "step": 3075
925
  },
926
  {
927
+ "epoch": 1.1745,
928
+ "grad_norm": 5.842774868011475,
929
+ "learning_rate": 4.085e-06,
930
+ "loss": 0.1067,
931
  "step": 3100
932
  },
933
  {
934
+ "epoch": 1.177625,
935
+ "grad_norm": 5.209335803985596,
936
+ "learning_rate": 4.064166666666667e-06,
937
+ "loss": 0.114,
938
  "step": 3125
939
  },
940
  {
941
+ "epoch": 1.18075,
942
+ "grad_norm": 4.343747138977051,
943
+ "learning_rate": 4.043333333333333e-06,
944
+ "loss": 0.1398,
945
  "step": 3150
946
  },
947
  {
948
+ "epoch": 1.183875,
949
+ "grad_norm": 4.5666890144348145,
950
+ "learning_rate": 4.0225e-06,
951
+ "loss": 0.112,
952
  "step": 3175
953
  },
954
  {
955
+ "epoch": 1.187,
956
+ "grad_norm": 3.5483310222625732,
957
+ "learning_rate": 4.001666666666667e-06,
958
+ "loss": 0.1041,
959
  "step": 3200
960
  },
961
  {
962
+ "epoch": 1.190125,
963
+ "grad_norm": 5.006927013397217,
964
+ "learning_rate": 3.9808333333333335e-06,
965
+ "loss": 0.1184,
966
  "step": 3225
967
  },
968
  {
969
+ "epoch": 1.19325,
970
+ "grad_norm": 5.658267498016357,
971
+ "learning_rate": 3.96e-06,
972
+ "loss": 0.1141,
973
  "step": 3250
974
  },
975
  {
976
+ "epoch": 1.196375,
977
+ "grad_norm": 2.7597854137420654,
978
+ "learning_rate": 3.939166666666667e-06,
979
+ "loss": 0.1107,
980
  "step": 3275
981
  },
982
  {
983
+ "epoch": 1.1995,
984
+ "grad_norm": 4.687257289886475,
985
+ "learning_rate": 3.918333333333334e-06,
986
+ "loss": 0.1223,
987
  "step": 3300
988
  },
989
  {
990
+ "epoch": 1.202625,
991
+ "grad_norm": 5.1347336769104,
992
+ "learning_rate": 3.8975e-06,
993
+ "loss": 0.1277,
994
  "step": 3325
995
  },
996
  {
997
+ "epoch": 1.20575,
998
+ "grad_norm": 7.7792067527771,
999
+ "learning_rate": 3.876666666666666e-06,
1000
+ "loss": 0.1293,
1001
  "step": 3350
1002
  },
1003
  {
1004
+ "epoch": 1.208875,
1005
+ "grad_norm": 3.461538791656494,
1006
+ "learning_rate": 3.855833333333334e-06,
1007
+ "loss": 0.1235,
1008
  "step": 3375
1009
  },
1010
  {
1011
+ "epoch": 1.212,
1012
+ "grad_norm": 3.458538055419922,
1013
+ "learning_rate": 3.8350000000000006e-06,
1014
+ "loss": 0.1094,
1015
  "step": 3400
1016
  },
1017
  {
1018
+ "epoch": 2.002125,
1019
+ "grad_norm": 6.5652313232421875,
1020
+ "learning_rate": 3.8141666666666664e-06,
1021
+ "loss": 0.0766,
1022
  "step": 3425
1023
  },
1024
  {
1025
+ "epoch": 2.00525,
1026
+ "grad_norm": 2.599691152572632,
1027
+ "learning_rate": 3.7933333333333336e-06,
1028
+ "loss": 0.0666,
1029
  "step": 3450
1030
  },
1031
  {
1032
+ "epoch": 2.008375,
1033
+ "grad_norm": 5.211915493011475,
1034
+ "learning_rate": 3.7725000000000003e-06,
1035
+ "loss": 0.0635,
1036
  "step": 3475
1037
  },
1038
  {
1039
+ "epoch": 2.0115,
1040
+ "grad_norm": 3.1992459297180176,
1041
+ "learning_rate": 3.7516666666666666e-06,
1042
+ "loss": 0.069,
1043
  "step": 3500
1044
  },
1045
  {
1046
+ "epoch": 2.0115,
1047
+ "eval_loss": 0.15404893457889557,
1048
+ "eval_runtime": 2458.0949,
1049
+ "eval_samples_per_second": 5.545,
1050
+ "eval_steps_per_second": 0.693,
1051
+ "eval_wer": 9.764923595587966,
1052
  "step": 3500
1053
  },
1054
  {
1055
+ "epoch": 2.014625,
1056
+ "grad_norm": 3.740165948867798,
1057
+ "learning_rate": 3.7308333333333333e-06,
1058
+ "loss": 0.0699,
1059
  "step": 3525
1060
  },
1061
  {
1062
+ "epoch": 2.01775,
1063
+ "grad_norm": 2.624305009841919,
1064
+ "learning_rate": 3.7100000000000005e-06,
1065
+ "loss": 0.0644,
1066
  "step": 3550
1067
  },
1068
  {
1069
+ "epoch": 2.020875,
1070
+ "grad_norm": 3.66835355758667,
1071
+ "learning_rate": 3.689166666666667e-06,
1072
+ "loss": 0.0552,
1073
  "step": 3575
1074
  },
1075
  {
1076
+ "epoch": 2.024,
1077
+ "grad_norm": 3.7992517948150635,
1078
+ "learning_rate": 3.6683333333333335e-06,
1079
+ "loss": 0.0715,
1080
  "step": 3600
1081
  },
1082
  {
1083
+ "epoch": 2.027125,
1084
+ "grad_norm": 3.4328665733337402,
1085
+ "learning_rate": 3.6475000000000002e-06,
1086
+ "loss": 0.0642,
1087
  "step": 3625
1088
  },
1089
  {
1090
+ "epoch": 2.03025,
1091
+ "grad_norm": 3.206305503845215,
1092
+ "learning_rate": 3.626666666666667e-06,
1093
+ "loss": 0.068,
1094
  "step": 3650
1095
  },
1096
  {
1097
+ "epoch": 2.033375,
1098
+ "grad_norm": 3.6906914710998535,
1099
+ "learning_rate": 3.6058333333333333e-06,
1100
+ "loss": 0.065,
1101
  "step": 3675
1102
  },
1103
  {
1104
+ "epoch": 2.0365,
1105
+ "grad_norm": 3.6564929485321045,
1106
+ "learning_rate": 3.585e-06,
1107
+ "loss": 0.0634,
1108
  "step": 3700
1109
  },
1110
  {
1111
+ "epoch": 2.039625,
1112
+ "grad_norm": 2.8516416549682617,
1113
+ "learning_rate": 3.564166666666667e-06,
1114
+ "loss": 0.0632,
1115
  "step": 3725
1116
  },
1117
  {
1118
+ "epoch": 2.04275,
1119
+ "grad_norm": 2.905165672302246,
1120
+ "learning_rate": 3.5433333333333334e-06,
1121
+ "loss": 0.0528,
1122
  "step": 3750
1123
  },
1124
  {
1125
+ "epoch": 2.045875,
1126
+ "grad_norm": 2.2724170684814453,
1127
+ "learning_rate": 3.5225e-06,
1128
+ "loss": 0.0604,
1129
  "step": 3775
1130
  },
1131
  {
1132
+ "epoch": 2.049,
1133
+ "grad_norm": 2.6760237216949463,
1134
+ "learning_rate": 3.501666666666667e-06,
1135
+ "loss": 0.0528,
1136
  "step": 3800
1137
  },
1138
  {
1139
+ "epoch": 2.052125,
1140
+ "grad_norm": 4.052576541900635,
1141
+ "learning_rate": 3.480833333333333e-06,
1142
+ "loss": 0.0535,
1143
  "step": 3825
1144
  },
1145
  {
1146
+ "epoch": 2.05525,
1147
+ "grad_norm": 3.6434435844421387,
1148
+ "learning_rate": 3.46e-06,
1149
+ "loss": 0.0499,
1150
  "step": 3850
1151
  },
1152
  {
1153
+ "epoch": 2.058375,
1154
+ "grad_norm": 2.612650156021118,
1155
+ "learning_rate": 3.439166666666667e-06,
1156
+ "loss": 0.0489,
1157
  "step": 3875
1158
  },
1159
  {
1160
+ "epoch": 2.0615,
1161
+ "grad_norm": 1.6679494380950928,
1162
+ "learning_rate": 3.4183333333333338e-06,
1163
+ "loss": 0.0475,
1164
  "step": 3900
1165
  },
1166
  {
1167
+ "epoch": 2.064625,
1168
+ "grad_norm": 2.7951669692993164,
1169
+ "learning_rate": 3.3975e-06,
1170
+ "loss": 0.0517,
1171
  "step": 3925
1172
  },
1173
  {
1174
+ "epoch": 2.06775,
1175
+ "grad_norm": 2.6957435607910156,
1176
+ "learning_rate": 3.376666666666667e-06,
1177
+ "loss": 0.0508,
1178
  "step": 3950
1179
  },
1180
  {
1181
+ "epoch": 2.070875,
1182
+ "grad_norm": 2.930025577545166,
1183
+ "learning_rate": 3.355833333333334e-06,
1184
+ "loss": 0.0554,
1185
  "step": 3975
1186
  },
1187
  {
1188
+ "epoch": 2.074,
1189
+ "grad_norm": 2.0811214447021484,
1190
+ "learning_rate": 3.335e-06,
1191
+ "loss": 0.0606,
1192
  "step": 4000
1193
  },
1194
  {
1195
+ "epoch": 2.074,
1196
+ "eval_loss": 0.1549645960330963,
1197
+ "eval_runtime": 2475.9667,
1198
+ "eval_samples_per_second": 5.505,
1199
+ "eval_steps_per_second": 0.688,
1200
+ "eval_wer": 9.819890798490235,
1201
  "step": 4000
1202
  },
1203
  {
1204
+ "epoch": 2.077125,
1205
+ "grad_norm": 2.389423370361328,
1206
+ "learning_rate": 3.314166666666667e-06,
1207
+ "loss": 0.0551,
1208
  "step": 4025
1209
  },
1210
  {
1211
+ "epoch": 2.08025,
1212
+ "grad_norm": 1.8350708484649658,
1213
+ "learning_rate": 3.2933333333333337e-06,
1214
+ "loss": 0.0501,
1215
  "step": 4050
1216
  },
1217
  {
1218
+ "epoch": 2.083375,
1219
+ "grad_norm": 3.053312063217163,
1220
+ "learning_rate": 3.2725e-06,
1221
+ "loss": 0.0526,
1222
  "step": 4075
1223
  },
1224
  {
1225
+ "epoch": 2.0865,
1226
+ "grad_norm": 3.489823341369629,
1227
+ "learning_rate": 3.2516666666666667e-06,
1228
+ "loss": 0.0476,
1229
  "step": 4100
1230
  },
1231
  {
1232
+ "epoch": 2.089625,
1233
+ "grad_norm": 3.742950916290283,
1234
+ "learning_rate": 3.2308333333333335e-06,
1235
+ "loss": 0.0614,
1236
  "step": 4125
1237
  },
1238
  {
1239
+ "epoch": 2.09275,
1240
+ "grad_norm": 1.9854848384857178,
1241
+ "learning_rate": 3.2099999999999998e-06,
1242
+ "loss": 0.0487,
1243
  "step": 4150
1244
  },
1245
  {
1246
+ "epoch": 2.095875,
1247
+ "grad_norm": 2.3751885890960693,
1248
+ "learning_rate": 3.1891666666666665e-06,
1249
+ "loss": 0.0496,
1250
  "step": 4175
1251
  },
1252
  {
1253
+ "epoch": 2.099,
1254
+ "grad_norm": 2.182997703552246,
1255
+ "learning_rate": 3.1683333333333336e-06,
1256
+ "loss": 0.0442,
1257
  "step": 4200
1258
  },
1259
  {
1260
+ "epoch": 2.102125,
1261
+ "grad_norm": 1.963120937347412,
1262
+ "learning_rate": 3.1475000000000004e-06,
1263
+ "loss": 0.0437,
1264
  "step": 4225
1265
  },
1266
  {
1267
+ "epoch": 2.10525,
1268
+ "grad_norm": 1.7127807140350342,
1269
+ "learning_rate": 3.1266666666666667e-06,
1270
+ "loss": 0.0479,
1271
  "step": 4250
1272
  },
1273
  {
1274
+ "epoch": 2.108375,
1275
+ "grad_norm": 3.277400016784668,
1276
+ "learning_rate": 3.1058333333333334e-06,
1277
+ "loss": 0.0535,
1278
  "step": 4275
1279
  },
1280
  {
1281
+ "epoch": 2.1115,
1282
+ "grad_norm": 3.1404621601104736,
1283
+ "learning_rate": 3.085e-06,
1284
+ "loss": 0.0431,
1285
  "step": 4300
1286
  },
1287
  {
1288
+ "epoch": 2.114625,
1289
+ "grad_norm": 3.8738794326782227,
1290
+ "learning_rate": 3.064166666666667e-06,
1291
+ "loss": 0.0436,
1292
  "step": 4325
1293
  },
1294
  {
1295
+ "epoch": 2.11775,
1296
+ "grad_norm": 2.9267311096191406,
1297
+ "learning_rate": 3.0433333333333336e-06,
1298
+ "loss": 0.0496,
1299
  "step": 4350
1300
  },
1301
  {
1302
+ "epoch": 2.120875,
1303
+ "grad_norm": 4.0710320472717285,
1304
+ "learning_rate": 3.0225e-06,
1305
+ "loss": 0.047,
1306
  "step": 4375
1307
  },
1308
  {
1309
+ "epoch": 2.124,
1310
+ "grad_norm": 2.9265050888061523,
1311
+ "learning_rate": 3.001666666666667e-06,
1312
+ "loss": 0.0434,
1313
  "step": 4400
1314
  },
1315
  {
1316
+ "epoch": 2.127125,
1317
+ "grad_norm": 2.666417121887207,
1318
+ "learning_rate": 2.9808333333333333e-06,
1319
+ "loss": 0.0357,
1320
  "step": 4425
1321
  },
1322
  {
1323
+ "epoch": 2.13025,
1324
+ "grad_norm": 3.082674741744995,
1325
+ "learning_rate": 2.9600000000000005e-06,
1326
+ "loss": 0.0486,
1327
  "step": 4450
1328
  },
1329
  {
1330
+ "epoch": 2.133375,
1331
+ "grad_norm": 2.291168689727783,
1332
+ "learning_rate": 2.9391666666666668e-06,
1333
+ "loss": 0.046,
1334
  "step": 4475
1335
  },
1336
  {
1337
+ "epoch": 2.1365,
1338
+ "grad_norm": 2.878455877304077,
1339
+ "learning_rate": 2.9183333333333335e-06,
1340
+ "loss": 0.0434,
1341
  "step": 4500
1342
  },
1343
  {
1344
+ "epoch": 2.1365,
1345
+ "eval_loss": 0.15800228714942932,
1346
+ "eval_runtime": 2430.3639,
1347
+ "eval_samples_per_second": 5.608,
1348
+ "eval_steps_per_second": 0.701,
1349
+ "eval_wer": 9.457107259335263,
1350
  "step": 4500
1351
  },
1352
  {
1353
+ "epoch": 2.139625,
1354
+ "grad_norm": 2.2872824668884277,
1355
+ "learning_rate": 2.8975e-06,
1356
+ "loss": 0.0507,
1357
  "step": 4525
1358
  },
1359
  {
1360
+ "epoch": 2.14275,
1361
+ "grad_norm": 1.6797173023223877,
1362
+ "learning_rate": 2.876666666666667e-06,
1363
+ "loss": 0.044,
1364
  "step": 4550
1365
  },
1366
  {
1367
+ "epoch": 2.145875,
1368
+ "grad_norm": 2.690349817276001,
1369
+ "learning_rate": 2.8558333333333337e-06,
1370
+ "loss": 0.041,
1371
  "step": 4575
1372
  },
1373
  {
1374
+ "epoch": 2.149,
1375
+ "grad_norm": 2.515873670578003,
1376
+ "learning_rate": 2.835e-06,
1377
+ "loss": 0.0503,
1378
  "step": 4600
1379
  },
1380
  {
1381
+ "epoch": 2.152125,
1382
+ "grad_norm": 3.210235595703125,
1383
+ "learning_rate": 2.8141666666666667e-06,
1384
+ "loss": 0.0539,
1385
  "step": 4625
1386
  },
1387
  {
1388
+ "epoch": 2.15525,
1389
+ "grad_norm": 2.19775128364563,
1390
+ "learning_rate": 2.7933333333333334e-06,
1391
+ "loss": 0.0486,
1392
  "step": 4650
1393
  },
1394
  {
1395
+ "epoch": 2.158375,
1396
+ "grad_norm": 2.8275535106658936,
1397
+ "learning_rate": 2.7725e-06,
1398
+ "loss": 0.0455,
1399
  "step": 4675
1400
  },
1401
  {
1402
+ "epoch": 2.1615,
1403
+ "grad_norm": 2.911288022994995,
1404
+ "learning_rate": 2.7516666666666664e-06,
1405
+ "loss": 0.0495,
1406
  "step": 4700
1407
  },
1408
  {
1409
+ "epoch": 2.164625,
1410
+ "grad_norm": 3.446293592453003,
1411
+ "learning_rate": 2.7308333333333336e-06,
1412
+ "loss": 0.0527,
1413
  "step": 4725
1414
  },
1415
  {
1416
+ "epoch": 2.16775,
1417
+ "grad_norm": 2.1223082542419434,
1418
+ "learning_rate": 2.71e-06,
1419
+ "loss": 0.0437,
1420
  "step": 4750
1421
  },
1422
  {
1423
+ "epoch": 2.170875,
1424
+ "grad_norm": 2.4212393760681152,
1425
+ "learning_rate": 2.689166666666667e-06,
1426
+ "loss": 0.0504,
1427
  "step": 4775
1428
  },
1429
  {
1430
+ "epoch": 2.174,
1431
+ "grad_norm": 2.440826177597046,
1432
+ "learning_rate": 2.6683333333333333e-06,
1433
+ "loss": 0.0432,
1434
  "step": 4800
1435
  },
1436
  {
1437
+ "epoch": 2.177125,
1438
+ "grad_norm": 2.3568456172943115,
1439
+ "learning_rate": 2.6475e-06,
1440
+ "loss": 0.0404,
1441
  "step": 4825
1442
  },
1443
  {
1444
+ "epoch": 2.18025,
1445
+ "grad_norm": 2.638301372528076,
1446
+ "learning_rate": 2.6266666666666668e-06,
1447
+ "loss": 0.0528,
1448
  "step": 4850
1449
  },
1450
  {
1451
+ "epoch": 2.183375,
1452
+ "grad_norm": 2.1262662410736084,
1453
+ "learning_rate": 2.6058333333333335e-06,
1454
+ "loss": 0.0468,
1455
  "step": 4875
1456
  },
1457
  {
1458
+ "epoch": 2.1865,
1459
+ "grad_norm": 1.8121278285980225,
1460
+ "learning_rate": 2.5850000000000002e-06,
1461
+ "loss": 0.0414,
1462
  "step": 4900
1463
  },
1464
  {
1465
+ "epoch": 2.189625,
1466
+ "grad_norm": 3.5271337032318115,
1467
+ "learning_rate": 2.564166666666667e-06,
1468
+ "loss": 0.0477,
1469
  "step": 4925
1470
  },
1471
  {
1472
+ "epoch": 2.19275,
1473
+ "grad_norm": 2.0672607421875,
1474
+ "learning_rate": 2.5433333333333333e-06,
1475
+ "loss": 0.0402,
1476
  "step": 4950
1477
  },
1478
  {
1479
+ "epoch": 2.195875,
1480
+ "grad_norm": 2.3378803730010986,
1481
+ "learning_rate": 2.5225000000000004e-06,
1482
+ "loss": 0.0458,
1483
  "step": 4975
1484
  },
1485
  {
1486
+ "epoch": 2.199,
1487
+ "grad_norm": 2.3618690967559814,
1488
+ "learning_rate": 2.5016666666666667e-06,
1489
+ "loss": 0.0455,
1490
  "step": 5000
1491
  },
1492
  {
1493
+ "epoch": 2.199,
1494
+ "eval_loss": 0.15326862037181854,
1495
+ "eval_runtime": 2431.3758,
1496
+ "eval_samples_per_second": 5.606,
1497
+ "eval_steps_per_second": 0.701,
1498
+ "eval_wer": 9.14104584264722,
1499
  "step": 5000
1500
  },
1501
  {
1502
+ "epoch": 2.202125,
1503
+ "grad_norm": 3.066169261932373,
1504
+ "learning_rate": 2.4808333333333334e-06,
1505
+ "loss": 0.0514,
1506
  "step": 5025
1507
  },
1508
  {
1509
+ "epoch": 2.20525,
1510
+ "grad_norm": 2.8991472721099854,
1511
+ "learning_rate": 2.46e-06,
1512
+ "loss": 0.0454,
1513
  "step": 5050
1514
  },
1515
  {
1516
+ "epoch": 2.208375,
1517
+ "grad_norm": 2.641075611114502,
1518
+ "learning_rate": 2.439166666666667e-06,
1519
+ "loss": 0.0448,
1520
  "step": 5075
1521
  },
1522
  {
1523
+ "epoch": 2.2115,
1524
+ "grad_norm": 3.234225034713745,
1525
+ "learning_rate": 2.4183333333333336e-06,
1526
+ "loss": 0.0504,
1527
  "step": 5100
1528
  },
1529
  {
1530
+ "epoch": 3.001625,
1531
+ "grad_norm": 1.9421311616897583,
1532
+ "learning_rate": 2.3975e-06,
1533
+ "loss": 0.0377,
1534
  "step": 5125
1535
  },
1536
  {
1537
+ "epoch": 3.00475,
1538
+ "grad_norm": 1.9280989170074463,
1539
+ "learning_rate": 2.3766666666666666e-06,
1540
+ "loss": 0.0291,
1541
  "step": 5150
1542
  },
1543
  {
1544
+ "epoch": 3.007875,
1545
+ "grad_norm": 1.701106309890747,
1546
+ "learning_rate": 2.3558333333333334e-06,
1547
+ "loss": 0.0254,
1548
  "step": 5175
1549
  },
1550
  {
1551
+ "epoch": 3.011,
1552
+ "grad_norm": 1.4093270301818848,
1553
+ "learning_rate": 2.335e-06,
1554
+ "loss": 0.0267,
1555
  "step": 5200
1556
  },
1557
  {
1558
+ "epoch": 3.014125,
1559
+ "grad_norm": 2.7806079387664795,
1560
+ "learning_rate": 2.314166666666667e-06,
1561
+ "loss": 0.0271,
1562
  "step": 5225
1563
  },
1564
  {
1565
+ "epoch": 3.01725,
1566
+ "grad_norm": 2.454941511154175,
1567
+ "learning_rate": 2.2933333333333335e-06,
1568
+ "loss": 0.0296,
1569
  "step": 5250
1570
  },
1571
  {
1572
+ "epoch": 3.020375,
1573
+ "grad_norm": 1.8080620765686035,
1574
+ "learning_rate": 2.2725e-06,
1575
+ "loss": 0.0254,
1576
  "step": 5275
1577
  },
1578
  {
1579
+ "epoch": 3.0235,
1580
+ "grad_norm": 2.4920754432678223,
1581
+ "learning_rate": 2.251666666666667e-06,
1582
+ "loss": 0.0242,
1583
  "step": 5300
1584
  },
1585
  {
1586
+ "epoch": 3.026625,
1587
+ "grad_norm": 1.4802467823028564,
1588
+ "learning_rate": 2.2308333333333333e-06,
1589
+ "loss": 0.0242,
1590
  "step": 5325
1591
  },
1592
  {
1593
+ "epoch": 3.02975,
1594
+ "grad_norm": 4.049746036529541,
1595
+ "learning_rate": 2.2100000000000004e-06,
1596
+ "loss": 0.026,
1597
  "step": 5350
1598
  },
1599
  {
1600
+ "epoch": 3.032875,
1601
+ "grad_norm": 2.304689884185791,
1602
+ "learning_rate": 2.1891666666666667e-06,
1603
+ "loss": 0.0261,
1604
  "step": 5375
1605
  },
1606
  {
1607
+ "epoch": 3.036,
1608
+ "grad_norm": 1.9863944053649902,
1609
+ "learning_rate": 2.1683333333333335e-06,
1610
+ "loss": 0.0251,
1611
  "step": 5400
1612
  },
1613
  {
1614
+ "epoch": 3.039125,
1615
+ "grad_norm": 2.0497422218322754,
1616
+ "learning_rate": 2.1475e-06,
1617
+ "loss": 0.0254,
1618
  "step": 5425
1619
  },
1620
  {
1621
+ "epoch": 3.04225,
1622
+ "grad_norm": 2.5717766284942627,
1623
+ "learning_rate": 2.126666666666667e-06,
1624
+ "loss": 0.0238,
1625
  "step": 5450
1626
  },
1627
  {
1628
+ "epoch": 3.045375,
1629
+ "grad_norm": 1.1389164924621582,
1630
+ "learning_rate": 2.1058333333333332e-06,
1631
+ "loss": 0.0208,
1632
  "step": 5475
1633
  },
1634
  {
1635
+ "epoch": 3.0485,
1636
+ "grad_norm": 1.5230340957641602,
1637
+ "learning_rate": 2.085e-06,
1638
+ "loss": 0.0216,
1639
  "step": 5500
1640
  },
1641
  {
1642
+ "epoch": 3.0485,
1643
+ "eval_loss": 0.1619918942451477,
1644
+ "eval_runtime": 2437.6868,
1645
+ "eval_samples_per_second": 5.591,
1646
+ "eval_steps_per_second": 0.699,
1647
+ "eval_wer": 9.08424639964821,
1648
  "step": 5500
1649
  },
1650
  {
1651
+ "epoch": 3.051625,
1652
+ "grad_norm": 1.907436728477478,
1653
+ "learning_rate": 2.0641666666666667e-06,
1654
+ "loss": 0.0224,
1655
  "step": 5525
1656
  },
1657
  {
1658
+ "epoch": 3.05475,
1659
+ "grad_norm": 1.5222604274749756,
1660
+ "learning_rate": 2.0433333333333334e-06,
1661
+ "loss": 0.0197,
1662
  "step": 5550
1663
  },
1664
  {
1665
+ "epoch": 3.057875,
1666
+ "grad_norm": 1.5284624099731445,
1667
+ "learning_rate": 2.0225e-06,
1668
+ "loss": 0.0152,
1669
  "step": 5575
1670
  },
1671
  {
1672
+ "epoch": 3.061,
1673
+ "grad_norm": 0.7098265886306763,
1674
+ "learning_rate": 2.0016666666666664e-06,
1675
+ "loss": 0.019,
1676
  "step": 5600
1677
  },
1678
  {
1679
+ "epoch": 3.064125,
1680
+ "grad_norm": 2.1706318855285645,
1681
+ "learning_rate": 1.9808333333333336e-06,
1682
+ "loss": 0.0189,
1683
  "step": 5625
1684
  },
1685
  {
1686
+ "epoch": 3.06725,
1687
+ "grad_norm": 2.888962745666504,
1688
+ "learning_rate": 1.96e-06,
1689
+ "loss": 0.0201,
1690
  "step": 5650
1691
  },
1692
  {
1693
+ "epoch": 3.070375,
1694
+ "grad_norm": 3.0322179794311523,
1695
+ "learning_rate": 1.939166666666667e-06,
1696
+ "loss": 0.0211,
1697
  "step": 5675
1698
  },
1699
  {
1700
+ "epoch": 3.0735,
1701
+ "grad_norm": 3.066394329071045,
1702
+ "learning_rate": 1.9183333333333333e-06,
1703
+ "loss": 0.0253,
1704
  "step": 5700
1705
  },
1706
  {
1707
+ "epoch": 3.076625,
1708
+ "grad_norm": 2.5032601356506348,
1709
+ "learning_rate": 1.8975e-06,
1710
+ "loss": 0.0236,
1711
  "step": 5725
1712
  },
1713
  {
1714
+ "epoch": 3.07975,
1715
+ "grad_norm": 1.5625773668289185,
1716
+ "learning_rate": 1.8766666666666668e-06,
1717
+ "loss": 0.0193,
1718
  "step": 5750
1719
  },
1720
  {
1721
+ "epoch": 3.082875,
1722
+ "grad_norm": 1.7981406450271606,
1723
+ "learning_rate": 1.8558333333333333e-06,
1724
+ "loss": 0.0157,
1725
  "step": 5775
1726
  },
1727
  {
1728
+ "epoch": 3.086,
1729
+ "grad_norm": 1.1411957740783691,
1730
+ "learning_rate": 1.8350000000000002e-06,
1731
+ "loss": 0.0217,
1732
  "step": 5800
1733
  },
1734
  {
1735
+ "epoch": 3.089125,
1736
+ "grad_norm": 1.1639596223831177,
1737
+ "learning_rate": 1.8141666666666667e-06,
1738
+ "loss": 0.0239,
1739
  "step": 5825
1740
  },
1741
  {
1742
+ "epoch": 3.09225,
1743
+ "grad_norm": 0.7168381810188293,
1744
+ "learning_rate": 1.7933333333333332e-06,
1745
+ "loss": 0.0218,
1746
  "step": 5850
1747
  },
1748
  {
1749
+ "epoch": 3.095375,
1750
+ "grad_norm": 1.1308009624481201,
1751
+ "learning_rate": 1.7725000000000002e-06,
1752
+ "loss": 0.0214,
1753
  "step": 5875
1754
  },
1755
  {
1756
+ "epoch": 3.0985,
1757
+ "grad_norm": 2.1142430305480957,
1758
+ "learning_rate": 1.7516666666666667e-06,
1759
+ "loss": 0.0155,
1760
  "step": 5900
1761
  },
1762
  {
1763
+ "epoch": 3.101625,
1764
+ "grad_norm": 1.479252815246582,
1765
+ "learning_rate": 1.7308333333333332e-06,
1766
+ "loss": 0.0176,
1767
  "step": 5925
1768
  },
1769
  {
1770
+ "epoch": 3.10475,
1771
+ "grad_norm": 1.3254590034484863,
1772
+ "learning_rate": 1.7100000000000001e-06,
1773
+ "loss": 0.0144,
1774
  "step": 5950
1775
  },
1776
  {
1777
+ "epoch": 3.107875,
1778
+ "grad_norm": 2.1925458908081055,
1779
+ "learning_rate": 1.6891666666666667e-06,
1780
+ "loss": 0.0162,
1781
  "step": 5975
1782
  },
1783
  {
1784
+ "epoch": 3.111,
1785
+ "grad_norm": 1.774483561515808,
1786
+ "learning_rate": 1.6683333333333336e-06,
1787
+ "loss": 0.017,
1788
  "step": 6000
1789
  },
1790
  {
1791
+ "epoch": 3.111,
1792
+ "eval_loss": 0.17044013738632202,
1793
+ "eval_runtime": 2431.1861,
1794
+ "eval_samples_per_second": 5.606,
1795
+ "eval_steps_per_second": 0.701,
1796
+ "eval_wer": 9.097988200373777,
1797
  "step": 6000
1798
  },
1799
  {
1800
+ "epoch": 3.114125,
1801
+ "grad_norm": 3.372814893722534,
1802
+ "learning_rate": 1.6483333333333334e-06,
1803
+ "loss": 0.0216,
1804
  "step": 6025
1805
  },
1806
  {
1807
+ "epoch": 3.11725,
1808
+ "grad_norm": 0.39716529846191406,
1809
+ "learning_rate": 1.6275000000000003e-06,
1810
+ "loss": 0.0161,
1811
  "step": 6050
1812
  },
1813
  {
1814
+ "epoch": 3.120375,
1815
+ "grad_norm": 1.4220778942108154,
1816
+ "learning_rate": 1.6066666666666668e-06,
1817
+ "loss": 0.0211,
1818
  "step": 6075
1819
  },
1820
  {
1821
+ "epoch": 3.1235,
1822
+ "grad_norm": 1.2959835529327393,
1823
+ "learning_rate": 1.5858333333333333e-06,
1824
+ "loss": 0.0187,
1825
  "step": 6100
1826
  },
1827
  {
1828
+ "epoch": 3.1266249999999998,
1829
+ "grad_norm": 1.9399360418319702,
1830
+ "learning_rate": 1.565e-06,
1831
+ "loss": 0.0123,
1832
  "step": 6125
1833
  },
1834
  {
1835
+ "epoch": 3.12975,
1836
+ "grad_norm": 2.898085594177246,
1837
+ "learning_rate": 1.5441666666666668e-06,
1838
+ "loss": 0.0197,
1839
  "step": 6150
1840
  },
1841
  {
1842
+ "epoch": 3.132875,
1843
+ "grad_norm": 3.642364263534546,
1844
+ "learning_rate": 1.5233333333333333e-06,
1845
+ "loss": 0.0162,
1846
  "step": 6175
1847
  },
1848
  {
1849
+ "epoch": 3.136,
1850
+ "grad_norm": 1.7888002395629883,
1851
+ "learning_rate": 1.5025e-06,
1852
+ "loss": 0.0164,
1853
  "step": 6200
1854
  },
1855
  {
1856
+ "epoch": 3.139125,
1857
+ "grad_norm": 2.3871753215789795,
1858
+ "learning_rate": 1.4816666666666667e-06,
1859
+ "loss": 0.0175,
1860
  "step": 6225
1861
  },
1862
  {
1863
+ "epoch": 3.1422499999999998,
1864
+ "grad_norm": 1.4263437986373901,
1865
+ "learning_rate": 1.4608333333333333e-06,
1866
+ "loss": 0.0152,
1867
  "step": 6250
1868
  },
1869
  {
1870
+ "epoch": 3.145375,
1871
+ "grad_norm": 2.174880027770996,
1872
+ "learning_rate": 1.44e-06,
1873
+ "loss": 0.0172,
1874
  "step": 6275
1875
  },
1876
  {
1877
+ "epoch": 3.1485,
1878
+ "grad_norm": 0.9558664560317993,
1879
+ "learning_rate": 1.4191666666666667e-06,
1880
+ "loss": 0.0172,
1881
  "step": 6300
1882
  },
1883
  {
1884
+ "epoch": 3.151625,
1885
+ "grad_norm": 2.228374719619751,
1886
+ "learning_rate": 1.3983333333333334e-06,
1887
+ "loss": 0.0173,
1888
  "step": 6325
1889
  },
1890
  {
1891
+ "epoch": 3.15475,
1892
+ "grad_norm": 1.3473858833312988,
1893
+ "learning_rate": 1.3775000000000002e-06,
1894
+ "loss": 0.0211,
1895
  "step": 6350
1896
  },
1897
  {
1898
+ "epoch": 3.1578749999999998,
1899
+ "grad_norm": 1.575217843055725,
1900
+ "learning_rate": 1.3566666666666667e-06,
1901
+ "loss": 0.0195,
1902
  "step": 6375
1903
  },
1904
  {
1905
+ "epoch": 3.161,
1906
+ "grad_norm": 1.4997564554214478,
1907
+ "learning_rate": 1.3358333333333334e-06,
1908
+ "loss": 0.0174,
1909
  "step": 6400
1910
  },
1911
  {
1912
+ "epoch": 3.164125,
1913
+ "grad_norm": 1.6651334762573242,
1914
+ "learning_rate": 1.3150000000000001e-06,
1915
+ "loss": 0.0178,
1916
  "step": 6425
1917
  },
1918
  {
1919
+ "epoch": 3.16725,
1920
+ "grad_norm": 1.9218391180038452,
1921
+ "learning_rate": 1.2941666666666668e-06,
1922
+ "loss": 0.0168,
1923
  "step": 6450
1924
  },
1925
  {
1926
+ "epoch": 3.170375,
1927
+ "grad_norm": 1.322709560394287,
1928
+ "learning_rate": 1.2733333333333334e-06,
1929
+ "loss": 0.0155,
1930
  "step": 6475
1931
  },
1932
  {
1933
+ "epoch": 3.1734999999999998,
1934
+ "grad_norm": 0.7265995144844055,
1935
+ "learning_rate": 1.2525e-06,
1936
+ "loss": 0.0174,
1937
  "step": 6500
1938
  },
1939
  {
1940
+ "epoch": 3.1734999999999998,
1941
+ "eval_loss": 0.16809040307998657,
1942
+ "eval_runtime": 2425.0716,
1943
+ "eval_samples_per_second": 5.62,
1944
+ "eval_steps_per_second": 0.703,
1945
+ "eval_wer": 9.072336839019385,
1946
  "step": 6500
1947
  },
1948
  {
1949
+ "epoch": 3.176625,
1950
+ "grad_norm": 3.6835756301879883,
1951
+ "learning_rate": 1.2316666666666668e-06,
1952
+ "loss": 0.0177,
1953
  "step": 6525
1954
  },
1955
  {
1956
+ "epoch": 3.17975,
1957
+ "grad_norm": 1.7619342803955078,
1958
+ "learning_rate": 1.2108333333333335e-06,
1959
+ "loss": 0.0212,
1960
  "step": 6550
1961
  },
1962
  {
1963
+ "epoch": 3.182875,
1964
+ "grad_norm": 1.547814130783081,
1965
+ "learning_rate": 1.19e-06,
1966
+ "loss": 0.0213,
1967
  "step": 6575
1968
  },
1969
  {
1970
+ "epoch": 3.186,
1971
+ "grad_norm": 2.0077638626098633,
1972
+ "learning_rate": 1.1691666666666668e-06,
1973
+ "loss": 0.016,
1974
  "step": 6600
1975
  },
1976
  {
1977
+ "epoch": 3.1891249999999998,
1978
+ "grad_norm": 1.806665062904358,
1979
+ "learning_rate": 1.1483333333333333e-06,
1980
+ "loss": 0.0165,
1981
  "step": 6625
1982
  },
1983
  {
1984
+ "epoch": 3.19225,
1985
+ "grad_norm": 1.9576735496520996,
1986
+ "learning_rate": 1.1283333333333333e-06,
1987
+ "loss": 0.0173,
1988
  "step": 6650
1989
  },
1990
  {
1991
+ "epoch": 3.195375,
1992
+ "grad_norm": 1.992625117301941,
1993
+ "learning_rate": 1.1075e-06,
1994
+ "loss": 0.0179,
1995
  "step": 6675
1996
  },
1997
  {
1998
+ "epoch": 3.1985,
1999
+ "grad_norm": 1.9625897407531738,
2000
+ "learning_rate": 1.0866666666666667e-06,
2001
+ "loss": 0.0174,
2002
  "step": 6700
2003
  },
2004
  {
2005
+ "epoch": 3.201625,
2006
+ "grad_norm": 1.079950213432312,
2007
+ "learning_rate": 1.0658333333333334e-06,
2008
+ "loss": 0.0189,
2009
  "step": 6725
2010
  },
2011
  {
2012
+ "epoch": 3.2047499999999998,
2013
+ "grad_norm": 1.7856156826019287,
2014
+ "learning_rate": 1.045e-06,
2015
+ "loss": 0.0179,
2016
  "step": 6750
2017
  },
2018
  {
2019
+ "epoch": 3.207875,
2020
+ "grad_norm": 0.44674980640411377,
2021
+ "learning_rate": 1.0241666666666667e-06,
2022
+ "loss": 0.0185,
2023
  "step": 6775
2024
  },
2025
  {
2026
+ "epoch": 3.211,
2027
+ "grad_norm": 2.1849780082702637,
2028
+ "learning_rate": 1.0033333333333334e-06,
2029
+ "loss": 0.0208,
2030
  "step": 6800
2031
  },
2032
  {
2033
+ "epoch": 4.001125,
2034
+ "grad_norm": 1.4259858131408691,
2035
+ "learning_rate": 9.825000000000001e-07,
2036
+ "loss": 0.0162,
2037
  "step": 6825
2038
  },
2039
  {
2040
+ "epoch": 4.00425,
2041
+ "grad_norm": 0.5507416129112244,
2042
+ "learning_rate": 9.616666666666668e-07,
2043
+ "loss": 0.0099,
2044
  "step": 6850
2045
  },
2046
  {
2047
+ "epoch": 4.007375,
2048
+ "grad_norm": 1.9662590026855469,
2049
+ "learning_rate": 9.408333333333334e-07,
2050
+ "loss": 0.0117,
2051
  "step": 6875
2052
  },
2053
  {
2054
+ "epoch": 4.0105,
2055
+ "grad_norm": 1.9439060688018799,
2056
+ "learning_rate": 9.2e-07,
2057
+ "loss": 0.0114,
2058
  "step": 6900
2059
  },
2060
  {
2061
+ "epoch": 4.013625,
2062
+ "grad_norm": 1.266473412513733,
2063
+ "learning_rate": 8.991666666666667e-07,
2064
+ "loss": 0.0085,
2065
  "step": 6925
2066
  },
2067
  {
2068
+ "epoch": 4.01675,
2069
+ "grad_norm": 1.4318881034851074,
2070
+ "learning_rate": 8.783333333333334e-07,
2071
+ "loss": 0.0095,
2072
  "step": 6950
2073
  },
2074
  {
2075
+ "epoch": 4.019875,
2076
+ "grad_norm": 1.7301366329193115,
2077
+ "learning_rate": 8.574999999999999e-07,
2078
+ "loss": 0.01,
2079
  "step": 6975
2080
  },
2081
  {
2082
+ "epoch": 4.023,
2083
+ "grad_norm": 0.7250347137451172,
2084
+ "learning_rate": 8.366666666666667e-07,
2085
+ "loss": 0.0098,
2086
  "step": 7000
2087
  },
2088
  {
2089
+ "epoch": 4.023,
2090
+ "eval_loss": 0.17248913645744324,
2091
+ "eval_runtime": 2424.7286,
2092
+ "eval_samples_per_second": 5.621,
2093
+ "eval_steps_per_second": 0.703,
2094
+ "eval_wer": 8.862545347942394,
2095
  "step": 7000
2096
  },
2097
  {
2098
+ "epoch": 4.026125,
2099
+ "grad_norm": 0.9742090702056885,
2100
+ "learning_rate": 8.158333333333334e-07,
2101
+ "loss": 0.0083,
2102
  "step": 7025
2103
  },
2104
  {
2105
+ "epoch": 4.02925,
2106
+ "grad_norm": 1.966017723083496,
2107
+ "learning_rate": 7.950000000000001e-07,
2108
+ "loss": 0.0098,
2109
  "step": 7050
2110
  },
2111
  {
2112
+ "epoch": 4.032375,
2113
+ "grad_norm": 0.3238462209701538,
2114
+ "learning_rate": 7.741666666666667e-07,
2115
+ "loss": 0.0106,
2116
  "step": 7075
2117
  },
2118
  {
2119
+ "epoch": 4.0355,
2120
+ "grad_norm": 1.1980866193771362,
2121
+ "learning_rate": 7.533333333333334e-07,
2122
+ "loss": 0.0095,
2123
  "step": 7100
2124
  },
2125
  {
2126
+ "epoch": 4.038625,
2127
+ "grad_norm": 1.5639567375183105,
2128
+ "learning_rate": 7.325e-07,
2129
+ "loss": 0.0079,
2130
  "step": 7125
2131
  },
2132
  {
2133
+ "epoch": 4.04175,
2134
+ "grad_norm": 2.4864511489868164,
2135
+ "learning_rate": 7.116666666666667e-07,
2136
+ "loss": 0.0081,
2137
  "step": 7150
2138
  },
2139
  {
2140
+ "epoch": 4.044875,
2141
+ "grad_norm": 0.3260515332221985,
2142
+ "learning_rate": 6.908333333333333e-07,
2143
+ "loss": 0.0078,
2144
  "step": 7175
2145
  },
2146
  {
2147
+ "epoch": 4.048,
2148
+ "grad_norm": 1.6305910348892212,
2149
+ "learning_rate": 6.7e-07,
2150
+ "loss": 0.0093,
2151
  "step": 7200
2152
  },
2153
  {
2154
+ "epoch": 4.051125,
2155
+ "grad_norm": 0.6141969561576843,
2156
+ "learning_rate": 6.491666666666667e-07,
2157
+ "loss": 0.0082,
2158
  "step": 7225
2159
  },
2160
  {
2161
+ "epoch": 4.05425,
2162
+ "grad_norm": 1.9699019193649292,
2163
+ "learning_rate": 6.283333333333334e-07,
2164
+ "loss": 0.0089,
2165
  "step": 7250
2166
  },
2167
  {
2168
+ "epoch": 4.057375,
2169
+ "grad_norm": 0.2788224518299103,
2170
+ "learning_rate": 6.075e-07,
2171
+ "loss": 0.0053,
2172
  "step": 7275
2173
  },
2174
  {
2175
+ "epoch": 4.0605,
2176
+ "grad_norm": 1.0774401426315308,
2177
+ "learning_rate": 5.866666666666667e-07,
2178
+ "loss": 0.0074,
2179
  "step": 7300
2180
  },
2181
  {
2182
+ "epoch": 4.063625,
2183
+ "grad_norm": 0.2802826166152954,
2184
+ "learning_rate": 5.658333333333334e-07,
2185
+ "loss": 0.007,
2186
  "step": 7325
2187
  },
2188
  {
2189
+ "epoch": 4.06675,
2190
+ "grad_norm": 0.459989458322525,
2191
+ "learning_rate": 5.450000000000001e-07,
2192
+ "loss": 0.0061,
2193
  "step": 7350
2194
  },
2195
  {
2196
+ "epoch": 4.069875,
2197
+ "grad_norm": 1.6869885921478271,
2198
+ "learning_rate": 5.241666666666667e-07,
2199
+ "loss": 0.007,
2200
  "step": 7375
2201
  },
2202
  {
2203
+ "epoch": 4.073,
2204
+ "grad_norm": 1.150252103805542,
2205
+ "learning_rate": 5.033333333333333e-07,
2206
+ "loss": 0.009,
2207
  "step": 7400
2208
  },
2209
  {
2210
+ "epoch": 4.076125,
2211
+ "grad_norm": 0.7096041440963745,
2212
+ "learning_rate": 4.825e-07,
2213
+ "loss": 0.0074,
2214
  "step": 7425
2215
  },
2216
  {
2217
+ "epoch": 4.07925,
2218
+ "grad_norm": 1.9114930629730225,
2219
+ "learning_rate": 4.6166666666666666e-07,
2220
+ "loss": 0.0081,
2221
  "step": 7450
2222
  },
2223
  {
2224
+ "epoch": 4.082375,
2225
+ "grad_norm": 0.41340845823287964,
2226
+ "learning_rate": 4.408333333333334e-07,
2227
+ "loss": 0.0078,
2228
  "step": 7475
2229
  },
2230
  {
2231
+ "epoch": 4.0855,
2232
+ "grad_norm": 1.241665005683899,
2233
+ "learning_rate": 4.2e-07,
2234
+ "loss": 0.0076,
2235
  "step": 7500
2236
  },
2237
  {
2238
+ "epoch": 4.0855,
2239
+ "eval_loss": 0.17651478946208954,
2240
+ "eval_runtime": 2432.1699,
2241
+ "eval_samples_per_second": 5.604,
2242
+ "eval_steps_per_second": 0.701,
2243
+ "eval_wer": 8.83506174649126,
2244
  "step": 7500
2245
  },
2246
  {
2247
+ "epoch": 4.088625,
2248
+ "grad_norm": 0.6228423714637756,
2249
+ "learning_rate": 3.991666666666667e-07,
2250
+ "loss": 0.0075,
2251
  "step": 7525
2252
  },
2253
  {
2254
+ "epoch": 4.09175,
2255
+ "grad_norm": 0.5548863410949707,
2256
+ "learning_rate": 3.7833333333333335e-07,
2257
+ "loss": 0.007,
2258
  "step": 7550
2259
  },
2260
  {
2261
+ "epoch": 4.094875,
2262
+ "grad_norm": 0.33007875084877014,
2263
+ "learning_rate": 3.575e-07,
2264
+ "loss": 0.0058,
2265
  "step": 7575
2266
  },
2267
  {
2268
+ "epoch": 4.098,
2269
+ "grad_norm": 1.3314837217330933,
2270
+ "learning_rate": 3.366666666666667e-07,
2271
+ "loss": 0.0068,
2272
  "step": 7600
2273
  },
2274
  {
2275
+ "epoch": 4.101125,
2276
+ "grad_norm": 2.230480909347534,
2277
+ "learning_rate": 3.1583333333333336e-07,
2278
+ "loss": 0.007,
2279
  "step": 7625
2280
  },
2281
  {
2282
+ "epoch": 4.10425,
2283
+ "grad_norm": 0.3246554136276245,
2284
+ "learning_rate": 2.95e-07,
2285
+ "loss": 0.0058,
2286
  "step": 7650
2287
  },
2288
  {
2289
+ "epoch": 4.107375,
2290
+ "grad_norm": 3.8842251300811768,
2291
+ "learning_rate": 2.7416666666666665e-07,
2292
+ "loss": 0.0071,
2293
  "step": 7675
2294
  },
2295
  {
2296
+ "epoch": 4.1105,
2297
+ "grad_norm": 0.27049753069877625,
2298
+ "learning_rate": 2.533333333333333e-07,
2299
+ "loss": 0.0068,
2300
  "step": 7700
2301
  },
2302
  {
2303
+ "epoch": 4.113625,
2304
+ "grad_norm": 1.5919678211212158,
2305
+ "learning_rate": 2.325e-07,
2306
+ "loss": 0.009,
2307
  "step": 7725
2308
  },
2309
  {
2310
+ "epoch": 4.11675,
2311
+ "grad_norm": 1.0917800664901733,
2312
+ "learning_rate": 2.116666666666667e-07,
2313
+ "loss": 0.0083,
2314
  "step": 7750
2315
  },
2316
  {
2317
+ "epoch": 4.119875,
2318
+ "grad_norm": 1.6236002445220947,
2319
+ "learning_rate": 1.9083333333333334e-07,
2320
+ "loss": 0.0077,
2321
  "step": 7775
2322
  },
2323
  {
2324
+ "epoch": 4.123,
2325
+ "grad_norm": 0.34154245257377625,
2326
+ "learning_rate": 1.7e-07,
2327
+ "loss": 0.0064,
2328
  "step": 7800
2329
  },
2330
  {
2331
+ "epoch": 4.126125,
2332
+ "grad_norm": 0.7562180757522583,
2333
+ "learning_rate": 1.4916666666666669e-07,
2334
+ "loss": 0.0073,
2335
  "step": 7825
2336
  },
2337
  {
2338
+ "epoch": 4.12925,
2339
+ "grad_norm": 1.4198355674743652,
2340
+ "learning_rate": 1.2833333333333333e-07,
2341
+ "loss": 0.0051,
2342
  "step": 7850
2343
  },
2344
  {
2345
+ "epoch": 4.132375,
2346
+ "grad_norm": 0.38768094778060913,
2347
+ "learning_rate": 1.075e-07,
2348
+ "loss": 0.0073,
2349
  "step": 7875
2350
  },
2351
  {
2352
+ "epoch": 4.1355,
2353
+ "grad_norm": 2.1387102603912354,
2354
+ "learning_rate": 8.666666666666666e-08,
2355
+ "loss": 0.0078,
2356
  "step": 7900
2357
  },
2358
  {
2359
+ "epoch": 4.138625,
2360
+ "grad_norm": 0.7683693170547485,
2361
+ "learning_rate": 6.583333333333333e-08,
2362
+ "loss": 0.006,
2363
  "step": 7925
2364
  },
2365
  {
2366
+ "epoch": 4.14175,
2367
+ "grad_norm": 0.40976452827453613,
2368
+ "learning_rate": 4.5e-08,
2369
+ "loss": 0.0059,
2370
  "step": 7950
2371
  },
2372
  {
2373
+ "epoch": 4.144875,
2374
+ "grad_norm": 0.3620973229408264,
2375
+ "learning_rate": 2.4166666666666668e-08,
2376
+ "loss": 0.0054,
2377
  "step": 7975
2378
  },
2379
  {
2380
+ "epoch": 4.148,
2381
+ "grad_norm": 0.28266406059265137,
2382
+ "learning_rate": 3.333333333333334e-09,
2383
+ "loss": 0.007,
2384
  "step": 8000
2385
  },
2386
  {
2387
+ "epoch": 4.148,
2388
+ "eval_loss": 0.17873740196228027,
2389
+ "eval_runtime": 2435.5612,
2390
+ "eval_samples_per_second": 5.596,
2391
+ "eval_steps_per_second": 0.7,
2392
+ "eval_wer": 8.8020814247499,
2393
  "step": 8000
2394
  },
2395
  {
2396
+ "epoch": 4.148,
2397
  "step": 8000,
2398
+ "total_flos": 1.3062109848403968e+20,
2399
+ "train_loss": 0.11351343880966305,
2400
+ "train_runtime": 52381.6915,
2401
+ "train_samples_per_second": 2.444,
2402
+ "train_steps_per_second": 0.153
2403
  }
2404
  ],
2405
+ "logging_steps": 25,
2406
  "max_steps": 8000,
2407
+ "num_input_tokens_seen": 0,
2408
  "num_train_epochs": 9223372036854775807,
2409
+ "save_steps": 1000,
2410
+ "stateful_callbacks": {
2411
+ "TrainerControl": {
2412
+ "args": {
2413
+ "should_epoch_stop": false,
2414
+ "should_evaluate": false,
2415
+ "should_log": false,
2416
+ "should_save": true,
2417
+ "should_training_stop": true
2418
+ },
2419
+ "attributes": {}
2420
+ }
2421
+ },
2422
+ "total_flos": 1.3062109848403968e+20,
2423
+ "train_batch_size": 16,
2424
  "trial_name": null,
2425
  "trial_params": null
2426
  }