sumuks commited on
Commit
5fa1c3d
·
verified ·
1 Parent(s): 6173446

End of training

Browse files
README.md CHANGED
@@ -4,6 +4,7 @@ license: apache-2.0
4
  base_model: Qwen/Qwen2.5-7B
5
  tags:
6
  - llama-factory
 
7
  - generated_from_trainer
8
  model-index:
9
  - name: qwen2.5-7b-idea-review-mvp-1
@@ -15,9 +16,9 @@ should probably proofread and complete it, then remove this comment. -->
15
 
16
  # qwen2.5-7b-idea-review-mvp-1
17
 
18
- This model is a fine-tuned version of [Qwen/Qwen2.5-7B](https://huggingface.co/Qwen/Qwen2.5-7B) on an unknown dataset.
19
  It achieves the following results on the evaluation set:
20
- - Loss: 1.2711
21
 
22
  ## Model description
23
 
 
4
  base_model: Qwen/Qwen2.5-7B
5
  tags:
6
  - llama-factory
7
+ - lora
8
  - generated_from_trainer
9
  model-index:
10
  - name: qwen2.5-7b-idea-review-mvp-1
 
16
 
17
  # qwen2.5-7b-idea-review-mvp-1
18
 
19
+ This model is a fine-tuned version of [Qwen/Qwen2.5-7B](https://huggingface.co/Qwen/Qwen2.5-7B) on the openreview_idea_review dataset.
20
  It achieves the following results on the evaluation set:
21
+ - Loss: 1.2680
22
 
23
  ## Model description
24
 
all_results.json ADDED
@@ -0,0 +1,13 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 3.0,
3
+ "eval_loss": 1.2680052518844604,
4
+ "eval_runtime": 37.3047,
5
+ "eval_samples_per_second": 10.32,
6
+ "eval_steps_per_second": 2.6,
7
+ "perplexity": 3.553756638060757,
8
+ "total_flos": 234145141751808.0,
9
+ "train_loss": 1.2264163225196905,
10
+ "train_runtime": 4742.9935,
11
+ "train_samples_per_second": 24.104,
12
+ "train_steps_per_second": 0.753
13
+ }
eval_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 3.0,
3
+ "eval_loss": 1.2680052518844604,
4
+ "eval_runtime": 37.3047,
5
+ "eval_samples_per_second": 10.32,
6
+ "eval_steps_per_second": 2.6,
7
+ "perplexity": 3.553756638060757
8
+ }
train_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 3.0,
3
+ "total_flos": 234145141751808.0,
4
+ "train_loss": 1.2264163225196905,
5
+ "train_runtime": 4742.9935,
6
+ "train_samples_per_second": 24.104,
7
+ "train_steps_per_second": 0.753
8
+ }
trainer_state.json ADDED
@@ -0,0 +1,2581 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 3.0,
5
+ "eval_steps": 600,
6
+ "global_step": 3573,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.008396305625524769,
13
+ "grad_norm": 3.039360795711161,
14
+ "learning_rate": 1.3966480446927373e-06,
15
+ "loss": 1.7981,
16
+ "step": 10
17
+ },
18
+ {
19
+ "epoch": 0.016792611251049538,
20
+ "grad_norm": 2.1081820956343322,
21
+ "learning_rate": 2.7932960893854746e-06,
22
+ "loss": 1.7816,
23
+ "step": 20
24
+ },
25
+ {
26
+ "epoch": 0.02518891687657431,
27
+ "grad_norm": 0.563623056034138,
28
+ "learning_rate": 4.189944134078212e-06,
29
+ "loss": 1.6797,
30
+ "step": 30
31
+ },
32
+ {
33
+ "epoch": 0.033585222502099076,
34
+ "grad_norm": 0.4076099849250059,
35
+ "learning_rate": 5.586592178770949e-06,
36
+ "loss": 1.5657,
37
+ "step": 40
38
+ },
39
+ {
40
+ "epoch": 0.041981528127623846,
41
+ "grad_norm": 0.30151480402917696,
42
+ "learning_rate": 6.983240223463687e-06,
43
+ "loss": 1.4759,
44
+ "step": 50
45
+ },
46
+ {
47
+ "epoch": 0.05037783375314862,
48
+ "grad_norm": 0.23775034251274657,
49
+ "learning_rate": 8.379888268156424e-06,
50
+ "loss": 1.4312,
51
+ "step": 60
52
+ },
53
+ {
54
+ "epoch": 0.05877413937867338,
55
+ "grad_norm": 0.2421182919342462,
56
+ "learning_rate": 9.776536312849161e-06,
57
+ "loss": 1.4082,
58
+ "step": 70
59
+ },
60
+ {
61
+ "epoch": 0.06717044500419815,
62
+ "grad_norm": 0.23011928549656843,
63
+ "learning_rate": 1.1173184357541899e-05,
64
+ "loss": 1.4263,
65
+ "step": 80
66
+ },
67
+ {
68
+ "epoch": 0.07556675062972293,
69
+ "grad_norm": 0.21851210361234266,
70
+ "learning_rate": 1.2569832402234637e-05,
71
+ "loss": 1.4216,
72
+ "step": 90
73
+ },
74
+ {
75
+ "epoch": 0.08396305625524769,
76
+ "grad_norm": 0.23106315932058966,
77
+ "learning_rate": 1.3966480446927374e-05,
78
+ "loss": 1.4207,
79
+ "step": 100
80
+ },
81
+ {
82
+ "epoch": 0.09235936188077246,
83
+ "grad_norm": 0.23062228974277152,
84
+ "learning_rate": 1.5363128491620113e-05,
85
+ "loss": 1.399,
86
+ "step": 110
87
+ },
88
+ {
89
+ "epoch": 0.10075566750629723,
90
+ "grad_norm": 0.23855661202824083,
91
+ "learning_rate": 1.675977653631285e-05,
92
+ "loss": 1.404,
93
+ "step": 120
94
+ },
95
+ {
96
+ "epoch": 0.109151973131822,
97
+ "grad_norm": 0.2302715158226374,
98
+ "learning_rate": 1.8156424581005588e-05,
99
+ "loss": 1.4057,
100
+ "step": 130
101
+ },
102
+ {
103
+ "epoch": 0.11754827875734676,
104
+ "grad_norm": 0.23018949408838,
105
+ "learning_rate": 1.9553072625698323e-05,
106
+ "loss": 1.3956,
107
+ "step": 140
108
+ },
109
+ {
110
+ "epoch": 0.12594458438287154,
111
+ "grad_norm": 0.23103802546960453,
112
+ "learning_rate": 2.0949720670391062e-05,
113
+ "loss": 1.4179,
114
+ "step": 150
115
+ },
116
+ {
117
+ "epoch": 0.1343408900083963,
118
+ "grad_norm": 0.2287991193827312,
119
+ "learning_rate": 2.2346368715083797e-05,
120
+ "loss": 1.412,
121
+ "step": 160
122
+ },
123
+ {
124
+ "epoch": 0.14273719563392107,
125
+ "grad_norm": 0.22988402418477955,
126
+ "learning_rate": 2.3743016759776536e-05,
127
+ "loss": 1.39,
128
+ "step": 170
129
+ },
130
+ {
131
+ "epoch": 0.15113350125944586,
132
+ "grad_norm": 0.21974152422479476,
133
+ "learning_rate": 2.5139664804469275e-05,
134
+ "loss": 1.4004,
135
+ "step": 180
136
+ },
137
+ {
138
+ "epoch": 0.15952980688497062,
139
+ "grad_norm": 0.23284763880742212,
140
+ "learning_rate": 2.6536312849162014e-05,
141
+ "loss": 1.386,
142
+ "step": 190
143
+ },
144
+ {
145
+ "epoch": 0.16792611251049538,
146
+ "grad_norm": 0.21486774869633107,
147
+ "learning_rate": 2.793296089385475e-05,
148
+ "loss": 1.4012,
149
+ "step": 200
150
+ },
151
+ {
152
+ "epoch": 0.17632241813602015,
153
+ "grad_norm": 0.22783180948472934,
154
+ "learning_rate": 2.9329608938547488e-05,
155
+ "loss": 1.3707,
156
+ "step": 210
157
+ },
158
+ {
159
+ "epoch": 0.1847187237615449,
160
+ "grad_norm": 0.22399716105168718,
161
+ "learning_rate": 3.0726256983240227e-05,
162
+ "loss": 1.4125,
163
+ "step": 220
164
+ },
165
+ {
166
+ "epoch": 0.19311502938706968,
167
+ "grad_norm": 0.2147254679707046,
168
+ "learning_rate": 3.212290502793296e-05,
169
+ "loss": 1.3699,
170
+ "step": 230
171
+ },
172
+ {
173
+ "epoch": 0.20151133501259447,
174
+ "grad_norm": 0.21426390076476165,
175
+ "learning_rate": 3.35195530726257e-05,
176
+ "loss": 1.374,
177
+ "step": 240
178
+ },
179
+ {
180
+ "epoch": 0.20990764063811923,
181
+ "grad_norm": 0.22424846384922523,
182
+ "learning_rate": 3.491620111731844e-05,
183
+ "loss": 1.3788,
184
+ "step": 250
185
+ },
186
+ {
187
+ "epoch": 0.218303946263644,
188
+ "grad_norm": 0.21440605091273993,
189
+ "learning_rate": 3.6312849162011175e-05,
190
+ "loss": 1.3565,
191
+ "step": 260
192
+ },
193
+ {
194
+ "epoch": 0.22670025188916876,
195
+ "grad_norm": 0.21539799426915837,
196
+ "learning_rate": 3.770949720670392e-05,
197
+ "loss": 1.3521,
198
+ "step": 270
199
+ },
200
+ {
201
+ "epoch": 0.23509655751469352,
202
+ "grad_norm": 0.22056667191105353,
203
+ "learning_rate": 3.9106145251396646e-05,
204
+ "loss": 1.3613,
205
+ "step": 280
206
+ },
207
+ {
208
+ "epoch": 0.2434928631402183,
209
+ "grad_norm": 0.2041245512715553,
210
+ "learning_rate": 4.050279329608939e-05,
211
+ "loss": 1.36,
212
+ "step": 290
213
+ },
214
+ {
215
+ "epoch": 0.2518891687657431,
216
+ "grad_norm": 0.2053261976415489,
217
+ "learning_rate": 4.1899441340782123e-05,
218
+ "loss": 1.3799,
219
+ "step": 300
220
+ },
221
+ {
222
+ "epoch": 0.26028547439126787,
223
+ "grad_norm": 0.20324705222690662,
224
+ "learning_rate": 4.3296089385474866e-05,
225
+ "loss": 1.3797,
226
+ "step": 310
227
+ },
228
+ {
229
+ "epoch": 0.2686817800167926,
230
+ "grad_norm": 0.20526982003231917,
231
+ "learning_rate": 4.4692737430167594e-05,
232
+ "loss": 1.3675,
233
+ "step": 320
234
+ },
235
+ {
236
+ "epoch": 0.2770780856423174,
237
+ "grad_norm": 0.20273779659012153,
238
+ "learning_rate": 4.6089385474860336e-05,
239
+ "loss": 1.3888,
240
+ "step": 330
241
+ },
242
+ {
243
+ "epoch": 0.28547439126784213,
244
+ "grad_norm": 0.2061146702772721,
245
+ "learning_rate": 4.748603351955307e-05,
246
+ "loss": 1.3626,
247
+ "step": 340
248
+ },
249
+ {
250
+ "epoch": 0.2938706968933669,
251
+ "grad_norm": 0.18820362655678458,
252
+ "learning_rate": 4.8882681564245814e-05,
253
+ "loss": 1.3598,
254
+ "step": 350
255
+ },
256
+ {
257
+ "epoch": 0.3022670025188917,
258
+ "grad_norm": 0.21352845647640323,
259
+ "learning_rate": 4.9999952257225154e-05,
260
+ "loss": 1.3933,
261
+ "step": 360
262
+ },
263
+ {
264
+ "epoch": 0.31066330814441645,
265
+ "grad_norm": 0.21205929000762902,
266
+ "learning_rate": 4.9998281279252004e-05,
267
+ "loss": 1.3723,
268
+ "step": 370
269
+ },
270
+ {
271
+ "epoch": 0.31905961376994124,
272
+ "grad_norm": 0.20026396935477256,
273
+ "learning_rate": 4.9994223344882976e-05,
274
+ "loss": 1.3889,
275
+ "step": 380
276
+ },
277
+ {
278
+ "epoch": 0.327455919395466,
279
+ "grad_norm": 0.2027355098630582,
280
+ "learning_rate": 4.9987778841589184e-05,
281
+ "loss": 1.3757,
282
+ "step": 390
283
+ },
284
+ {
285
+ "epoch": 0.33585222502099077,
286
+ "grad_norm": 0.1917389523789995,
287
+ "learning_rate": 4.997894838472288e-05,
288
+ "loss": 1.3602,
289
+ "step": 400
290
+ },
291
+ {
292
+ "epoch": 0.34424853064651556,
293
+ "grad_norm": 0.19386030500153506,
294
+ "learning_rate": 4.996773281745864e-05,
295
+ "loss": 1.3483,
296
+ "step": 410
297
+ },
298
+ {
299
+ "epoch": 0.3526448362720403,
300
+ "grad_norm": 0.18924586602111995,
301
+ "learning_rate": 4.9954133210712904e-05,
302
+ "loss": 1.3773,
303
+ "step": 420
304
+ },
305
+ {
306
+ "epoch": 0.3610411418975651,
307
+ "grad_norm": 0.19404566415989755,
308
+ "learning_rate": 4.9938150863041666e-05,
309
+ "loss": 1.3817,
310
+ "step": 430
311
+ },
312
+ {
313
+ "epoch": 0.3694374475230898,
314
+ "grad_norm": 0.1864716184637937,
315
+ "learning_rate": 4.991978730051653e-05,
316
+ "loss": 1.3436,
317
+ "step": 440
318
+ },
319
+ {
320
+ "epoch": 0.3778337531486146,
321
+ "grad_norm": 0.18756275917822954,
322
+ "learning_rate": 4.9899044276578956e-05,
323
+ "loss": 1.376,
324
+ "step": 450
325
+ },
326
+ {
327
+ "epoch": 0.38623005877413935,
328
+ "grad_norm": 0.19103603911697656,
329
+ "learning_rate": 4.987592377187286e-05,
330
+ "loss": 1.3699,
331
+ "step": 460
332
+ },
333
+ {
334
+ "epoch": 0.39462636439966414,
335
+ "grad_norm": 0.19933360659538543,
336
+ "learning_rate": 4.985042799405547e-05,
337
+ "loss": 1.3831,
338
+ "step": 470
339
+ },
340
+ {
341
+ "epoch": 0.40302267002518893,
342
+ "grad_norm": 0.19498666555973088,
343
+ "learning_rate": 4.982255937758657e-05,
344
+ "loss": 1.3579,
345
+ "step": 480
346
+ },
347
+ {
348
+ "epoch": 0.41141897565071367,
349
+ "grad_norm": 0.19300141279658406,
350
+ "learning_rate": 4.9792320583495975e-05,
351
+ "loss": 1.348,
352
+ "step": 490
353
+ },
354
+ {
355
+ "epoch": 0.41981528127623846,
356
+ "grad_norm": 0.19742724416821206,
357
+ "learning_rate": 4.975971449912952e-05,
358
+ "loss": 1.3474,
359
+ "step": 500
360
+ },
361
+ {
362
+ "epoch": 0.4282115869017632,
363
+ "grad_norm": 0.19421992100107466,
364
+ "learning_rate": 4.972474423787331e-05,
365
+ "loss": 1.3609,
366
+ "step": 510
367
+ },
368
+ {
369
+ "epoch": 0.436607892527288,
370
+ "grad_norm": 0.2078937193948646,
371
+ "learning_rate": 4.9687413138856446e-05,
372
+ "loss": 1.3829,
373
+ "step": 520
374
+ },
375
+ {
376
+ "epoch": 0.4450041981528128,
377
+ "grad_norm": 0.19272346953581754,
378
+ "learning_rate": 4.964772476663222e-05,
379
+ "loss": 1.3554,
380
+ "step": 530
381
+ },
382
+ {
383
+ "epoch": 0.4534005037783375,
384
+ "grad_norm": 0.19281909541060518,
385
+ "learning_rate": 4.960568291083772e-05,
386
+ "loss": 1.3515,
387
+ "step": 540
388
+ },
389
+ {
390
+ "epoch": 0.4617968094038623,
391
+ "grad_norm": 0.19781631242122302,
392
+ "learning_rate": 4.956129158583199e-05,
393
+ "loss": 1.3547,
394
+ "step": 550
395
+ },
396
+ {
397
+ "epoch": 0.47019311502938704,
398
+ "grad_norm": 0.21165698099082017,
399
+ "learning_rate": 4.951455503031271e-05,
400
+ "loss": 1.329,
401
+ "step": 560
402
+ },
403
+ {
404
+ "epoch": 0.47858942065491183,
405
+ "grad_norm": 0.1954676247733346,
406
+ "learning_rate": 4.946547770691152e-05,
407
+ "loss": 1.3547,
408
+ "step": 570
409
+ },
410
+ {
411
+ "epoch": 0.4869857262804366,
412
+ "grad_norm": 0.1934746445894875,
413
+ "learning_rate": 4.9414064301767786e-05,
414
+ "loss": 1.3421,
415
+ "step": 580
416
+ },
417
+ {
418
+ "epoch": 0.49538203190596136,
419
+ "grad_norm": 0.19263774524822871,
420
+ "learning_rate": 4.9360319724081285e-05,
421
+ "loss": 1.3576,
422
+ "step": 590
423
+ },
424
+ {
425
+ "epoch": 0.5037783375314862,
426
+ "grad_norm": 0.18876853207737465,
427
+ "learning_rate": 4.930424910564334e-05,
428
+ "loss": 1.3667,
429
+ "step": 600
430
+ },
431
+ {
432
+ "epoch": 0.5037783375314862,
433
+ "eval_loss": 1.3807679414749146,
434
+ "eval_runtime": 37.4693,
435
+ "eval_samples_per_second": 10.275,
436
+ "eval_steps_per_second": 2.589,
437
+ "step": 600
438
+ },
439
+ {
440
+ "epoch": 0.5121746431570109,
441
+ "grad_norm": 0.19209309775474845,
442
+ "learning_rate": 4.92458578003469e-05,
443
+ "loss": 1.3504,
444
+ "step": 610
445
+ },
446
+ {
447
+ "epoch": 0.5205709487825357,
448
+ "grad_norm": 0.19079678945155537,
449
+ "learning_rate": 4.9185151383675246e-05,
450
+ "loss": 1.339,
451
+ "step": 620
452
+ },
453
+ {
454
+ "epoch": 0.5289672544080605,
455
+ "grad_norm": 0.194534067082253,
456
+ "learning_rate": 4.912213565216966e-05,
457
+ "loss": 1.3358,
458
+ "step": 630
459
+ },
460
+ {
461
+ "epoch": 0.5373635600335852,
462
+ "grad_norm": 0.19307901988822676,
463
+ "learning_rate": 4.905681662287595e-05,
464
+ "loss": 1.3708,
465
+ "step": 640
466
+ },
467
+ {
468
+ "epoch": 0.5457598656591099,
469
+ "grad_norm": 0.1990057756809498,
470
+ "learning_rate": 4.898920053276989e-05,
471
+ "loss": 1.363,
472
+ "step": 650
473
+ },
474
+ {
475
+ "epoch": 0.5541561712846348,
476
+ "grad_norm": 0.2010697996628507,
477
+ "learning_rate": 4.891929383816169e-05,
478
+ "loss": 1.3993,
479
+ "step": 660
480
+ },
481
+ {
482
+ "epoch": 0.5625524769101595,
483
+ "grad_norm": 0.20209675418432702,
484
+ "learning_rate": 4.8847103214079524e-05,
485
+ "loss": 1.351,
486
+ "step": 670
487
+ },
488
+ {
489
+ "epoch": 0.5709487825356843,
490
+ "grad_norm": 0.20138078865908093,
491
+ "learning_rate": 4.877263555363216e-05,
492
+ "loss": 1.3494,
493
+ "step": 680
494
+ },
495
+ {
496
+ "epoch": 0.5793450881612091,
497
+ "grad_norm": 0.20340329720637837,
498
+ "learning_rate": 4.869589796735078e-05,
499
+ "loss": 1.3699,
500
+ "step": 690
501
+ },
502
+ {
503
+ "epoch": 0.5877413937867338,
504
+ "grad_norm": 0.18554034872359323,
505
+ "learning_rate": 4.8616897782510006e-05,
506
+ "loss": 1.3358,
507
+ "step": 700
508
+ },
509
+ {
510
+ "epoch": 0.5961376994122586,
511
+ "grad_norm": 0.20470702291536869,
512
+ "learning_rate": 4.853564254242831e-05,
513
+ "loss": 1.3417,
514
+ "step": 710
515
+ },
516
+ {
517
+ "epoch": 0.6045340050377834,
518
+ "grad_norm": 0.20233392948438,
519
+ "learning_rate": 4.845214000574768e-05,
520
+ "loss": 1.3633,
521
+ "step": 720
522
+ },
523
+ {
524
+ "epoch": 0.6129303106633082,
525
+ "grad_norm": 0.19552940545300115,
526
+ "learning_rate": 4.8366398145692824e-05,
527
+ "loss": 1.3582,
528
+ "step": 730
529
+ },
530
+ {
531
+ "epoch": 0.6213266162888329,
532
+ "grad_norm": 0.20658182549440357,
533
+ "learning_rate": 4.827842514930985e-05,
534
+ "loss": 1.3702,
535
+ "step": 740
536
+ },
537
+ {
538
+ "epoch": 0.6297229219143576,
539
+ "grad_norm": 0.2029780054195454,
540
+ "learning_rate": 4.81882294166845e-05,
541
+ "loss": 1.3807,
542
+ "step": 750
543
+ },
544
+ {
545
+ "epoch": 0.6381192275398825,
546
+ "grad_norm": 0.19667484329069757,
547
+ "learning_rate": 4.8095819560140096e-05,
548
+ "loss": 1.3593,
549
+ "step": 760
550
+ },
551
+ {
552
+ "epoch": 0.6465155331654072,
553
+ "grad_norm": 0.2048531959544165,
554
+ "learning_rate": 4.8001204403415204e-05,
555
+ "loss": 1.3583,
556
+ "step": 770
557
+ },
558
+ {
559
+ "epoch": 0.654911838790932,
560
+ "grad_norm": 0.2036838290154731,
561
+ "learning_rate": 4.7904392980821035e-05,
562
+ "loss": 1.3478,
563
+ "step": 780
564
+ },
565
+ {
566
+ "epoch": 0.6633081444164568,
567
+ "grad_norm": 0.20036896998141893,
568
+ "learning_rate": 4.78053945363789e-05,
569
+ "loss": 1.361,
570
+ "step": 790
571
+ },
572
+ {
573
+ "epoch": 0.6717044500419815,
574
+ "grad_norm": 0.19874326596454528,
575
+ "learning_rate": 4.770421852293746e-05,
576
+ "loss": 1.3445,
577
+ "step": 800
578
+ },
579
+ {
580
+ "epoch": 0.6801007556675063,
581
+ "grad_norm": 0.20224592915430473,
582
+ "learning_rate": 4.760087460127019e-05,
583
+ "loss": 1.3328,
584
+ "step": 810
585
+ },
586
+ {
587
+ "epoch": 0.6884970612930311,
588
+ "grad_norm": 0.20341065735706346,
589
+ "learning_rate": 4.749537263915288e-05,
590
+ "loss": 1.327,
591
+ "step": 820
592
+ },
593
+ {
594
+ "epoch": 0.6968933669185559,
595
+ "grad_norm": 0.19878763475266986,
596
+ "learning_rate": 4.7387722710421414e-05,
597
+ "loss": 1.3508,
598
+ "step": 830
599
+ },
600
+ {
601
+ "epoch": 0.7052896725440806,
602
+ "grad_norm": 0.1901873610814321,
603
+ "learning_rate": 4.7277935094009896e-05,
604
+ "loss": 1.331,
605
+ "step": 840
606
+ },
607
+ {
608
+ "epoch": 0.7136859781696053,
609
+ "grad_norm": 0.20858107457668973,
610
+ "learning_rate": 4.716602027296916e-05,
611
+ "loss": 1.3398,
612
+ "step": 850
613
+ },
614
+ {
615
+ "epoch": 0.7220822837951302,
616
+ "grad_norm": 0.2127448740445764,
617
+ "learning_rate": 4.705198893346578e-05,
618
+ "loss": 1.3557,
619
+ "step": 860
620
+ },
621
+ {
622
+ "epoch": 0.7304785894206549,
623
+ "grad_norm": 0.2052323089476111,
624
+ "learning_rate": 4.693585196376171e-05,
625
+ "loss": 1.3422,
626
+ "step": 870
627
+ },
628
+ {
629
+ "epoch": 0.7388748950461796,
630
+ "grad_norm": 0.2034886804011326,
631
+ "learning_rate": 4.681762045317464e-05,
632
+ "loss": 1.3767,
633
+ "step": 880
634
+ },
635
+ {
636
+ "epoch": 0.7472712006717045,
637
+ "grad_norm": 0.20205914104891914,
638
+ "learning_rate": 4.6697305691019105e-05,
639
+ "loss": 1.3459,
640
+ "step": 890
641
+ },
642
+ {
643
+ "epoch": 0.7556675062972292,
644
+ "grad_norm": 0.1947344074048,
645
+ "learning_rate": 4.6574919165528567e-05,
646
+ "loss": 1.3253,
647
+ "step": 900
648
+ },
649
+ {
650
+ "epoch": 0.764063811922754,
651
+ "grad_norm": 0.20617146845645057,
652
+ "learning_rate": 4.645047256275839e-05,
653
+ "loss": 1.3419,
654
+ "step": 910
655
+ },
656
+ {
657
+ "epoch": 0.7724601175482787,
658
+ "grad_norm": 0.19999709652925082,
659
+ "learning_rate": 4.632397776547011e-05,
660
+ "loss": 1.3478,
661
+ "step": 920
662
+ },
663
+ {
664
+ "epoch": 0.7808564231738035,
665
+ "grad_norm": 0.20682503408598918,
666
+ "learning_rate": 4.619544685199669e-05,
667
+ "loss": 1.3391,
668
+ "step": 930
669
+ },
670
+ {
671
+ "epoch": 0.7892527287993283,
672
+ "grad_norm": 0.2111768615345554,
673
+ "learning_rate": 4.6064892095089326e-05,
674
+ "loss": 1.3445,
675
+ "step": 940
676
+ },
677
+ {
678
+ "epoch": 0.797649034424853,
679
+ "grad_norm": 0.2081975290000968,
680
+ "learning_rate": 4.59323259607455e-05,
681
+ "loss": 1.3167,
682
+ "step": 950
683
+ },
684
+ {
685
+ "epoch": 0.8060453400503779,
686
+ "grad_norm": 0.20101213815546085,
687
+ "learning_rate": 4.5797761107018754e-05,
688
+ "loss": 1.3383,
689
+ "step": 960
690
+ },
691
+ {
692
+ "epoch": 0.8144416456759026,
693
+ "grad_norm": 0.2174273103650515,
694
+ "learning_rate": 4.566121038280995e-05,
695
+ "loss": 1.3404,
696
+ "step": 970
697
+ },
698
+ {
699
+ "epoch": 0.8228379513014273,
700
+ "grad_norm": 0.19965611041565887,
701
+ "learning_rate": 4.552268682664045e-05,
702
+ "loss": 1.3333,
703
+ "step": 980
704
+ },
705
+ {
706
+ "epoch": 0.8312342569269522,
707
+ "grad_norm": 0.20691842606557614,
708
+ "learning_rate": 4.538220366540713e-05,
709
+ "loss": 1.3182,
710
+ "step": 990
711
+ },
712
+ {
713
+ "epoch": 0.8396305625524769,
714
+ "grad_norm": 0.21181131160704766,
715
+ "learning_rate": 4.52397743131194e-05,
716
+ "loss": 1.3494,
717
+ "step": 1000
718
+ },
719
+ {
720
+ "epoch": 0.8480268681780017,
721
+ "grad_norm": 0.20088379875239834,
722
+ "learning_rate": 4.509541236961835e-05,
723
+ "loss": 1.3372,
724
+ "step": 1010
725
+ },
726
+ {
727
+ "epoch": 0.8564231738035264,
728
+ "grad_norm": 0.21111113264702316,
729
+ "learning_rate": 4.4949131619278233e-05,
730
+ "loss": 1.3459,
731
+ "step": 1020
732
+ },
733
+ {
734
+ "epoch": 0.8648194794290512,
735
+ "grad_norm": 0.2099829717112053,
736
+ "learning_rate": 4.4800946029690205e-05,
737
+ "loss": 1.3288,
738
+ "step": 1030
739
+ },
740
+ {
741
+ "epoch": 0.873215785054576,
742
+ "grad_norm": 0.217914005065172,
743
+ "learning_rate": 4.465086975032866e-05,
744
+ "loss": 1.3524,
745
+ "step": 1040
746
+ },
747
+ {
748
+ "epoch": 0.8816120906801007,
749
+ "grad_norm": 0.2063304535624245,
750
+ "learning_rate": 4.4498917111200154e-05,
751
+ "loss": 1.3233,
752
+ "step": 1050
753
+ },
754
+ {
755
+ "epoch": 0.8900083963056256,
756
+ "grad_norm": 0.21350579375508957,
757
+ "learning_rate": 4.434510262147514e-05,
758
+ "loss": 1.3486,
759
+ "step": 1060
760
+ },
761
+ {
762
+ "epoch": 0.8984047019311503,
763
+ "grad_norm": 0.2091334109956843,
764
+ "learning_rate": 4.418944096810253e-05,
765
+ "loss": 1.3375,
766
+ "step": 1070
767
+ },
768
+ {
769
+ "epoch": 0.906801007556675,
770
+ "grad_norm": 0.20954696844936122,
771
+ "learning_rate": 4.403194701440733e-05,
772
+ "loss": 1.3428,
773
+ "step": 1080
774
+ },
775
+ {
776
+ "epoch": 0.9151973131821999,
777
+ "grad_norm": 0.21790164835706194,
778
+ "learning_rate": 4.3872635798671384e-05,
779
+ "loss": 1.3312,
780
+ "step": 1090
781
+ },
782
+ {
783
+ "epoch": 0.9235936188077246,
784
+ "grad_norm": 0.21625055602980792,
785
+ "learning_rate": 4.3711522532697526e-05,
786
+ "loss": 1.3268,
787
+ "step": 1100
788
+ },
789
+ {
790
+ "epoch": 0.9319899244332494,
791
+ "grad_norm": 0.21992048192275737,
792
+ "learning_rate": 4.354862260035699e-05,
793
+ "loss": 1.2904,
794
+ "step": 1110
795
+ },
796
+ {
797
+ "epoch": 0.9403862300587741,
798
+ "grad_norm": 0.22805590389300254,
799
+ "learning_rate": 4.338395155612055e-05,
800
+ "loss": 1.3352,
801
+ "step": 1120
802
+ },
803
+ {
804
+ "epoch": 0.9487825356842989,
805
+ "grad_norm": 0.2300433128490517,
806
+ "learning_rate": 4.321752512357328e-05,
807
+ "loss": 1.3327,
808
+ "step": 1130
809
+ },
810
+ {
811
+ "epoch": 0.9571788413098237,
812
+ "grad_norm": 0.2564818367135206,
813
+ "learning_rate": 4.304935919391317e-05,
814
+ "loss": 1.3293,
815
+ "step": 1140
816
+ },
817
+ {
818
+ "epoch": 0.9655751469353484,
819
+ "grad_norm": 0.21597640959608433,
820
+ "learning_rate": 4.2879469824433814e-05,
821
+ "loss": 1.3171,
822
+ "step": 1150
823
+ },
824
+ {
825
+ "epoch": 0.9739714525608733,
826
+ "grad_norm": 0.21055331712423173,
827
+ "learning_rate": 4.2707873236991116e-05,
828
+ "loss": 1.3291,
829
+ "step": 1160
830
+ },
831
+ {
832
+ "epoch": 0.982367758186398,
833
+ "grad_norm": 0.21558556200945594,
834
+ "learning_rate": 4.2534585816454384e-05,
835
+ "loss": 1.2906,
836
+ "step": 1170
837
+ },
838
+ {
839
+ "epoch": 0.9907640638119227,
840
+ "grad_norm": 0.2134813755097652,
841
+ "learning_rate": 4.235962410914185e-05,
842
+ "loss": 1.3516,
843
+ "step": 1180
844
+ },
845
+ {
846
+ "epoch": 0.9991603694374476,
847
+ "grad_norm": 0.22460106184588927,
848
+ "learning_rate": 4.218300482124069e-05,
849
+ "loss": 1.3249,
850
+ "step": 1190
851
+ },
852
+ {
853
+ "epoch": 1.0075566750629723,
854
+ "grad_norm": 0.2510896281590031,
855
+ "learning_rate": 4.2004744817211866e-05,
856
+ "loss": 1.2766,
857
+ "step": 1200
858
+ },
859
+ {
860
+ "epoch": 1.0075566750629723,
861
+ "eval_loss": 1.3506666421890259,
862
+ "eval_runtime": 37.3255,
863
+ "eval_samples_per_second": 10.315,
864
+ "eval_steps_per_second": 2.599,
865
+ "step": 1200
866
+ },
867
+ {
868
+ "epoch": 1.015952980688497,
869
+ "grad_norm": 0.2491416849165635,
870
+ "learning_rate": 4.182486111817983e-05,
871
+ "loss": 1.2816,
872
+ "step": 1210
873
+ },
874
+ {
875
+ "epoch": 1.0243492863140218,
876
+ "grad_norm": 0.2711674700370134,
877
+ "learning_rate": 4.164337090030727e-05,
878
+ "loss": 1.2815,
879
+ "step": 1220
880
+ },
881
+ {
882
+ "epoch": 1.0327455919395465,
883
+ "grad_norm": 0.25237777386220234,
884
+ "learning_rate": 4.146029149315502e-05,
885
+ "loss": 1.2692,
886
+ "step": 1230
887
+ },
888
+ {
889
+ "epoch": 1.0411418975650715,
890
+ "grad_norm": 0.24173423889336904,
891
+ "learning_rate": 4.1275640378027367e-05,
892
+ "loss": 1.2572,
893
+ "step": 1240
894
+ },
895
+ {
896
+ "epoch": 1.0495382031905962,
897
+ "grad_norm": 0.2516517653129535,
898
+ "learning_rate": 4.108943518630287e-05,
899
+ "loss": 1.2636,
900
+ "step": 1250
901
+ },
902
+ {
903
+ "epoch": 1.057934508816121,
904
+ "grad_norm": 0.2663809997677264,
905
+ "learning_rate": 4.09016936977508e-05,
906
+ "loss": 1.246,
907
+ "step": 1260
908
+ },
909
+ {
910
+ "epoch": 1.0663308144416457,
911
+ "grad_norm": 0.2666405948242722,
912
+ "learning_rate": 4.071243383883344e-05,
913
+ "loss": 1.2416,
914
+ "step": 1270
915
+ },
916
+ {
917
+ "epoch": 1.0747271200671704,
918
+ "grad_norm": 0.27372912036143243,
919
+ "learning_rate": 4.052167368099443e-05,
920
+ "loss": 1.2684,
921
+ "step": 1280
922
+ },
923
+ {
924
+ "epoch": 1.0831234256926952,
925
+ "grad_norm": 0.2822619978126531,
926
+ "learning_rate": 4.032943143893315e-05,
927
+ "loss": 1.2679,
928
+ "step": 1290
929
+ },
930
+ {
931
+ "epoch": 1.0915197313182199,
932
+ "grad_norm": 0.2630554056666267,
933
+ "learning_rate": 4.0135725468865545e-05,
934
+ "loss": 1.2801,
935
+ "step": 1300
936
+ },
937
+ {
938
+ "epoch": 1.0999160369437448,
939
+ "grad_norm": 0.27334249585434633,
940
+ "learning_rate": 3.994057426677135e-05,
941
+ "loss": 1.2552,
942
+ "step": 1310
943
+ },
944
+ {
945
+ "epoch": 1.1083123425692696,
946
+ "grad_norm": 0.2751762295182287,
947
+ "learning_rate": 3.974399646662804e-05,
948
+ "loss": 1.2467,
949
+ "step": 1320
950
+ },
951
+ {
952
+ "epoch": 1.1167086481947943,
953
+ "grad_norm": 0.27811851573000057,
954
+ "learning_rate": 3.9546010838631523e-05,
955
+ "loss": 1.2393,
956
+ "step": 1330
957
+ },
958
+ {
959
+ "epoch": 1.125104953820319,
960
+ "grad_norm": 0.2786179703795066,
961
+ "learning_rate": 3.9346636287403936e-05,
962
+ "loss": 1.2413,
963
+ "step": 1340
964
+ },
965
+ {
966
+ "epoch": 1.1335012594458438,
967
+ "grad_norm": 0.2757598420534043,
968
+ "learning_rate": 3.9145891850188446e-05,
969
+ "loss": 1.2344,
970
+ "step": 1350
971
+ },
972
+ {
973
+ "epoch": 1.1418975650713685,
974
+ "grad_norm": 0.2826938023138817,
975
+ "learning_rate": 3.894379669503159e-05,
976
+ "loss": 1.2723,
977
+ "step": 1360
978
+ },
979
+ {
980
+ "epoch": 1.1502938706968933,
981
+ "grad_norm": 0.28640980146174666,
982
+ "learning_rate": 3.874037011895294e-05,
983
+ "loss": 1.2441,
984
+ "step": 1370
985
+ },
986
+ {
987
+ "epoch": 1.1586901763224182,
988
+ "grad_norm": 0.2806223555234711,
989
+ "learning_rate": 3.853563154610255e-05,
990
+ "loss": 1.2599,
991
+ "step": 1380
992
+ },
993
+ {
994
+ "epoch": 1.167086481947943,
995
+ "grad_norm": 0.280705015660275,
996
+ "learning_rate": 3.832960052590626e-05,
997
+ "loss": 1.2596,
998
+ "step": 1390
999
+ },
1000
+ {
1001
+ "epoch": 1.1754827875734677,
1002
+ "grad_norm": 0.2794281887739961,
1003
+ "learning_rate": 3.812229673119902e-05,
1004
+ "loss": 1.2679,
1005
+ "step": 1400
1006
+ },
1007
+ {
1008
+ "epoch": 1.1838790931989924,
1009
+ "grad_norm": 0.29244474520092206,
1010
+ "learning_rate": 3.791373995634641e-05,
1011
+ "loss": 1.2893,
1012
+ "step": 1410
1013
+ },
1014
+ {
1015
+ "epoch": 1.1922753988245172,
1016
+ "grad_norm": 0.27087843377656023,
1017
+ "learning_rate": 3.770395011535459e-05,
1018
+ "loss": 1.2858,
1019
+ "step": 1420
1020
+ },
1021
+ {
1022
+ "epoch": 1.200671704450042,
1023
+ "grad_norm": 0.3084320815357459,
1024
+ "learning_rate": 3.749294723996884e-05,
1025
+ "loss": 1.2544,
1026
+ "step": 1430
1027
+ },
1028
+ {
1029
+ "epoch": 1.2090680100755669,
1030
+ "grad_norm": 0.2970014625754613,
1031
+ "learning_rate": 3.72807514777608e-05,
1032
+ "loss": 1.2406,
1033
+ "step": 1440
1034
+ },
1035
+ {
1036
+ "epoch": 1.2174643157010916,
1037
+ "grad_norm": 0.2858465781764202,
1038
+ "learning_rate": 3.7067383090204696e-05,
1039
+ "loss": 1.2687,
1040
+ "step": 1450
1041
+ },
1042
+ {
1043
+ "epoch": 1.2258606213266163,
1044
+ "grad_norm": 0.29654341377963134,
1045
+ "learning_rate": 3.6852862450742664e-05,
1046
+ "loss": 1.2529,
1047
+ "step": 1460
1048
+ },
1049
+ {
1050
+ "epoch": 1.234256926952141,
1051
+ "grad_norm": 0.2999209714333275,
1052
+ "learning_rate": 3.663721004283942e-05,
1053
+ "loss": 1.2607,
1054
+ "step": 1470
1055
+ },
1056
+ {
1057
+ "epoch": 1.2426532325776658,
1058
+ "grad_norm": 0.32376267785640894,
1059
+ "learning_rate": 3.642044645802638e-05,
1060
+ "loss": 1.2633,
1061
+ "step": 1480
1062
+ },
1063
+ {
1064
+ "epoch": 1.2510495382031905,
1065
+ "grad_norm": 0.2946271678215341,
1066
+ "learning_rate": 3.620259239393549e-05,
1067
+ "loss": 1.2631,
1068
+ "step": 1490
1069
+ },
1070
+ {
1071
+ "epoch": 1.2594458438287153,
1072
+ "grad_norm": 0.29934101463933066,
1073
+ "learning_rate": 3.5983668652322914e-05,
1074
+ "loss": 1.2323,
1075
+ "step": 1500
1076
+ },
1077
+ {
1078
+ "epoch": 1.26784214945424,
1079
+ "grad_norm": 0.3058737589423296,
1080
+ "learning_rate": 3.576369613708278e-05,
1081
+ "loss": 1.2499,
1082
+ "step": 1510
1083
+ },
1084
+ {
1085
+ "epoch": 1.276238455079765,
1086
+ "grad_norm": 0.294073209044752,
1087
+ "learning_rate": 3.554269585225117e-05,
1088
+ "loss": 1.2623,
1089
+ "step": 1520
1090
+ },
1091
+ {
1092
+ "epoch": 1.2846347607052897,
1093
+ "grad_norm": 0.3133601837566205,
1094
+ "learning_rate": 3.532068890000059e-05,
1095
+ "loss": 1.25,
1096
+ "step": 1530
1097
+ },
1098
+ {
1099
+ "epoch": 1.2930310663308144,
1100
+ "grad_norm": 0.3030161218843826,
1101
+ "learning_rate": 3.5097696478624956e-05,
1102
+ "loss": 1.2615,
1103
+ "step": 1540
1104
+ },
1105
+ {
1106
+ "epoch": 1.3014273719563392,
1107
+ "grad_norm": 0.2944854213261804,
1108
+ "learning_rate": 3.487373988051556e-05,
1109
+ "loss": 1.2577,
1110
+ "step": 1550
1111
+ },
1112
+ {
1113
+ "epoch": 1.309823677581864,
1114
+ "grad_norm": 0.3198932031443526,
1115
+ "learning_rate": 3.464884049012794e-05,
1116
+ "loss": 1.2252,
1117
+ "step": 1560
1118
+ },
1119
+ {
1120
+ "epoch": 1.3182199832073889,
1121
+ "grad_norm": 0.3075614601508588,
1122
+ "learning_rate": 3.442301978193996e-05,
1123
+ "loss": 1.2333,
1124
+ "step": 1570
1125
+ },
1126
+ {
1127
+ "epoch": 1.3266162888329136,
1128
+ "grad_norm": 0.3025833538356648,
1129
+ "learning_rate": 3.419629931840137e-05,
1130
+ "loss": 1.2309,
1131
+ "step": 1580
1132
+ },
1133
+ {
1134
+ "epoch": 1.3350125944584383,
1135
+ "grad_norm": 0.33238464076222285,
1136
+ "learning_rate": 3.396870074787489e-05,
1137
+ "loss": 1.2347,
1138
+ "step": 1590
1139
+ },
1140
+ {
1141
+ "epoch": 1.343408900083963,
1142
+ "grad_norm": 0.33142866431526025,
1143
+ "learning_rate": 3.374024580256913e-05,
1144
+ "loss": 1.2278,
1145
+ "step": 1600
1146
+ },
1147
+ {
1148
+ "epoch": 1.3518052057094878,
1149
+ "grad_norm": 0.3068832931071064,
1150
+ "learning_rate": 3.351095629646348e-05,
1151
+ "loss": 1.2459,
1152
+ "step": 1610
1153
+ },
1154
+ {
1155
+ "epoch": 1.3602015113350125,
1156
+ "grad_norm": 0.32787598875401036,
1157
+ "learning_rate": 3.3280854123225245e-05,
1158
+ "loss": 1.2567,
1159
+ "step": 1620
1160
+ },
1161
+ {
1162
+ "epoch": 1.3685978169605373,
1163
+ "grad_norm": 0.334986160782939,
1164
+ "learning_rate": 3.3049961254119077e-05,
1165
+ "loss": 1.2427,
1166
+ "step": 1630
1167
+ },
1168
+ {
1169
+ "epoch": 1.376994122586062,
1170
+ "grad_norm": 0.3257919179674348,
1171
+ "learning_rate": 3.281829973590909e-05,
1172
+ "loss": 1.2292,
1173
+ "step": 1640
1174
+ },
1175
+ {
1176
+ "epoch": 1.385390428211587,
1177
+ "grad_norm": 0.33488335118724716,
1178
+ "learning_rate": 3.258589168875373e-05,
1179
+ "loss": 1.2231,
1180
+ "step": 1650
1181
+ },
1182
+ {
1183
+ "epoch": 1.3937867338371117,
1184
+ "grad_norm": 0.29956276796558484,
1185
+ "learning_rate": 3.2352759304093624e-05,
1186
+ "loss": 1.2399,
1187
+ "step": 1660
1188
+ },
1189
+ {
1190
+ "epoch": 1.4021830394626364,
1191
+ "grad_norm": 0.32793658183091984,
1192
+ "learning_rate": 3.211892484253261e-05,
1193
+ "loss": 1.2786,
1194
+ "step": 1670
1195
+ },
1196
+ {
1197
+ "epoch": 1.4105793450881612,
1198
+ "grad_norm": 0.3437947332874714,
1199
+ "learning_rate": 3.1884410631712235e-05,
1200
+ "loss": 1.2423,
1201
+ "step": 1680
1202
+ },
1203
+ {
1204
+ "epoch": 1.418975650713686,
1205
+ "grad_norm": 0.32417782627379454,
1206
+ "learning_rate": 3.164923906417979e-05,
1207
+ "loss": 1.2399,
1208
+ "step": 1690
1209
+ },
1210
+ {
1211
+ "epoch": 1.4273719563392109,
1212
+ "grad_norm": 0.32303675587973024,
1213
+ "learning_rate": 3.1413432595250134e-05,
1214
+ "loss": 1.2575,
1215
+ "step": 1700
1216
+ },
1217
+ {
1218
+ "epoch": 1.4357682619647356,
1219
+ "grad_norm": 0.3107110639387478,
1220
+ "learning_rate": 3.117701374086158e-05,
1221
+ "loss": 1.2155,
1222
+ "step": 1710
1223
+ },
1224
+ {
1225
+ "epoch": 1.4441645675902604,
1226
+ "grad_norm": 0.31980715839644586,
1227
+ "learning_rate": 3.094000507542595e-05,
1228
+ "loss": 1.2561,
1229
+ "step": 1720
1230
+ },
1231
+ {
1232
+ "epoch": 1.452560873215785,
1233
+ "grad_norm": 0.3452092427446392,
1234
+ "learning_rate": 3.07024292296731e-05,
1235
+ "loss": 1.2389,
1236
+ "step": 1730
1237
+ },
1238
+ {
1239
+ "epoch": 1.4609571788413098,
1240
+ "grad_norm": 0.34168169619885197,
1241
+ "learning_rate": 3.0464308888489936e-05,
1242
+ "loss": 1.2323,
1243
+ "step": 1740
1244
+ },
1245
+ {
1246
+ "epoch": 1.4693534844668346,
1247
+ "grad_norm": 0.33064208693690544,
1248
+ "learning_rate": 3.022566678875446e-05,
1249
+ "loss": 1.228,
1250
+ "step": 1750
1251
+ },
1252
+ {
1253
+ "epoch": 1.4777497900923593,
1254
+ "grad_norm": 0.3362430973154644,
1255
+ "learning_rate": 2.9986525717164694e-05,
1256
+ "loss": 1.2025,
1257
+ "step": 1760
1258
+ },
1259
+ {
1260
+ "epoch": 1.486146095717884,
1261
+ "grad_norm": 0.34796677921939057,
1262
+ "learning_rate": 2.974690850806287e-05,
1263
+ "loss": 1.2585,
1264
+ "step": 1770
1265
+ },
1266
+ {
1267
+ "epoch": 1.4945424013434088,
1268
+ "grad_norm": 0.31369265907711963,
1269
+ "learning_rate": 2.9506838041255147e-05,
1270
+ "loss": 1.2438,
1271
+ "step": 1780
1272
+ },
1273
+ {
1274
+ "epoch": 1.5029387069689337,
1275
+ "grad_norm": 0.35233288464429297,
1276
+ "learning_rate": 2.926633723982692e-05,
1277
+ "loss": 1.23,
1278
+ "step": 1790
1279
+ },
1280
+ {
1281
+ "epoch": 1.5113350125944585,
1282
+ "grad_norm": 0.33824484157682727,
1283
+ "learning_rate": 2.9025429067953975e-05,
1284
+ "loss": 1.2089,
1285
+ "step": 1800
1286
+ },
1287
+ {
1288
+ "epoch": 1.5113350125944585,
1289
+ "eval_loss": 1.3161499500274658,
1290
+ "eval_runtime": 37.5007,
1291
+ "eval_samples_per_second": 10.266,
1292
+ "eval_steps_per_second": 2.587,
1293
+ "step": 1800
1294
+ },
1295
+ {
1296
+ "epoch": 1.5197313182199832,
1297
+ "grad_norm": 0.3450077958737747,
1298
+ "learning_rate": 2.878413652870983e-05,
1299
+ "loss": 1.2452,
1300
+ "step": 1810
1301
+ },
1302
+ {
1303
+ "epoch": 1.528127623845508,
1304
+ "grad_norm": 0.3401369524359448,
1305
+ "learning_rate": 2.8542482661869228e-05,
1306
+ "loss": 1.2335,
1307
+ "step": 1820
1308
+ },
1309
+ {
1310
+ "epoch": 1.536523929471033,
1311
+ "grad_norm": 0.35772471665666244,
1312
+ "learning_rate": 2.8300490541708226e-05,
1313
+ "loss": 1.2107,
1314
+ "step": 1830
1315
+ },
1316
+ {
1317
+ "epoch": 1.5449202350965576,
1318
+ "grad_norm": 0.36182719622922654,
1319
+ "learning_rate": 2.8058183274800933e-05,
1320
+ "loss": 1.2323,
1321
+ "step": 1840
1322
+ },
1323
+ {
1324
+ "epoch": 1.5533165407220824,
1325
+ "grad_norm": 0.3427498080631671,
1326
+ "learning_rate": 2.7815583997813176e-05,
1327
+ "loss": 1.2208,
1328
+ "step": 1850
1329
+ },
1330
+ {
1331
+ "epoch": 1.561712846347607,
1332
+ "grad_norm": 0.3416312895125341,
1333
+ "learning_rate": 2.7572715875293336e-05,
1334
+ "loss": 1.2519,
1335
+ "step": 1860
1336
+ },
1337
+ {
1338
+ "epoch": 1.5701091519731318,
1339
+ "grad_norm": 0.34134497126888136,
1340
+ "learning_rate": 2.7329602097460453e-05,
1341
+ "loss": 1.2072,
1342
+ "step": 1870
1343
+ },
1344
+ {
1345
+ "epoch": 1.5785054575986566,
1346
+ "grad_norm": 0.3414019695200471,
1347
+ "learning_rate": 2.7086265877989907e-05,
1348
+ "loss": 1.2171,
1349
+ "step": 1880
1350
+ },
1351
+ {
1352
+ "epoch": 1.5869017632241813,
1353
+ "grad_norm": 0.3493625784848411,
1354
+ "learning_rate": 2.68427304517969e-05,
1355
+ "loss": 1.2032,
1356
+ "step": 1890
1357
+ },
1358
+ {
1359
+ "epoch": 1.595298068849706,
1360
+ "grad_norm": 0.3432387874546048,
1361
+ "learning_rate": 2.6599019072817823e-05,
1362
+ "loss": 1.2233,
1363
+ "step": 1900
1364
+ },
1365
+ {
1366
+ "epoch": 1.6036943744752308,
1367
+ "grad_norm": 0.34931851248995316,
1368
+ "learning_rate": 2.6355155011789918e-05,
1369
+ "loss": 1.2302,
1370
+ "step": 1910
1371
+ },
1372
+ {
1373
+ "epoch": 1.6120906801007555,
1374
+ "grad_norm": 0.3423165132865183,
1375
+ "learning_rate": 2.6111161554029216e-05,
1376
+ "loss": 1.2237,
1377
+ "step": 1920
1378
+ },
1379
+ {
1380
+ "epoch": 1.6204869857262805,
1381
+ "grad_norm": 0.3286103317410491,
1382
+ "learning_rate": 2.5867061997207208e-05,
1383
+ "loss": 1.2373,
1384
+ "step": 1930
1385
+ },
1386
+ {
1387
+ "epoch": 1.6288832913518052,
1388
+ "grad_norm": 0.34439194836734,
1389
+ "learning_rate": 2.5622879649126204e-05,
1390
+ "loss": 1.2366,
1391
+ "step": 1940
1392
+ },
1393
+ {
1394
+ "epoch": 1.63727959697733,
1395
+ "grad_norm": 0.37147052522944746,
1396
+ "learning_rate": 2.5378637825493827e-05,
1397
+ "loss": 1.2175,
1398
+ "step": 1950
1399
+ },
1400
+ {
1401
+ "epoch": 1.645675902602855,
1402
+ "grad_norm": 0.3720397203000226,
1403
+ "learning_rate": 2.5134359847696725e-05,
1404
+ "loss": 1.2226,
1405
+ "step": 1960
1406
+ },
1407
+ {
1408
+ "epoch": 1.6540722082283796,
1409
+ "grad_norm": 0.372249827112124,
1410
+ "learning_rate": 2.48900690405737e-05,
1411
+ "loss": 1.2354,
1412
+ "step": 1970
1413
+ },
1414
+ {
1415
+ "epoch": 1.6624685138539044,
1416
+ "grad_norm": 0.32759893432286225,
1417
+ "learning_rate": 2.4645788730188595e-05,
1418
+ "loss": 1.2346,
1419
+ "step": 1980
1420
+ },
1421
+ {
1422
+ "epoch": 1.670864819479429,
1423
+ "grad_norm": 0.36258855898143105,
1424
+ "learning_rate": 2.4401542241602936e-05,
1425
+ "loss": 1.2266,
1426
+ "step": 1990
1427
+ },
1428
+ {
1429
+ "epoch": 1.6792611251049538,
1430
+ "grad_norm": 0.35828351901418637,
1431
+ "learning_rate": 2.4157352896648785e-05,
1432
+ "loss": 1.2489,
1433
+ "step": 2000
1434
+ },
1435
+ {
1436
+ "epoch": 1.6876574307304786,
1437
+ "grad_norm": 0.3547226628271256,
1438
+ "learning_rate": 2.391324401170189e-05,
1439
+ "loss": 1.2321,
1440
+ "step": 2010
1441
+ },
1442
+ {
1443
+ "epoch": 1.6960537363560033,
1444
+ "grad_norm": 0.37844822229404196,
1445
+ "learning_rate": 2.3669238895455257e-05,
1446
+ "loss": 1.2133,
1447
+ "step": 2020
1448
+ },
1449
+ {
1450
+ "epoch": 1.704450041981528,
1451
+ "grad_norm": 0.36535971407503814,
1452
+ "learning_rate": 2.3425360846693546e-05,
1453
+ "loss": 1.1832,
1454
+ "step": 2030
1455
+ },
1456
+ {
1457
+ "epoch": 1.7128463476070528,
1458
+ "grad_norm": 0.351966888983441,
1459
+ "learning_rate": 2.3181633152068444e-05,
1460
+ "loss": 1.1978,
1461
+ "step": 2040
1462
+ },
1463
+ {
1464
+ "epoch": 1.7212426532325775,
1465
+ "grad_norm": 0.35857960344757944,
1466
+ "learning_rate": 2.293807908387507e-05,
1467
+ "loss": 1.2274,
1468
+ "step": 2050
1469
+ },
1470
+ {
1471
+ "epoch": 1.7296389588581025,
1472
+ "grad_norm": 0.36067730619373684,
1473
+ "learning_rate": 2.269472189782984e-05,
1474
+ "loss": 1.2107,
1475
+ "step": 2060
1476
+ },
1477
+ {
1478
+ "epoch": 1.7380352644836272,
1479
+ "grad_norm": 0.3686118668283621,
1480
+ "learning_rate": 2.2451584830849963e-05,
1481
+ "loss": 1.2453,
1482
+ "step": 2070
1483
+ },
1484
+ {
1485
+ "epoch": 1.746431570109152,
1486
+ "grad_norm": 0.3574767970991608,
1487
+ "learning_rate": 2.2208691098834574e-05,
1488
+ "loss": 1.2112,
1489
+ "step": 2080
1490
+ },
1491
+ {
1492
+ "epoch": 1.7548278757346767,
1493
+ "grad_norm": 0.3649596547435675,
1494
+ "learning_rate": 2.196606389444802e-05,
1495
+ "loss": 1.2301,
1496
+ "step": 2090
1497
+ },
1498
+ {
1499
+ "epoch": 1.7632241813602016,
1500
+ "grad_norm": 0.35608820401696456,
1501
+ "learning_rate": 2.1723726384905332e-05,
1502
+ "loss": 1.2254,
1503
+ "step": 2100
1504
+ },
1505
+ {
1506
+ "epoch": 1.7716204869857264,
1507
+ "grad_norm": 0.3903682280760152,
1508
+ "learning_rate": 2.1481701709760054e-05,
1509
+ "loss": 1.2191,
1510
+ "step": 2110
1511
+ },
1512
+ {
1513
+ "epoch": 1.7800167926112511,
1514
+ "grad_norm": 0.3700744583799887,
1515
+ "learning_rate": 2.1240012978694786e-05,
1516
+ "loss": 1.1897,
1517
+ "step": 2120
1518
+ },
1519
+ {
1520
+ "epoch": 1.7884130982367759,
1521
+ "grad_norm": 0.3678524367281197,
1522
+ "learning_rate": 2.0998683269314613e-05,
1523
+ "loss": 1.1936,
1524
+ "step": 2130
1525
+ },
1526
+ {
1527
+ "epoch": 1.7968094038623006,
1528
+ "grad_norm": 0.39001676927124185,
1529
+ "learning_rate": 2.0757735624943448e-05,
1530
+ "loss": 1.2248,
1531
+ "step": 2140
1532
+ },
1533
+ {
1534
+ "epoch": 1.8052057094878253,
1535
+ "grad_norm": 0.39780376699395825,
1536
+ "learning_rate": 2.0517193052423823e-05,
1537
+ "loss": 1.2022,
1538
+ "step": 2150
1539
+ },
1540
+ {
1541
+ "epoch": 1.81360201511335,
1542
+ "grad_norm": 0.380325076212259,
1543
+ "learning_rate": 2.0277078519920044e-05,
1544
+ "loss": 1.1938,
1545
+ "step": 2160
1546
+ },
1547
+ {
1548
+ "epoch": 1.8219983207388748,
1549
+ "grad_norm": 0.3871471596296449,
1550
+ "learning_rate": 2.0037414954725117e-05,
1551
+ "loss": 1.1825,
1552
+ "step": 2170
1553
+ },
1554
+ {
1555
+ "epoch": 1.8303946263643995,
1556
+ "grad_norm": 0.37964701587107547,
1557
+ "learning_rate": 1.979822524107148e-05,
1558
+ "loss": 1.2092,
1559
+ "step": 2180
1560
+ },
1561
+ {
1562
+ "epoch": 1.8387909319899243,
1563
+ "grad_norm": 0.36807392164929836,
1564
+ "learning_rate": 1.9559532217945974e-05,
1565
+ "loss": 1.2378,
1566
+ "step": 2190
1567
+ },
1568
+ {
1569
+ "epoch": 1.8471872376154492,
1570
+ "grad_norm": 0.3558532380492764,
1571
+ "learning_rate": 1.932135867690901e-05,
1572
+ "loss": 1.2142,
1573
+ "step": 2200
1574
+ },
1575
+ {
1576
+ "epoch": 1.855583543240974,
1577
+ "grad_norm": 0.3795291868557196,
1578
+ "learning_rate": 1.908372735991836e-05,
1579
+ "loss": 1.2003,
1580
+ "step": 2210
1581
+ },
1582
+ {
1583
+ "epoch": 1.8639798488664987,
1584
+ "grad_norm": 0.3698629794511824,
1585
+ "learning_rate": 1.8846660957157626e-05,
1586
+ "loss": 1.2279,
1587
+ "step": 2220
1588
+ },
1589
+ {
1590
+ "epoch": 1.8723761544920237,
1591
+ "grad_norm": 0.37197609159817596,
1592
+ "learning_rate": 1.8610182104869676e-05,
1593
+ "loss": 1.2175,
1594
+ "step": 2230
1595
+ },
1596
+ {
1597
+ "epoch": 1.8807724601175484,
1598
+ "grad_norm": 0.39691535067925626,
1599
+ "learning_rate": 1.837431338319523e-05,
1600
+ "loss": 1.1965,
1601
+ "step": 2240
1602
+ },
1603
+ {
1604
+ "epoch": 1.8891687657430731,
1605
+ "grad_norm": 0.39830491258185996,
1606
+ "learning_rate": 1.813907731401677e-05,
1607
+ "loss": 1.2082,
1608
+ "step": 2250
1609
+ },
1610
+ {
1611
+ "epoch": 1.8975650713685979,
1612
+ "grad_norm": 0.40042636908106866,
1613
+ "learning_rate": 1.790449635880813e-05,
1614
+ "loss": 1.1969,
1615
+ "step": 2260
1616
+ },
1617
+ {
1618
+ "epoch": 1.9059613769941226,
1619
+ "grad_norm": 0.3631756871613192,
1620
+ "learning_rate": 1.7670592916489637e-05,
1621
+ "loss": 1.2094,
1622
+ "step": 2270
1623
+ },
1624
+ {
1625
+ "epoch": 1.9143576826196473,
1626
+ "grad_norm": 0.41767311488963316,
1627
+ "learning_rate": 1.743738932128945e-05,
1628
+ "loss": 1.2171,
1629
+ "step": 2280
1630
+ },
1631
+ {
1632
+ "epoch": 1.922753988245172,
1633
+ "grad_norm": 0.42201095235456104,
1634
+ "learning_rate": 1.7204907840610968e-05,
1635
+ "loss": 1.1902,
1636
+ "step": 2290
1637
+ },
1638
+ {
1639
+ "epoch": 1.9311502938706968,
1640
+ "grad_norm": 0.38604694393746347,
1641
+ "learning_rate": 1.6973170672906592e-05,
1642
+ "loss": 1.1915,
1643
+ "step": 2300
1644
+ },
1645
+ {
1646
+ "epoch": 1.9395465994962215,
1647
+ "grad_norm": 0.3699669985546787,
1648
+ "learning_rate": 1.6742199945558116e-05,
1649
+ "loss": 1.2018,
1650
+ "step": 2310
1651
+ },
1652
+ {
1653
+ "epoch": 1.9479429051217463,
1654
+ "grad_norm": 0.3862222953863642,
1655
+ "learning_rate": 1.651201771276397e-05,
1656
+ "loss": 1.1742,
1657
+ "step": 2320
1658
+ },
1659
+ {
1660
+ "epoch": 1.9563392107472712,
1661
+ "grad_norm": 0.4294759850725183,
1662
+ "learning_rate": 1.6282645953433278e-05,
1663
+ "loss": 1.2024,
1664
+ "step": 2330
1665
+ },
1666
+ {
1667
+ "epoch": 1.964735516372796,
1668
+ "grad_norm": 0.4231278271726052,
1669
+ "learning_rate": 1.6054106569087247e-05,
1670
+ "loss": 1.2072,
1671
+ "step": 2340
1672
+ },
1673
+ {
1674
+ "epoch": 1.9731318219983207,
1675
+ "grad_norm": 0.40525859849828033,
1676
+ "learning_rate": 1.5826421381767943e-05,
1677
+ "loss": 1.1996,
1678
+ "step": 2350
1679
+ },
1680
+ {
1681
+ "epoch": 1.9815281276238457,
1682
+ "grad_norm": 0.41477520137980894,
1683
+ "learning_rate": 1.5599612131954562e-05,
1684
+ "loss": 1.1963,
1685
+ "step": 2360
1686
+ },
1687
+ {
1688
+ "epoch": 1.9899244332493704,
1689
+ "grad_norm": 0.4201296814849193,
1690
+ "learning_rate": 1.537370047648755e-05,
1691
+ "loss": 1.1909,
1692
+ "step": 2370
1693
+ },
1694
+ {
1695
+ "epoch": 1.9983207388748951,
1696
+ "grad_norm": 0.39991078592707974,
1697
+ "learning_rate": 1.5148707986500754e-05,
1698
+ "loss": 1.1934,
1699
+ "step": 2380
1700
+ },
1701
+ {
1702
+ "epoch": 2.00671704450042,
1703
+ "grad_norm": 0.542630060134636,
1704
+ "learning_rate": 1.4924656145361642e-05,
1705
+ "loss": 1.1015,
1706
+ "step": 2390
1707
+ },
1708
+ {
1709
+ "epoch": 2.0151133501259446,
1710
+ "grad_norm": 0.44916796266698206,
1711
+ "learning_rate": 1.4701566346619994e-05,
1712
+ "loss": 1.0911,
1713
+ "step": 2400
1714
+ },
1715
+ {
1716
+ "epoch": 2.0151133501259446,
1717
+ "eval_loss": 1.288699746131897,
1718
+ "eval_runtime": 37.7556,
1719
+ "eval_samples_per_second": 10.197,
1720
+ "eval_steps_per_second": 2.569,
1721
+ "step": 2400
1722
+ },
1723
+ {
1724
+ "epoch": 2.0235096557514693,
1725
+ "grad_norm": 0.44991891228670405,
1726
+ "learning_rate": 1.447945989196518e-05,
1727
+ "loss": 1.0922,
1728
+ "step": 2410
1729
+ },
1730
+ {
1731
+ "epoch": 2.031905961376994,
1732
+ "grad_norm": 0.4773364949208615,
1733
+ "learning_rate": 1.4258357989192089e-05,
1734
+ "loss": 1.0882,
1735
+ "step": 2420
1736
+ },
1737
+ {
1738
+ "epoch": 2.040302267002519,
1739
+ "grad_norm": 0.47709647551922374,
1740
+ "learning_rate": 1.403828175017618e-05,
1741
+ "loss": 1.0976,
1742
+ "step": 2430
1743
+ },
1744
+ {
1745
+ "epoch": 2.0486985726280436,
1746
+ "grad_norm": 0.5391514428897679,
1747
+ "learning_rate": 1.381925218885759e-05,
1748
+ "loss": 1.0999,
1749
+ "step": 2440
1750
+ },
1751
+ {
1752
+ "epoch": 2.0570948782535683,
1753
+ "grad_norm": 0.482275832558956,
1754
+ "learning_rate": 1.3601290219234642e-05,
1755
+ "loss": 1.0848,
1756
+ "step": 2450
1757
+ },
1758
+ {
1759
+ "epoch": 2.065491183879093,
1760
+ "grad_norm": 0.4879837972652172,
1761
+ "learning_rate": 1.3384416653366796e-05,
1762
+ "loss": 1.1053,
1763
+ "step": 2460
1764
+ },
1765
+ {
1766
+ "epoch": 2.0738874895046178,
1767
+ "grad_norm": 0.5108185234761726,
1768
+ "learning_rate": 1.3168652199387565e-05,
1769
+ "loss": 1.0565,
1770
+ "step": 2470
1771
+ },
1772
+ {
1773
+ "epoch": 2.082283795130143,
1774
+ "grad_norm": 0.47147504315736866,
1775
+ "learning_rate": 1.2954017459527037e-05,
1776
+ "loss": 1.1135,
1777
+ "step": 2480
1778
+ },
1779
+ {
1780
+ "epoch": 2.0906801007556677,
1781
+ "grad_norm": 0.4683105843680792,
1782
+ "learning_rate": 1.2740532928144785e-05,
1783
+ "loss": 1.0978,
1784
+ "step": 2490
1785
+ },
1786
+ {
1787
+ "epoch": 2.0990764063811924,
1788
+ "grad_norm": 0.46420490471813974,
1789
+ "learning_rate": 1.2528218989772928e-05,
1790
+ "loss": 1.0924,
1791
+ "step": 2500
1792
+ },
1793
+ {
1794
+ "epoch": 2.107472712006717,
1795
+ "grad_norm": 0.5116237328178771,
1796
+ "learning_rate": 1.2317095917169729e-05,
1797
+ "loss": 1.1122,
1798
+ "step": 2510
1799
+ },
1800
+ {
1801
+ "epoch": 2.115869017632242,
1802
+ "grad_norm": 0.48364433468846557,
1803
+ "learning_rate": 1.2107183869383817e-05,
1804
+ "loss": 1.0654,
1805
+ "step": 2520
1806
+ },
1807
+ {
1808
+ "epoch": 2.1242653232577666,
1809
+ "grad_norm": 0.47577790302982037,
1810
+ "learning_rate": 1.1898502889829367e-05,
1811
+ "loss": 1.0885,
1812
+ "step": 2530
1813
+ },
1814
+ {
1815
+ "epoch": 2.1326616288832914,
1816
+ "grad_norm": 0.5105053373884131,
1817
+ "learning_rate": 1.1691072904372211e-05,
1818
+ "loss": 1.0814,
1819
+ "step": 2540
1820
+ },
1821
+ {
1822
+ "epoch": 2.141057934508816,
1823
+ "grad_norm": 0.45277641048792205,
1824
+ "learning_rate": 1.1484913719427245e-05,
1825
+ "loss": 1.1074,
1826
+ "step": 2550
1827
+ },
1828
+ {
1829
+ "epoch": 2.149454240134341,
1830
+ "grad_norm": 0.4721310040821966,
1831
+ "learning_rate": 1.1280045020067173e-05,
1832
+ "loss": 1.0624,
1833
+ "step": 2560
1834
+ },
1835
+ {
1836
+ "epoch": 2.1578505457598656,
1837
+ "grad_norm": 0.5264060503334844,
1838
+ "learning_rate": 1.1076486368142974e-05,
1839
+ "loss": 1.075,
1840
+ "step": 2570
1841
+ },
1842
+ {
1843
+ "epoch": 2.1662468513853903,
1844
+ "grad_norm": 0.49378445456124825,
1845
+ "learning_rate": 1.0874257200415921e-05,
1846
+ "loss": 1.1239,
1847
+ "step": 2580
1848
+ },
1849
+ {
1850
+ "epoch": 2.174643157010915,
1851
+ "grad_norm": 0.4696082013605863,
1852
+ "learning_rate": 1.0673376826701764e-05,
1853
+ "loss": 1.0855,
1854
+ "step": 2590
1855
+ },
1856
+ {
1857
+ "epoch": 2.1830394626364398,
1858
+ "grad_norm": 0.520016314444527,
1859
+ "learning_rate": 1.0473864428026903e-05,
1860
+ "loss": 1.0613,
1861
+ "step": 2600
1862
+ },
1863
+ {
1864
+ "epoch": 2.1914357682619645,
1865
+ "grad_norm": 0.5085845086562594,
1866
+ "learning_rate": 1.0275739054796849e-05,
1867
+ "loss": 1.0874,
1868
+ "step": 2610
1869
+ },
1870
+ {
1871
+ "epoch": 2.1998320738874897,
1872
+ "grad_norm": 0.5229182760518745,
1873
+ "learning_rate": 1.0079019624977277e-05,
1874
+ "loss": 1.093,
1875
+ "step": 2620
1876
+ },
1877
+ {
1878
+ "epoch": 2.2082283795130144,
1879
+ "grad_norm": 0.4847844823377718,
1880
+ "learning_rate": 9.883724922287593e-06,
1881
+ "loss": 1.0792,
1882
+ "step": 2630
1883
+ },
1884
+ {
1885
+ "epoch": 2.216624685138539,
1886
+ "grad_norm": 0.4731502709572998,
1887
+ "learning_rate": 9.689873594407398e-06,
1888
+ "loss": 1.0513,
1889
+ "step": 2640
1890
+ },
1891
+ {
1892
+ "epoch": 2.225020990764064,
1893
+ "grad_norm": 0.5138138380876534,
1894
+ "learning_rate": 9.497484151195874e-06,
1895
+ "loss": 1.0663,
1896
+ "step": 2650
1897
+ },
1898
+ {
1899
+ "epoch": 2.2334172963895886,
1900
+ "grad_norm": 0.5026329202465635,
1901
+ "learning_rate": 9.30657496292447e-06,
1902
+ "loss": 1.0787,
1903
+ "step": 2660
1904
+ },
1905
+ {
1906
+ "epoch": 2.2418136020151134,
1907
+ "grad_norm": 0.44925382614215525,
1908
+ "learning_rate": 9.117164258522695e-06,
1909
+ "loss": 1.0579,
1910
+ "step": 2670
1911
+ },
1912
+ {
1913
+ "epoch": 2.250209907640638,
1914
+ "grad_norm": 0.5293508173928859,
1915
+ "learning_rate": 8.929270123837632e-06,
1916
+ "loss": 1.0512,
1917
+ "step": 2680
1918
+ },
1919
+ {
1920
+ "epoch": 2.258606213266163,
1921
+ "grad_norm": 0.5247265106521677,
1922
+ "learning_rate": 8.742910499906973e-06,
1923
+ "loss": 1.0658,
1924
+ "step": 2690
1925
+ },
1926
+ {
1927
+ "epoch": 2.2670025188916876,
1928
+ "grad_norm": 0.5190390778509362,
1929
+ "learning_rate": 8.558103181245921e-06,
1930
+ "loss": 1.0696,
1931
+ "step": 2700
1932
+ },
1933
+ {
1934
+ "epoch": 2.2753988245172123,
1935
+ "grad_norm": 0.55132785975463,
1936
+ "learning_rate": 8.374865814148073e-06,
1937
+ "loss": 1.092,
1938
+ "step": 2710
1939
+ },
1940
+ {
1941
+ "epoch": 2.283795130142737,
1942
+ "grad_norm": 0.5213613994205901,
1943
+ "learning_rate": 8.193215895000526e-06,
1944
+ "loss": 1.0822,
1945
+ "step": 2720
1946
+ },
1947
+ {
1948
+ "epoch": 2.292191435768262,
1949
+ "grad_norm": 0.4796879456796719,
1950
+ "learning_rate": 8.013170768613146e-06,
1951
+ "loss": 1.0568,
1952
+ "step": 2730
1953
+ },
1954
+ {
1955
+ "epoch": 2.3005877413937865,
1956
+ "grad_norm": 0.5385546333675868,
1957
+ "learning_rate": 7.834747626562484e-06,
1958
+ "loss": 1.0731,
1959
+ "step": 2740
1960
+ },
1961
+ {
1962
+ "epoch": 2.3089840470193117,
1963
+ "grad_norm": 0.5377987038023434,
1964
+ "learning_rate": 7.657963505550189e-06,
1965
+ "loss": 1.075,
1966
+ "step": 2750
1967
+ },
1968
+ {
1969
+ "epoch": 2.3173803526448364,
1970
+ "grad_norm": 0.562428992862054,
1971
+ "learning_rate": 7.482835285776305e-06,
1972
+ "loss": 1.0854,
1973
+ "step": 2760
1974
+ },
1975
+ {
1976
+ "epoch": 2.325776658270361,
1977
+ "grad_norm": 0.4988726750554791,
1978
+ "learning_rate": 7.309379689327409e-06,
1979
+ "loss": 1.093,
1980
+ "step": 2770
1981
+ },
1982
+ {
1983
+ "epoch": 2.334172963895886,
1984
+ "grad_norm": 0.5433657502932824,
1985
+ "learning_rate": 7.137613278579964e-06,
1986
+ "loss": 1.0926,
1987
+ "step": 2780
1988
+ },
1989
+ {
1990
+ "epoch": 2.3425692695214106,
1991
+ "grad_norm": 0.5087897129635799,
1992
+ "learning_rate": 6.967552454618839e-06,
1993
+ "loss": 1.1078,
1994
+ "step": 2790
1995
+ },
1996
+ {
1997
+ "epoch": 2.3509655751469354,
1998
+ "grad_norm": 0.5170416004589418,
1999
+ "learning_rate": 6.799213455671255e-06,
2000
+ "loss": 1.0781,
2001
+ "step": 2800
2002
+ },
2003
+ {
2004
+ "epoch": 2.35936188077246,
2005
+ "grad_norm": 0.5063141748122139,
2006
+ "learning_rate": 6.632612355556256e-06,
2007
+ "loss": 1.0824,
2008
+ "step": 2810
2009
+ },
2010
+ {
2011
+ "epoch": 2.367758186397985,
2012
+ "grad_norm": 0.5169250792091412,
2013
+ "learning_rate": 6.467765062149977e-06,
2014
+ "loss": 1.0686,
2015
+ "step": 2820
2016
+ },
2017
+ {
2018
+ "epoch": 2.3761544920235096,
2019
+ "grad_norm": 0.47167776818464224,
2020
+ "learning_rate": 6.304687315866589e-06,
2021
+ "loss": 1.0902,
2022
+ "step": 2830
2023
+ },
2024
+ {
2025
+ "epoch": 2.3845507976490343,
2026
+ "grad_norm": 0.5230768936155751,
2027
+ "learning_rate": 6.143394688155396e-06,
2028
+ "loss": 1.0704,
2029
+ "step": 2840
2030
+ },
2031
+ {
2032
+ "epoch": 2.392947103274559,
2033
+ "grad_norm": 0.5113178637899721,
2034
+ "learning_rate": 5.98390258001397e-06,
2035
+ "loss": 1.0824,
2036
+ "step": 2850
2037
+ },
2038
+ {
2039
+ "epoch": 2.401343408900084,
2040
+ "grad_norm": 0.5008499019390629,
2041
+ "learning_rate": 5.826226220517606e-06,
2042
+ "loss": 1.0549,
2043
+ "step": 2860
2044
+ },
2045
+ {
2046
+ "epoch": 2.4097397145256085,
2047
+ "grad_norm": 0.5530580136554508,
2048
+ "learning_rate": 5.670380665365144e-06,
2049
+ "loss": 1.0999,
2050
+ "step": 2870
2051
+ },
2052
+ {
2053
+ "epoch": 2.4181360201511337,
2054
+ "grad_norm": 0.48265348835919253,
2055
+ "learning_rate": 5.516380795441417e-06,
2056
+ "loss": 1.0929,
2057
+ "step": 2880
2058
+ },
2059
+ {
2060
+ "epoch": 2.4265323257766584,
2061
+ "grad_norm": 0.5159406165392976,
2062
+ "learning_rate": 5.364241315396335e-06,
2063
+ "loss": 1.0857,
2064
+ "step": 2890
2065
+ },
2066
+ {
2067
+ "epoch": 2.434928631402183,
2068
+ "grad_norm": 0.5456400716277449,
2069
+ "learning_rate": 5.21397675224081e-06,
2070
+ "loss": 1.0763,
2071
+ "step": 2900
2072
+ },
2073
+ {
2074
+ "epoch": 2.443324937027708,
2075
+ "grad_norm": 0.5275724452771665,
2076
+ "learning_rate": 5.065601453959659e-06,
2077
+ "loss": 1.0837,
2078
+ "step": 2910
2079
+ },
2080
+ {
2081
+ "epoch": 2.4517212426532327,
2082
+ "grad_norm": 0.5054255164716437,
2083
+ "learning_rate": 4.919129588141563e-06,
2084
+ "loss": 1.0655,
2085
+ "step": 2920
2086
+ },
2087
+ {
2088
+ "epoch": 2.4601175482787574,
2089
+ "grad_norm": 0.5226226880297187,
2090
+ "learning_rate": 4.7745751406263165e-06,
2091
+ "loss": 1.0604,
2092
+ "step": 2930
2093
+ },
2094
+ {
2095
+ "epoch": 2.468513853904282,
2096
+ "grad_norm": 0.4917792079813032,
2097
+ "learning_rate": 4.631951914169363e-06,
2098
+ "loss": 1.0635,
2099
+ "step": 2940
2100
+ },
2101
+ {
2102
+ "epoch": 2.476910159529807,
2103
+ "grad_norm": 0.5656339286373594,
2104
+ "learning_rate": 4.491273527123866e-06,
2105
+ "loss": 1.0838,
2106
+ "step": 2950
2107
+ },
2108
+ {
2109
+ "epoch": 2.4853064651553316,
2110
+ "grad_norm": 0.5253948788481366,
2111
+ "learning_rate": 4.352553412140303e-06,
2112
+ "loss": 1.06,
2113
+ "step": 2960
2114
+ },
2115
+ {
2116
+ "epoch": 2.4937027707808563,
2117
+ "grad_norm": 0.525259011295812,
2118
+ "learning_rate": 4.215804814883959e-06,
2119
+ "loss": 1.0728,
2120
+ "step": 2970
2121
+ },
2122
+ {
2123
+ "epoch": 2.502099076406381,
2124
+ "grad_norm": 0.4945489147573741,
2125
+ "learning_rate": 4.08104079277005e-06,
2126
+ "loss": 1.0567,
2127
+ "step": 2980
2128
+ },
2129
+ {
2130
+ "epoch": 2.510495382031906,
2131
+ "grad_norm": 0.5289037096962053,
2132
+ "learning_rate": 3.948274213717015e-06,
2133
+ "loss": 1.0833,
2134
+ "step": 2990
2135
+ },
2136
+ {
2137
+ "epoch": 2.5188916876574305,
2138
+ "grad_norm": 0.520353171293509,
2139
+ "learning_rate": 3.817517754917802e-06,
2140
+ "loss": 1.0794,
2141
+ "step": 3000
2142
+ },
2143
+ {
2144
+ "epoch": 2.5188916876574305,
2145
+ "eval_loss": 1.271108627319336,
2146
+ "eval_runtime": 37.5109,
2147
+ "eval_samples_per_second": 10.264,
2148
+ "eval_steps_per_second": 2.586,
2149
+ "step": 3000
2150
+ },
2151
+ {
2152
+ "epoch": 2.5272879932829557,
2153
+ "grad_norm": 0.47216191409024166,
2154
+ "learning_rate": 3.6887839016293807e-06,
2155
+ "loss": 1.0797,
2156
+ "step": 3010
2157
+ },
2158
+ {
2159
+ "epoch": 2.53568429890848,
2160
+ "grad_norm": 0.5168618762259352,
2161
+ "learning_rate": 3.5620849459805983e-06,
2162
+ "loss": 1.0809,
2163
+ "step": 3020
2164
+ },
2165
+ {
2166
+ "epoch": 2.544080604534005,
2167
+ "grad_norm": 0.5702868726978964,
2168
+ "learning_rate": 3.4374329857984637e-06,
2169
+ "loss": 1.0841,
2170
+ "step": 3030
2171
+ },
2172
+ {
2173
+ "epoch": 2.55247691015953,
2174
+ "grad_norm": 0.5324695724343947,
2175
+ "learning_rate": 3.314839923453003e-06,
2176
+ "loss": 1.0783,
2177
+ "step": 3040
2178
+ },
2179
+ {
2180
+ "epoch": 2.5608732157850547,
2181
+ "grad_norm": 0.5856245582119982,
2182
+ "learning_rate": 3.1943174647207474e-06,
2183
+ "loss": 1.0657,
2184
+ "step": 3050
2185
+ },
2186
+ {
2187
+ "epoch": 2.5692695214105794,
2188
+ "grad_norm": 0.5622043278789876,
2189
+ "learning_rate": 3.0758771176669948e-06,
2190
+ "loss": 1.0811,
2191
+ "step": 3060
2192
+ },
2193
+ {
2194
+ "epoch": 2.577665827036104,
2195
+ "grad_norm": 0.5164314316915084,
2196
+ "learning_rate": 2.9595301915470246e-06,
2197
+ "loss": 1.085,
2198
+ "step": 3070
2199
+ },
2200
+ {
2201
+ "epoch": 2.586062132661629,
2202
+ "grad_norm": 0.5302956251674786,
2203
+ "learning_rate": 2.8452877957261537e-06,
2204
+ "loss": 1.0682,
2205
+ "step": 3080
2206
+ },
2207
+ {
2208
+ "epoch": 2.5944584382871536,
2209
+ "grad_norm": 0.5749370462779954,
2210
+ "learning_rate": 2.73316083861902e-06,
2211
+ "loss": 1.0705,
2212
+ "step": 3090
2213
+ },
2214
+ {
2215
+ "epoch": 2.6028547439126783,
2216
+ "grad_norm": 0.528328794476431,
2217
+ "learning_rate": 2.623160026647978e-06,
2218
+ "loss": 1.08,
2219
+ "step": 3100
2220
+ },
2221
+ {
2222
+ "epoch": 2.611251049538203,
2223
+ "grad_norm": 0.5235304102916779,
2224
+ "learning_rate": 2.515295863220796e-06,
2225
+ "loss": 1.055,
2226
+ "step": 3110
2227
+ },
2228
+ {
2229
+ "epoch": 2.619647355163728,
2230
+ "grad_norm": 0.5312138570667937,
2231
+ "learning_rate": 2.4095786477277253e-06,
2232
+ "loss": 1.0541,
2233
+ "step": 3120
2234
+ },
2235
+ {
2236
+ "epoch": 2.6280436607892526,
2237
+ "grad_norm": 0.5443569327871725,
2238
+ "learning_rate": 2.3060184745580972e-06,
2239
+ "loss": 1.0712,
2240
+ "step": 3130
2241
+ },
2242
+ {
2243
+ "epoch": 2.6364399664147777,
2244
+ "grad_norm": 0.48867610044695425,
2245
+ "learning_rate": 2.2046252321364368e-06,
2246
+ "loss": 1.0785,
2247
+ "step": 3140
2248
+ },
2249
+ {
2250
+ "epoch": 2.644836272040302,
2251
+ "grad_norm": 0.5523392458602866,
2252
+ "learning_rate": 2.1054086019782785e-06,
2253
+ "loss": 1.0623,
2254
+ "step": 3150
2255
+ },
2256
+ {
2257
+ "epoch": 2.653232577665827,
2258
+ "grad_norm": 0.5415782176601202,
2259
+ "learning_rate": 2.008378057765725e-06,
2260
+ "loss": 1.0629,
2261
+ "step": 3160
2262
+ },
2263
+ {
2264
+ "epoch": 2.661628883291352,
2265
+ "grad_norm": 0.5486934335306471,
2266
+ "learning_rate": 1.913542864442849e-06,
2267
+ "loss": 1.0682,
2268
+ "step": 3170
2269
+ },
2270
+ {
2271
+ "epoch": 2.6700251889168767,
2272
+ "grad_norm": 0.5176003080136743,
2273
+ "learning_rate": 1.8209120773310468e-06,
2274
+ "loss": 1.0352,
2275
+ "step": 3180
2276
+ },
2277
+ {
2278
+ "epoch": 2.6784214945424014,
2279
+ "grad_norm": 0.5415079933956461,
2280
+ "learning_rate": 1.7304945412643825e-06,
2281
+ "loss": 1.0617,
2282
+ "step": 3190
2283
+ },
2284
+ {
2285
+ "epoch": 2.686817800167926,
2286
+ "grad_norm": 0.5461504669544123,
2287
+ "learning_rate": 1.6422988897450392e-06,
2288
+ "loss": 1.0712,
2289
+ "step": 3200
2290
+ },
2291
+ {
2292
+ "epoch": 2.695214105793451,
2293
+ "grad_norm": 0.5356674558567608,
2294
+ "learning_rate": 1.5563335441189458e-06,
2295
+ "loss": 1.0735,
2296
+ "step": 3210
2297
+ },
2298
+ {
2299
+ "epoch": 2.7036104114189756,
2300
+ "grad_norm": 0.5177763070870024,
2301
+ "learning_rate": 1.4726067127716958e-06,
2302
+ "loss": 1.0621,
2303
+ "step": 3220
2304
+ },
2305
+ {
2306
+ "epoch": 2.7120067170445004,
2307
+ "grad_norm": 0.5696590300719524,
2308
+ "learning_rate": 1.3911263903447241e-06,
2309
+ "loss": 1.0652,
2310
+ "step": 3230
2311
+ },
2312
+ {
2313
+ "epoch": 2.720403022670025,
2314
+ "grad_norm": 0.4910661226799717,
2315
+ "learning_rate": 1.3119003569719789e-06,
2316
+ "loss": 1.0622,
2317
+ "step": 3240
2318
+ },
2319
+ {
2320
+ "epoch": 2.72879932829555,
2321
+ "grad_norm": 0.5036708642245188,
2322
+ "learning_rate": 1.2349361775370245e-06,
2323
+ "loss": 1.063,
2324
+ "step": 3250
2325
+ },
2326
+ {
2327
+ "epoch": 2.7371956339210746,
2328
+ "grad_norm": 0.5183995701558842,
2329
+ "learning_rate": 1.1602412009507014e-06,
2330
+ "loss": 1.0598,
2331
+ "step": 3260
2332
+ },
2333
+ {
2334
+ "epoch": 2.7455919395465997,
2335
+ "grad_norm": 0.4923573412537131,
2336
+ "learning_rate": 1.087822559449425e-06,
2337
+ "loss": 1.037,
2338
+ "step": 3270
2339
+ },
2340
+ {
2341
+ "epoch": 2.753988245172124,
2342
+ "grad_norm": 0.5351167051477966,
2343
+ "learning_rate": 1.0176871679141664e-06,
2344
+ "loss": 1.0721,
2345
+ "step": 3280
2346
+ },
2347
+ {
2348
+ "epoch": 2.762384550797649,
2349
+ "grad_norm": 0.5138535715173458,
2350
+ "learning_rate": 9.49841723210182e-07,
2351
+ "loss": 1.0624,
2352
+ "step": 3290
2353
+ },
2354
+ {
2355
+ "epoch": 2.770780856423174,
2356
+ "grad_norm": 0.5562194428595657,
2357
+ "learning_rate": 8.842927035475763e-07,
2358
+ "loss": 1.0868,
2359
+ "step": 3300
2360
+ },
2361
+ {
2362
+ "epoch": 2.7791771620486987,
2363
+ "grad_norm": 0.5352125908767389,
2364
+ "learning_rate": 8.210463678626989e-07,
2365
+ "loss": 1.0509,
2366
+ "step": 3310
2367
+ },
2368
+ {
2369
+ "epoch": 2.7875734676742234,
2370
+ "grad_norm": 0.5617426830025886,
2371
+ "learning_rate": 7.601087552205621e-07,
2372
+ "loss": 1.0568,
2373
+ "step": 3320
2374
+ },
2375
+ {
2376
+ "epoch": 2.795969773299748,
2377
+ "grad_norm": 0.5445075989319467,
2378
+ "learning_rate": 7.014856842381484e-07,
2379
+ "loss": 1.0745,
2380
+ "step": 3330
2381
+ },
2382
+ {
2383
+ "epoch": 2.804366078925273,
2384
+ "grad_norm": 0.5294691240524095,
2385
+ "learning_rate": 6.451827525288612e-07,
2386
+ "loss": 1.0708,
2387
+ "step": 3340
2388
+ },
2389
+ {
2390
+ "epoch": 2.8127623845507976,
2391
+ "grad_norm": 0.5469429580225932,
2392
+ "learning_rate": 5.912053361680159e-07,
2393
+ "loss": 1.0772,
2394
+ "step": 3350
2395
+ },
2396
+ {
2397
+ "epoch": 2.8211586901763224,
2398
+ "grad_norm": 0.5197486795769499,
2399
+ "learning_rate": 5.395585891795174e-07,
2400
+ "loss": 1.0437,
2401
+ "step": 3360
2402
+ },
2403
+ {
2404
+ "epoch": 2.829554995801847,
2405
+ "grad_norm": 0.5804047203332435,
2406
+ "learning_rate": 4.90247443043712e-07,
2407
+ "loss": 1.064,
2408
+ "step": 3370
2409
+ },
2410
+ {
2411
+ "epoch": 2.837951301427372,
2412
+ "grad_norm": 0.5645169239872654,
2413
+ "learning_rate": 4.43276606226542e-07,
2414
+ "loss": 1.0702,
2415
+ "step": 3380
2416
+ },
2417
+ {
2418
+ "epoch": 2.8463476070528966,
2419
+ "grad_norm": 0.5350844658781305,
2420
+ "learning_rate": 3.9865056372990763e-07,
2421
+ "loss": 1.0731,
2422
+ "step": 3390
2423
+ },
2424
+ {
2425
+ "epoch": 2.8547439126784218,
2426
+ "grad_norm": 0.5252887341555534,
2427
+ "learning_rate": 3.563735766634629e-07,
2428
+ "loss": 1.0576,
2429
+ "step": 3400
2430
+ },
2431
+ {
2432
+ "epoch": 2.863140218303946,
2433
+ "grad_norm": 0.4893728491690957,
2434
+ "learning_rate": 3.164496818377188e-07,
2435
+ "loss": 1.0526,
2436
+ "step": 3410
2437
+ },
2438
+ {
2439
+ "epoch": 2.8715365239294712,
2440
+ "grad_norm": 0.5238206701307841,
2441
+ "learning_rate": 2.7888269137860413e-07,
2442
+ "loss": 1.0631,
2443
+ "step": 3420
2444
+ },
2445
+ {
2446
+ "epoch": 2.879932829554996,
2447
+ "grad_norm": 0.5616265204939842,
2448
+ "learning_rate": 2.436761923634456e-07,
2449
+ "loss": 1.1013,
2450
+ "step": 3430
2451
+ },
2452
+ {
2453
+ "epoch": 2.8883291351805207,
2454
+ "grad_norm": 0.52918003457263,
2455
+ "learning_rate": 2.108335464784811e-07,
2456
+ "loss": 1.0737,
2457
+ "step": 3440
2458
+ },
2459
+ {
2460
+ "epoch": 2.8967254408060454,
2461
+ "grad_norm": 0.5686960611410121,
2462
+ "learning_rate": 1.8035788969784638e-07,
2463
+ "loss": 1.0823,
2464
+ "step": 3450
2465
+ },
2466
+ {
2467
+ "epoch": 2.90512174643157,
2468
+ "grad_norm": 0.4994659787416042,
2469
+ "learning_rate": 1.522521319841541e-07,
2470
+ "loss": 1.0692,
2471
+ "step": 3460
2472
+ },
2473
+ {
2474
+ "epoch": 2.913518052057095,
2475
+ "grad_norm": 0.5629206398185236,
2476
+ "learning_rate": 1.2651895701063233e-07,
2477
+ "loss": 1.0698,
2478
+ "step": 3470
2479
+ },
2480
+ {
2481
+ "epoch": 2.9219143576826196,
2482
+ "grad_norm": 0.5675179585041099,
2483
+ "learning_rate": 1.0316082190486298e-07,
2484
+ "loss": 1.0746,
2485
+ "step": 3480
2486
+ },
2487
+ {
2488
+ "epoch": 2.9303106633081444,
2489
+ "grad_norm": 0.5175715407014831,
2490
+ "learning_rate": 8.217995701418624e-08,
2491
+ "loss": 1.0454,
2492
+ "step": 3490
2493
+ },
2494
+ {
2495
+ "epoch": 2.938706968933669,
2496
+ "grad_norm": 0.5240794519085307,
2497
+ "learning_rate": 6.35783656927097e-08,
2498
+ "loss": 1.056,
2499
+ "step": 3500
2500
+ },
2501
+ {
2502
+ "epoch": 2.947103274559194,
2503
+ "grad_norm": 0.49756212695927055,
2504
+ "learning_rate": 4.7357824110044743e-08,
2505
+ "loss": 1.0689,
2506
+ "step": 3510
2507
+ },
2508
+ {
2509
+ "epoch": 2.9554995801847186,
2510
+ "grad_norm": 0.5251282063460313,
2511
+ "learning_rate": 3.351988108168391e-08,
2512
+ "loss": 1.0603,
2513
+ "step": 3520
2514
+ },
2515
+ {
2516
+ "epoch": 2.9638958858102438,
2517
+ "grad_norm": 0.5422569799063949,
2518
+ "learning_rate": 2.2065857921133025e-08,
2519
+ "loss": 1.0822,
2520
+ "step": 3530
2521
+ },
2522
+ {
2523
+ "epoch": 2.972292191435768,
2524
+ "grad_norm": 0.543354269594394,
2525
+ "learning_rate": 1.2996848313734378e-08,
2526
+ "loss": 1.075,
2527
+ "step": 3540
2528
+ },
2529
+ {
2530
+ "epoch": 2.9806884970612932,
2531
+ "grad_norm": 0.5348306207009784,
2532
+ "learning_rate": 6.31371821224469e-09,
2533
+ "loss": 1.0692,
2534
+ "step": 3550
2535
+ },
2536
+ {
2537
+ "epoch": 2.9890848026868175,
2538
+ "grad_norm": 0.5488049489103773,
2539
+ "learning_rate": 2.017105754134607e-09,
2540
+ "loss": 1.0895,
2541
+ "step": 3560
2542
+ },
2543
+ {
2544
+ "epoch": 2.9974811083123427,
2545
+ "grad_norm": 0.552482965655854,
2546
+ "learning_rate": 1.0742120067630535e-10,
2547
+ "loss": 1.0465,
2548
+ "step": 3570
2549
+ },
2550
+ {
2551
+ "epoch": 3.0,
2552
+ "step": 3573,
2553
+ "total_flos": 234145141751808.0,
2554
+ "train_loss": 1.2264163225196905,
2555
+ "train_runtime": 4742.9935,
2556
+ "train_samples_per_second": 24.104,
2557
+ "train_steps_per_second": 0.753
2558
+ }
2559
+ ],
2560
+ "logging_steps": 10,
2561
+ "max_steps": 3573,
2562
+ "num_input_tokens_seen": 0,
2563
+ "num_train_epochs": 3,
2564
+ "save_steps": 500,
2565
+ "stateful_callbacks": {
2566
+ "TrainerControl": {
2567
+ "args": {
2568
+ "should_epoch_stop": false,
2569
+ "should_evaluate": false,
2570
+ "should_log": false,
2571
+ "should_save": true,
2572
+ "should_training_stop": true
2573
+ },
2574
+ "attributes": {}
2575
+ }
2576
+ },
2577
+ "total_flos": 234145141751808.0,
2578
+ "train_batch_size": 8,
2579
+ "trial_name": null,
2580
+ "trial_params": null
2581
+ }
training_eval_loss.png ADDED
training_loss.png ADDED