fats-fme commited on
Commit
60573e0
1 Parent(s): 3dd5722

Training in progress, step 612, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5cc49cd2123962dccbe325a2bceb54ce95be21d864954094864c3a779fd90cf9
3
  size 50503544
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0d21bb09eff34416685fbbd7e9c819db3b4a8bd18092777255987600c2b52cb3
3
  size 50503544
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:773b86455e5f22c5da806f865a8d957c30131f2ceaac157c9d1818f781c9d876
3
  size 101184122
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:763b5a91612f432ad5cd4386cc9039d08b7dfceae177911b54c728b3d5924880
3
  size 101184122
last-checkpoint/rng_state_0.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:20768a83e56b6fa769e574419f07c86e79c791425ce3347059f718b93fcccfcd
3
  size 14512
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:95957e47c48f89f2d82005240408999cbda782b079d16061eb6dae69038672f8
3
  size 14512
last-checkpoint/rng_state_1.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:844d07a2596435d36c66584eee737f312e21cc8a87613c0830623fb4b3e18b1d
3
  size 14512
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2818223cc47cf96c694a9d3dd14069656697688b751dd9687bd461784a1f04a8
3
  size 14512
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a830cc09aea0d73a752aadc4db39e884877eb126ff93c26e59113e94cd6ce260
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e3954ee4b0cce08f11cf59acefd5fcef657cbc4f4e12f0d54a93447ea6f7f110
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.5015365703749232,
5
  "eval_steps": 204,
6
- "global_step": 408,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2887,6 +2887,1442 @@
2887
  "eval_samples_per_second": 10.486,
2888
  "eval_steps_per_second": 5.251,
2889
  "step": 408
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2890
  }
2891
  ],
2892
  "logging_steps": 1,
@@ -2906,7 +4342,7 @@
2906
  "attributes": {}
2907
  }
2908
  },
2909
- "total_flos": 8.411229584359424e+16,
2910
  "train_batch_size": 1,
2911
  "trial_name": null,
2912
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.7523048555623848,
5
  "eval_steps": 204,
6
+ "global_step": 612,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2887
  "eval_samples_per_second": 10.486,
2888
  "eval_steps_per_second": 5.251,
2889
  "step": 408
2890
+ },
2891
+ {
2892
+ "epoch": 0.5027658266748617,
2893
+ "grad_norm": 0.31012120842933655,
2894
+ "learning_rate": 5.4625476241761196e-05,
2895
+ "loss": 1.1491,
2896
+ "step": 409
2897
+ },
2898
+ {
2899
+ "epoch": 0.5039950829748002,
2900
+ "grad_norm": 0.3182609975337982,
2901
+ "learning_rate": 5.442044935102375e-05,
2902
+ "loss": 1.0786,
2903
+ "step": 410
2904
+ },
2905
+ {
2906
+ "epoch": 0.5052243392747388,
2907
+ "grad_norm": 0.35413217544555664,
2908
+ "learning_rate": 5.421534751980556e-05,
2909
+ "loss": 1.2194,
2910
+ "step": 411
2911
+ },
2912
+ {
2913
+ "epoch": 0.5064535955746773,
2914
+ "grad_norm": 0.39505264163017273,
2915
+ "learning_rate": 5.401017422522594e-05,
2916
+ "loss": 1.0296,
2917
+ "step": 412
2918
+ },
2919
+ {
2920
+ "epoch": 0.5076828518746158,
2921
+ "grad_norm": 0.4267808496952057,
2922
+ "learning_rate": 5.380493294561573e-05,
2923
+ "loss": 1.0906,
2924
+ "step": 413
2925
+ },
2926
+ {
2927
+ "epoch": 0.5089121081745543,
2928
+ "grad_norm": 0.5495923161506653,
2929
+ "learning_rate": 5.359962716045835e-05,
2930
+ "loss": 1.2171,
2931
+ "step": 414
2932
+ },
2933
+ {
2934
+ "epoch": 0.510141364474493,
2935
+ "grad_norm": 0.6385165452957153,
2936
+ "learning_rate": 5.3394260350330796e-05,
2937
+ "loss": 0.8179,
2938
+ "step": 415
2939
+ },
2940
+ {
2941
+ "epoch": 0.5113706207744315,
2942
+ "grad_norm": 0.7211401462554932,
2943
+ "learning_rate": 5.318883599684456e-05,
2944
+ "loss": 0.7624,
2945
+ "step": 416
2946
+ },
2947
+ {
2948
+ "epoch": 0.51259987707437,
2949
+ "grad_norm": 0.800375759601593,
2950
+ "learning_rate": 5.298335758258678e-05,
2951
+ "loss": 0.9597,
2952
+ "step": 417
2953
+ },
2954
+ {
2955
+ "epoch": 0.5138291333743086,
2956
+ "grad_norm": 0.9896557927131653,
2957
+ "learning_rate": 5.2777828591060984e-05,
2958
+ "loss": 1.12,
2959
+ "step": 418
2960
+ },
2961
+ {
2962
+ "epoch": 0.5150583896742471,
2963
+ "grad_norm": 2.869112968444824,
2964
+ "learning_rate": 5.257225250662823e-05,
2965
+ "loss": 1.2992,
2966
+ "step": 419
2967
+ },
2968
+ {
2969
+ "epoch": 0.5162876459741856,
2970
+ "grad_norm": 3.394543409347534,
2971
+ "learning_rate": 5.236663281444791e-05,
2972
+ "loss": 1.298,
2973
+ "step": 420
2974
+ },
2975
+ {
2976
+ "epoch": 0.5175169022741242,
2977
+ "grad_norm": 3.3043065071105957,
2978
+ "learning_rate": 5.21609730004187e-05,
2979
+ "loss": 1.1924,
2980
+ "step": 421
2981
+ },
2982
+ {
2983
+ "epoch": 0.5187461585740627,
2984
+ "grad_norm": 2.603189706802368,
2985
+ "learning_rate": 5.1955276551119495e-05,
2986
+ "loss": 1.2155,
2987
+ "step": 422
2988
+ },
2989
+ {
2990
+ "epoch": 0.5199754148740012,
2991
+ "grad_norm": 3.018608808517456,
2992
+ "learning_rate": 5.174954695375023e-05,
2993
+ "loss": 1.2001,
2994
+ "step": 423
2995
+ },
2996
+ {
2997
+ "epoch": 0.5212046711739398,
2998
+ "grad_norm": 1.8929078578948975,
2999
+ "learning_rate": 5.154378769607286e-05,
3000
+ "loss": 0.7124,
3001
+ "step": 424
3002
+ },
3003
+ {
3004
+ "epoch": 0.5224339274738783,
3005
+ "grad_norm": 2.4811208248138428,
3006
+ "learning_rate": 5.1338002266352106e-05,
3007
+ "loss": 0.8491,
3008
+ "step": 425
3009
+ },
3010
+ {
3011
+ "epoch": 0.5236631837738168,
3012
+ "grad_norm": 0.22651559114456177,
3013
+ "learning_rate": 5.113219415329645e-05,
3014
+ "loss": 0.9983,
3015
+ "step": 426
3016
+ },
3017
+ {
3018
+ "epoch": 0.5248924400737554,
3019
+ "grad_norm": 0.2817627787590027,
3020
+ "learning_rate": 5.0926366845998904e-05,
3021
+ "loss": 1.1314,
3022
+ "step": 427
3023
+ },
3024
+ {
3025
+ "epoch": 0.5261216963736939,
3026
+ "grad_norm": 0.27301520109176636,
3027
+ "learning_rate": 5.072052383387786e-05,
3028
+ "loss": 1.2722,
3029
+ "step": 428
3030
+ },
3031
+ {
3032
+ "epoch": 0.5273509526736324,
3033
+ "grad_norm": 0.2770383059978485,
3034
+ "learning_rate": 5.0514668606618e-05,
3035
+ "loss": 1.1654,
3036
+ "step": 429
3037
+ },
3038
+ {
3039
+ "epoch": 0.5285802089735709,
3040
+ "grad_norm": 0.3147628903388977,
3041
+ "learning_rate": 5.0308804654111056e-05,
3042
+ "loss": 1.0896,
3043
+ "step": 430
3044
+ },
3045
+ {
3046
+ "epoch": 0.5298094652735095,
3047
+ "grad_norm": 0.305074542760849,
3048
+ "learning_rate": 5.01029354663967e-05,
3049
+ "loss": 1.1754,
3050
+ "step": 431
3051
+ },
3052
+ {
3053
+ "epoch": 0.5310387215734481,
3054
+ "grad_norm": 0.3240547776222229,
3055
+ "learning_rate": 4.9897064533603315e-05,
3056
+ "loss": 1.2413,
3057
+ "step": 432
3058
+ },
3059
+ {
3060
+ "epoch": 0.5322679778733866,
3061
+ "grad_norm": 0.34143832325935364,
3062
+ "learning_rate": 4.9691195345888956e-05,
3063
+ "loss": 1.1504,
3064
+ "step": 433
3065
+ },
3066
+ {
3067
+ "epoch": 0.5334972341733252,
3068
+ "grad_norm": 0.3945367634296417,
3069
+ "learning_rate": 4.948533139338202e-05,
3070
+ "loss": 1.2914,
3071
+ "step": 434
3072
+ },
3073
+ {
3074
+ "epoch": 0.5347264904732637,
3075
+ "grad_norm": 0.371367871761322,
3076
+ "learning_rate": 4.927947616612215e-05,
3077
+ "loss": 1.3269,
3078
+ "step": 435
3079
+ },
3080
+ {
3081
+ "epoch": 0.5359557467732022,
3082
+ "grad_norm": 0.4348413646221161,
3083
+ "learning_rate": 4.90736331540011e-05,
3084
+ "loss": 1.2061,
3085
+ "step": 436
3086
+ },
3087
+ {
3088
+ "epoch": 0.5371850030731408,
3089
+ "grad_norm": 0.5112064480781555,
3090
+ "learning_rate": 4.886780584670356e-05,
3091
+ "loss": 1.2283,
3092
+ "step": 437
3093
+ },
3094
+ {
3095
+ "epoch": 0.5384142593730793,
3096
+ "grad_norm": 0.6409791707992554,
3097
+ "learning_rate": 4.866199773364789e-05,
3098
+ "loss": 0.7663,
3099
+ "step": 438
3100
+ },
3101
+ {
3102
+ "epoch": 0.5396435156730178,
3103
+ "grad_norm": 0.7076222896575928,
3104
+ "learning_rate": 4.845621230392716e-05,
3105
+ "loss": 0.8073,
3106
+ "step": 439
3107
+ },
3108
+ {
3109
+ "epoch": 0.5408727719729564,
3110
+ "grad_norm": 0.6545782089233398,
3111
+ "learning_rate": 4.825045304624978e-05,
3112
+ "loss": 0.762,
3113
+ "step": 440
3114
+ },
3115
+ {
3116
+ "epoch": 0.5421020282728949,
3117
+ "grad_norm": 0.6853161454200745,
3118
+ "learning_rate": 4.804472344888052e-05,
3119
+ "loss": 0.9905,
3120
+ "step": 441
3121
+ },
3122
+ {
3123
+ "epoch": 0.5433312845728334,
3124
+ "grad_norm": 0.6758946776390076,
3125
+ "learning_rate": 4.7839026999581296e-05,
3126
+ "loss": 0.9353,
3127
+ "step": 442
3128
+ },
3129
+ {
3130
+ "epoch": 0.544560540872772,
3131
+ "grad_norm": 1.1472845077514648,
3132
+ "learning_rate": 4.7633367185552095e-05,
3133
+ "loss": 0.9796,
3134
+ "step": 443
3135
+ },
3136
+ {
3137
+ "epoch": 0.5457897971727105,
3138
+ "grad_norm": 2.543483018875122,
3139
+ "learning_rate": 4.742774749337179e-05,
3140
+ "loss": 1.5897,
3141
+ "step": 444
3142
+ },
3143
+ {
3144
+ "epoch": 0.547019053472649,
3145
+ "grad_norm": 3.029282331466675,
3146
+ "learning_rate": 4.7222171408939034e-05,
3147
+ "loss": 1.2527,
3148
+ "step": 445
3149
+ },
3150
+ {
3151
+ "epoch": 0.5482483097725875,
3152
+ "grad_norm": 3.1332318782806396,
3153
+ "learning_rate": 4.701664241741323e-05,
3154
+ "loss": 1.1093,
3155
+ "step": 446
3156
+ },
3157
+ {
3158
+ "epoch": 0.5494775660725261,
3159
+ "grad_norm": 2.407163381576538,
3160
+ "learning_rate": 4.681116400315544e-05,
3161
+ "loss": 0.75,
3162
+ "step": 447
3163
+ },
3164
+ {
3165
+ "epoch": 0.5507068223724647,
3166
+ "grad_norm": 2.622605085372925,
3167
+ "learning_rate": 4.6605739649669236e-05,
3168
+ "loss": 0.8924,
3169
+ "step": 448
3170
+ },
3171
+ {
3172
+ "epoch": 0.5519360786724032,
3173
+ "grad_norm": 2.5338971614837646,
3174
+ "learning_rate": 4.640037283954165e-05,
3175
+ "loss": 0.681,
3176
+ "step": 449
3177
+ },
3178
+ {
3179
+ "epoch": 0.5531653349723418,
3180
+ "grad_norm": 2.4635331630706787,
3181
+ "learning_rate": 4.619506705438428e-05,
3182
+ "loss": 0.7866,
3183
+ "step": 450
3184
+ },
3185
+ {
3186
+ "epoch": 0.5543945912722803,
3187
+ "grad_norm": 0.18258269131183624,
3188
+ "learning_rate": 4.598982577477408e-05,
3189
+ "loss": 0.8069,
3190
+ "step": 451
3191
+ },
3192
+ {
3193
+ "epoch": 0.5556238475722188,
3194
+ "grad_norm": 0.23453976213932037,
3195
+ "learning_rate": 4.578465248019445e-05,
3196
+ "loss": 1.1606,
3197
+ "step": 452
3198
+ },
3199
+ {
3200
+ "epoch": 0.5568531038721574,
3201
+ "grad_norm": 0.25334998965263367,
3202
+ "learning_rate": 4.557955064897626e-05,
3203
+ "loss": 1.2323,
3204
+ "step": 453
3205
+ },
3206
+ {
3207
+ "epoch": 0.5580823601720959,
3208
+ "grad_norm": 0.2757891118526459,
3209
+ "learning_rate": 4.537452375823881e-05,
3210
+ "loss": 1.4173,
3211
+ "step": 454
3212
+ },
3213
+ {
3214
+ "epoch": 0.5593116164720344,
3215
+ "grad_norm": 0.2755081355571747,
3216
+ "learning_rate": 4.5169575283830936e-05,
3217
+ "loss": 1.2255,
3218
+ "step": 455
3219
+ },
3220
+ {
3221
+ "epoch": 0.560540872771973,
3222
+ "grad_norm": 0.29173940420150757,
3223
+ "learning_rate": 4.496470870027209e-05,
3224
+ "loss": 1.4528,
3225
+ "step": 456
3226
+ },
3227
+ {
3228
+ "epoch": 0.5617701290719115,
3229
+ "grad_norm": 0.27483510971069336,
3230
+ "learning_rate": 4.475992748069339e-05,
3231
+ "loss": 0.7703,
3232
+ "step": 457
3233
+ },
3234
+ {
3235
+ "epoch": 0.56299938537185,
3236
+ "grad_norm": 0.3180837333202362,
3237
+ "learning_rate": 4.455523509677882e-05,
3238
+ "loss": 1.025,
3239
+ "step": 458
3240
+ },
3241
+ {
3242
+ "epoch": 0.5642286416717885,
3243
+ "grad_norm": 0.3103027939796448,
3244
+ "learning_rate": 4.435063501870622e-05,
3245
+ "loss": 1.0503,
3246
+ "step": 459
3247
+ },
3248
+ {
3249
+ "epoch": 0.5654578979717271,
3250
+ "grad_norm": 0.3448195457458496,
3251
+ "learning_rate": 4.4146130715088676e-05,
3252
+ "loss": 1.0366,
3253
+ "step": 460
3254
+ },
3255
+ {
3256
+ "epoch": 0.5666871542716656,
3257
+ "grad_norm": 0.3892152011394501,
3258
+ "learning_rate": 4.3941725652915494e-05,
3259
+ "loss": 1.1834,
3260
+ "step": 461
3261
+ },
3262
+ {
3263
+ "epoch": 0.5679164105716041,
3264
+ "grad_norm": 0.4770027697086334,
3265
+ "learning_rate": 4.373742329749362e-05,
3266
+ "loss": 1.4524,
3267
+ "step": 462
3268
+ },
3269
+ {
3270
+ "epoch": 0.5691456668715427,
3271
+ "grad_norm": 0.5856226682662964,
3272
+ "learning_rate": 4.3533227112388694e-05,
3273
+ "loss": 1.2538,
3274
+ "step": 463
3275
+ },
3276
+ {
3277
+ "epoch": 0.5703749231714813,
3278
+ "grad_norm": 0.6203077435493469,
3279
+ "learning_rate": 4.332914055936653e-05,
3280
+ "loss": 0.6276,
3281
+ "step": 464
3282
+ },
3283
+ {
3284
+ "epoch": 0.5716041794714198,
3285
+ "grad_norm": 0.6294959187507629,
3286
+ "learning_rate": 4.3125167098334286e-05,
3287
+ "loss": 0.642,
3288
+ "step": 465
3289
+ },
3290
+ {
3291
+ "epoch": 0.5728334357713584,
3292
+ "grad_norm": 0.7135624885559082,
3293
+ "learning_rate": 4.2921310187281864e-05,
3294
+ "loss": 1.1486,
3295
+ "step": 466
3296
+ },
3297
+ {
3298
+ "epoch": 0.5740626920712969,
3299
+ "grad_norm": 0.7505180835723877,
3300
+ "learning_rate": 4.27175732822233e-05,
3301
+ "loss": 0.9109,
3302
+ "step": 467
3303
+ },
3304
+ {
3305
+ "epoch": 0.5752919483712354,
3306
+ "grad_norm": 1.0719517469406128,
3307
+ "learning_rate": 4.251395983713809e-05,
3308
+ "loss": 1.2909,
3309
+ "step": 468
3310
+ },
3311
+ {
3312
+ "epoch": 0.576521204671174,
3313
+ "grad_norm": 2.5531132221221924,
3314
+ "learning_rate": 4.231047330391278e-05,
3315
+ "loss": 1.1723,
3316
+ "step": 469
3317
+ },
3318
+ {
3319
+ "epoch": 0.5777504609711125,
3320
+ "grad_norm": 3.104837656021118,
3321
+ "learning_rate": 4.21071171322823e-05,
3322
+ "loss": 1.3296,
3323
+ "step": 470
3324
+ },
3325
+ {
3326
+ "epoch": 0.578979717271051,
3327
+ "grad_norm": 3.239119052886963,
3328
+ "learning_rate": 4.190389476977156e-05,
3329
+ "loss": 0.8768,
3330
+ "step": 471
3331
+ },
3332
+ {
3333
+ "epoch": 0.5802089735709896,
3334
+ "grad_norm": 2.681823968887329,
3335
+ "learning_rate": 4.170080966163702e-05,
3336
+ "loss": 0.8809,
3337
+ "step": 472
3338
+ },
3339
+ {
3340
+ "epoch": 0.5814382298709281,
3341
+ "grad_norm": 2.557533025741577,
3342
+ "learning_rate": 4.149786525080819e-05,
3343
+ "loss": 0.8249,
3344
+ "step": 473
3345
+ },
3346
+ {
3347
+ "epoch": 0.5826674861708666,
3348
+ "grad_norm": 2.4591336250305176,
3349
+ "learning_rate": 4.1295064977829334e-05,
3350
+ "loss": 0.7384,
3351
+ "step": 474
3352
+ },
3353
+ {
3354
+ "epoch": 0.5838967424708051,
3355
+ "grad_norm": 2.414395809173584,
3356
+ "learning_rate": 4.109241228080115e-05,
3357
+ "loss": 0.7307,
3358
+ "step": 475
3359
+ },
3360
+ {
3361
+ "epoch": 0.5851259987707437,
3362
+ "grad_norm": 0.2034798115491867,
3363
+ "learning_rate": 4.088991059532248e-05,
3364
+ "loss": 0.8326,
3365
+ "step": 476
3366
+ },
3367
+ {
3368
+ "epoch": 0.5863552550706822,
3369
+ "grad_norm": 0.24682076275348663,
3370
+ "learning_rate": 4.0687563354431984e-05,
3371
+ "loss": 1.3382,
3372
+ "step": 477
3373
+ },
3374
+ {
3375
+ "epoch": 0.5875845113706207,
3376
+ "grad_norm": 0.2430254966020584,
3377
+ "learning_rate": 4.048537398855003e-05,
3378
+ "loss": 1.2718,
3379
+ "step": 478
3380
+ },
3381
+ {
3382
+ "epoch": 0.5888137676705593,
3383
+ "grad_norm": 0.27249017357826233,
3384
+ "learning_rate": 4.028334592542054e-05,
3385
+ "loss": 1.2328,
3386
+ "step": 479
3387
+ },
3388
+ {
3389
+ "epoch": 0.5900430239704979,
3390
+ "grad_norm": 0.28996631503105164,
3391
+ "learning_rate": 4.008148259005279e-05,
3392
+ "loss": 1.3963,
3393
+ "step": 480
3394
+ },
3395
+ {
3396
+ "epoch": 0.5912722802704364,
3397
+ "grad_norm": 0.28658372163772583,
3398
+ "learning_rate": 3.9879787404663474e-05,
3399
+ "loss": 1.2326,
3400
+ "step": 481
3401
+ },
3402
+ {
3403
+ "epoch": 0.592501536570375,
3404
+ "grad_norm": 0.3246002495288849,
3405
+ "learning_rate": 3.967826378861854e-05,
3406
+ "loss": 1.1071,
3407
+ "step": 482
3408
+ },
3409
+ {
3410
+ "epoch": 0.5937307928703135,
3411
+ "grad_norm": 0.33610400557518005,
3412
+ "learning_rate": 3.947691515837537e-05,
3413
+ "loss": 1.1798,
3414
+ "step": 483
3415
+ },
3416
+ {
3417
+ "epoch": 0.594960049170252,
3418
+ "grad_norm": 0.35427945852279663,
3419
+ "learning_rate": 3.927574492742473e-05,
3420
+ "loss": 1.3277,
3421
+ "step": 484
3422
+ },
3423
+ {
3424
+ "epoch": 0.5961893054701906,
3425
+ "grad_norm": 0.3942146599292755,
3426
+ "learning_rate": 3.907475650623299e-05,
3427
+ "loss": 1.0499,
3428
+ "step": 485
3429
+ },
3430
+ {
3431
+ "epoch": 0.5974185617701291,
3432
+ "grad_norm": 0.36504921317100525,
3433
+ "learning_rate": 3.887395330218429e-05,
3434
+ "loss": 1.1876,
3435
+ "step": 486
3436
+ },
3437
+ {
3438
+ "epoch": 0.5986478180700676,
3439
+ "grad_norm": 0.45135965943336487,
3440
+ "learning_rate": 3.867333871952269e-05,
3441
+ "loss": 1.1775,
3442
+ "step": 487
3443
+ },
3444
+ {
3445
+ "epoch": 0.5998770743700061,
3446
+ "grad_norm": 0.6297984719276428,
3447
+ "learning_rate": 3.84729161592946e-05,
3448
+ "loss": 0.9756,
3449
+ "step": 488
3450
+ },
3451
+ {
3452
+ "epoch": 0.6011063306699447,
3453
+ "grad_norm": 0.6099340915679932,
3454
+ "learning_rate": 3.827268901929102e-05,
3455
+ "loss": 0.7669,
3456
+ "step": 489
3457
+ },
3458
+ {
3459
+ "epoch": 0.6023355869698832,
3460
+ "grad_norm": 0.7176752686500549,
3461
+ "learning_rate": 3.8072660693989967e-05,
3462
+ "loss": 0.5387,
3463
+ "step": 490
3464
+ },
3465
+ {
3466
+ "epoch": 0.6035648432698217,
3467
+ "grad_norm": 0.6262489557266235,
3468
+ "learning_rate": 3.78728345744989e-05,
3469
+ "loss": 0.9306,
3470
+ "step": 491
3471
+ },
3472
+ {
3473
+ "epoch": 0.6047940995697603,
3474
+ "grad_norm": 1.0194954872131348,
3475
+ "learning_rate": 3.767321404849727e-05,
3476
+ "loss": 1.1677,
3477
+ "step": 492
3478
+ },
3479
+ {
3480
+ "epoch": 0.6060233558696988,
3481
+ "grad_norm": 1.6236090660095215,
3482
+ "learning_rate": 3.7473802500179114e-05,
3483
+ "loss": 1.0458,
3484
+ "step": 493
3485
+ },
3486
+ {
3487
+ "epoch": 0.6072526121696373,
3488
+ "grad_norm": 2.5714359283447266,
3489
+ "learning_rate": 3.727460331019559e-05,
3490
+ "loss": 1.2519,
3491
+ "step": 494
3492
+ },
3493
+ {
3494
+ "epoch": 0.6084818684695759,
3495
+ "grad_norm": 2.4615423679351807,
3496
+ "learning_rate": 3.7075619855597744e-05,
3497
+ "loss": 0.5842,
3498
+ "step": 495
3499
+ },
3500
+ {
3501
+ "epoch": 0.6097111247695144,
3502
+ "grad_norm": 3.4131109714508057,
3503
+ "learning_rate": 3.6876855509779206e-05,
3504
+ "loss": 1.3071,
3505
+ "step": 496
3506
+ },
3507
+ {
3508
+ "epoch": 0.610940381069453,
3509
+ "grad_norm": 3.461987257003784,
3510
+ "learning_rate": 3.667831364241904e-05,
3511
+ "loss": 1.1426,
3512
+ "step": 497
3513
+ },
3514
+ {
3515
+ "epoch": 0.6121696373693916,
3516
+ "grad_norm": 2.462989330291748,
3517
+ "learning_rate": 3.6479997619424605e-05,
3518
+ "loss": 0.8421,
3519
+ "step": 498
3520
+ },
3521
+ {
3522
+ "epoch": 0.6133988936693301,
3523
+ "grad_norm": 2.423410654067993,
3524
+ "learning_rate": 3.628191080287451e-05,
3525
+ "loss": 0.7845,
3526
+ "step": 499
3527
+ },
3528
+ {
3529
+ "epoch": 0.6146281499692686,
3530
+ "grad_norm": 2.5741212368011475,
3531
+ "learning_rate": 3.608405655096154e-05,
3532
+ "loss": 0.6916,
3533
+ "step": 500
3534
+ },
3535
+ {
3536
+ "epoch": 0.6158574062692072,
3537
+ "grad_norm": 0.2071269154548645,
3538
+ "learning_rate": 3.588643821793582e-05,
3539
+ "loss": 0.9648,
3540
+ "step": 501
3541
+ },
3542
+ {
3543
+ "epoch": 0.6170866625691457,
3544
+ "grad_norm": 0.23868902027606964,
3545
+ "learning_rate": 3.5689059154047915e-05,
3546
+ "loss": 1.261,
3547
+ "step": 502
3548
+ },
3549
+ {
3550
+ "epoch": 0.6183159188690842,
3551
+ "grad_norm": 0.2465473711490631,
3552
+ "learning_rate": 3.5491922705492e-05,
3553
+ "loss": 1.2999,
3554
+ "step": 503
3555
+ },
3556
+ {
3557
+ "epoch": 0.6195451751690227,
3558
+ "grad_norm": 0.25372591614723206,
3559
+ "learning_rate": 3.5295032214349196e-05,
3560
+ "loss": 1.3633,
3561
+ "step": 504
3562
+ },
3563
+ {
3564
+ "epoch": 0.6207744314689613,
3565
+ "grad_norm": 0.24923810362815857,
3566
+ "learning_rate": 3.5098391018530816e-05,
3567
+ "loss": 1.1408,
3568
+ "step": 505
3569
+ },
3570
+ {
3571
+ "epoch": 0.6220036877688998,
3572
+ "grad_norm": 0.2594156563282013,
3573
+ "learning_rate": 3.4902002451721916e-05,
3574
+ "loss": 1.158,
3575
+ "step": 506
3576
+ },
3577
+ {
3578
+ "epoch": 0.6232329440688383,
3579
+ "grad_norm": 0.28343746066093445,
3580
+ "learning_rate": 3.4705869843324614e-05,
3581
+ "loss": 1.1717,
3582
+ "step": 507
3583
+ },
3584
+ {
3585
+ "epoch": 0.6244622003687769,
3586
+ "grad_norm": 0.29203376173973083,
3587
+ "learning_rate": 3.450999651840179e-05,
3588
+ "loss": 1.0693,
3589
+ "step": 508
3590
+ },
3591
+ {
3592
+ "epoch": 0.6256914566687154,
3593
+ "grad_norm": 0.3236950933933258,
3594
+ "learning_rate": 3.431438579762066e-05,
3595
+ "loss": 1.0098,
3596
+ "step": 509
3597
+ },
3598
+ {
3599
+ "epoch": 0.6269207129686539,
3600
+ "grad_norm": 0.3463621139526367,
3601
+ "learning_rate": 3.411904099719642e-05,
3602
+ "loss": 1.1123,
3603
+ "step": 510
3604
+ },
3605
+ {
3606
+ "epoch": 0.6281499692685925,
3607
+ "grad_norm": 0.4081440269947052,
3608
+ "learning_rate": 3.3923965428836105e-05,
3609
+ "loss": 1.1303,
3610
+ "step": 511
3611
+ },
3612
+ {
3613
+ "epoch": 0.629379225568531,
3614
+ "grad_norm": 0.38460928201675415,
3615
+ "learning_rate": 3.3729162399682456e-05,
3616
+ "loss": 1.0858,
3617
+ "step": 512
3618
+ },
3619
+ {
3620
+ "epoch": 0.6306084818684696,
3621
+ "grad_norm": 0.474970281124115,
3622
+ "learning_rate": 3.35346352122578e-05,
3623
+ "loss": 1.1176,
3624
+ "step": 513
3625
+ },
3626
+ {
3627
+ "epoch": 0.6318377381684082,
3628
+ "grad_norm": 0.7059311270713806,
3629
+ "learning_rate": 3.3340387164408046e-05,
3630
+ "loss": 1.1786,
3631
+ "step": 514
3632
+ },
3633
+ {
3634
+ "epoch": 0.6330669944683467,
3635
+ "grad_norm": 0.7394426465034485,
3636
+ "learning_rate": 3.314642154924686e-05,
3637
+ "loss": 0.7836,
3638
+ "step": 515
3639
+ },
3640
+ {
3641
+ "epoch": 0.6342962507682852,
3642
+ "grad_norm": 0.766044020652771,
3643
+ "learning_rate": 3.295274165509979e-05,
3644
+ "loss": 0.8919,
3645
+ "step": 516
3646
+ },
3647
+ {
3648
+ "epoch": 0.6355255070682237,
3649
+ "grad_norm": 0.7920165061950684,
3650
+ "learning_rate": 3.275935076544845e-05,
3651
+ "loss": 1.0439,
3652
+ "step": 517
3653
+ },
3654
+ {
3655
+ "epoch": 0.6367547633681623,
3656
+ "grad_norm": 1.224188208580017,
3657
+ "learning_rate": 3.256625215887502e-05,
3658
+ "loss": 1.3103,
3659
+ "step": 518
3660
+ },
3661
+ {
3662
+ "epoch": 0.6379840196681008,
3663
+ "grad_norm": 2.0128793716430664,
3664
+ "learning_rate": 3.237344910900648e-05,
3665
+ "loss": 1.0804,
3666
+ "step": 519
3667
+ },
3668
+ {
3669
+ "epoch": 0.6392132759680393,
3670
+ "grad_norm": 3.370530366897583,
3671
+ "learning_rate": 3.218094488445923e-05,
3672
+ "loss": 0.5978,
3673
+ "step": 520
3674
+ },
3675
+ {
3676
+ "epoch": 0.6404425322679779,
3677
+ "grad_norm": 3.095421314239502,
3678
+ "learning_rate": 3.198874274878365e-05,
3679
+ "loss": 0.847,
3680
+ "step": 521
3681
+ },
3682
+ {
3683
+ "epoch": 0.6416717885679164,
3684
+ "grad_norm": 3.4100868701934814,
3685
+ "learning_rate": 3.179684596040878e-05,
3686
+ "loss": 0.8489,
3687
+ "step": 522
3688
+ },
3689
+ {
3690
+ "epoch": 0.6429010448678549,
3691
+ "grad_norm": 2.608668088912964,
3692
+ "learning_rate": 3.1605257772587035e-05,
3693
+ "loss": 0.8378,
3694
+ "step": 523
3695
+ },
3696
+ {
3697
+ "epoch": 0.6441303011677935,
3698
+ "grad_norm": 2.300096273422241,
3699
+ "learning_rate": 3.141398143333907e-05,
3700
+ "loss": 0.7825,
3701
+ "step": 524
3702
+ },
3703
+ {
3704
+ "epoch": 0.645359557467732,
3705
+ "grad_norm": 2.652704954147339,
3706
+ "learning_rate": 3.1223020185398765e-05,
3707
+ "loss": 0.6505,
3708
+ "step": 525
3709
+ },
3710
+ {
3711
+ "epoch": 0.6465888137676705,
3712
+ "grad_norm": 0.19123272597789764,
3713
+ "learning_rate": 3.103237726615822e-05,
3714
+ "loss": 0.8317,
3715
+ "step": 526
3716
+ },
3717
+ {
3718
+ "epoch": 0.647818070067609,
3719
+ "grad_norm": 0.22544066607952118,
3720
+ "learning_rate": 3.084205590761284e-05,
3721
+ "loss": 1.1174,
3722
+ "step": 527
3723
+ },
3724
+ {
3725
+ "epoch": 0.6490473263675476,
3726
+ "grad_norm": 0.25559771060943604,
3727
+ "learning_rate": 3.065205933630655e-05,
3728
+ "loss": 1.258,
3729
+ "step": 528
3730
+ },
3731
+ {
3732
+ "epoch": 0.6502765826674862,
3733
+ "grad_norm": 0.2453518509864807,
3734
+ "learning_rate": 3.0462390773277154e-05,
3735
+ "loss": 1.1197,
3736
+ "step": 529
3737
+ },
3738
+ {
3739
+ "epoch": 0.6515058389674248,
3740
+ "grad_norm": 0.26897767186164856,
3741
+ "learning_rate": 3.0273053434001662e-05,
3742
+ "loss": 1.2231,
3743
+ "step": 530
3744
+ },
3745
+ {
3746
+ "epoch": 0.6527350952673633,
3747
+ "grad_norm": 0.2956353425979614,
3748
+ "learning_rate": 3.0084050528341824e-05,
3749
+ "loss": 0.9809,
3750
+ "step": 531
3751
+ },
3752
+ {
3753
+ "epoch": 0.6539643515673018,
3754
+ "grad_norm": 0.3043264150619507,
3755
+ "learning_rate": 2.989538526048968e-05,
3756
+ "loss": 1.2625,
3757
+ "step": 532
3758
+ },
3759
+ {
3760
+ "epoch": 0.6551936078672403,
3761
+ "grad_norm": 0.3115137219429016,
3762
+ "learning_rate": 2.9707060828913225e-05,
3763
+ "loss": 1.1544,
3764
+ "step": 533
3765
+ },
3766
+ {
3767
+ "epoch": 0.6564228641671789,
3768
+ "grad_norm": 0.29051673412323,
3769
+ "learning_rate": 2.9519080426302238e-05,
3770
+ "loss": 0.8664,
3771
+ "step": 534
3772
+ },
3773
+ {
3774
+ "epoch": 0.6576521204671174,
3775
+ "grad_norm": 0.31704720854759216,
3776
+ "learning_rate": 2.933144723951414e-05,
3777
+ "loss": 0.8553,
3778
+ "step": 535
3779
+ },
3780
+ {
3781
+ "epoch": 0.6588813767670559,
3782
+ "grad_norm": 0.3343563675880432,
3783
+ "learning_rate": 2.9144164449519917e-05,
3784
+ "loss": 1.042,
3785
+ "step": 536
3786
+ },
3787
+ {
3788
+ "epoch": 0.6601106330669945,
3789
+ "grad_norm": 0.411081999540329,
3790
+ "learning_rate": 2.895723523135028e-05,
3791
+ "loss": 1.2587,
3792
+ "step": 537
3793
+ },
3794
+ {
3795
+ "epoch": 0.661339889366933,
3796
+ "grad_norm": 0.4190918505191803,
3797
+ "learning_rate": 2.877066275404172e-05,
3798
+ "loss": 1.1546,
3799
+ "step": 538
3800
+ },
3801
+ {
3802
+ "epoch": 0.6625691456668715,
3803
+ "grad_norm": 0.5606351494789124,
3804
+ "learning_rate": 2.8584450180582912e-05,
3805
+ "loss": 0.9889,
3806
+ "step": 539
3807
+ },
3808
+ {
3809
+ "epoch": 0.6637984019668101,
3810
+ "grad_norm": 0.6339558959007263,
3811
+ "learning_rate": 2.839860066786103e-05,
3812
+ "loss": 0.5278,
3813
+ "step": 540
3814
+ },
3815
+ {
3816
+ "epoch": 0.6650276582667486,
3817
+ "grad_norm": 0.6629421710968018,
3818
+ "learning_rate": 2.8213117366608188e-05,
3819
+ "loss": 0.752,
3820
+ "step": 541
3821
+ },
3822
+ {
3823
+ "epoch": 0.6662569145666871,
3824
+ "grad_norm": 0.7566842436790466,
3825
+ "learning_rate": 2.802800342134807e-05,
3826
+ "loss": 1.0395,
3827
+ "step": 542
3828
+ },
3829
+ {
3830
+ "epoch": 0.6674861708666256,
3831
+ "grad_norm": 1.169986605644226,
3832
+ "learning_rate": 2.784326197034266e-05,
3833
+ "loss": 1.1942,
3834
+ "step": 543
3835
+ },
3836
+ {
3837
+ "epoch": 0.6687154271665642,
3838
+ "grad_norm": 2.78249192237854,
3839
+ "learning_rate": 2.7658896145538983e-05,
3840
+ "loss": 1.1694,
3841
+ "step": 544
3842
+ },
3843
+ {
3844
+ "epoch": 0.6699446834665027,
3845
+ "grad_norm": 2.5933189392089844,
3846
+ "learning_rate": 2.7474909072515993e-05,
3847
+ "loss": 0.9325,
3848
+ "step": 545
3849
+ },
3850
+ {
3851
+ "epoch": 0.6711739397664414,
3852
+ "grad_norm": 2.37711238861084,
3853
+ "learning_rate": 2.7291303870431662e-05,
3854
+ "loss": 0.9246,
3855
+ "step": 546
3856
+ },
3857
+ {
3858
+ "epoch": 0.6724031960663799,
3859
+ "grad_norm": 3.3568241596221924,
3860
+ "learning_rate": 2.710808365197e-05,
3861
+ "loss": 0.9492,
3862
+ "step": 547
3863
+ },
3864
+ {
3865
+ "epoch": 0.6736324523663184,
3866
+ "grad_norm": 2.975985527038574,
3867
+ "learning_rate": 2.6925251523288346e-05,
3868
+ "loss": 0.8018,
3869
+ "step": 548
3870
+ },
3871
+ {
3872
+ "epoch": 0.6748617086662569,
3873
+ "grad_norm": 2.78823184967041,
3874
+ "learning_rate": 2.674281058396473e-05,
3875
+ "loss": 0.843,
3876
+ "step": 549
3877
+ },
3878
+ {
3879
+ "epoch": 0.6760909649661955,
3880
+ "grad_norm": 4.179988384246826,
3881
+ "learning_rate": 2.6560763926945275e-05,
3882
+ "loss": 1.0288,
3883
+ "step": 550
3884
+ },
3885
+ {
3886
+ "epoch": 0.677320221266134,
3887
+ "grad_norm": 0.21164661645889282,
3888
+ "learning_rate": 2.6379114638491807e-05,
3889
+ "loss": 0.9468,
3890
+ "step": 551
3891
+ },
3892
+ {
3893
+ "epoch": 0.6785494775660725,
3894
+ "grad_norm": 0.2241944521665573,
3895
+ "learning_rate": 2.6197865798129462e-05,
3896
+ "loss": 1.1578,
3897
+ "step": 552
3898
+ },
3899
+ {
3900
+ "epoch": 0.6797787338660111,
3901
+ "grad_norm": 0.25557973980903625,
3902
+ "learning_rate": 2.601702047859455e-05,
3903
+ "loss": 1.2432,
3904
+ "step": 553
3905
+ },
3906
+ {
3907
+ "epoch": 0.6810079901659496,
3908
+ "grad_norm": 0.2733787000179291,
3909
+ "learning_rate": 2.5836581745782475e-05,
3910
+ "loss": 1.2624,
3911
+ "step": 554
3912
+ },
3913
+ {
3914
+ "epoch": 0.6822372464658881,
3915
+ "grad_norm": 0.29645049571990967,
3916
+ "learning_rate": 2.5656552658695642e-05,
3917
+ "loss": 1.2544,
3918
+ "step": 555
3919
+ },
3920
+ {
3921
+ "epoch": 0.6834665027658267,
3922
+ "grad_norm": 0.29211127758026123,
3923
+ "learning_rate": 2.5476936269391726e-05,
3924
+ "loss": 1.0548,
3925
+ "step": 556
3926
+ },
3927
+ {
3928
+ "epoch": 0.6846957590657652,
3929
+ "grad_norm": 0.3013113737106323,
3930
+ "learning_rate": 2.5297735622931874e-05,
3931
+ "loss": 1.0941,
3932
+ "step": 557
3933
+ },
3934
+ {
3935
+ "epoch": 0.6859250153657037,
3936
+ "grad_norm": 0.33897635340690613,
3937
+ "learning_rate": 2.5118953757329088e-05,
3938
+ "loss": 1.0855,
3939
+ "step": 558
3940
+ },
3941
+ {
3942
+ "epoch": 0.6871542716656422,
3943
+ "grad_norm": 0.36230790615081787,
3944
+ "learning_rate": 2.494059370349673e-05,
3945
+ "loss": 1.0817,
3946
+ "step": 559
3947
+ },
3948
+ {
3949
+ "epoch": 0.6883835279655808,
3950
+ "grad_norm": 0.36360612511634827,
3951
+ "learning_rate": 2.4762658485197123e-05,
3952
+ "loss": 1.0868,
3953
+ "step": 560
3954
+ },
3955
+ {
3956
+ "epoch": 0.6896127842655193,
3957
+ "grad_norm": 0.45407038927078247,
3958
+ "learning_rate": 2.4585151118990286e-05,
3959
+ "loss": 1.1186,
3960
+ "step": 561
3961
+ },
3962
+ {
3963
+ "epoch": 0.690842040565458,
3964
+ "grad_norm": 0.5940976142883301,
3965
+ "learning_rate": 2.4408074614182773e-05,
3966
+ "loss": 1.1448,
3967
+ "step": 562
3968
+ },
3969
+ {
3970
+ "epoch": 0.6920712968653965,
3971
+ "grad_norm": 0.6550815105438232,
3972
+ "learning_rate": 2.4231431972776758e-05,
3973
+ "loss": 0.931,
3974
+ "step": 563
3975
+ },
3976
+ {
3977
+ "epoch": 0.693300553165335,
3978
+ "grad_norm": 0.6394757032394409,
3979
+ "learning_rate": 2.4055226189419018e-05,
3980
+ "loss": 0.8543,
3981
+ "step": 564
3982
+ },
3983
+ {
3984
+ "epoch": 0.6945298094652735,
3985
+ "grad_norm": 0.6903315186500549,
3986
+ "learning_rate": 2.3879460251350255e-05,
3987
+ "loss": 0.8152,
3988
+ "step": 565
3989
+ },
3990
+ {
3991
+ "epoch": 0.6957590657652121,
3992
+ "grad_norm": 0.9499403238296509,
3993
+ "learning_rate": 2.3704137138354355e-05,
3994
+ "loss": 1.2532,
3995
+ "step": 566
3996
+ },
3997
+ {
3998
+ "epoch": 0.6969883220651506,
3999
+ "grad_norm": 1.2395949363708496,
4000
+ "learning_rate": 2.3529259822708e-05,
4001
+ "loss": 1.3153,
4002
+ "step": 567
4003
+ },
4004
+ {
4005
+ "epoch": 0.6982175783650891,
4006
+ "grad_norm": 2.5209338665008545,
4007
+ "learning_rate": 2.3354831269130133e-05,
4008
+ "loss": 1.4484,
4009
+ "step": 568
4010
+ },
4011
+ {
4012
+ "epoch": 0.6994468346650277,
4013
+ "grad_norm": 3.072936773300171,
4014
+ "learning_rate": 2.318085443473185e-05,
4015
+ "loss": 0.9566,
4016
+ "step": 569
4017
+ },
4018
+ {
4019
+ "epoch": 0.7006760909649662,
4020
+ "grad_norm": 2.40030574798584,
4021
+ "learning_rate": 2.300733226896612e-05,
4022
+ "loss": 0.6958,
4023
+ "step": 570
4024
+ },
4025
+ {
4026
+ "epoch": 0.7019053472649047,
4027
+ "grad_norm": 3.1356310844421387,
4028
+ "learning_rate": 2.2834267713577904e-05,
4029
+ "loss": 1.261,
4030
+ "step": 571
4031
+ },
4032
+ {
4033
+ "epoch": 0.7031346035648433,
4034
+ "grad_norm": 2.5506911277770996,
4035
+ "learning_rate": 2.2661663702554208e-05,
4036
+ "loss": 0.7489,
4037
+ "step": 572
4038
+ },
4039
+ {
4040
+ "epoch": 0.7043638598647818,
4041
+ "grad_norm": 2.605987548828125,
4042
+ "learning_rate": 2.2489523162074393e-05,
4043
+ "loss": 0.8642,
4044
+ "step": 573
4045
+ },
4046
+ {
4047
+ "epoch": 0.7055931161647203,
4048
+ "grad_norm": 2.3878705501556396,
4049
+ "learning_rate": 2.2317849010460507e-05,
4050
+ "loss": 0.559,
4051
+ "step": 574
4052
+ },
4053
+ {
4054
+ "epoch": 0.7068223724646588,
4055
+ "grad_norm": 4.309600353240967,
4056
+ "learning_rate": 2.2146644158127827e-05,
4057
+ "loss": 1.3898,
4058
+ "step": 575
4059
+ },
4060
+ {
4061
+ "epoch": 0.7080516287645974,
4062
+ "grad_norm": 0.2340036779642105,
4063
+ "learning_rate": 2.197591150753559e-05,
4064
+ "loss": 1.1237,
4065
+ "step": 576
4066
+ },
4067
+ {
4068
+ "epoch": 0.7092808850645359,
4069
+ "grad_norm": 0.2404404878616333,
4070
+ "learning_rate": 2.1805653953137707e-05,
4071
+ "loss": 1.2235,
4072
+ "step": 577
4073
+ },
4074
+ {
4075
+ "epoch": 0.7105101413644745,
4076
+ "grad_norm": 0.2546350657939911,
4077
+ "learning_rate": 2.1635874381333714e-05,
4078
+ "loss": 1.1931,
4079
+ "step": 578
4080
+ },
4081
+ {
4082
+ "epoch": 0.7117393976644131,
4083
+ "grad_norm": 0.28081899881362915,
4084
+ "learning_rate": 2.1466575670419876e-05,
4085
+ "loss": 1.1851,
4086
+ "step": 579
4087
+ },
4088
+ {
4089
+ "epoch": 0.7129686539643516,
4090
+ "grad_norm": 0.27532532811164856,
4091
+ "learning_rate": 2.1297760690540302e-05,
4092
+ "loss": 1.0733,
4093
+ "step": 580
4094
+ },
4095
+ {
4096
+ "epoch": 0.7141979102642901,
4097
+ "grad_norm": 0.26407289505004883,
4098
+ "learning_rate": 2.1129432303638352e-05,
4099
+ "loss": 1.0863,
4100
+ "step": 581
4101
+ },
4102
+ {
4103
+ "epoch": 0.7154271665642287,
4104
+ "grad_norm": 0.31387853622436523,
4105
+ "learning_rate": 2.0961593363408156e-05,
4106
+ "loss": 1.1808,
4107
+ "step": 582
4108
+ },
4109
+ {
4110
+ "epoch": 0.7166564228641672,
4111
+ "grad_norm": 0.3309866487979889,
4112
+ "learning_rate": 2.079424671524616e-05,
4113
+ "loss": 1.0741,
4114
+ "step": 583
4115
+ },
4116
+ {
4117
+ "epoch": 0.7178856791641057,
4118
+ "grad_norm": 0.300689697265625,
4119
+ "learning_rate": 2.0627395196202898e-05,
4120
+ "loss": 0.9483,
4121
+ "step": 584
4122
+ },
4123
+ {
4124
+ "epoch": 0.7191149354640443,
4125
+ "grad_norm": 0.3478316366672516,
4126
+ "learning_rate": 2.046104163493493e-05,
4127
+ "loss": 1.144,
4128
+ "step": 585
4129
+ },
4130
+ {
4131
+ "epoch": 0.7203441917639828,
4132
+ "grad_norm": 0.44858890771865845,
4133
+ "learning_rate": 2.0295188851656892e-05,
4134
+ "loss": 1.1384,
4135
+ "step": 586
4136
+ },
4137
+ {
4138
+ "epoch": 0.7215734480639213,
4139
+ "grad_norm": 0.4991127550601959,
4140
+ "learning_rate": 2.0129839658093607e-05,
4141
+ "loss": 1.3527,
4142
+ "step": 587
4143
+ },
4144
+ {
4145
+ "epoch": 0.7228027043638598,
4146
+ "grad_norm": 0.5499400496482849,
4147
+ "learning_rate": 1.996499685743254e-05,
4148
+ "loss": 1.2116,
4149
+ "step": 588
4150
+ },
4151
+ {
4152
+ "epoch": 0.7240319606637984,
4153
+ "grad_norm": 0.6611432433128357,
4154
+ "learning_rate": 1.980066324427613e-05,
4155
+ "loss": 0.5055,
4156
+ "step": 589
4157
+ },
4158
+ {
4159
+ "epoch": 0.7252612169637369,
4160
+ "grad_norm": 0.7008240222930908,
4161
+ "learning_rate": 1.9636841604594557e-05,
4162
+ "loss": 0.7072,
4163
+ "step": 590
4164
+ },
4165
+ {
4166
+ "epoch": 0.7264904732636754,
4167
+ "grad_norm": 0.7243725061416626,
4168
+ "learning_rate": 1.9473534715678427e-05,
4169
+ "loss": 0.8031,
4170
+ "step": 591
4171
+ },
4172
+ {
4173
+ "epoch": 0.727719729563614,
4174
+ "grad_norm": 0.8577756285667419,
4175
+ "learning_rate": 1.9310745346091714e-05,
4176
+ "loss": 1.1383,
4177
+ "step": 592
4178
+ },
4179
+ {
4180
+ "epoch": 0.7289489858635525,
4181
+ "grad_norm": 1.2171465158462524,
4182
+ "learning_rate": 1.9148476255624764e-05,
4183
+ "loss": 0.9733,
4184
+ "step": 593
4185
+ },
4186
+ {
4187
+ "epoch": 0.7301782421634911,
4188
+ "grad_norm": 3.537208318710327,
4189
+ "learning_rate": 1.898673019524764e-05,
4190
+ "loss": 1.1197,
4191
+ "step": 594
4192
+ },
4193
+ {
4194
+ "epoch": 0.7314074984634297,
4195
+ "grad_norm": 2.420771360397339,
4196
+ "learning_rate": 1.8825509907063327e-05,
4197
+ "loss": 0.7744,
4198
+ "step": 595
4199
+ },
4200
+ {
4201
+ "epoch": 0.7326367547633682,
4202
+ "grad_norm": 3.1013336181640625,
4203
+ "learning_rate": 1.8664818124261374e-05,
4204
+ "loss": 0.7931,
4205
+ "step": 596
4206
+ },
4207
+ {
4208
+ "epoch": 0.7338660110633067,
4209
+ "grad_norm": 3.5393359661102295,
4210
+ "learning_rate": 1.8504657571071515e-05,
4211
+ "loss": 1.0527,
4212
+ "step": 597
4213
+ },
4214
+ {
4215
+ "epoch": 0.7350952673632453,
4216
+ "grad_norm": 2.782148838043213,
4217
+ "learning_rate": 1.8345030962717407e-05,
4218
+ "loss": 0.8034,
4219
+ "step": 598
4220
+ },
4221
+ {
4222
+ "epoch": 0.7363245236631838,
4223
+ "grad_norm": 2.12009596824646,
4224
+ "learning_rate": 1.8185941005370745e-05,
4225
+ "loss": 0.4618,
4226
+ "step": 599
4227
+ },
4228
+ {
4229
+ "epoch": 0.7375537799631223,
4230
+ "grad_norm": 3.6186935901641846,
4231
+ "learning_rate": 1.802739039610527e-05,
4232
+ "loss": 0.793,
4233
+ "step": 600
4234
+ },
4235
+ {
4236
+ "epoch": 0.7387830362630609,
4237
+ "grad_norm": 0.22188998758792877,
4238
+ "learning_rate": 1.786938182285107e-05,
4239
+ "loss": 1.1901,
4240
+ "step": 601
4241
+ },
4242
+ {
4243
+ "epoch": 0.7400122925629994,
4244
+ "grad_norm": 0.2288677990436554,
4245
+ "learning_rate": 1.7711917964349062e-05,
4246
+ "loss": 1.1755,
4247
+ "step": 602
4248
+ },
4249
+ {
4250
+ "epoch": 0.7412415488629379,
4251
+ "grad_norm": 0.25471025705337524,
4252
+ "learning_rate": 1.7555001490105488e-05,
4253
+ "loss": 1.2616,
4254
+ "step": 603
4255
+ },
4256
+ {
4257
+ "epoch": 0.7424708051628764,
4258
+ "grad_norm": 0.23840656876564026,
4259
+ "learning_rate": 1.7398635060346746e-05,
4260
+ "loss": 1.0882,
4261
+ "step": 604
4262
+ },
4263
+ {
4264
+ "epoch": 0.743700061462815,
4265
+ "grad_norm": 0.2534352242946625,
4266
+ "learning_rate": 1.7242821325974258e-05,
4267
+ "loss": 1.1328,
4268
+ "step": 605
4269
+ },
4270
+ {
4271
+ "epoch": 0.7449293177627535,
4272
+ "grad_norm": 0.279732346534729,
4273
+ "learning_rate": 1.7087562928519514e-05,
4274
+ "loss": 1.1703,
4275
+ "step": 606
4276
+ },
4277
+ {
4278
+ "epoch": 0.746158574062692,
4279
+ "grad_norm": 0.3084731698036194,
4280
+ "learning_rate": 1.69328625000993e-05,
4281
+ "loss": 1.1646,
4282
+ "step": 607
4283
+ },
4284
+ {
4285
+ "epoch": 0.7473878303626306,
4286
+ "grad_norm": 0.3052552044391632,
4287
+ "learning_rate": 1.6778722663371053e-05,
4288
+ "loss": 1.1481,
4289
+ "step": 608
4290
+ },
4291
+ {
4292
+ "epoch": 0.7486170866625691,
4293
+ "grad_norm": 0.3502384126186371,
4294
+ "learning_rate": 1.662514603148847e-05,
4295
+ "loss": 1.0333,
4296
+ "step": 609
4297
+ },
4298
+ {
4299
+ "epoch": 0.7498463429625076,
4300
+ "grad_norm": 0.3393804728984833,
4301
+ "learning_rate": 1.6472135208057126e-05,
4302
+ "loss": 1.0056,
4303
+ "step": 610
4304
+ },
4305
+ {
4306
+ "epoch": 0.7510755992624463,
4307
+ "grad_norm": 0.3970140814781189,
4308
+ "learning_rate": 1.631969278709041e-05,
4309
+ "loss": 1.1957,
4310
+ "step": 611
4311
+ },
4312
+ {
4313
+ "epoch": 0.7523048555623848,
4314
+ "grad_norm": 0.4345152974128723,
4315
+ "learning_rate": 1.616782135296544e-05,
4316
+ "loss": 1.0145,
4317
+ "step": 612
4318
+ },
4319
+ {
4320
+ "epoch": 0.7523048555623848,
4321
+ "eval_loss": 0.9307632446289062,
4322
+ "eval_runtime": 64.7426,
4323
+ "eval_samples_per_second": 10.58,
4324
+ "eval_steps_per_second": 5.298,
4325
+ "step": 612
4326
  }
4327
  ],
4328
  "logging_steps": 1,
 
4342
  "attributes": {}
4343
  }
4344
  },
4345
+ "total_flos": 1.261491430967214e+17,
4346
  "train_batch_size": 1,
4347
  "trial_name": null,
4348
  "trial_params": null