SISUSIK / trainer_state.json

Upload 12 files

9e30eee about 1 year ago

36.6 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.17394329448599757,
	"global_step": 3000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 1.4999999999999999e-05,
	"loss": 5.797,
	"step": 10
	},
	{
	"epoch": 0.0,
	"learning_rate": 4.2e-05,
	"loss": 4.6838,
	"step": 20
	},
	{
	"epoch": 0.0,
	"learning_rate": 7.199999999999999e-05,
	"loss": 5.6319,
	"step": 30
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.000102,
	"loss": 5.0822,
	"step": 40
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.000129,
	"loss": 4.2645,
	"step": 50
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.000159,
	"loss": 4.4867,
	"step": 60
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.00018899999999999999,
	"loss": 4.321,
	"step": 70
	},
	{
	"epoch": 0.0,
	"learning_rate": 0.00021899999999999998,
	"loss": 3.9697,
	"step": 80
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.000249,
	"loss": 3.8873,
	"step": 90
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.000279,
	"loss": 3.9087,
	"step": 100
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002999947786737831,
	"loss": 3.7777,
	"step": 110
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002999773742530603,
	"loss": 4.0537,
	"step": 120
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00029995996983233736,
	"loss": 3.8181,
	"step": 130
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00029994256541161454,
	"loss": 3.7261,
	"step": 140
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00029992516099089166,
	"loss": 4.0132,
	"step": 150
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002999077565701688,
	"loss": 3.7437,
	"step": 160
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002998903521494459,
	"loss": 3.5736,
	"step": 170
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00029987294772872305,
	"loss": 3.8578,
	"step": 180
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00029985554330800023,
	"loss": 3.5236,
	"step": 190
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00029983813888727736,
	"loss": 3.8339,
	"step": 200
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002998207344665545,
	"loss": 3.8672,
	"step": 210
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002998033300458316,
	"loss": 3.4447,
	"step": 220
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.00029978592562510874,
	"loss": 3.3767,
	"step": 230
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.0002997685212043859,
	"loss": 3.8753,
	"step": 240
	},
	{
	"epoch": 0.01,
	"learning_rate": 0.000299751116783663,
	"loss": 3.825,
	"step": 250
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002997337123629402,
	"loss": 3.7691,
	"step": 260
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002997163079422173,
	"loss": 3.7529,
	"step": 270
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029969890352149443,
	"loss": 3.7102,
	"step": 280
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029968149910077155,
	"loss": 3.6104,
	"step": 290
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002996640946800487,
	"loss": 3.7396,
	"step": 300
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029964669025932586,
	"loss": 3.5363,
	"step": 310
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.000299629285838603,
	"loss": 3.7725,
	"step": 320
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002996118814178801,
	"loss": 3.728,
	"step": 330
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029959447699715725,
	"loss": 3.333,
	"step": 340
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029957707257643437,
	"loss": 3.7651,
	"step": 350
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029955966815571155,
	"loss": 3.6743,
	"step": 360
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029954226373498863,
	"loss": 3.6236,
	"step": 370
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002995248593142658,
	"loss": 3.837,
	"step": 380
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029950745489354294,
	"loss": 3.8097,
	"step": 390
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.00029949005047282006,
	"loss": 3.886,
	"step": 400
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002994726460520972,
	"loss": 3.7826,
	"step": 410
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002994552416313743,
	"loss": 3.6854,
	"step": 420
	},
	{
	"epoch": 0.02,
	"learning_rate": 0.0002994378372106515,
	"loss": 3.4106,
	"step": 430
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029942043278992857,
	"loss": 3.7991,
	"step": 440
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029940302836920575,
	"loss": 3.5353,
	"step": 450
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002993856239484829,
	"loss": 3.7661,
	"step": 460
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029936821952776,
	"loss": 3.43,
	"step": 470
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029935081510703714,
	"loss": 3.5965,
	"step": 480
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029933341068631426,
	"loss": 3.6576,
	"step": 490
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029931600626559144,
	"loss": 3.6634,
	"step": 500
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029929860184486857,
	"loss": 3.5374,
	"step": 510
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002992811974241457,
	"loss": 3.6912,
	"step": 520
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002992637930034228,
	"loss": 3.6375,
	"step": 530
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029924638858269995,
	"loss": 3.3367,
	"step": 540
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029922898416197714,
	"loss": 3.7179,
	"step": 550
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029921157974125426,
	"loss": 3.5059,
	"step": 560
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002991941753205314,
	"loss": 3.2627,
	"step": 570
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002991767708998085,
	"loss": 3.5826,
	"step": 580
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.0002991593664790857,
	"loss": 3.5854,
	"step": 590
	},
	{
	"epoch": 0.03,
	"learning_rate": 0.00029914196205836277,
	"loss": 3.6205,
	"step": 600
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00029912455763763995,
	"loss": 3.3627,
	"step": 610
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002991071532169171,
	"loss": 3.7299,
	"step": 620
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002990897487961942,
	"loss": 3.4119,
	"step": 630
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00029907234437547133,
	"loss": 3.6321,
	"step": 640
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00029905493995474846,
	"loss": 3.4665,
	"step": 650
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00029903753553402564,
	"loss": 3.3959,
	"step": 660
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00029902013111330277,
	"loss": 3.4348,
	"step": 670
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002990027266925799,
	"loss": 3.6478,
	"step": 680
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.000298985322271857,
	"loss": 3.5589,
	"step": 690
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00029896791785113415,
	"loss": 3.4357,
	"step": 700
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00029895051343041133,
	"loss": 3.5833,
	"step": 710
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002989331090096884,
	"loss": 3.4633,
	"step": 720
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002989157045889656,
	"loss": 3.4848,
	"step": 730
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002988983001682427,
	"loss": 3.1688,
	"step": 740
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00029888089574751984,
	"loss": 3.7193,
	"step": 750
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.00029886349132679697,
	"loss": 3.5895,
	"step": 760
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002988460869060741,
	"loss": 3.5518,
	"step": 770
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002988286824853513,
	"loss": 3.5631,
	"step": 780
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002988112780646284,
	"loss": 3.5545,
	"step": 790
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00029879387364390553,
	"loss": 3.5699,
	"step": 800
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00029877646922318266,
	"loss": 3.5634,
	"step": 810
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002987590648024598,
	"loss": 3.607,
	"step": 820
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00029874166038173697,
	"loss": 3.3944,
	"step": 830
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00029872425596101404,
	"loss": 3.5578,
	"step": 840
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002987068515402912,
	"loss": 3.3392,
	"step": 850
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00029868944711956835,
	"loss": 3.5491,
	"step": 860
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002986720426988455,
	"loss": 3.4634,
	"step": 870
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002986546382781226,
	"loss": 3.481,
	"step": 880
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00029863723385739973,
	"loss": 3.4969,
	"step": 890
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002986198294366769,
	"loss": 3.4256,
	"step": 900
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00029860242501595404,
	"loss": 3.3778,
	"step": 910
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.00029858502059523117,
	"loss": 3.291,
	"step": 920
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002985676161745083,
	"loss": 3.5129,
	"step": 930
	},
	{
	"epoch": 0.05,
	"learning_rate": 0.0002985502117537854,
	"loss": 3.5895,
	"step": 940
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002985328073330626,
	"loss": 3.4668,
	"step": 950
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002985154029123397,
	"loss": 3.4919,
	"step": 960
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00029849799849161686,
	"loss": 3.5387,
	"step": 970
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.000298480594070894,
	"loss": 3.5237,
	"step": 980
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002984631896501711,
	"loss": 3.5108,
	"step": 990
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00029844578522944824,
	"loss": 3.6527,
	"step": 1000
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00029842838080872537,
	"loss": 3.2056,
	"step": 1010
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00029841097638800255,
	"loss": 3.4018,
	"step": 1020
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002983935719672797,
	"loss": 3.4554,
	"step": 1030
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002983761675465568,
	"loss": 3.4236,
	"step": 1040
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00029835876312583393,
	"loss": 3.3244,
	"step": 1050
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00029834135870511106,
	"loss": 3.4164,
	"step": 1060
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00029832395428438824,
	"loss": 3.0626,
	"step": 1070
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002983065498636653,
	"loss": 3.7244,
	"step": 1080
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002982891454429425,
	"loss": 3.4565,
	"step": 1090
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002982717410222196,
	"loss": 3.5781,
	"step": 1100
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.00029825433660149675,
	"loss": 3.2126,
	"step": 1110
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0002982369321807739,
	"loss": 3.6434,
	"step": 1120
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.000298219527760051,
	"loss": 3.4129,
	"step": 1130
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002982021233393282,
	"loss": 3.2887,
	"step": 1140
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002981847189186053,
	"loss": 3.5407,
	"step": 1150
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00029816731449788244,
	"loss": 3.5717,
	"step": 1160
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00029814991007715957,
	"loss": 3.6888,
	"step": 1170
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002981325056564367,
	"loss": 3.6167,
	"step": 1180
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002981151012357139,
	"loss": 3.3514,
	"step": 1190
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00029809769681499095,
	"loss": 3.4163,
	"step": 1200
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00029808029239426813,
	"loss": 3.5967,
	"step": 1210
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00029806288797354526,
	"loss": 3.4587,
	"step": 1220
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002980454835528224,
	"loss": 3.3907,
	"step": 1230
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002980280791320995,
	"loss": 3.6969,
	"step": 1240
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00029801067471137664,
	"loss": 3.2609,
	"step": 1250
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002979932702906538,
	"loss": 3.5595,
	"step": 1260
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.00029797586586993095,
	"loss": 3.3332,
	"step": 1270
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002979584614492081,
	"loss": 3.4112,
	"step": 1280
	},
	{
	"epoch": 0.07,
	"learning_rate": 0.0002979410570284852,
	"loss": 3.4097,
	"step": 1290
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00029792365260776233,
	"loss": 3.619,
	"step": 1300
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002979062481870395,
	"loss": 3.2694,
	"step": 1310
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002978888437663166,
	"loss": 3.6746,
	"step": 1320
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00029787143934559377,
	"loss": 3.3979,
	"step": 1330
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002978540349248709,
	"loss": 3.5019,
	"step": 1340
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.000297836630504148,
	"loss": 3.2628,
	"step": 1350
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00029781922608342515,
	"loss": 3.2965,
	"step": 1360
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002978018216627023,
	"loss": 3.6118,
	"step": 1370
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00029778441724197946,
	"loss": 3.5439,
	"step": 1380
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00029776701282125653,
	"loss": 3.1755,
	"step": 1390
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002977496084005337,
	"loss": 3.6912,
	"step": 1400
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00029773220397981084,
	"loss": 3.2572,
	"step": 1410
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00029771479955908797,
	"loss": 3.364,
	"step": 1420
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002976973951383651,
	"loss": 3.4011,
	"step": 1430
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002976799907176422,
	"loss": 3.5433,
	"step": 1440
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.0002976625862969194,
	"loss": 3.4217,
	"step": 1450
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.00029764518187619653,
	"loss": 3.331,
	"step": 1460
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00029762777745547366,
	"loss": 3.1582,
	"step": 1470
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002976103730347508,
	"loss": 3.3783,
	"step": 1480
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002975929686140279,
	"loss": 3.5096,
	"step": 1490
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002975755641933051,
	"loss": 3.3047,
	"step": 1500
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00029755815977258217,
	"loss": 3.3239,
	"step": 1510
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00029754075535185935,
	"loss": 3.3897,
	"step": 1520
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002975233509311365,
	"loss": 2.9298,
	"step": 1530
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002975059465104136,
	"loss": 3.2706,
	"step": 1540
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00029748854208969073,
	"loss": 3.6979,
	"step": 1550
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00029747113766896786,
	"loss": 3.3929,
	"step": 1560
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00029745373324824504,
	"loss": 3.3763,
	"step": 1570
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00029743632882752217,
	"loss": 3.4914,
	"step": 1580
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002974189244067993,
	"loss": 3.4507,
	"step": 1590
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.0002974015199860764,
	"loss": 3.4506,
	"step": 1600
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00029738411556535355,
	"loss": 3.2699,
	"step": 1610
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00029736671114463073,
	"loss": 3.5554,
	"step": 1620
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00029734930672390786,
	"loss": 3.677,
	"step": 1630
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.000297331902303185,
	"loss": 3.3466,
	"step": 1640
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002973144978824621,
	"loss": 3.4125,
	"step": 1650
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00029729709346173924,
	"loss": 3.4123,
	"step": 1660
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00029727968904101637,
	"loss": 3.1869,
	"step": 1670
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00029726228462029355,
	"loss": 3.5066,
	"step": 1680
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002972448801995707,
	"loss": 3.68,
	"step": 1690
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002972274757788478,
	"loss": 3.3881,
	"step": 1700
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00029721007135812493,
	"loss": 3.5452,
	"step": 1710
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00029719266693740206,
	"loss": 3.4605,
	"step": 1720
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00029717526251667924,
	"loss": 3.5601,
	"step": 1730
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00029715785809595637,
	"loss": 3.3588,
	"step": 1740
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002971404536752335,
	"loss": 3.3235,
	"step": 1750
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002971230492545106,
	"loss": 3.6218,
	"step": 1760
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00029710564483378775,
	"loss": 3.4837,
	"step": 1770
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.00029708824041306493,
	"loss": 3.402,
	"step": 1780
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.000297070835992342,
	"loss": 3.2912,
	"step": 1790
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002970534315716192,
	"loss": 3.704,
	"step": 1800
	},
	{
	"epoch": 0.1,
	"learning_rate": 0.0002970360271508963,
	"loss": 3.6123,
	"step": 1810
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00029701862273017344,
	"loss": 3.3626,
	"step": 1820
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00029700121830945057,
	"loss": 3.2765,
	"step": 1830
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002969838138887277,
	"loss": 3.3083,
	"step": 1840
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002969664094680049,
	"loss": 3.8005,
	"step": 1850
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.000296949005047282,
	"loss": 3.6119,
	"step": 1860
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00029693160062655913,
	"loss": 3.2547,
	"step": 1870
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00029691419620583626,
	"loss": 3.4915,
	"step": 1880
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002968967917851134,
	"loss": 3.4441,
	"step": 1890
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00029687938736439057,
	"loss": 3.6537,
	"step": 1900
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00029686198294366764,
	"loss": 3.2625,
	"step": 1910
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002968445785229448,
	"loss": 3.411,
	"step": 1920
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00029682717410222195,
	"loss": 2.997,
	"step": 1930
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002968097696814991,
	"loss": 3.3158,
	"step": 1940
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002967923652607762,
	"loss": 3.0668,
	"step": 1950
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00029677496084005333,
	"loss": 3.3956,
	"step": 1960
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.0002967575564193305,
	"loss": 3.5991,
	"step": 1970
	},
	{
	"epoch": 0.11,
	"learning_rate": 0.00029674015199860764,
	"loss": 3.5781,
	"step": 1980
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00029672274757788477,
	"loss": 3.5981,
	"step": 1990
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002967053431571619,
	"loss": 3.6671,
	"step": 2000
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.000296687938736439,
	"loss": 2.9026,
	"step": 2010
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002966705343157162,
	"loss": 3.2852,
	"step": 2020
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002966531298949933,
	"loss": 3.439,
	"step": 2030
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00029663572547427046,
	"loss": 3.3326,
	"step": 2040
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002966183210535476,
	"loss": 3.3541,
	"step": 2050
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002966009166328247,
	"loss": 3.3194,
	"step": 2060
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00029658351221210184,
	"loss": 3.5999,
	"step": 2070
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00029656610779137896,
	"loss": 3.1402,
	"step": 2080
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00029654870337065615,
	"loss": 3.0779,
	"step": 2090
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002965312989499333,
	"loss": 3.4571,
	"step": 2100
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002965138945292104,
	"loss": 3.2815,
	"step": 2110
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00029649649010848753,
	"loss": 3.2003,
	"step": 2120
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00029647908568776466,
	"loss": 3.5262,
	"step": 2130
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00029646168126704184,
	"loss": 3.1835,
	"step": 2140
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002964442768463189,
	"loss": 3.0947,
	"step": 2150
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002964268724255961,
	"loss": 3.5398,
	"step": 2160
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002964094680048732,
	"loss": 3.319,
	"step": 2170
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00029639206358415035,
	"loss": 3.3722,
	"step": 2180
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002963746591634275,
	"loss": 3.3396,
	"step": 2190
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002963572547427046,
	"loss": 3.2734,
	"step": 2200
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002963398503219818,
	"loss": 3.3672,
	"step": 2210
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002963224459012589,
	"loss": 3.3559,
	"step": 2220
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00029630504148053604,
	"loss": 3.3601,
	"step": 2230
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00029628763705981316,
	"loss": 3.6175,
	"step": 2240
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002962702326390903,
	"loss": 3.2681,
	"step": 2250
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00029625282821836747,
	"loss": 3.3181,
	"step": 2260
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00029623542379764455,
	"loss": 3.5367,
	"step": 2270
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00029621801937692173,
	"loss": 3.2207,
	"step": 2280
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00029620061495619885,
	"loss": 3.2358,
	"step": 2290
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.000296183210535476,
	"loss": 3.4455,
	"step": 2300
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.0002961658061147531,
	"loss": 3.4017,
	"step": 2310
	},
	{
	"epoch": 0.13,
	"learning_rate": 0.00029614840169403024,
	"loss": 3.4288,
	"step": 2320
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002961309972733074,
	"loss": 3.3411,
	"step": 2330
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00029611359285258455,
	"loss": 3.1286,
	"step": 2340
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00029609618843186167,
	"loss": 2.9427,
	"step": 2350
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002960787840111388,
	"loss": 3.4088,
	"step": 2360
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002960613795904159,
	"loss": 3.3628,
	"step": 2370
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00029604397516969305,
	"loss": 3.4993,
	"step": 2380
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002960265707489702,
	"loss": 3.6364,
	"step": 2390
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00029600916632824736,
	"loss": 3.482,
	"step": 2400
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002959917619075245,
	"loss": 3.4856,
	"step": 2410
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002959743574868016,
	"loss": 3.4327,
	"step": 2420
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00029595695306607874,
	"loss": 3.4458,
	"step": 2430
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00029593954864535587,
	"loss": 3.3191,
	"step": 2440
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00029592214422463305,
	"loss": 3.4966,
	"step": 2450
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002959047398039101,
	"loss": 3.1979,
	"step": 2460
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002958873353831873,
	"loss": 3.3932,
	"step": 2470
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00029586993096246444,
	"loss": 3.1029,
	"step": 2480
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.00029585252654174156,
	"loss": 3.2549,
	"step": 2490
	},
	{
	"epoch": 0.14,
	"learning_rate": 0.0002958351221210187,
	"loss": 3.3986,
	"step": 2500
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002958177177002958,
	"loss": 3.22,
	"step": 2510
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.000295800313279573,
	"loss": 3.0488,
	"step": 2520
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002957829088588501,
	"loss": 3.5085,
	"step": 2530
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00029576550443812725,
	"loss": 3.2679,
	"step": 2540
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002957481000174044,
	"loss": 3.4828,
	"step": 2550
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002957306955966815,
	"loss": 3.4081,
	"step": 2560
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002957132911759587,
	"loss": 3.3543,
	"step": 2570
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00029569588675523576,
	"loss": 3.6927,
	"step": 2580
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00029567848233451294,
	"loss": 3.215,
	"step": 2590
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00029566107791379007,
	"loss": 3.502,
	"step": 2600
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002956436734930672,
	"loss": 3.4641,
	"step": 2610
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002956262690723443,
	"loss": 3.2631,
	"step": 2620
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00029560886465162145,
	"loss": 3.3747,
	"step": 2630
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00029559146023089863,
	"loss": 3.3669,
	"step": 2640
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00029557405581017576,
	"loss": 2.8722,
	"step": 2650
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.0002955566513894529,
	"loss": 3.4885,
	"step": 2660
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00029553924696873,
	"loss": 3.5238,
	"step": 2670
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00029552184254800714,
	"loss": 3.2318,
	"step": 2680
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002955044381272843,
	"loss": 3.4054,
	"step": 2690
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00029548703370656145,
	"loss": 3.2475,
	"step": 2700
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002954696292858386,
	"loss": 3.3495,
	"step": 2710
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002954522248651157,
	"loss": 3.5605,
	"step": 2720
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00029543482044439283,
	"loss": 3.0016,
	"step": 2730
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00029541741602366996,
	"loss": 3.1471,
	"step": 2740
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00029540001160294714,
	"loss": 3.5481,
	"step": 2750
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00029538260718222427,
	"loss": 3.4854,
	"step": 2760
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002953652027615014,
	"loss": 3.535,
	"step": 2770
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002953477983407785,
	"loss": 3.2613,
	"step": 2780
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00029533039392005565,
	"loss": 3.3677,
	"step": 2790
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00029531298949933283,
	"loss": 3.2767,
	"step": 2800
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00029529558507860996,
	"loss": 3.4752,
	"step": 2810
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002952781806578871,
	"loss": 3.6749,
	"step": 2820
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.0002952607762371642,
	"loss": 3.2192,
	"step": 2830
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.00029524337181644134,
	"loss": 3.2643,
	"step": 2840
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002952259673957185,
	"loss": 3.5323,
	"step": 2850
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002952085629749956,
	"loss": 3.1769,
	"step": 2860
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002951911585542728,
	"loss": 3.4551,
	"step": 2870
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002951737541335499,
	"loss": 3.387,
	"step": 2880
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00029515634971282703,
	"loss": 3.2243,
	"step": 2890
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00029513894529210416,
	"loss": 2.9179,
	"step": 2900
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002951215408713813,
	"loss": 3.2905,
	"step": 2910
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00029510413645065847,
	"loss": 3.262,
	"step": 2920
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002950867320299356,
	"loss": 3.2404,
	"step": 2930
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002950693276092127,
	"loss": 3.577,
	"step": 2940
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00029505192318848985,
	"loss": 3.5627,
	"step": 2950
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.000295034518767767,
	"loss": 3.5328,
	"step": 2960
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00029501711434704416,
	"loss": 3.5149,
	"step": 2970
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00029499970992632123,
	"loss": 3.2421,
	"step": 2980
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.0002949823055055984,
	"loss": 3.0618,
	"step": 2990
	},
	{
	"epoch": 0.17,
	"learning_rate": 0.00029496490108487554,
	"loss": 3.2825,
	"step": 3000
	}
	],
	"max_steps": 172470,
	"num_train_epochs": 10,
	"total_flos": 6.54510518697984e+16,
	"trial_name": null,
	"trial_params": null
	}