Training in progress, step 100, checkpoint

590e0ab verified about 1 month ago

20.6 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.0033444256785003595,
	"eval_steps": 9,
	"global_step": 100,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 3.3444256785003593e-05,
	"grad_norm": 4.028215408325195,
	"learning_rate": 1e-05,
	"loss": 3.5489,
	"step": 1
	},
	{
	"epoch": 3.3444256785003593e-05,
	"eval_loss": 3.722480297088623,
	"eval_runtime": 2739.1214,
	"eval_samples_per_second": 9.193,
	"eval_steps_per_second": 1.149,
	"step": 1
	},
	{
	"epoch": 6.688851357000719e-05,
	"grad_norm": 4.290927886962891,
	"learning_rate": 2e-05,
	"loss": 3.6949,
	"step": 2
	},
	{
	"epoch": 0.00010033277035501078,
	"grad_norm": 4.205336570739746,
	"learning_rate": 3e-05,
	"loss": 3.5552,
	"step": 3
	},
	{
	"epoch": 0.00013377702714001437,
	"grad_norm": 4.705852508544922,
	"learning_rate": 4e-05,
	"loss": 3.9999,
	"step": 4
	},
	{
	"epoch": 0.00016722128392501797,
	"grad_norm": 4.193447589874268,
	"learning_rate": 5e-05,
	"loss": 3.3292,
	"step": 5
	},
	{
	"epoch": 0.00020066554071002156,
	"grad_norm": 4.9734721183776855,
	"learning_rate": 6e-05,
	"loss": 3.9245,
	"step": 6
	},
	{
	"epoch": 0.00023410979749502515,
	"grad_norm": 5.040078163146973,
	"learning_rate": 7e-05,
	"loss": 3.5262,
	"step": 7
	},
	{
	"epoch": 0.00026755405428002875,
	"grad_norm": 3.55013370513916,
	"learning_rate": 8e-05,
	"loss": 3.2288,
	"step": 8
	},
	{
	"epoch": 0.00030099831106503237,
	"grad_norm": 3.3910467624664307,
	"learning_rate": 9e-05,
	"loss": 3.0514,
	"step": 9
	},
	{
	"epoch": 0.00030099831106503237,
	"eval_loss": 2.8550124168395996,
	"eval_runtime": 2745.5024,
	"eval_samples_per_second": 9.171,
	"eval_steps_per_second": 1.147,
	"step": 9
	},
	{
	"epoch": 0.00033444256785003593,
	"grad_norm": 3.46765398979187,
	"learning_rate": 0.0001,
	"loss": 2.8576,
	"step": 10
	},
	{
	"epoch": 0.00036788682463503956,
	"grad_norm": 3.2942867279052734,
	"learning_rate": 9.99695413509548e-05,
	"loss": 2.7446,
	"step": 11
	},
	{
	"epoch": 0.0004013310814200431,
	"grad_norm": 3.2802114486694336,
	"learning_rate": 9.987820251299122e-05,
	"loss": 2.4887,
	"step": 12
	},
	{
	"epoch": 0.00043477533820504674,
	"grad_norm": 3.1480672359466553,
	"learning_rate": 9.972609476841367e-05,
	"loss": 2.4346,
	"step": 13
	},
	{
	"epoch": 0.0004682195949900503,
	"grad_norm": 3.0352845191955566,
	"learning_rate": 9.951340343707852e-05,
	"loss": 2.1358,
	"step": 14
	},
	{
	"epoch": 0.0005016638517750539,
	"grad_norm": 2.5337398052215576,
	"learning_rate": 9.924038765061042e-05,
	"loss": 1.797,
	"step": 15
	},
	{
	"epoch": 0.0005351081085600575,
	"grad_norm": 2.5257315635681152,
	"learning_rate": 9.890738003669029e-05,
	"loss": 1.66,
	"step": 16
	},
	{
	"epoch": 0.0005685523653450611,
	"grad_norm": 2.703648567199707,
	"learning_rate": 9.851478631379982e-05,
	"loss": 1.5367,
	"step": 17
	},
	{
	"epoch": 0.0006019966221300647,
	"grad_norm": 3.4314801692962646,
	"learning_rate": 9.806308479691595e-05,
	"loss": 1.6421,
	"step": 18
	},
	{
	"epoch": 0.0006019966221300647,
	"eval_loss": 1.629733681678772,
	"eval_runtime": 2742.8537,
	"eval_samples_per_second": 9.18,
	"eval_steps_per_second": 1.148,
	"step": 18
	},
	{
	"epoch": 0.0006354408789150684,
	"grad_norm": 3.213797092437744,
	"learning_rate": 9.755282581475769e-05,
	"loss": 1.591,
	"step": 19
	},
	{
	"epoch": 0.0006688851357000719,
	"grad_norm": 2.8766260147094727,
	"learning_rate": 9.698463103929542e-05,
	"loss": 1.5007,
	"step": 20
	},
	{
	"epoch": 0.0007023293924850755,
	"grad_norm": 3.298490285873413,
	"learning_rate": 9.635919272833938e-05,
	"loss": 1.6326,
	"step": 21
	},
	{
	"epoch": 0.0007357736492700791,
	"grad_norm": 3.046107530593872,
	"learning_rate": 9.567727288213005e-05,
	"loss": 1.6194,
	"step": 22
	},
	{
	"epoch": 0.0007692179060550827,
	"grad_norm": 3.1948232650756836,
	"learning_rate": 9.493970231495835e-05,
	"loss": 1.466,
	"step": 23
	},
	{
	"epoch": 0.0008026621628400862,
	"grad_norm": 3.6307601928710938,
	"learning_rate": 9.414737964294636e-05,
	"loss": 1.5915,
	"step": 24
	},
	{
	"epoch": 0.0008361064196250899,
	"grad_norm": 3.745431423187256,
	"learning_rate": 9.330127018922194e-05,
	"loss": 1.6644,
	"step": 25
	},
	{
	"epoch": 0.0008695506764100935,
	"grad_norm": 3.1015143394470215,
	"learning_rate": 9.24024048078213e-05,
	"loss": 1.4194,
	"step": 26
	},
	{
	"epoch": 0.0009029949331950971,
	"grad_norm": 2.8244731426239014,
	"learning_rate": 9.145187862775209e-05,
	"loss": 1.3943,
	"step": 27
	},
	{
	"epoch": 0.0009029949331950971,
	"eval_loss": 1.4489030838012695,
	"eval_runtime": 2740.1542,
	"eval_samples_per_second": 9.189,
	"eval_steps_per_second": 1.149,
	"step": 27
	},
	{
	"epoch": 0.0009364391899801006,
	"grad_norm": 2.156521797180176,
	"learning_rate": 9.045084971874738e-05,
	"loss": 1.21,
	"step": 28
	},
	{
	"epoch": 0.0009698834467651042,
	"grad_norm": 2.6699202060699463,
	"learning_rate": 8.940053768033609e-05,
	"loss": 1.4729,
	"step": 29
	},
	{
	"epoch": 0.0010033277035501078,
	"grad_norm": 2.460568904876709,
	"learning_rate": 8.83022221559489e-05,
	"loss": 1.5675,
	"step": 30
	},
	{
	"epoch": 0.0010367719603351115,
	"grad_norm": 2.557603120803833,
	"learning_rate": 8.715724127386972e-05,
	"loss": 1.5623,
	"step": 31
	},
	{
	"epoch": 0.001070216217120115,
	"grad_norm": 2.9280195236206055,
	"learning_rate": 8.596699001693255e-05,
	"loss": 1.4773,
	"step": 32
	},
	{
	"epoch": 0.0011036604739051187,
	"grad_norm": 2.2872281074523926,
	"learning_rate": 8.473291852294987e-05,
	"loss": 1.2972,
	"step": 33
	},
	{
	"epoch": 0.0011371047306901222,
	"grad_norm": 1.872541904449463,
	"learning_rate": 8.345653031794292e-05,
	"loss": 1.3728,
	"step": 34
	},
	{
	"epoch": 0.0011705489874751257,
	"grad_norm": 1.8109902143478394,
	"learning_rate": 8.213938048432697e-05,
	"loss": 1.2932,
	"step": 35
	},
	{
	"epoch": 0.0012039932442601295,
	"grad_norm": 2.0873613357543945,
	"learning_rate": 8.07830737662829e-05,
	"loss": 1.3242,
	"step": 36
	},
	{
	"epoch": 0.0012039932442601295,
	"eval_loss": 1.4143481254577637,
	"eval_runtime": 2741.3995,
	"eval_samples_per_second": 9.185,
	"eval_steps_per_second": 1.148,
	"step": 36
	},
	{
	"epoch": 0.001237437501045133,
	"grad_norm": 2.4181251525878906,
	"learning_rate": 7.938926261462366e-05,
	"loss": 1.4656,
	"step": 37
	},
	{
	"epoch": 0.0012708817578301367,
	"grad_norm": 2.4675228595733643,
	"learning_rate": 7.795964517353735e-05,
	"loss": 1.4617,
	"step": 38
	},
	{
	"epoch": 0.0013043260146151402,
	"grad_norm": 2.8824567794799805,
	"learning_rate": 7.649596321166024e-05,
	"loss": 1.5205,
	"step": 39
	},
	{
	"epoch": 0.0013377702714001437,
	"grad_norm": 2.1439270973205566,
	"learning_rate": 7.500000000000001e-05,
	"loss": 1.3624,
	"step": 40
	},
	{
	"epoch": 0.0013712145281851475,
	"grad_norm": 2.3218116760253906,
	"learning_rate": 7.347357813929454e-05,
	"loss": 1.4908,
	"step": 41
	},
	{
	"epoch": 0.001404658784970151,
	"grad_norm": 2.236236572265625,
	"learning_rate": 7.191855733945387e-05,
	"loss": 1.2628,
	"step": 42
	},
	{
	"epoch": 0.0014381030417551545,
	"grad_norm": 1.9307564496994019,
	"learning_rate": 7.033683215379002e-05,
	"loss": 1.3752,
	"step": 43
	},
	{
	"epoch": 0.0014715472985401582,
	"grad_norm": 1.8109971284866333,
	"learning_rate": 6.873032967079561e-05,
	"loss": 1.3783,
	"step": 44
	},
	{
	"epoch": 0.0015049915553251617,
	"grad_norm": 1.8418580293655396,
	"learning_rate": 6.710100716628344e-05,
	"loss": 1.3572,
	"step": 45
	},
	{
	"epoch": 0.0015049915553251617,
	"eval_loss": 1.3692147731781006,
	"eval_runtime": 2741.1491,
	"eval_samples_per_second": 9.186,
	"eval_steps_per_second": 1.148,
	"step": 45
	},
	{
	"epoch": 0.0015384358121101655,
	"grad_norm": 1.9104599952697754,
	"learning_rate": 6.545084971874738e-05,
	"loss": 1.2735,
	"step": 46
	},
	{
	"epoch": 0.001571880068895169,
	"grad_norm": 2.1751577854156494,
	"learning_rate": 6.378186779084995e-05,
	"loss": 1.3924,
	"step": 47
	},
	{
	"epoch": 0.0016053243256801725,
	"grad_norm": 1.5567160844802856,
	"learning_rate": 6.209609477998338e-05,
	"loss": 1.3338,
	"step": 48
	},
	{
	"epoch": 0.0016387685824651762,
	"grad_norm": 1.7269301414489746,
	"learning_rate": 6.0395584540887963e-05,
	"loss": 1.3239,
	"step": 49
	},
	{
	"epoch": 0.0016722128392501797,
	"grad_norm": 1.800885558128357,
	"learning_rate": 5.868240888334653e-05,
	"loss": 1.3558,
	"step": 50
	},
	{
	"epoch": 0.0017056570960351835,
	"grad_norm": 2.009683132171631,
	"learning_rate": 5.695865504800327e-05,
	"loss": 1.3781,
	"step": 51
	},
	{
	"epoch": 0.001739101352820187,
	"grad_norm": 1.7342225313186646,
	"learning_rate": 5.522642316338268e-05,
	"loss": 1.5557,
	"step": 52
	},
	{
	"epoch": 0.0017725456096051905,
	"grad_norm": 1.5290874242782593,
	"learning_rate": 5.348782368720626e-05,
	"loss": 1.3127,
	"step": 53
	},
	{
	"epoch": 0.0018059898663901942,
	"grad_norm": 1.653159499168396,
	"learning_rate": 5.174497483512506e-05,
	"loss": 1.1634,
	"step": 54
	},
	{
	"epoch": 0.0018059898663901942,
	"eval_loss": 1.3522837162017822,
	"eval_runtime": 2739.9035,
	"eval_samples_per_second": 9.19,
	"eval_steps_per_second": 1.149,
	"step": 54
	},
	{
	"epoch": 0.0018394341231751977,
	"grad_norm": 1.6415021419525146,
	"learning_rate": 5e-05,
	"loss": 1.4116,
	"step": 55
	},
	{
	"epoch": 0.0018728783799602012,
	"grad_norm": 1.749309778213501,
	"learning_rate": 4.825502516487497e-05,
	"loss": 1.4152,
	"step": 56
	},
	{
	"epoch": 0.001906322636745205,
	"grad_norm": 1.564772367477417,
	"learning_rate": 4.6512176312793736e-05,
	"loss": 1.417,
	"step": 57
	},
	{
	"epoch": 0.0019397668935302085,
	"grad_norm": 1.849936842918396,
	"learning_rate": 4.477357683661734e-05,
	"loss": 1.3394,
	"step": 58
	},
	{
	"epoch": 0.001973211150315212,
	"grad_norm": 1.7286560535430908,
	"learning_rate": 4.3041344951996746e-05,
	"loss": 1.5013,
	"step": 59
	},
	{
	"epoch": 0.0020066554071002155,
	"grad_norm": 1.9632574319839478,
	"learning_rate": 4.131759111665349e-05,
	"loss": 1.3443,
	"step": 60
	},
	{
	"epoch": 0.0020400996638852194,
	"grad_norm": 1.7394282817840576,
	"learning_rate": 3.960441545911204e-05,
	"loss": 1.3558,
	"step": 61
	},
	{
	"epoch": 0.002073543920670223,
	"grad_norm": 2.260873794555664,
	"learning_rate": 3.790390522001662e-05,
	"loss": 1.3278,
	"step": 62
	},
	{
	"epoch": 0.0021069881774552265,
	"grad_norm": 1.8529855012893677,
	"learning_rate": 3.6218132209150045e-05,
	"loss": 1.2319,
	"step": 63
	},
	{
	"epoch": 0.0021069881774552265,
	"eval_loss": 1.3400989770889282,
	"eval_runtime": 2741.0245,
	"eval_samples_per_second": 9.186,
	"eval_steps_per_second": 1.148,
	"step": 63
	},
	{
	"epoch": 0.00214043243424023,
	"grad_norm": 1.778730034828186,
	"learning_rate": 3.4549150281252636e-05,
	"loss": 1.3719,
	"step": 64
	},
	{
	"epoch": 0.0021738766910252335,
	"grad_norm": 1.7320828437805176,
	"learning_rate": 3.289899283371657e-05,
	"loss": 1.3139,
	"step": 65
	},
	{
	"epoch": 0.0022073209478102374,
	"grad_norm": 1.8604722023010254,
	"learning_rate": 3.12696703292044e-05,
	"loss": 1.1788,
	"step": 66
	},
	{
	"epoch": 0.002240765204595241,
	"grad_norm": 2.2654762268066406,
	"learning_rate": 2.9663167846209998e-05,
	"loss": 1.4146,
	"step": 67
	},
	{
	"epoch": 0.0022742094613802445,
	"grad_norm": 1.7686560153961182,
	"learning_rate": 2.8081442660546125e-05,
	"loss": 1.2696,
	"step": 68
	},
	{
	"epoch": 0.002307653718165248,
	"grad_norm": 1.5691628456115723,
	"learning_rate": 2.6526421860705473e-05,
	"loss": 1.2514,
	"step": 69
	},
	{
	"epoch": 0.0023410979749502515,
	"grad_norm": 1.543271541595459,
	"learning_rate": 2.500000000000001e-05,
	"loss": 1.4583,
	"step": 70
	},
	{
	"epoch": 0.0023745422317352554,
	"grad_norm": 1.897420048713684,
	"learning_rate": 2.350403678833976e-05,
	"loss": 1.3972,
	"step": 71
	},
	{
	"epoch": 0.002407986488520259,
	"grad_norm": 1.782452940940857,
	"learning_rate": 2.2040354826462668e-05,
	"loss": 1.4984,
	"step": 72
	},
	{
	"epoch": 0.002407986488520259,
	"eval_loss": 1.331598162651062,
	"eval_runtime": 2742.8962,
	"eval_samples_per_second": 9.18,
	"eval_steps_per_second": 1.148,
	"step": 72
	},
	{
	"epoch": 0.0024414307453052625,
	"grad_norm": 1.812255620956421,
	"learning_rate": 2.061073738537635e-05,
	"loss": 1.3558,
	"step": 73
	},
	{
	"epoch": 0.002474875002090266,
	"grad_norm": 1.7149916887283325,
	"learning_rate": 1.9216926233717085e-05,
	"loss": 1.2338,
	"step": 74
	},
	{
	"epoch": 0.0025083192588752695,
	"grad_norm": 1.5673575401306152,
	"learning_rate": 1.7860619515673033e-05,
	"loss": 1.5045,
	"step": 75
	},
	{
	"epoch": 0.0025417635156602734,
	"grad_norm": 1.7105762958526611,
	"learning_rate": 1.6543469682057106e-05,
	"loss": 1.3942,
	"step": 76
	},
	{
	"epoch": 0.002575207772445277,
	"grad_norm": 1.7119174003601074,
	"learning_rate": 1.526708147705013e-05,
	"loss": 1.2635,
	"step": 77
	},
	{
	"epoch": 0.0026086520292302805,
	"grad_norm": 1.553362488746643,
	"learning_rate": 1.4033009983067452e-05,
	"loss": 1.2464,
	"step": 78
	},
	{
	"epoch": 0.002642096286015284,
	"grad_norm": 1.757306456565857,
	"learning_rate": 1.2842758726130283e-05,
	"loss": 1.3831,
	"step": 79
	},
	{
	"epoch": 0.0026755405428002875,
	"grad_norm": 1.9788403511047363,
	"learning_rate": 1.1697777844051105e-05,
	"loss": 1.2947,
	"step": 80
	},
	{
	"epoch": 0.0027089847995852914,
	"grad_norm": 1.7730344533920288,
	"learning_rate": 1.0599462319663905e-05,
	"loss": 1.2519,
	"step": 81
	},
	{
	"epoch": 0.0027089847995852914,
	"eval_loss": 1.3251186609268188,
	"eval_runtime": 2741.7754,
	"eval_samples_per_second": 9.184,
	"eval_steps_per_second": 1.148,
	"step": 81
	},
	{
	"epoch": 0.002742429056370295,
	"grad_norm": 1.6482566595077515,
	"learning_rate": 9.549150281252633e-06,
	"loss": 1.2612,
	"step": 82
	},
	{
	"epoch": 0.0027758733131552984,
	"grad_norm": 1.8458375930786133,
	"learning_rate": 8.548121372247918e-06,
	"loss": 1.4599,
	"step": 83
	},
	{
	"epoch": 0.002809317569940302,
	"grad_norm": 1.6900582313537598,
	"learning_rate": 7.597595192178702e-06,
	"loss": 1.2102,
	"step": 84
	},
	{
	"epoch": 0.0028427618267253055,
	"grad_norm": 2.316399574279785,
	"learning_rate": 6.698729810778065e-06,
	"loss": 1.3149,
	"step": 85
	},
	{
	"epoch": 0.002876206083510309,
	"grad_norm": 1.6527814865112305,
	"learning_rate": 5.852620357053651e-06,
	"loss": 1.1052,
	"step": 86
	},
	{
	"epoch": 0.002909650340295313,
	"grad_norm": 1.7383328676223755,
	"learning_rate": 5.060297685041659e-06,
	"loss": 1.2462,
	"step": 87
	},
	{
	"epoch": 0.0029430945970803164,
	"grad_norm": 1.8759413957595825,
	"learning_rate": 4.322727117869951e-06,
	"loss": 1.5503,
	"step": 88
	},
	{
	"epoch": 0.00297653885386532,
	"grad_norm": 1.686247706413269,
	"learning_rate": 3.6408072716606346e-06,
	"loss": 1.4226,
	"step": 89
	},
	{
	"epoch": 0.0030099831106503235,
	"grad_norm": 1.983102798461914,
	"learning_rate": 3.0153689607045845e-06,
	"loss": 1.4,
	"step": 90
	},
	{
	"epoch": 0.0030099831106503235,
	"eval_loss": 1.3215969800949097,
	"eval_runtime": 2741.5437,
	"eval_samples_per_second": 9.185,
	"eval_steps_per_second": 1.148,
	"step": 90
	},
	{
	"epoch": 0.003043427367435327,
	"grad_norm": 1.666930079460144,
	"learning_rate": 2.4471741852423237e-06,
	"loss": 1.4906,
	"step": 91
	},
	{
	"epoch": 0.003076871624220331,
	"grad_norm": 1.5354820489883423,
	"learning_rate": 1.9369152030840556e-06,
	"loss": 1.203,
	"step": 92
	},
	{
	"epoch": 0.0031103158810053344,
	"grad_norm": 1.64034903049469,
	"learning_rate": 1.4852136862001764e-06,
	"loss": 1.3875,
	"step": 93
	},
	{
	"epoch": 0.003143760137790338,
	"grad_norm": 2.111876964569092,
	"learning_rate": 1.0926199633097157e-06,
	"loss": 1.4371,
	"step": 94
	},
	{
	"epoch": 0.0031772043945753415,
	"grad_norm": 1.6222939491271973,
	"learning_rate": 7.596123493895991e-07,
	"loss": 1.4024,
	"step": 95
	},
	{
	"epoch": 0.003210648651360345,
	"grad_norm": 1.8614100217819214,
	"learning_rate": 4.865965629214819e-07,
	"loss": 1.3613,
	"step": 96
	},
	{
	"epoch": 0.003244092908145349,
	"grad_norm": 1.6315127611160278,
	"learning_rate": 2.7390523158633554e-07,
	"loss": 1.3897,
	"step": 97
	},
	{
	"epoch": 0.0032775371649303524,
	"grad_norm": 1.4587796926498413,
	"learning_rate": 1.2179748700879012e-07,
	"loss": 1.1787,
	"step": 98
	},
	{
	"epoch": 0.003310981421715356,
	"grad_norm": 1.7069193124771118,
	"learning_rate": 3.04586490452119e-08,
	"loss": 1.3006,
	"step": 99
	},
	{
	"epoch": 0.003310981421715356,
	"eval_loss": 1.3205249309539795,
	"eval_runtime": 2741.3417,
	"eval_samples_per_second": 9.185,
	"eval_steps_per_second": 1.148,
	"step": 99
	},
	{
	"epoch": 0.0033444256785003595,
	"grad_norm": 1.4645100831985474,
	"learning_rate": 0.0,
	"loss": 1.3523,
	"step": 100
	}
	],
	"logging_steps": 1,
	"max_steps": 100,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 25,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 7.41887283560448e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}