Upload folder using huggingface_hub

1f7eddd verified 3 months ago

9.58 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9959579628132579,
	"eval_steps": 500,
	"global_step": 154,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.019401778496362168,
	"grad_norm": 139.02731323242188,
	"learning_rate": 1.9610389610389612e-05,
	"loss": 1.8718,
	"step": 3
	},
	{
	"epoch": 0.038803556992724336,
	"grad_norm": 31.607357025146484,
	"learning_rate": 1.9220779220779222e-05,
	"loss": 1.6642,
	"step": 6
	},
	{
	"epoch": 0.0582053354890865,
	"grad_norm": 118.545166015625,
	"learning_rate": 1.8831168831168833e-05,
	"loss": 1.5334,
	"step": 9
	},
	{
	"epoch": 0.07760711398544867,
	"grad_norm": 180.7499542236328,
	"learning_rate": 1.8441558441558443e-05,
	"loss": 1.396,
	"step": 12
	},
	{
	"epoch": 0.09700889248181083,
	"grad_norm": 199.1714324951172,
	"learning_rate": 1.8051948051948053e-05,
	"loss": 1.3652,
	"step": 15
	},
	{
	"epoch": 0.116410670978173,
	"grad_norm": 136.60414123535156,
	"learning_rate": 1.7662337662337664e-05,
	"loss": 1.3432,
	"step": 18
	},
	{
	"epoch": 0.13581244947453516,
	"grad_norm": 82.5650634765625,
	"learning_rate": 1.7272727272727274e-05,
	"loss": 1.2614,
	"step": 21
	},
	{
	"epoch": 0.15521422797089734,
	"grad_norm": 18.96686553955078,
	"learning_rate": 1.6883116883116884e-05,
	"loss": 1.2303,
	"step": 24
	},
	{
	"epoch": 0.1746160064672595,
	"grad_norm": 7.933801174163818,
	"learning_rate": 1.6493506493506495e-05,
	"loss": 1.1984,
	"step": 27
	},
	{
	"epoch": 0.19401778496362165,
	"grad_norm": 2.686699390411377,
	"learning_rate": 1.6103896103896105e-05,
	"loss": 1.1016,
	"step": 30
	},
	{
	"epoch": 0.21341956345998384,
	"grad_norm": 1.455581545829773,
	"learning_rate": 1.5714285714285715e-05,
	"loss": 1.0671,
	"step": 33
	},
	{
	"epoch": 0.232821341956346,
	"grad_norm": 0.5924062132835388,
	"learning_rate": 1.5324675324675326e-05,
	"loss": 1.012,
	"step": 36
	},
	{
	"epoch": 0.25222312045270817,
	"grad_norm": 0.3087107837200165,
	"learning_rate": 1.4935064935064936e-05,
	"loss": 0.9758,
	"step": 39
	},
	{
	"epoch": 0.2716248989490703,
	"grad_norm": 0.2992459535598755,
	"learning_rate": 1.4545454545454546e-05,
	"loss": 0.9262,
	"step": 42
	},
	{
	"epoch": 0.2910266774454325,
	"grad_norm": 0.2895904779434204,
	"learning_rate": 1.4155844155844157e-05,
	"loss": 0.8271,
	"step": 45
	},
	{
	"epoch": 0.3104284559417947,
	"grad_norm": 0.2948096692562103,
	"learning_rate": 1.3766233766233767e-05,
	"loss": 0.7895,
	"step": 48
	},
	{
	"epoch": 0.32983023443815684,
	"grad_norm": 0.31464704871177673,
	"learning_rate": 1.3376623376623377e-05,
	"loss": 0.7299,
	"step": 51
	},
	{
	"epoch": 0.349232012934519,
	"grad_norm": 0.3038002550601959,
	"learning_rate": 1.2987012987012988e-05,
	"loss": 0.6857,
	"step": 54
	},
	{
	"epoch": 0.36863379143088115,
	"grad_norm": 0.33729803562164307,
	"learning_rate": 1.25974025974026e-05,
	"loss": 0.5946,
	"step": 57
	},
	{
	"epoch": 0.3880355699272433,
	"grad_norm": 0.39213827252388,
	"learning_rate": 1.2207792207792208e-05,
	"loss": 0.5636,
	"step": 60
	},
	{
	"epoch": 0.4074373484236055,
	"grad_norm": 0.3482286334037781,
	"learning_rate": 1.181818181818182e-05,
	"loss": 0.5094,
	"step": 63
	},
	{
	"epoch": 0.42683912691996767,
	"grad_norm": 0.3112964630126953,
	"learning_rate": 1.1428571428571429e-05,
	"loss": 0.4541,
	"step": 66
	},
	{
	"epoch": 0.4462409054163298,
	"grad_norm": 0.26819908618927,
	"learning_rate": 1.1038961038961041e-05,
	"loss": 0.4181,
	"step": 69
	},
	{
	"epoch": 0.465642683912692,
	"grad_norm": 0.28413137793540955,
	"learning_rate": 1.064935064935065e-05,
	"loss": 0.4095,
	"step": 72
	},
	{
	"epoch": 0.4850444624090542,
	"grad_norm": 0.3022381365299225,
	"learning_rate": 1.025974025974026e-05,
	"loss": 0.3623,
	"step": 75
	},
	{
	"epoch": 0.5044462409054163,
	"grad_norm": 0.29346349835395813,
	"learning_rate": 9.87012987012987e-06,
	"loss": 0.3334,
	"step": 78
	},
	{
	"epoch": 0.5238480194017785,
	"grad_norm": 0.2659854292869568,
	"learning_rate": 9.48051948051948e-06,
	"loss": 0.3115,
	"step": 81
	},
	{
	"epoch": 0.5432497978981407,
	"grad_norm": 0.23122940957546234,
	"learning_rate": 9.090909090909091e-06,
	"loss": 0.2817,
	"step": 84
	},
	{
	"epoch": 0.5626515763945028,
	"grad_norm": 0.2369256317615509,
	"learning_rate": 8.701298701298701e-06,
	"loss": 0.2809,
	"step": 87
	},
	{
	"epoch": 0.582053354890865,
	"grad_norm": 0.2082873433828354,
	"learning_rate": 8.311688311688313e-06,
	"loss": 0.2455,
	"step": 90
	},
	{
	"epoch": 0.6014551333872271,
	"grad_norm": 0.21645894646644592,
	"learning_rate": 7.922077922077924e-06,
	"loss": 0.2503,
	"step": 93
	},
	{
	"epoch": 0.6208569118835894,
	"grad_norm": 0.19337739050388336,
	"learning_rate": 7.532467532467533e-06,
	"loss": 0.2286,
	"step": 96
	},
	{
	"epoch": 0.6402586903799515,
	"grad_norm": 0.1808944046497345,
	"learning_rate": 7.1428571428571436e-06,
	"loss": 0.2401,
	"step": 99
	},
	{
	"epoch": 0.6596604688763137,
	"grad_norm": 0.1630856841802597,
	"learning_rate": 6.753246753246754e-06,
	"loss": 0.2251,
	"step": 102
	},
	{
	"epoch": 0.6790622473726758,
	"grad_norm": 0.16326990723609924,
	"learning_rate": 6.363636363636364e-06,
	"loss": 0.2291,
	"step": 105
	},
	{
	"epoch": 0.698464025869038,
	"grad_norm": 0.16061735153198242,
	"learning_rate": 5.9740259740259746e-06,
	"loss": 0.2331,
	"step": 108
	},
	{
	"epoch": 0.7178658043654002,
	"grad_norm": 0.17352429032325745,
	"learning_rate": 5.584415584415585e-06,
	"loss": 0.2149,
	"step": 111
	},
	{
	"epoch": 0.7372675828617623,
	"grad_norm": 0.17043530941009521,
	"learning_rate": 5.194805194805194e-06,
	"loss": 0.2187,
	"step": 114
	},
	{
	"epoch": 0.7566693613581245,
	"grad_norm": 0.16479559242725372,
	"learning_rate": 4.805194805194806e-06,
	"loss": 0.2218,
	"step": 117
	},
	{
	"epoch": 0.7760711398544866,
	"grad_norm": 0.17882439494132996,
	"learning_rate": 4.415584415584416e-06,
	"loss": 0.205,
	"step": 120
	},
	{
	"epoch": 0.7954729183508489,
	"grad_norm": 0.1911778748035431,
	"learning_rate": 4.025974025974026e-06,
	"loss": 0.2172,
	"step": 123
	},
	{
	"epoch": 0.814874696847211,
	"grad_norm": 0.17751498520374298,
	"learning_rate": 3.6363636363636366e-06,
	"loss": 0.2096,
	"step": 126
	},
	{
	"epoch": 0.8342764753435732,
	"grad_norm": 0.1702156662940979,
	"learning_rate": 3.246753246753247e-06,
	"loss": 0.1911,
	"step": 129
	},
	{
	"epoch": 0.8536782538399353,
	"grad_norm": 0.1764981597661972,
	"learning_rate": 2.8571428571428573e-06,
	"loss": 0.2103,
	"step": 132
	},
	{
	"epoch": 0.8730800323362975,
	"grad_norm": 0.1592799872159958,
	"learning_rate": 2.4675324675324676e-06,
	"loss": 0.2053,
	"step": 135
	},
	{
	"epoch": 0.8924818108326596,
	"grad_norm": 0.21512138843536377,
	"learning_rate": 2.0779220779220784e-06,
	"loss": 0.2197,
	"step": 138
	},
	{
	"epoch": 0.9118835893290218,
	"grad_norm": 0.17707495391368866,
	"learning_rate": 1.6883116883116885e-06,
	"loss": 0.2051,
	"step": 141
	},
	{
	"epoch": 0.931285367825384,
	"grad_norm": 0.1585138887166977,
	"learning_rate": 1.2987012987012986e-06,
	"loss": 0.1984,
	"step": 144
	},
	{
	"epoch": 0.9506871463217461,
	"grad_norm": 0.15231232345104218,
	"learning_rate": 9.090909090909091e-07,
	"loss": 0.1774,
	"step": 147
	},
	{
	"epoch": 0.9700889248181084,
	"grad_norm": 0.15338800847530365,
	"learning_rate": 5.194805194805196e-07,
	"loss": 0.2046,
	"step": 150
	},
	{
	"epoch": 0.9894907033144705,
	"grad_norm": 0.16579587757587433,
	"learning_rate": 1.298701298701299e-07,
	"loss": 0.1871,
	"step": 153
	}
	],
	"logging_steps": 3,
	"max_steps": 154,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 10,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.5705942959542764e+18,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}