mcq_sft / trainer_state.json

Upload folder using huggingface_hub

1df6582 verified 5 months ago

10.1 kB

	{
	"best_metric": 1.349927544593811,
	"best_model_checkpoint": "checkpoints/sft_2_1_1/checkpoint-2555",
	"epoch": 7.0,
	"eval_steps": 500,
	"global_step": 2555,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.1506849315068493,
	"grad_norm": 18.4865665435791,
	"learning_rate": 5.018248175182482e-07,
	"loss": 2.5927,
	"step": 55
	},
	{
	"epoch": 0.3013698630136986,
	"grad_norm": 16.606660842895508,
	"learning_rate": 1.0036496350364965e-06,
	"loss": 2.3833,
	"step": 110
	},
	{
	"epoch": 0.4520547945205479,
	"grad_norm": 6.788235187530518,
	"learning_rate": 1.5054744525547446e-06,
	"loss": 1.8868,
	"step": 165
	},
	{
	"epoch": 0.6027397260273972,
	"grad_norm": 3.3164093494415283,
	"learning_rate": 2.007299270072993e-06,
	"loss": 1.5665,
	"step": 220
	},
	{
	"epoch": 0.7534246575342466,
	"grad_norm": 3.4226760864257812,
	"learning_rate": 2.509124087591241e-06,
	"loss": 1.4994,
	"step": 275
	},
	{
	"epoch": 0.9041095890410958,
	"grad_norm": 3.687007427215576,
	"learning_rate": 3.0109489051094893e-06,
	"loss": 1.4708,
	"step": 330
	},
	{
	"epoch": 1.0,
	"eval_loss": 1.4502822160720825,
	"eval_runtime": 41.7137,
	"eval_samples_per_second": 23.973,
	"eval_steps_per_second": 2.997,
	"step": 365
	},
	{
	"epoch": 1.0547945205479452,
	"grad_norm": 3.667193651199341,
	"learning_rate": 3.5127737226277376e-06,
	"loss": 1.4589,
	"step": 385
	},
	{
	"epoch": 1.2054794520547945,
	"grad_norm": 3.444368362426758,
	"learning_rate": 4.014598540145986e-06,
	"loss": 1.4383,
	"step": 440
	},
	{
	"epoch": 1.356164383561644,
	"grad_norm": 3.4761803150177,
	"learning_rate": 4.516423357664234e-06,
	"loss": 1.4421,
	"step": 495
	},
	{
	"epoch": 1.5068493150684932,
	"grad_norm": 3.8773984909057617,
	"learning_rate": 4.9999979671535945e-06,
	"loss": 1.4388,
	"step": 550
	},
	{
	"epoch": 1.6575342465753424,
	"grad_norm": 3.5462825298309326,
	"learning_rate": 4.998349002034396e-06,
	"loss": 1.4198,
	"step": 605
	},
	{
	"epoch": 1.808219178082192,
	"grad_norm": 3.9237027168273926,
	"learning_rate": 4.993627701726671e-06,
	"loss": 1.4052,
	"step": 660
	},
	{
	"epoch": 1.958904109589041,
	"grad_norm": 3.995187997817993,
	"learning_rate": 4.9858398722315225e-06,
	"loss": 1.4121,
	"step": 715
	},
	{
	"epoch": 2.0,
	"eval_loss": 1.4027259349822998,
	"eval_runtime": 41.7142,
	"eval_samples_per_second": 23.973,
	"eval_steps_per_second": 2.997,
	"step": 730
	},
	{
	"epoch": 2.1095890410958904,
	"grad_norm": 3.973104238510132,
	"learning_rate": 4.974995090602673e-06,
	"loss": 1.4018,
	"step": 770
	},
	{
	"epoch": 2.26027397260274,
	"grad_norm": 4.114542484283447,
	"learning_rate": 4.9611066931691045e-06,
	"loss": 1.3977,
	"step": 825
	},
	{
	"epoch": 2.410958904109589,
	"grad_norm": 4.350598335266113,
	"learning_rate": 4.94419175913477e-06,
	"loss": 1.3778,
	"step": 880
	},
	{
	"epoch": 2.5616438356164384,
	"grad_norm": 3.951005697250366,
	"learning_rate": 4.9242710895755e-06,
	"loss": 1.372,
	"step": 935
	},
	{
	"epoch": 2.712328767123288,
	"grad_norm": 4.071479797363281,
	"learning_rate": 4.9013691818589635e-06,
	"loss": 1.3826,
	"step": 990
	},
	{
	"epoch": 2.863013698630137,
	"grad_norm": 3.968268632888794,
	"learning_rate": 4.87551419951912e-06,
	"loss": 1.3845,
	"step": 1045
	},
	{
	"epoch": 3.0,
	"eval_loss": 1.3834009170532227,
	"eval_runtime": 41.778,
	"eval_samples_per_second": 23.936,
	"eval_steps_per_second": 2.992,
	"step": 1095
	},
	{
	"epoch": 3.0136986301369864,
	"grad_norm": 4.093992233276367,
	"learning_rate": 4.8467379376222215e-06,
	"loss": 1.3736,
	"step": 1100
	},
	{
	"epoch": 3.1643835616438354,
	"grad_norm": 4.021303176879883,
	"learning_rate": 4.815075783666952e-06,
	"loss": 1.3547,
	"step": 1155
	},
	{
	"epoch": 3.315068493150685,
	"grad_norm": 4.797937393188477,
	"learning_rate": 4.780566674066782e-06,
	"loss": 1.3671,
	"step": 1210
	},
	{
	"epoch": 3.4657534246575343,
	"grad_norm": 4.535392761230469,
	"learning_rate": 4.743253046268069e-06,
	"loss": 1.3545,
	"step": 1265
	},
	{
	"epoch": 3.616438356164384,
	"grad_norm": 4.504812717437744,
	"learning_rate": 4.703180786562761e-06,
	"loss": 1.3623,
	"step": 1320
	},
	{
	"epoch": 3.767123287671233,
	"grad_norm": 4.607705116271973,
	"learning_rate": 4.660399173659908e-06,
	"loss": 1.3487,
	"step": 1375
	},
	{
	"epoch": 3.9178082191780823,
	"grad_norm": 4.659298896789551,
	"learning_rate": 4.6149608180853545e-06,
	"loss": 1.3502,
	"step": 1430
	},
	{
	"epoch": 4.0,
	"eval_loss": 1.3703773021697998,
	"eval_runtime": 41.7996,
	"eval_samples_per_second": 23.924,
	"eval_steps_per_second": 2.99,
	"step": 1460
	},
	{
	"epoch": 4.068493150684931,
	"grad_norm": 4.691000461578369,
	"learning_rate": 4.566921597484149e-06,
	"loss": 1.3453,
	"step": 1485
	},
	{
	"epoch": 4.219178082191781,
	"grad_norm": 4.80633020401001,
	"learning_rate": 4.51634058790522e-06,
	"loss": 1.3329,
	"step": 1540
	},
	{
	"epoch": 4.36986301369863,
	"grad_norm": 5.040696144104004,
	"learning_rate": 4.463279991152828e-06,
	"loss": 1.3329,
	"step": 1595
	},
	{
	"epoch": 4.52054794520548,
	"grad_norm": 5.084527015686035,
	"learning_rate": 4.407805058294135e-06,
	"loss": 1.3453,
	"step": 1650
	},
	{
	"epoch": 4.671232876712329,
	"grad_norm": 5.078038692474365,
	"learning_rate": 4.349984009416952e-06,
	"loss": 1.3266,
	"step": 1705
	},
	{
	"epoch": 4.821917808219178,
	"grad_norm": 5.201215744018555,
	"learning_rate": 4.289887949736347e-06,
	"loss": 1.3281,
	"step": 1760
	},
	{
	"epoch": 4.972602739726027,
	"grad_norm": 4.974658966064453,
	"learning_rate": 4.227590782153277e-06,
	"loss": 1.3168,
	"step": 1815
	},
	{
	"epoch": 5.0,
	"eval_loss": 1.3636702299118042,
	"eval_runtime": 41.8147,
	"eval_samples_per_second": 23.915,
	"eval_steps_per_second": 2.989,
	"step": 1825
	},
	{
	"epoch": 5.123287671232877,
	"grad_norm": 5.115445137023926,
	"learning_rate": 4.16316911637277e-06,
	"loss": 1.3135,
	"step": 1870
	},
	{
	"epoch": 5.273972602739726,
	"grad_norm": 5.82274055480957,
	"learning_rate": 4.0967021746934436e-06,
	"loss": 1.3107,
	"step": 1925
	},
	{
	"epoch": 5.424657534246576,
	"grad_norm": 5.606359481811523,
	"learning_rate": 4.02827169458417e-06,
	"loss": 1.301,
	"step": 1980
	},
	{
	"epoch": 5.575342465753424,
	"grad_norm": 5.442434787750244,
	"learning_rate": 3.957961828167748e-06,
	"loss": 1.3171,
	"step": 2035
	},
	{
	"epoch": 5.726027397260274,
	"grad_norm": 5.444327354431152,
	"learning_rate": 3.885859038735141e-06,
	"loss": 1.3045,
	"step": 2090
	},
	{
	"epoch": 5.876712328767123,
	"grad_norm": 5.671774864196777,
	"learning_rate": 3.8120519944175767e-06,
	"loss": 1.3036,
	"step": 2145
	},
	{
	"epoch": 6.0,
	"eval_loss": 1.353081464767456,
	"eval_runtime": 41.6872,
	"eval_samples_per_second": 23.988,
	"eval_steps_per_second": 2.999,
	"step": 2190
	},
	{
	"epoch": 6.027397260273973,
	"grad_norm": 5.856392860412598,
	"learning_rate": 3.7366314591472484e-06,
	"loss": 1.2882,
	"step": 2200
	},
	{
	"epoch": 6.178082191780822,
	"grad_norm": 6.328695774078369,
	"learning_rate": 3.659690181040717e-06,
	"loss": 1.2881,
	"step": 2255
	},
	{
	"epoch": 6.328767123287671,
	"grad_norm": 6.592623710632324,
	"learning_rate": 3.5813227783422654e-06,
	"loss": 1.278,
	"step": 2310
	},
	{
	"epoch": 6.47945205479452,
	"grad_norm": 6.272197723388672,
	"learning_rate": 3.5016256230674704e-06,
	"loss": 1.2799,
	"step": 2365
	},
	{
	"epoch": 6.63013698630137,
	"grad_norm": 6.509876251220703,
	"learning_rate": 3.4206967224900885e-06,
	"loss": 1.2866,
	"step": 2420
	},
	{
	"epoch": 6.780821917808219,
	"grad_norm": 6.4894304275512695,
	"learning_rate": 3.338635598617975e-06,
	"loss": 1.2952,
	"step": 2475
	},
	{
	"epoch": 6.931506849315069,
	"grad_norm": 6.477168560028076,
	"learning_rate": 3.2555431658062837e-06,
	"loss": 1.2752,
	"step": 2530
	},
	{
	"epoch": 7.0,
	"eval_loss": 1.349927544593811,
	"eval_runtime": 41.6959,
	"eval_samples_per_second": 23.983,
	"eval_steps_per_second": 2.998,
	"step": 2555
	}
	],
	"logging_steps": 55,
	"max_steps": 5475,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 15,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3.363484660255949e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}