colqwen2-7b-v1.0 / checkpoint-760 /trainer_state.json

Upload 129 files

79b0770 verified 13 days ago

10.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 4.0,
	"eval_steps": 50,
	"global_step": 760,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.005263157894736842,
	"eval_loss": 0.32585662603378296,
	"eval_runtime": 13.4514,
	"eval_samples_per_second": 148.684,
	"eval_steps_per_second": 0.149,
	"step": 1
	},
	{
	"epoch": 0.10526315789473684,
	"grad_norm": 0.171875,
	"learning_rate": 0.00019978517722878627,
	"loss": 0.2249,
	"step": 20
	},
	{
	"epoch": 0.21052631578947367,
	"grad_norm": 0.13671875,
	"learning_rate": 0.00019548872180451127,
	"loss": 0.1193,
	"step": 40
	},
	{
	"epoch": 0.2631578947368421,
	"eval_loss": 0.07482124119997025,
	"eval_runtime": 12.7644,
	"eval_samples_per_second": 156.686,
	"eval_steps_per_second": 0.157,
	"step": 50
	},
	{
	"epoch": 0.3157894736842105,
	"grad_norm": 0.1201171875,
	"learning_rate": 0.0001911922663802363,
	"loss": 0.1033,
	"step": 60
	},
	{
	"epoch": 0.42105263157894735,
	"grad_norm": 0.138671875,
	"learning_rate": 0.00018689581095596134,
	"loss": 0.0973,
	"step": 80
	},
	{
	"epoch": 0.5263157894736842,
	"grad_norm": 0.1279296875,
	"learning_rate": 0.00018259935553168637,
	"loss": 0.0932,
	"step": 100
	},
	{
	"epoch": 0.5263157894736842,
	"eval_loss": 0.06730526685714722,
	"eval_runtime": 12.8198,
	"eval_samples_per_second": 156.009,
	"eval_steps_per_second": 0.156,
	"step": 100
	},
	{
	"epoch": 0.631578947368421,
	"grad_norm": 0.10205078125,
	"learning_rate": 0.0001783029001074114,
	"loss": 0.0894,
	"step": 120
	},
	{
	"epoch": 0.7368421052631579,
	"grad_norm": 0.0947265625,
	"learning_rate": 0.00017400644468313644,
	"loss": 0.0881,
	"step": 140
	},
	{
	"epoch": 0.7894736842105263,
	"eval_loss": 0.06297393888235092,
	"eval_runtime": 12.7629,
	"eval_samples_per_second": 156.704,
	"eval_steps_per_second": 0.157,
	"step": 150
	},
	{
	"epoch": 0.8421052631578947,
	"grad_norm": 0.11767578125,
	"learning_rate": 0.00016970998925886144,
	"loss": 0.0862,
	"step": 160
	},
	{
	"epoch": 0.9473684210526315,
	"grad_norm": 0.12060546875,
	"learning_rate": 0.00016541353383458648,
	"loss": 0.084,
	"step": 180
	},
	{
	"epoch": 1.0526315789473684,
	"grad_norm": 0.10888671875,
	"learning_rate": 0.00016111707841031148,
	"loss": 0.08,
	"step": 200
	},
	{
	"epoch": 1.0526315789473684,
	"eval_loss": 0.05776415765285492,
	"eval_runtime": 12.8264,
	"eval_samples_per_second": 155.929,
	"eval_steps_per_second": 0.156,
	"step": 200
	},
	{
	"epoch": 1.1578947368421053,
	"grad_norm": 0.091796875,
	"learning_rate": 0.00015682062298603652,
	"loss": 0.0759,
	"step": 220
	},
	{
	"epoch": 1.263157894736842,
	"grad_norm": 0.1044921875,
	"learning_rate": 0.00015252416756176155,
	"loss": 0.0757,
	"step": 240
	},
	{
	"epoch": 1.3157894736842106,
	"eval_loss": 0.05684072896838188,
	"eval_runtime": 12.8684,
	"eval_samples_per_second": 155.42,
	"eval_steps_per_second": 0.155,
	"step": 250
	},
	{
	"epoch": 1.368421052631579,
	"grad_norm": 0.09326171875,
	"learning_rate": 0.00014822771213748658,
	"loss": 0.0745,
	"step": 260
	},
	{
	"epoch": 1.4736842105263157,
	"grad_norm": 0.1005859375,
	"learning_rate": 0.00014393125671321162,
	"loss": 0.0732,
	"step": 280
	},
	{
	"epoch": 1.5789473684210527,
	"grad_norm": 0.095703125,
	"learning_rate": 0.00013963480128893662,
	"loss": 0.0732,
	"step": 300
	},
	{
	"epoch": 1.5789473684210527,
	"eval_loss": 0.057122766971588135,
	"eval_runtime": 12.9739,
	"eval_samples_per_second": 154.156,
	"eval_steps_per_second": 0.154,
	"step": 300
	},
	{
	"epoch": 1.6842105263157894,
	"grad_norm": 0.1142578125,
	"learning_rate": 0.00013533834586466166,
	"loss": 0.0749,
	"step": 320
	},
	{
	"epoch": 1.7894736842105263,
	"grad_norm": 0.087890625,
	"learning_rate": 0.0001310418904403867,
	"loss": 0.0722,
	"step": 340
	},
	{
	"epoch": 1.8421052631578947,
	"eval_loss": 0.055894188582897186,
	"eval_runtime": 13.0028,
	"eval_samples_per_second": 153.813,
	"eval_steps_per_second": 0.154,
	"step": 350
	},
	{
	"epoch": 1.8947368421052633,
	"grad_norm": 0.076171875,
	"learning_rate": 0.00012674543501611172,
	"loss": 0.0705,
	"step": 360
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.072265625,
	"learning_rate": 0.00012244897959183676,
	"loss": 0.069,
	"step": 380
	},
	{
	"epoch": 2.1052631578947367,
	"grad_norm": 0.08251953125,
	"learning_rate": 0.00011815252416756178,
	"loss": 0.065,
	"step": 400
	},
	{
	"epoch": 2.1052631578947367,
	"eval_loss": 0.05468890815973282,
	"eval_runtime": 12.8106,
	"eval_samples_per_second": 156.121,
	"eval_steps_per_second": 0.156,
	"step": 400
	},
	{
	"epoch": 2.2105263157894735,
	"grad_norm": 0.08642578125,
	"learning_rate": 0.00011385606874328681,
	"loss": 0.0645,
	"step": 420
	},
	{
	"epoch": 2.3157894736842106,
	"grad_norm": 0.09130859375,
	"learning_rate": 0.00010955961331901181,
	"loss": 0.0637,
	"step": 440
	},
	{
	"epoch": 2.3684210526315788,
	"eval_loss": 0.05291734263300896,
	"eval_runtime": 12.8493,
	"eval_samples_per_second": 155.651,
	"eval_steps_per_second": 0.156,
	"step": 450
	},
	{
	"epoch": 2.4210526315789473,
	"grad_norm": 0.1005859375,
	"learning_rate": 0.00010526315789473685,
	"loss": 0.0652,
	"step": 460
	},
	{
	"epoch": 2.526315789473684,
	"grad_norm": 0.08203125,
	"learning_rate": 0.00010096670247046187,
	"loss": 0.0642,
	"step": 480
	},
	{
	"epoch": 2.6315789473684212,
	"grad_norm": 0.09130859375,
	"learning_rate": 9.66702470461869e-05,
	"loss": 0.063,
	"step": 500
	},
	{
	"epoch": 2.6315789473684212,
	"eval_loss": 0.05152459070086479,
	"eval_runtime": 12.8186,
	"eval_samples_per_second": 156.024,
	"eval_steps_per_second": 0.156,
	"step": 500
	},
	{
	"epoch": 2.736842105263158,
	"grad_norm": 0.19140625,
	"learning_rate": 9.237379162191193e-05,
	"loss": 0.0635,
	"step": 520
	},
	{
	"epoch": 2.8421052631578947,
	"grad_norm": 0.09716796875,
	"learning_rate": 8.807733619763695e-05,
	"loss": 0.064,
	"step": 540
	},
	{
	"epoch": 2.8947368421052633,
	"eval_loss": 0.05137969180941582,
	"eval_runtime": 12.8105,
	"eval_samples_per_second": 156.122,
	"eval_steps_per_second": 0.156,
	"step": 550
	},
	{
	"epoch": 2.9473684210526314,
	"grad_norm": 0.0849609375,
	"learning_rate": 8.378088077336199e-05,
	"loss": 0.0634,
	"step": 560
	},
	{
	"epoch": 3.0526315789473686,
	"grad_norm": 0.1552734375,
	"learning_rate": 7.9484425349087e-05,
	"loss": 0.0601,
	"step": 580
	},
	{
	"epoch": 3.1578947368421053,
	"grad_norm": 0.1015625,
	"learning_rate": 7.518796992481203e-05,
	"loss": 0.0612,
	"step": 600
	},
	{
	"epoch": 3.1578947368421053,
	"eval_loss": 0.0508638396859169,
	"eval_runtime": 13.0917,
	"eval_samples_per_second": 152.768,
	"eval_steps_per_second": 0.153,
	"step": 600
	},
	{
	"epoch": 3.263157894736842,
	"grad_norm": 0.09326171875,
	"learning_rate": 7.089151450053706e-05,
	"loss": 0.0579,
	"step": 620
	},
	{
	"epoch": 3.3684210526315788,
	"grad_norm": 0.10009765625,
	"learning_rate": 6.659505907626209e-05,
	"loss": 0.0593,
	"step": 640
	},
	{
	"epoch": 3.4210526315789473,
	"eval_loss": 0.05003859102725983,
	"eval_runtime": 12.8994,
	"eval_samples_per_second": 155.045,
	"eval_steps_per_second": 0.155,
	"step": 650
	},
	{
	"epoch": 3.473684210526316,
	"grad_norm": 0.087890625,
	"learning_rate": 6.229860365198711e-05,
	"loss": 0.0573,
	"step": 660
	},
	{
	"epoch": 3.5789473684210527,
	"grad_norm": 0.087890625,
	"learning_rate": 5.800214822771214e-05,
	"loss": 0.0601,
	"step": 680
	},
	{
	"epoch": 3.6842105263157894,
	"grad_norm": 0.08544921875,
	"learning_rate": 5.3705692803437166e-05,
	"loss": 0.057,
	"step": 700
	},
	{
	"epoch": 3.6842105263157894,
	"eval_loss": 0.0502210296690464,
	"eval_runtime": 12.869,
	"eval_samples_per_second": 155.412,
	"eval_steps_per_second": 0.155,
	"step": 700
	},
	{
	"epoch": 3.7894736842105265,
	"grad_norm": 0.09716796875,
	"learning_rate": 4.940923737916219e-05,
	"loss": 0.0584,
	"step": 720
	},
	{
	"epoch": 3.8947368421052633,
	"grad_norm": 0.083984375,
	"learning_rate": 4.511278195488722e-05,
	"loss": 0.0589,
	"step": 740
	},
	{
	"epoch": 3.9473684210526314,
	"eval_loss": 0.049859099090099335,
	"eval_runtime": 12.8363,
	"eval_samples_per_second": 155.808,
	"eval_steps_per_second": 0.156,
	"step": 750
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.09033203125,
	"learning_rate": 4.0816326530612245e-05,
	"loss": 0.0574,
	"step": 760
	}
	],
	"logging_steps": 20,
	"max_steps": 950,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 7.580995873653182e+19,
	"train_batch_size": 64,
	"trial_name": null,
	"trial_params": null
	}