apwic
/

indosum-pt-pl5-0

Generated from Trainer

Model card Files Files and versions Community

indosum-pt-pl5-0 / trainer_state.json

apwic's picture

End of training

6227497 verified 4 months ago

history blame contribute delete

3.29 kB

	{
	"best_metric": 51.1569,
	"best_model_checkpoint": "bin/indosum-pt-pl5-0/checkpoint-4460",
	"epoch": 5.0,
	"eval_steps": 500,
	"global_step": 4460,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"grad_norm": 1.0623373985290527,
	"learning_rate": 0.0008,
	"loss": 3.3529,
	"step": 892
	},
	{
	"epoch": 1.0,
	"eval_gen_len": 95.03466666666667,
	"eval_loss": 2.403062343597412,
	"eval_rouge1": 38.6954,
	"eval_rouge2": 16.1544,
	"eval_rougeL": 31.8171,
	"eval_rougeLsum": 36.2119,
	"eval_runtime": 232.3708,
	"eval_samples_per_second": 3.228,
	"eval_steps_per_second": 0.103,
	"step": 892
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.9969884157180786,
	"learning_rate": 0.0006,
	"loss": 2.9862,
	"step": 1784
	},
	{
	"epoch": 2.0,
	"eval_gen_len": 92.37066666666666,
	"eval_loss": 2.1683199405670166,
	"eval_rouge1": 43.9573,
	"eval_rouge2": 21.3807,
	"eval_rougeL": 37.3906,
	"eval_rougeLsum": 41.5485,
	"eval_runtime": 224.6137,
	"eval_samples_per_second": 3.339,
	"eval_steps_per_second": 0.107,
	"step": 1784
	},
	{
	"epoch": 3.0,
	"grad_norm": 1.0779091119766235,
	"learning_rate": 0.0004,
	"loss": 2.7929,
	"step": 2676
	},
	{
	"epoch": 3.0,
	"eval_gen_len": 100.268,
	"eval_loss": 1.9973465204238892,
	"eval_rouge1": 44.5846,
	"eval_rouge2": 23.2132,
	"eval_rougeL": 38.5252,
	"eval_rougeLsum": 42.4754,
	"eval_runtime": 239.0067,
	"eval_samples_per_second": 3.138,
	"eval_steps_per_second": 0.1,
	"step": 2676
	},
	{
	"epoch": 4.0,
	"grad_norm": 1.0467666387557983,
	"learning_rate": 0.0002,
	"loss": 2.6146,
	"step": 3568
	},
	{
	"epoch": 4.0,
	"eval_gen_len": 98.78133333333334,
	"eval_loss": 1.8517733812332153,
	"eval_rouge1": 48.6507,
	"eval_rouge2": 27.6554,
	"eval_rougeL": 42.9432,
	"eval_rougeLsum": 46.628,
	"eval_runtime": 225.9342,
	"eval_samples_per_second": 3.32,
	"eval_steps_per_second": 0.106,
	"step": 3568
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.9933086037635803,
	"learning_rate": 0.0,
	"loss": 2.4702,
	"step": 4460
	},
	{
	"epoch": 5.0,
	"eval_gen_len": 96.54666666666667,
	"eval_loss": 1.7467247247695923,
	"eval_rouge1": 51.1569,
	"eval_rouge2": 30.4226,
	"eval_rougeL": 45.5936,
	"eval_rougeLsum": 49.2619,
	"eval_runtime": 228.2543,
	"eval_samples_per_second": 3.286,
	"eval_steps_per_second": 0.105,
	"step": 4460
	},
	{
	"epoch": 5.0,
	"step": 4460,
	"total_flos": 5.530296634048512e+16,
	"train_loss": 2.843380504659473,
	"train_runtime": 6617.6699,
	"train_samples_per_second": 10.776,
	"train_steps_per_second": 0.674
	}
	],
	"logging_steps": 500,
	"max_steps": 4460,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"total_flos": 5.530296634048512e+16,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}