ryan_model314_3 / trainer_state.json

🍻 cheers

ff9cd40 verified 8 months ago

6.07 kB

	{
	"best_metric": 0.2750368118286133,
	"best_model_checkpoint": "./ryan_model314_3/checkpoint-550",
	"epoch": 0.88,
	"eval_steps": 50,
	"global_step": 550,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.08,
	"grad_norm": 1.5017586946487427,
	"learning_rate": 0.000192,
	"loss": 0.4423,
	"step": 50
	},
	{
	"epoch": 0.08,
	"eval_loss": 0.33861014246940613,
	"eval_na_accuracy": 0.904,
	"eval_ordinal_accuracy": 0.4629418472063854,
	"eval_ordinal_mae": 0.6577621472191316,
	"eval_runtime": 123.3898,
	"eval_samples_per_second": 8.104,
	"eval_steps_per_second": 1.013,
	"step": 50
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.8501819372177124,
	"learning_rate": 0.00018400000000000003,
	"loss": 0.3088,
	"step": 100
	},
	{
	"epoch": 0.16,
	"eval_loss": 0.3268783390522003,
	"eval_na_accuracy": 0.928,
	"eval_ordinal_accuracy": 0.5370581527936146,
	"eval_ordinal_mae": 0.5969413880658287,
	"eval_runtime": 43.4997,
	"eval_samples_per_second": 22.989,
	"eval_steps_per_second": 2.874,
	"step": 100
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.5424334406852722,
	"learning_rate": 0.00017600000000000002,
	"loss": 0.316,
	"step": 150
	},
	{
	"epoch": 0.24,
	"eval_loss": 0.3395713269710541,
	"eval_na_accuracy": 0.902,
	"eval_ordinal_accuracy": 0.5142531356898518,
	"eval_ordinal_mae": 0.6323422620227872,
	"eval_runtime": 43.339,
	"eval_samples_per_second": 23.074,
	"eval_steps_per_second": 2.884,
	"step": 150
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.2484453916549683,
	"learning_rate": 0.000168,
	"loss": 0.2821,
	"step": 200
	},
	{
	"epoch": 0.32,
	"eval_loss": 0.32339948415756226,
	"eval_na_accuracy": 0.927,
	"eval_ordinal_accuracy": 0.5131128848346637,
	"eval_ordinal_mae": 0.6292874569299393,
	"eval_runtime": 42.0004,
	"eval_samples_per_second": 23.809,
	"eval_steps_per_second": 2.976,
	"step": 200
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.4807660579681396,
	"learning_rate": 0.00016,
	"loss": 0.2731,
	"step": 250
	},
	{
	"epoch": 0.4,
	"eval_loss": 0.3313509225845337,
	"eval_na_accuracy": 0.925,
	"eval_ordinal_accuracy": 0.508551881413911,
	"eval_ordinal_mae": 0.5856009521101041,
	"eval_runtime": 55.6564,
	"eval_samples_per_second": 17.967,
	"eval_steps_per_second": 2.246,
	"step": 250
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.4179209470748901,
	"learning_rate": 0.000152,
	"loss": 0.2975,
	"step": 300
	},
	{
	"epoch": 0.48,
	"eval_loss": 0.3036611080169678,
	"eval_na_accuracy": 0.927,
	"eval_ordinal_accuracy": 0.5963511972633979,
	"eval_ordinal_mae": 0.5690023564742932,
	"eval_runtime": 42.7034,
	"eval_samples_per_second": 23.417,
	"eval_steps_per_second": 2.927,
	"step": 300
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.7659221887588501,
	"learning_rate": 0.000144,
	"loss": 0.2609,
	"step": 350
	},
	{
	"epoch": 0.56,
	"eval_loss": 0.3209022283554077,
	"eval_na_accuracy": 0.928,
	"eval_ordinal_accuracy": 0.5450399087799316,
	"eval_ordinal_mae": 0.5764862077817825,
	"eval_runtime": 43.1206,
	"eval_samples_per_second": 23.191,
	"eval_steps_per_second": 2.899,
	"step": 350
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.0847711563110352,
	"learning_rate": 0.00013600000000000003,
	"loss": 0.287,
	"step": 400
	},
	{
	"epoch": 0.64,
	"eval_loss": 0.29075464606285095,
	"eval_na_accuracy": 0.931,
	"eval_ordinal_accuracy": 0.5826681870011402,
	"eval_ordinal_mae": 0.5458187616535902,
	"eval_runtime": 42.3269,
	"eval_samples_per_second": 23.626,
	"eval_steps_per_second": 2.953,
	"step": 400
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.9720218181610107,
	"learning_rate": 0.00012800000000000002,
	"loss": 0.2905,
	"step": 450
	},
	{
	"epoch": 0.72,
	"eval_loss": 0.30074238777160645,
	"eval_na_accuracy": 0.919,
	"eval_ordinal_accuracy": 0.5986316989737742,
	"eval_ordinal_mae": 0.548372159519042,
	"eval_runtime": 76.7524,
	"eval_samples_per_second": 13.029,
	"eval_steps_per_second": 1.629,
	"step": 450
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.8414099216461182,
	"learning_rate": 0.00012,
	"loss": 0.2574,
	"step": 500
	},
	{
	"epoch": 0.8,
	"eval_loss": 0.28344637155532837,
	"eval_na_accuracy": 0.929,
	"eval_ordinal_accuracy": 0.6031927023945268,
	"eval_ordinal_mae": 0.5363022306512,
	"eval_runtime": 42.8484,
	"eval_samples_per_second": 23.338,
	"eval_steps_per_second": 2.917,
	"step": 500
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.5895617604255676,
	"learning_rate": 0.00011200000000000001,
	"loss": 0.2855,
	"step": 550
	},
	{
	"epoch": 0.88,
	"eval_loss": 0.2750368118286133,
	"eval_na_accuracy": 0.931,
	"eval_ordinal_accuracy": 0.6271379703534777,
	"eval_ordinal_mae": 0.5319093595330124,
	"eval_runtime": 42.3171,
	"eval_samples_per_second": 23.631,
	"eval_steps_per_second": 2.954,
	"step": 550
	},
	{
	"epoch": 0.88,
	"step": 550,
	"total_flos": 6.81953956282368e+17,
	"train_loss": 0.3000895881652832,
	"train_runtime": 2172.3633,
	"train_samples_per_second": 9.207,
	"train_steps_per_second": 0.575
	}
	],
	"logging_steps": 50,
	"max_steps": 1250,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 50,
	"total_flos": 6.81953956282368e+17,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}