gemma-1 / trainer_state.json

Upload folder using huggingface_hub

c8d0b6d verified 3 months ago

8.66 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 48,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.020833333333333332,
	"grad_norm": 0.12738120555877686,
	"learning_rate": 2e-05,
	"loss": 1.8402,
	"step": 1
	},
	{
	"epoch": 0.041666666666666664,
	"grad_norm": 0.12369408458471298,
	"learning_rate": 4e-05,
	"loss": 1.8523,
	"step": 2
	},
	{
	"epoch": 0.0625,
	"grad_norm": 0.12252993136644363,
	"learning_rate": 6e-05,
	"loss": 1.8356,
	"step": 3
	},
	{
	"epoch": 0.08333333333333333,
	"grad_norm": 0.14406679570674896,
	"learning_rate": 8e-05,
	"loss": 1.9047,
	"step": 4
	},
	{
	"epoch": 0.10416666666666667,
	"grad_norm": 0.1336834579706192,
	"learning_rate": 0.0001,
	"loss": 1.7314,
	"step": 5
	},
	{
	"epoch": 0.125,
	"grad_norm": 0.12526683509349823,
	"learning_rate": 0.00012,
	"loss": 1.7081,
	"step": 6
	},
	{
	"epoch": 0.14583333333333334,
	"grad_norm": 0.10401816666126251,
	"learning_rate": 0.00014,
	"loss": 1.7494,
	"step": 7
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 0.12714660167694092,
	"learning_rate": 0.00016,
	"loss": 1.6896,
	"step": 8
	},
	{
	"epoch": 0.1875,
	"grad_norm": 0.18794190883636475,
	"learning_rate": 0.00018,
	"loss": 1.7684,
	"step": 9
	},
	{
	"epoch": 0.20833333333333334,
	"grad_norm": 0.13265261054039001,
	"learning_rate": 0.0002,
	"loss": 1.852,
	"step": 10
	},
	{
	"epoch": 0.22916666666666666,
	"grad_norm": 0.09558682143688202,
	"learning_rate": 0.000199658449300667,
	"loss": 1.7512,
	"step": 11
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.08844737708568573,
	"learning_rate": 0.00019863613034027224,
	"loss": 1.7834,
	"step": 12
	},
	{
	"epoch": 0.2708333333333333,
	"grad_norm": 0.08456718921661377,
	"learning_rate": 0.00019694002659393305,
	"loss": 1.6389,
	"step": 13
	},
	{
	"epoch": 0.2916666666666667,
	"grad_norm": 0.1070481538772583,
	"learning_rate": 0.00019458172417006347,
	"loss": 1.7192,
	"step": 14
	},
	{
	"epoch": 0.3125,
	"grad_norm": 0.0899835005402565,
	"learning_rate": 0.00019157733266550575,
	"loss": 1.8558,
	"step": 15
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 0.0821102038025856,
	"learning_rate": 0.0001879473751206489,
	"loss": 1.8163,
	"step": 16
	},
	{
	"epoch": 0.3541666666666667,
	"grad_norm": 0.0848909467458725,
	"learning_rate": 0.00018371664782625287,
	"loss": 1.8694,
	"step": 17
	},
	{
	"epoch": 0.375,
	"grad_norm": 0.09152859449386597,
	"learning_rate": 0.00017891405093963938,
	"loss": 1.7166,
	"step": 18
	},
	{
	"epoch": 0.3958333333333333,
	"grad_norm": 0.09962758421897888,
	"learning_rate": 0.00017357239106731317,
	"loss": 1.6701,
	"step": 19
	},
	{
	"epoch": 0.4166666666666667,
	"grad_norm": 0.09426088631153107,
	"learning_rate": 0.00016772815716257412,
	"loss": 1.704,
	"step": 20
	},
	{
	"epoch": 0.4375,
	"grad_norm": 0.10607806593179703,
	"learning_rate": 0.0001614212712689668,
	"loss": 1.6907,
	"step": 21
	},
	{
	"epoch": 0.4583333333333333,
	"grad_norm": 0.09791558980941772,
	"learning_rate": 0.00015469481581224272,
	"loss": 1.6956,
	"step": 22
	},
	{
	"epoch": 0.4791666666666667,
	"grad_norm": 0.09202174097299576,
	"learning_rate": 0.00014759473930370736,
	"loss": 1.7044,
	"step": 23
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.08152103424072266,
	"learning_rate": 0.00014016954246529696,
	"loss": 1.7929,
	"step": 24
	},
	{
	"epoch": 0.5208333333333334,
	"grad_norm": 0.08656490594148636,
	"learning_rate": 0.00013246994692046836,
	"loss": 1.681,
	"step": 25
	},
	{
	"epoch": 0.5416666666666666,
	"grad_norm": 0.09705553203821182,
	"learning_rate": 0.00012454854871407994,
	"loss": 1.8277,
	"step": 26
	},
	{
	"epoch": 0.5625,
	"grad_norm": 0.08442050218582153,
	"learning_rate": 0.00011645945902807341,
	"loss": 1.8142,
	"step": 27
	},
	{
	"epoch": 0.5833333333333334,
	"grad_norm": 0.08122236281633377,
	"learning_rate": 0.00010825793454723325,
	"loss": 1.8165,
	"step": 28
	},
	{
	"epoch": 0.6041666666666666,
	"grad_norm": 0.10772602260112762,
	"learning_rate": 0.0001,
	"loss": 1.7289,
	"step": 29
	},
	{
	"epoch": 0.625,
	"grad_norm": 0.0818714126944542,
	"learning_rate": 9.174206545276677e-05,
	"loss": 1.7961,
	"step": 30
	},
	{
	"epoch": 0.6458333333333334,
	"grad_norm": 0.08107005059719086,
	"learning_rate": 8.35405409719266e-05,
	"loss": 1.7678,
	"step": 31
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 0.09409960359334946,
	"learning_rate": 7.54514512859201e-05,
	"loss": 1.6694,
	"step": 32
	},
	{
	"epoch": 0.6875,
	"grad_norm": 0.07917767763137817,
	"learning_rate": 6.753005307953167e-05,
	"loss": 1.7949,
	"step": 33
	},
	{
	"epoch": 0.7083333333333334,
	"grad_norm": 0.0760674774646759,
	"learning_rate": 5.983045753470308e-05,
	"loss": 1.8988,
	"step": 34
	},
	{
	"epoch": 0.7291666666666666,
	"grad_norm": 0.07847646623849869,
	"learning_rate": 5.240526069629265e-05,
	"loss": 1.6847,
	"step": 35
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.07277189940214157,
	"learning_rate": 4.530518418775733e-05,
	"loss": 1.7323,
	"step": 36
	},
	{
	"epoch": 0.7708333333333334,
	"grad_norm": 0.08896162360906601,
	"learning_rate": 3.857872873103322e-05,
	"loss": 1.7977,
	"step": 37
	},
	{
	"epoch": 0.7916666666666666,
	"grad_norm": 0.09100263565778732,
	"learning_rate": 3.227184283742591e-05,
	"loss": 1.7079,
	"step": 38
	},
	{
	"epoch": 0.8125,
	"grad_norm": 0.09472405910491943,
	"learning_rate": 2.6427608932686843e-05,
	"loss": 1.5691,
	"step": 39
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 0.07097969204187393,
	"learning_rate": 2.1085949060360654e-05,
	"loss": 1.8124,
	"step": 40
	},
	{
	"epoch": 0.8541666666666666,
	"grad_norm": 0.08629415184259415,
	"learning_rate": 1.6283352173747145e-05,
	"loss": 1.6593,
	"step": 41
	},
	{
	"epoch": 0.875,
	"grad_norm": 0.08692847937345505,
	"learning_rate": 1.2052624879351104e-05,
	"loss": 1.6486,
	"step": 42
	},
	{
	"epoch": 0.8958333333333334,
	"grad_norm": 0.08539339900016785,
	"learning_rate": 8.422667334494249e-06,
	"loss": 1.7455,
	"step": 43
	},
	{
	"epoch": 0.9166666666666666,
	"grad_norm": 0.08743755519390106,
	"learning_rate": 5.418275829936537e-06,
	"loss": 1.6602,
	"step": 44
	},
	{
	"epoch": 0.9375,
	"grad_norm": 0.07881022244691849,
	"learning_rate": 3.059973406066963e-06,
	"loss": 1.7606,
	"step": 45
	},
	{
	"epoch": 0.9583333333333334,
	"grad_norm": 0.1006278321146965,
	"learning_rate": 1.3638696597277679e-06,
	"loss": 1.6559,
	"step": 46
	},
	{
	"epoch": 0.9791666666666666,
	"grad_norm": 0.08834093064069748,
	"learning_rate": 3.415506993330153e-07,
	"loss": 1.7235,
	"step": 47
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.09742043912410736,
	"learning_rate": 0.0,
	"loss": 1.7418,
	"step": 48
	}
	],
	"logging_steps": 1,
	"max_steps": 48,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 6.366126454572319e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}