google-vit-large-finetuned / trainer_state.json

Upload 8 files

e4d7864 verified 8 months ago

20.7 kB

	{
	"best_metric": 0.9358974358974359,
	"best_model_checkpoint": "output-models/checkpoint-470",
	"epoch": 40.0,
	"eval_steps": 500,
	"global_step": 1880,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"step": 47,
	"train_accuracy": 0.7072649572649573,
	"train_loss": 0.6782774329185486,
	"train_runtime": 13.5956,
	"train_samples_per_second": 34.423,
	"train_steps_per_second": 8.606
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.7243589743589743,
	"eval_loss": 0.6180987358093262,
	"eval_runtime": 35.9375,
	"eval_samples_per_second": 4.341,
	"eval_steps_per_second": 1.085,
	"step": 47
	},
	{
	"epoch": 2.0,
	"step": 94,
	"train_accuracy": 0.75,
	"train_loss": 0.5690865516662598,
	"train_runtime": 13.7448,
	"train_samples_per_second": 34.049,
	"train_steps_per_second": 8.512
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.8012820512820513,
	"eval_loss": 0.5130882263183594,
	"eval_runtime": 4.4157,
	"eval_samples_per_second": 35.328,
	"eval_steps_per_second": 8.832,
	"step": 94
	},
	{
	"epoch": 3.0,
	"step": 141,
	"train_accuracy": 0.7350427350427351,
	"train_loss": 0.6460429430007935,
	"train_runtime": 14.0717,
	"train_samples_per_second": 33.258,
	"train_steps_per_second": 8.315
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.8205128205128205,
	"eval_loss": 0.45179083943367004,
	"eval_runtime": 4.8055,
	"eval_samples_per_second": 32.463,
	"eval_steps_per_second": 8.116,
	"step": 141
	},
	{
	"epoch": 4.0,
	"step": 188,
	"train_accuracy": 0.8098290598290598,
	"train_loss": 0.39663246273994446,
	"train_runtime": 13.7878,
	"train_samples_per_second": 33.943,
	"train_steps_per_second": 8.486
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.8846153846153846,
	"eval_loss": 0.2980358898639679,
	"eval_runtime": 4.4674,
	"eval_samples_per_second": 34.919,
	"eval_steps_per_second": 8.73,
	"step": 188
	},
	{
	"epoch": 5.0,
	"step": 235,
	"train_accuracy": 0.8632478632478633,
	"train_loss": 0.3636291027069092,
	"train_runtime": 13.58,
	"train_samples_per_second": 34.462,
	"train_steps_per_second": 8.616
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.8717948717948718,
	"eval_loss": 0.2997760772705078,
	"eval_runtime": 4.9986,
	"eval_samples_per_second": 31.208,
	"eval_steps_per_second": 7.802,
	"step": 235
	},
	{
	"epoch": 6.0,
	"step": 282,
	"train_accuracy": 0.8376068376068376,
	"train_loss": 0.4208720922470093,
	"train_runtime": 13.5735,
	"train_samples_per_second": 34.479,
	"train_steps_per_second": 8.62
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.9102564102564102,
	"eval_loss": 0.33183348178863525,
	"eval_runtime": 4.4091,
	"eval_samples_per_second": 35.381,
	"eval_steps_per_second": 8.845,
	"step": 282
	},
	{
	"epoch": 7.0,
	"step": 329,
	"train_accuracy": 0.8568376068376068,
	"train_loss": 0.32207924127578735,
	"train_runtime": 13.5635,
	"train_samples_per_second": 34.504,
	"train_steps_per_second": 8.626
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 0.24086996912956238,
	"eval_runtime": 4.7402,
	"eval_samples_per_second": 32.91,
	"eval_steps_per_second": 8.228,
	"step": 329
	},
	{
	"epoch": 8.0,
	"step": 376,
	"train_accuracy": 0.8846153846153846,
	"train_loss": 0.3257001042366028,
	"train_runtime": 13.9348,
	"train_samples_per_second": 33.585,
	"train_steps_per_second": 8.396
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.8717948717948718,
	"eval_loss": 0.3424080014228821,
	"eval_runtime": 4.9539,
	"eval_samples_per_second": 31.49,
	"eval_steps_per_second": 7.873,
	"step": 376
	},
	{
	"epoch": 9.0,
	"step": 423,
	"train_accuracy": 0.8717948717948718,
	"train_loss": 0.2687961757183075,
	"train_runtime": 13.6829,
	"train_samples_per_second": 34.203,
	"train_steps_per_second": 8.551
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 0.25928938388824463,
	"eval_runtime": 4.4508,
	"eval_samples_per_second": 35.05,
	"eval_steps_per_second": 8.762,
	"step": 423
	},
	{
	"epoch": 10.0,
	"step": 470,
	"train_accuracy": 0.9102564102564102,
	"train_loss": 0.2113831341266632,
	"train_runtime": 13.44,
	"train_samples_per_second": 34.821,
	"train_steps_per_second": 8.705
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.9358974358974359,
	"eval_loss": 0.25084006786346436,
	"eval_runtime": 4.8092,
	"eval_samples_per_second": 32.438,
	"eval_steps_per_second": 8.109,
	"step": 470
	},
	{
	"epoch": 10.64,
	"grad_norm": 7.874776840209961,
	"learning_rate": 1.4680851063829789e-05,
	"loss": 0.4595,
	"step": 500
	},
	{
	"epoch": 11.0,
	"step": 517,
	"train_accuracy": 0.8995726495726496,
	"train_loss": 0.25938984751701355,
	"train_runtime": 13.5841,
	"train_samples_per_second": 34.452,
	"train_steps_per_second": 8.613
	},
	{
	"epoch": 11.0,
	"eval_accuracy": 0.9294871794871795,
	"eval_loss": 0.32409772276878357,
	"eval_runtime": 4.4182,
	"eval_samples_per_second": 35.308,
	"eval_steps_per_second": 8.827,
	"step": 517
	},
	{
	"epoch": 12.0,
	"step": 564,
	"train_accuracy": 0.8952991452991453,
	"train_loss": 0.26763853430747986,
	"train_runtime": 13.8203,
	"train_samples_per_second": 33.863,
	"train_steps_per_second": 8.466
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.8910256410256411,
	"eval_loss": 0.3308241069316864,
	"eval_runtime": 4.4447,
	"eval_samples_per_second": 35.098,
	"eval_steps_per_second": 8.774,
	"step": 564
	},
	{
	"epoch": 13.0,
	"step": 611,
	"train_accuracy": 0.9081196581196581,
	"train_loss": 0.23129615187644958,
	"train_runtime": 13.4973,
	"train_samples_per_second": 34.674,
	"train_steps_per_second": 8.668
	},
	{
	"epoch": 13.0,
	"eval_accuracy": 0.9294871794871795,
	"eval_loss": 0.255931556224823,
	"eval_runtime": 4.6436,
	"eval_samples_per_second": 33.595,
	"eval_steps_per_second": 8.399,
	"step": 611
	},
	{
	"epoch": 14.0,
	"step": 658,
	"train_accuracy": 0.8846153846153846,
	"train_loss": 0.31185245513916016,
	"train_runtime": 13.5189,
	"train_samples_per_second": 34.618,
	"train_steps_per_second": 8.655
	},
	{
	"epoch": 14.0,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 0.3017214834690094,
	"eval_runtime": 4.6078,
	"eval_samples_per_second": 33.856,
	"eval_steps_per_second": 8.464,
	"step": 658
	},
	{
	"epoch": 15.0,
	"step": 705,
	"train_accuracy": 0.9166666666666666,
	"train_loss": 0.3007480502128601,
	"train_runtime": 13.4373,
	"train_samples_per_second": 34.829,
	"train_steps_per_second": 8.707
	},
	{
	"epoch": 15.0,
	"eval_accuracy": 0.9038461538461539,
	"eval_loss": 0.4220944046974182,
	"eval_runtime": 4.9304,
	"eval_samples_per_second": 31.64,
	"eval_steps_per_second": 7.91,
	"step": 705
	},
	{
	"epoch": 16.0,
	"step": 752,
	"train_accuracy": 0.9188034188034188,
	"train_loss": 0.20939397811889648,
	"train_runtime": 13.6683,
	"train_samples_per_second": 34.24,
	"train_steps_per_second": 8.56
	},
	{
	"epoch": 16.0,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 0.36174264550209045,
	"eval_runtime": 4.4608,
	"eval_samples_per_second": 34.971,
	"eval_steps_per_second": 8.743,
	"step": 752
	},
	{
	"epoch": 17.0,
	"step": 799,
	"train_accuracy": 0.9209401709401709,
	"train_loss": 0.18879051506519318,
	"train_runtime": 13.7929,
	"train_samples_per_second": 33.931,
	"train_steps_per_second": 8.483
	},
	{
	"epoch": 17.0,
	"eval_accuracy": 0.9102564102564102,
	"eval_loss": 0.35188791155815125,
	"eval_runtime": 4.7732,
	"eval_samples_per_second": 32.683,
	"eval_steps_per_second": 8.171,
	"step": 799
	},
	{
	"epoch": 18.0,
	"step": 846,
	"train_accuracy": 0.8952991452991453,
	"train_loss": 0.25016605854034424,
	"train_runtime": 13.3521,
	"train_samples_per_second": 35.051,
	"train_steps_per_second": 8.763
	},
	{
	"epoch": 18.0,
	"eval_accuracy": 0.9102564102564102,
	"eval_loss": 0.3965354859828949,
	"eval_runtime": 4.3963,
	"eval_samples_per_second": 35.485,
	"eval_steps_per_second": 8.871,
	"step": 846
	},
	{
	"epoch": 19.0,
	"step": 893,
	"train_accuracy": 0.9209401709401709,
	"train_loss": 0.1891285479068756,
	"train_runtime": 13.4884,
	"train_samples_per_second": 34.696,
	"train_steps_per_second": 8.674
	},
	{
	"epoch": 19.0,
	"eval_accuracy": 0.9038461538461539,
	"eval_loss": 0.31604066491127014,
	"eval_runtime": 5.1415,
	"eval_samples_per_second": 30.341,
	"eval_steps_per_second": 7.585,
	"step": 893
	},
	{
	"epoch": 20.0,
	"step": 940,
	"train_accuracy": 0.9401709401709402,
	"train_loss": 0.1873449832201004,
	"train_runtime": 13.9057,
	"train_samples_per_second": 33.655,
	"train_steps_per_second": 8.414
	},
	{
	"epoch": 20.0,
	"eval_accuracy": 0.9294871794871795,
	"eval_loss": 0.3332672119140625,
	"eval_runtime": 4.9421,
	"eval_samples_per_second": 31.565,
	"eval_steps_per_second": 7.891,
	"step": 940
	},
	{
	"epoch": 21.0,
	"step": 987,
	"train_accuracy": 0.9230769230769231,
	"train_loss": 0.18881197273731232,
	"train_runtime": 13.5338,
	"train_samples_per_second": 34.58,
	"train_steps_per_second": 8.645
	},
	{
	"epoch": 21.0,
	"eval_accuracy": 0.8910256410256411,
	"eval_loss": 0.3720751404762268,
	"eval_runtime": 4.8223,
	"eval_samples_per_second": 32.35,
	"eval_steps_per_second": 8.088,
	"step": 987
	},
	{
	"epoch": 21.28,
	"grad_norm": 5.682499408721924,
	"learning_rate": 9.361702127659576e-06,
	"loss": 0.2485,
	"step": 1000
	},
	{
	"epoch": 22.0,
	"step": 1034,
	"train_accuracy": 0.9444444444444444,
	"train_loss": 0.1338244080543518,
	"train_runtime": 13.6664,
	"train_samples_per_second": 34.245,
	"train_steps_per_second": 8.561
	},
	{
	"epoch": 22.0,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 0.3777410686016083,
	"eval_runtime": 4.3337,
	"eval_samples_per_second": 35.997,
	"eval_steps_per_second": 8.999,
	"step": 1034
	},
	{
	"epoch": 23.0,
	"step": 1081,
	"train_accuracy": 0.9252136752136753,
	"train_loss": 0.18711484968662262,
	"train_runtime": 13.702,
	"train_samples_per_second": 34.155,
	"train_steps_per_second": 8.539
	},
	{
	"epoch": 23.0,
	"eval_accuracy": 0.9038461538461539,
	"eval_loss": 0.3984796702861786,
	"eval_runtime": 4.5267,
	"eval_samples_per_second": 34.462,
	"eval_steps_per_second": 8.616,
	"step": 1081
	},
	{
	"epoch": 24.0,
	"step": 1128,
	"train_accuracy": 0.9444444444444444,
	"train_loss": 0.161672905087471,
	"train_runtime": 13.9523,
	"train_samples_per_second": 33.543,
	"train_steps_per_second": 8.386
	},
	{
	"epoch": 24.0,
	"eval_accuracy": 0.9230769230769231,
	"eval_loss": 0.38641923666000366,
	"eval_runtime": 5.1128,
	"eval_samples_per_second": 30.511,
	"eval_steps_per_second": 7.628,
	"step": 1128
	},
	{
	"epoch": 25.0,
	"step": 1175,
	"train_accuracy": 0.9444444444444444,
	"train_loss": 0.17891307175159454,
	"train_runtime": 13.7483,
	"train_samples_per_second": 34.041,
	"train_steps_per_second": 8.51
	},
	{
	"epoch": 25.0,
	"eval_accuracy": 0.9230769230769231,
	"eval_loss": 0.42098188400268555,
	"eval_runtime": 5.0358,
	"eval_samples_per_second": 30.978,
	"eval_steps_per_second": 7.745,
	"step": 1175
	},
	{
	"epoch": 26.0,
	"step": 1222,
	"train_accuracy": 0.9572649572649573,
	"train_loss": 0.10899731516838074,
	"train_runtime": 14.0913,
	"train_samples_per_second": 33.212,
	"train_steps_per_second": 8.303
	},
	{
	"epoch": 26.0,
	"eval_accuracy": 0.9038461538461539,
	"eval_loss": 0.4160342216491699,
	"eval_runtime": 4.7918,
	"eval_samples_per_second": 32.555,
	"eval_steps_per_second": 8.139,
	"step": 1222
	},
	{
	"epoch": 27.0,
	"step": 1269,
	"train_accuracy": 0.938034188034188,
	"train_loss": 0.16018715500831604,
	"train_runtime": 13.888,
	"train_samples_per_second": 33.698,
	"train_steps_per_second": 8.425
	},
	{
	"epoch": 27.0,
	"eval_accuracy": 0.9102564102564102,
	"eval_loss": 0.39854034781455994,
	"eval_runtime": 4.8553,
	"eval_samples_per_second": 32.13,
	"eval_steps_per_second": 8.032,
	"step": 1269
	},
	{
	"epoch": 28.0,
	"step": 1316,
	"train_accuracy": 0.9444444444444444,
	"train_loss": 0.14988763630390167,
	"train_runtime": 13.7687,
	"train_samples_per_second": 33.99,
	"train_steps_per_second": 8.498
	},
	{
	"epoch": 28.0,
	"eval_accuracy": 0.9102564102564102,
	"eval_loss": 0.40767335891723633,
	"eval_runtime": 4.434,
	"eval_samples_per_second": 35.182,
	"eval_steps_per_second": 8.796,
	"step": 1316
	},
	{
	"epoch": 29.0,
	"step": 1363,
	"train_accuracy": 0.9316239316239316,
	"train_loss": 0.17876969277858734,
	"train_runtime": 13.3686,
	"train_samples_per_second": 35.008,
	"train_steps_per_second": 8.752
	},
	{
	"epoch": 29.0,
	"eval_accuracy": 0.8782051282051282,
	"eval_loss": 0.6035234928131104,
	"eval_runtime": 4.8916,
	"eval_samples_per_second": 31.891,
	"eval_steps_per_second": 7.973,
	"step": 1363
	},
	{
	"epoch": 30.0,
	"step": 1410,
	"train_accuracy": 0.9572649572649573,
	"train_loss": 0.12170404940843582,
	"train_runtime": 13.3084,
	"train_samples_per_second": 35.166,
	"train_steps_per_second": 8.791
	},
	{
	"epoch": 30.0,
	"eval_accuracy": 0.9230769230769231,
	"eval_loss": 0.3604837954044342,
	"eval_runtime": 4.5664,
	"eval_samples_per_second": 34.163,
	"eval_steps_per_second": 8.541,
	"step": 1410
	},
	{
	"epoch": 31.0,
	"step": 1457,
	"train_accuracy": 0.9444444444444444,
	"train_loss": 0.17193935811519623,
	"train_runtime": 13.3567,
	"train_samples_per_second": 35.039,
	"train_steps_per_second": 8.76
	},
	{
	"epoch": 31.0,
	"eval_accuracy": 0.9038461538461539,
	"eval_loss": 0.42400404810905457,
	"eval_runtime": 4.3974,
	"eval_samples_per_second": 35.475,
	"eval_steps_per_second": 8.869,
	"step": 1457
	},
	{
	"epoch": 31.91,
	"grad_norm": 0.40821418166160583,
	"learning_rate": 4.042553191489362e-06,
	"loss": 0.1715,
	"step": 1500
	},
	{
	"epoch": 32.0,
	"step": 1504,
	"train_accuracy": 0.9551282051282052,
	"train_loss": 0.15071353316307068,
	"train_runtime": 13.338,
	"train_samples_per_second": 35.088,
	"train_steps_per_second": 8.772
	},
	{
	"epoch": 32.0,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 0.3800322711467743,
	"eval_runtime": 4.4234,
	"eval_samples_per_second": 35.267,
	"eval_steps_per_second": 8.817,
	"step": 1504
	},
	{
	"epoch": 33.0,
	"step": 1551,
	"train_accuracy": 0.9423076923076923,
	"train_loss": 0.15298214554786682,
	"train_runtime": 13.6206,
	"train_samples_per_second": 34.36,
	"train_steps_per_second": 8.59
	},
	{
	"epoch": 33.0,
	"eval_accuracy": 0.9038461538461539,
	"eval_loss": 0.42538413405418396,
	"eval_runtime": 4.5076,
	"eval_samples_per_second": 34.608,
	"eval_steps_per_second": 8.652,
	"step": 1551
	},
	{
	"epoch": 34.0,
	"step": 1598,
	"train_accuracy": 0.9615384615384616,
	"train_loss": 0.09072276204824448,
	"train_runtime": 13.7151,
	"train_samples_per_second": 34.123,
	"train_steps_per_second": 8.531
	},
	{
	"epoch": 34.0,
	"eval_accuracy": 0.9230769230769231,
	"eval_loss": 0.41397902369499207,
	"eval_runtime": 4.448,
	"eval_samples_per_second": 35.072,
	"eval_steps_per_second": 8.768,
	"step": 1598
	},
	{
	"epoch": 35.0,
	"step": 1645,
	"train_accuracy": 0.9594017094017094,
	"train_loss": 0.15199129283428192,
	"train_runtime": 13.6214,
	"train_samples_per_second": 34.358,
	"train_steps_per_second": 8.589
	},
	{
	"epoch": 35.0,
	"eval_accuracy": 0.9230769230769231,
	"eval_loss": 0.39104607701301575,
	"eval_runtime": 4.4304,
	"eval_samples_per_second": 35.211,
	"eval_steps_per_second": 8.803,
	"step": 1645
	},
	{
	"epoch": 36.0,
	"step": 1692,
	"train_accuracy": 0.9594017094017094,
	"train_loss": 0.134719118475914,
	"train_runtime": 13.9053,
	"train_samples_per_second": 33.656,
	"train_steps_per_second": 8.414
	},
	{
	"epoch": 36.0,
	"eval_accuracy": 0.9102564102564102,
	"eval_loss": 0.4161369204521179,
	"eval_runtime": 4.6871,
	"eval_samples_per_second": 33.283,
	"eval_steps_per_second": 8.321,
	"step": 1692
	},
	{
	"epoch": 37.0,
	"step": 1739,
	"train_accuracy": 0.9529914529914529,
	"train_loss": 0.16535791754722595,
	"train_runtime": 14.0143,
	"train_samples_per_second": 33.394,
	"train_steps_per_second": 8.349
	},
	{
	"epoch": 37.0,
	"eval_accuracy": 0.9102564102564102,
	"eval_loss": 0.43847039341926575,
	"eval_runtime": 4.8404,
	"eval_samples_per_second": 32.229,
	"eval_steps_per_second": 8.057,
	"step": 1739
	},
	{
	"epoch": 38.0,
	"step": 1786,
	"train_accuracy": 0.9487179487179487,
	"train_loss": 0.11996147781610489,
	"train_runtime": 14.1086,
	"train_samples_per_second": 33.171,
	"train_steps_per_second": 8.293
	},
	{
	"epoch": 38.0,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 0.41302695870399475,
	"eval_runtime": 4.7702,
	"eval_samples_per_second": 32.703,
	"eval_steps_per_second": 8.176,
	"step": 1786
	},
	{
	"epoch": 39.0,
	"step": 1833,
	"train_accuracy": 0.9529914529914529,
	"train_loss": 0.17013560235500336,
	"train_runtime": 13.8197,
	"train_samples_per_second": 33.865,
	"train_steps_per_second": 8.466
	},
	{
	"epoch": 39.0,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 0.4181523323059082,
	"eval_runtime": 5.0402,
	"eval_samples_per_second": 30.951,
	"eval_steps_per_second": 7.738,
	"step": 1833
	},
	{
	"epoch": 40.0,
	"step": 1880,
	"train_accuracy": 0.9551282051282052,
	"train_loss": 0.11466003954410553,
	"train_runtime": 13.6881,
	"train_samples_per_second": 34.19,
	"train_steps_per_second": 8.548
	},
	{
	"epoch": 40.0,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 0.4133930802345276,
	"eval_runtime": 4.7653,
	"eval_samples_per_second": 32.736,
	"eval_steps_per_second": 8.184,
	"step": 1880
	}
	],
	"logging_steps": 500,
	"max_steps": 1880,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 40,
	"save_steps": 500,
	"total_flos": 5.128065177052447e+18,
	"train_batch_size": 10,
	"trial_name": null,
	"trial_params": null
	}