huggingartists

Browse files

Files changed (10) hide show

README.md +3 -3
config.json +1 -1
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +136 -252
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/morgenshtern")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/19ghjsta/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on MORGENSHTERN's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/3the5qdy) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/3the5qdy/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/morgenshtern")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/1qveqjla/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on MORGENSHTERN's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/21tohu9l) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/21tohu9l/artifacts) is logged and versioned.
 ## How to use

config.json CHANGED Viewed

@@ -35,7 +35,7 @@
     }
   },
   "torch_dtype": "float32",
-  "transformers_version": "4.11.2",
   "use_cache": true,
   "vocab_size": 50257
 }

     }
   },
   "torch_dtype": "float32",
+  "transformers_version": "4.11.3",
   "use_cache": true,
   "vocab_size": 50257
 }

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 0.~~8179315328598022~~, "eval_runtime": 7.~~3257~~, "eval_samples_per_second": 21.~~158~~, "eval_steps_per_second": 2.73, "epoch": 3.0}


1	+ {"eval_loss": 0.8691701889038086, "eval_runtime": 5.5874, "eval_samples_per_second": 22.014, "eval_steps_per_second": 2.864, "epoch": 4.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9bfe735b97d1edf92f1881ff486f7bbdb5e1c909ebc2fe3797e20c998d462eef
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:0dcb9fd0c95e49a7c5c6a915f2d7adaa973be6d1ae19ff9baad7139b0524ce2b
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c09c40bf4dfd5fd306d702098d94d3bbdc47999df4e071987a459220d393d0d
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b9057c2e701481d1224ab71cb3e30e9a63129f8298087d242e9dbef4d013a3c
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e79396262fb67544ae8b77d0955613d7d836ace7dac0bfc78d519268a6d4270c
 size 510403817

 version https://git-lfs.github.com/spec/v1
+oid sha256:fff17a1d5c7cb31c35913396acbea4856780b0256c64b1a8d4aaee9270629fc7
 size 510403817

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad6fe78f0f512530d4eb0b75148f257776f4270926c8eeb3605dc42ed450ad9f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9ebc7a18dd93d6b68e430a5a307587231b2cf1f61199f2bfb8080060d317195
 size 14503

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:592ef97b2b907edd507cff14ca8b3cd3c3eaddc58fa33aedd4b1cf49372e69c1
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:b46773a8e0da9899f0332e86140882baf8db0e4d332cd8d2b17d122dbb838867
 size 623

trainer_state.json CHANGED Viewed

@@ -1,388 +1,272 @@
 {
-  "best_metric": 0.8179315328598022,
-  "best_model_checkpoint": "output/morgenshtern/checkpoint-291",
-  "epoch": 3.0,
-  "global_step": 291,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.05,
-      "learning_rate": 2.8353852816851834e-06,
-      "loss": 0.9329,
       "step": 5
     },
     {
       "epoch": 0.1,
-      "learning_rate": 5.632050517253893e-07,
-      "loss": 1.0399,
       "step": 10
     },
     {
       "epoch": 0.15,
-      "learning_rate": 3.5245568632818114e-08,
-      "loss": 0.9758,
       "step": 15
     },
     {
       "epoch": 0.2,
-      "learning_rate": 1.2650418304129032e-06,
-      "loss": 1.1379,
       "step": 20
     },
     {
-      "epoch": 0.26,
-      "learning_rate": 4.2210662473863345e-06,
-      "loss": 1.0053,
       "step": 25
     },
     {
-      "epoch": 0.31,
-      "learning_rate": 8.827536897135236e-06,
-      "loss": 0.9426,
       "step": 30
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 1.4966360302693292e-05,
-      "loss": 0.975,
       "step": 35
     },
     {
-      "epoch": 0.41,
-      "learning_rate": 2.2480158928073662e-05,
-      "loss": 0.9562,
       "step": 40
     },
     {
-      "epoch": 0.46,
-      "learning_rate": 3.1176305776956165e-05,
-      "loss": 0.9848,
       "step": 45
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 4.08318626618038e-05,
-      "loss": 0.9881,
       "step": 50
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 5.11992955438076e-05,
-      "loss": 0.8541,
       "step": 55
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 6.201282042273309e-05,
-      "loss": 0.9165,
       "step": 60
     },
     {
-      "epoch": 0.66,
-      "learning_rate": 7.299521709067675e-05,
-      "loss": 1.1571,
       "step": 65
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 8.386493606940326e-05,
-      "loss": 0.9756,
       "step": 70
     },
     {
-      "epoch": 0.77,
-      "learning_rate": 9.434331653472495e-05,
-      "loss": 1.0831,
       "step": 75
     },
     {
-      "epoch": 0.82,
-      "learning_rate": 0.00010416173018610171,
-      "loss": 1.0254,
       "step": 80
     },
     {
-      "epoch": 0.87,
-      "learning_rate": 0.00011306846791811384,
-      "loss": 0.9955,
       "step": 85
     },
     {
-      "epoch": 0.92,
-      "learning_rate": 0.00012083519274412272,
-      "loss": 0.9694,
       "step": 90
     },
     {
-      "epoch": 0.97,
-      "learning_rate": 0.0001272627935421667,
-      "loss": 1.0328,
       "step": 95
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 0.9301878213882446,
-      "eval_runtime": 7.0442,
-      "eval_samples_per_second": 20.726,
-      "eval_steps_per_second": 2.697,
-      "step": 98
     },
     {
-      "epoch": 1.02,
-      "learning_rate": 0.00013218648955393698,
-      "loss": 0.8862,
-      "step": 100
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 0.00013548005477567298,
-      "loss": 0.9512,
       "step": 105
     },
     {
-      "epoch": 1.12,
-      "learning_rate": 0.00013705905394267309,
-      "loss": 1.0269,
       "step": 110
     },
     {
-      "epoch": 1.17,
-      "learning_rate": 0.000136883007148315,
-      "loss": 1.0087,
       "step": 115
     },
     {
-      "epoch": 1.22,
-      "learning_rate": 0.00013495642760447747,
-      "loss": 0.999,
       "step": 120
     },
     {
-      "epoch": 1.28,
-      "learning_rate": 0.00013132870593888493,
-      "loss": 1.1179,
       "step": 125
     },
     {
-      "epoch": 1.33,
-      "learning_rate": 0.00012609284399558039,
-      "loss": 0.9949,
       "step": 130
     },
     {
-      "epoch": 1.38,
-      "learning_rate": 0.0001193830705993666,
-      "loss": 0.9807,
       "step": 135
     },
     {
-      "epoch": 1.43,
-      "learning_rate": 0.00011137140040750923,
-      "loss": 1.0501,
       "step": 140
     },
     {
-      "epoch": 1.48,
-      "learning_rate": 0.00010226322406747004,
-      "loss": 0.9548,
       "step": 145
     },
     {
-      "epoch": 1.53,
-      "learning_rate": 9.229204273330182e-05,
-      "loss": 1.0041,
       "step": 150
     },
     {
-      "epoch": 1.58,
-      "learning_rate": 8.171348192891448e-05,
-      "loss": 0.9339,
       "step": 155
     },
     {
-      "epoch": 1.63,
-      "learning_rate": 7.079873822141611e-05,
-      "loss": 0.9923,
       "step": 160
     },
     {
-      "epoch": 1.68,
-      "learning_rate": 5.982762670844271e-05,
-      "loss": 1.009,
       "step": 165
     },
     {
-      "epoch": 1.73,
-      "learning_rate": 4.908140755711122e-05,
-      "loss": 0.9595,
       "step": 170
     },
     {
-      "epoch": 1.79,
-      "learning_rate": 3.883557549653576e-05,
-      "loss": 0.9652,
       "step": 175
     },
     {
-      "epoch": 1.84,
-      "learning_rate": 2.935279711561958e-05,
-      "loss": 1.0619,
       "step": 180
     },
     {
-      "epoch": 1.89,
-      "learning_rate": 2.087617702860066e-05,
-      "loss": 0.9697,
       "step": 185
     },
     {
-      "epoch": 1.94,
-      "learning_rate": 1.3623025539858162e-05,
-      "loss": 1.0304,
       "step": 190
     },
     {
-      "epoch": 1.99,
-      "learning_rate": 7.779287582812291e-06,
-      "loss": 0.9482,
       "step": 195
     },
     {
-      "epoch": 2.0,
-      "eval_loss": 0.9282976984977722,
-      "eval_runtime": 7.0544,
-      "eval_samples_per_second": 20.696,
-      "eval_steps_per_second": 2.693,
-      "step": 196
-    },
-    {
-      "epoch": 2.06,
-      "learning_rate": 2.8937315607040204e-06,
-      "loss": 1.0557,
       "step": 200
     },
     {
-      "epoch": 2.11,
-      "learning_rate": 6.931910561541759e-06,
-      "loss": 0.9196,
-      "step": 205
-    },
-    {
-      "epoch": 2.16,
-      "learning_rate": 1.2583732714275138e-05,
-      "loss": 0.9577,
-      "step": 210
-    },
-    {
-      "epoch": 2.22,
-      "learning_rate": 1.9701309148087243e-05,
-      "loss": 1.0242,
-      "step": 215
-    },
-    {
-      "epoch": 2.27,
-      "learning_rate": 2.8098397211793345e-05,
-      "loss": 0.9276,
-      "step": 220
-    },
-    {
-      "epoch": 2.32,
-      "learning_rate": 3.755527380754418e-05,
-      "loss": 0.815,
-      "step": 225
-    },
-    {
-      "epoch": 2.37,
-      "learning_rate": 4.782448479340004e-05,
-      "loss": 0.9471,
-      "step": 230
-    },
-    {
-      "epoch": 2.42,
-      "learning_rate": 5.863732001255875e-05,
-      "loss": 0.937,
-      "step": 235
-    },
-    {
-      "epoch": 2.47,
-      "learning_rate": 6.97108445198519e-05,
-      "loss": 0.9469,
-      "step": 240
-    },
-    {
-      "epoch": 2.53,
-      "learning_rate": 8.075530202233491e-05,
-      "loss": 0.9792,
-      "step": 245
-    },
-    {
-      "epoch": 2.58,
-      "learning_rate": 9.148169681124647e-05,
-      "loss": 0.9752,
-      "step": 250
-    },
-    {
-      "epoch": 2.63,
-      "learning_rate": 0.00010160935579206932,
-      "loss": 1.0419,
-      "step": 255
-    },
-    {
-      "epoch": 2.68,
-      "learning_rate": 0.00011087327274022367,
-      "loss": 1.0001,
-      "step": 260
-    },
-    {
-      "epoch": 2.73,
-      "learning_rate": 0.00011903104260831395,
-      "loss": 0.9188,
-      "step": 265
-    },
-    {
-      "epoch": 2.78,
-      "learning_rate": 0.00012586920443780796,
-      "loss": 1.0406,
-      "step": 270
-    },
-    {
-      "epoch": 2.84,
-      "learning_rate": 0.0001312088269028256,
-      "loss": 0.9707,
-      "step": 275
-    },
-    {
-      "epoch": 2.89,
-      "learning_rate": 0.0001349101903314451,
-      "loss": 1.0249,
-      "step": 280
-    },
-    {
-      "epoch": 2.94,
-      "learning_rate": 0.0001368764426920297,
-      "loss": 1.0981,
-      "step": 285
-    },
-    {
-      "epoch": 2.99,
-      "learning_rate": 0.00013705613387990704,
-      "loss": 1.0821,
-      "step": 290
-    },
-    {
-      "epoch": 3.0,
-      "eval_loss": 0.8179315328598022,
-      "eval_runtime": 7.3188,
-      "eval_samples_per_second": 21.178,
-      "eval_steps_per_second": 2.733,
-      "step": 291
     }
   ],
-  "max_steps": 291,
-  "num_train_epochs": 3,
-  "total_flos": 302053588992000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.8691701889038086,
+  "best_model_checkpoint": "output/morgenshtern/checkpoint-202",
+  "epoch": 2.0,
+  "global_step": 202,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.05,
+      "learning_rate": 4.8622670741210196e-05,
+      "loss": 0.9101,
       "step": 5
     },
     {
       "epoch": 0.1,
+      "learning_rate": 5.902924774844624e-05,
+      "loss": 0.8731,
       "step": 10
     },
     {
       "epoch": 0.15,
+      "learning_rate": 6.96668542977361e-05,
+      "loss": 0.9581,
       "step": 15
     },
     {
       "epoch": 0.2,
+      "learning_rate": 8.027870792255626e-05,
+      "loss": 0.8474,
       "step": 20
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 9.060864780933411e-05,
+      "loss": 0.9838,
       "step": 25
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 0.00010040731829419309,
+      "loss": 1.012,
       "step": 30
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 0.00010943818808937948,
+      "loss": 0.8702,
       "step": 35
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 0.00011748325994051893,
+      "loss": 0.9656,
       "step": 40
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 0.00012434833288861775,
+      "loss": 0.9745,
       "step": 45
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 0.0001298676901104138,
+      "loss": 0.8875,
       "step": 50
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 0.00013390809917674526,
+      "loss": 0.9281,
       "step": 55
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 0.00013637202816621594,
+      "loss": 0.932,
       "step": 60
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 0.0001372,
+      "loss": 1.071,
       "step": 65
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 0.000136372028166216,
+      "loss": 0.8787,
       "step": 70
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 0.00013390809917674537,
+      "loss": 0.9074,
       "step": 75
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 0.00012986769011041397,
+      "loss": 1.0496,
       "step": 80
     },
     {
+      "epoch": 0.84,
+      "learning_rate": 0.00012434833288861794,
+      "loss": 0.9943,
       "step": 85
     },
     {
+      "epoch": 0.89,
+      "learning_rate": 0.00011748325994051916,
+      "loss": 1.0026,
       "step": 90
     },
     {
+      "epoch": 0.94,
+      "learning_rate": 0.00010943818808937974,
+      "loss": 1.0201,
       "step": 95
     },
     {
+      "epoch": 0.99,
+      "learning_rate": 0.00010040731829419337,
+      "loss": 0.9215,
+      "step": 100
     },
     {
+      "epoch": 1.0,
+      "eval_loss": 0.8902494311332703,
+      "eval_runtime": 5.4222,
+      "eval_samples_per_second": 22.684,
+      "eval_steps_per_second": 2.951,
+      "step": 101
     },
     {
+      "epoch": 1.04,
+      "learning_rate": 9.060864780933398e-05,
+      "loss": 0.9922,
       "step": 105
     },
     {
+      "epoch": 1.09,
+      "learning_rate": 8.027870792255707e-05,
+      "loss": 0.8911,
       "step": 110
     },
     {
+      "epoch": 1.14,
+      "learning_rate": 6.966685429773643e-05,
+      "loss": 0.9184,
       "step": 115
     },
     {
+      "epoch": 1.19,
+      "learning_rate": 5.902924774844707e-05,
+      "loss": 0.8339,
       "step": 120
     },
     {
+      "epoch": 1.24,
+      "learning_rate": 4.862267074121052e-05,
+      "loss": 0.791,
       "step": 125
     },
     {
+      "epoch": 1.29,
+      "learning_rate": 3.869832889258939e-05,
+      "loss": 0.8984,
       "step": 130
     },
     {
+      "epoch": 1.34,
+      "learning_rate": 2.9495787086535028e-05,
+      "loss": 0.7645,
       "step": 135
     },
     {
+      "epoch": 1.39,
+      "learning_rate": 2.1237186588777798e-05,
+      "loss": 0.8448,
       "step": 140
     },
     {
+      "epoch": 1.44,
+      "learning_rate": 1.4121882752050083e-05,
+      "loss": 0.8783,
       "step": 145
     },
     {
+      "epoch": 1.49,
+      "learning_rate": 8.321632753190209e-06,
+      "loss": 0.8214,
       "step": 150
     },
     {
+      "epoch": 1.53,
+      "learning_rate": 3.976449525958718e-06,
+      "loss": 0.7646,
       "step": 155
     },
     {
+      "epoch": 1.58,
+      "learning_rate": 1.1912219719526667e-06,
+      "loss": 0.8915,
       "step": 160
     },
     {
+      "epoch": 1.63,
+      "learning_rate": 3.318303476960258e-08,
+      "loss": 0.7759,
       "step": 165
     },
     {
+      "epoch": 1.68,
+      "learning_rate": 5.302867558791814e-07,
+      "loss": 0.9129,
       "step": 170
     },
     {
+      "epoch": 1.73,
+      "learning_rate": 2.670533488647443e-06,
+      "loss": 0.8839,
       "step": 175
     },
     {
+      "epoch": 1.78,
+      "learning_rate": 6.402259559252401e-06,
+      "loss": 0.9542,
       "step": 180
     },
     {
+      "epoch": 1.83,
+      "learning_rate": 1.1635384382334973e-05,
+      "loss": 0.891,
       "step": 185
     },
     {
+      "epoch": 1.88,
+      "learning_rate": 1.824358492710126e-05,
+      "loss": 0.7246,
       "step": 190
     },
     {
+      "epoch": 1.93,
+      "learning_rate": 2.6067345044190458e-05,
+      "loss": 0.7276,
       "step": 195
     },
     {
+      "epoch": 1.98,
+      "learning_rate": 3.491780604522984e-05,
+      "loss": 0.8327,
       "step": 200
     },
     {
+      "epoch": 2.0,
+      "eval_loss": 0.8691701889038086,
+      "eval_runtime": 5.4146,
+      "eval_samples_per_second": 22.717,
+      "eval_steps_per_second": 2.955,
+      "step": 202
     }
   ],
+  "max_steps": 404,
+  "num_train_epochs": 4,
+  "total_flos": 209817501696000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96ee95e4c456b61288f96b2abd17f7901d4c06694edf41fdc6b197ab27bbeae6
 size 2863

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd3bfc9cf6ae7969e054c62bceff3f5cf23d65ecf03aee4de9a1c7b331576fd6
 size 2863