End of training

Browse files

Files changed (6) hide show

README.md +20 -2
all_results.json +12 -12
eval_results.json +7 -7
runs/Jul17_23-18-43_fe084eaf0329/events.out.tfevents.1721264859.fe084eaf0329.1588.1 +3 -0
train_results.json +6 -6
trainer_state.json +365 -6

README.md CHANGED Viewed

@@ -1,9 +1,24 @@
 ---
 tags:
 - generated_from_trainer
 model-index:
 - name: roberta-javanese
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -11,7 +26,10 @@ should probably proofread and complete it, then remove this comment. -->
 # roberta-javanese
-This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 ## Model description

 ---
 tags:
 - generated_from_trainer
+datasets:
+- akahana/GlotCC-V1-jav-Latn
+metrics:
+- accuracy
 model-index:
 - name: roberta-javanese
+  results:
+  - task:
+      name: Masked Language Modeling
+      type: fill-mask
+    dataset:
+      name: akahana/GlotCC-V1-jav-Latn default
+      type: akahana/GlotCC-V1-jav-Latn
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.5302221081011683
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # roberta-javanese
+This model is a fine-tuned version of [](https://huggingface.co/) on the akahana/GlotCC-V1-jav-Latn default dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.9194
+- Accuracy: 0.5302
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 30.0,
-    "eval_accuracy": 0.5187187058672487,
-    "eval_loss": 2.996563196182251,
-    "eval_runtime": 30.3359,
     "eval_samples": 4053,
-    "eval_samples_per_second": 133.604,
-    "eval_steps_per_second": 33.426,
-    "perplexity": 20.01662535880206,
-    "total_flos": 1.5839169150106368e+17,
-    "train_loss": 0.47119966579742084,
-    "train_runtime": 6930.0607,
     "train_samples": 80219,
-    "train_samples_per_second": 347.265,
-    "train_steps_per_second": 21.705
 }

 {
+    "epoch": 35.0,
+    "eval_accuracy": 0.5302221081011683,
+    "eval_loss": 2.9193999767303467,
+    "eval_runtime": 31.3487,
     "eval_samples": 4053,
+    "eval_samples_per_second": 129.287,
+    "eval_steps_per_second": 32.346,
+    "perplexity": 18.530165592844845,
+    "total_flos": 1.8479030675124096e+17,
+    "train_loss": 0.37831091759340585,
+    "train_runtime": 6392.496,
     "train_samples": 80219,
+    "train_samples_per_second": 439.213,
+    "train_steps_per_second": 27.453
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 30.0,
-    "eval_accuracy": 0.5187187058672487,
-    "eval_loss": 2.996563196182251,
-    "eval_runtime": 30.3359,
     "eval_samples": 4053,
-    "eval_samples_per_second": 133.604,
-    "eval_steps_per_second": 33.426,
-    "perplexity": 20.01662535880206
 }

 {
+    "epoch": 35.0,
+    "eval_accuracy": 0.5302221081011683,
+    "eval_loss": 2.9193999767303467,
+    "eval_runtime": 31.3487,
     "eval_samples": 4053,
+    "eval_samples_per_second": 129.287,
+    "eval_steps_per_second": 32.346,
+    "perplexity": 18.530165592844845
 }

runs/Jul17_23-18-43_fe084eaf0329/events.out.tfevents.1721264859.fe084eaf0329.1588.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:359c054406426308763fd4c7fcc18b3e809ebf6ab4e0ade30f1f237069aa4e55
+size 417

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 30.0,
-    "total_flos": 1.5839169150106368e+17,
-    "train_loss": 0.47119966579742084,
-    "train_runtime": 6930.0607,
     "train_samples": 80219,
-    "train_samples_per_second": 347.265,
-    "train_steps_per_second": 21.705
 }

 {
+    "epoch": 35.0,
+    "total_flos": 1.8479030675124096e+17,
+    "train_loss": 0.37831091759340585,
+    "train_runtime": 6392.496,
     "train_samples": 80219,
+    "train_samples_per_second": 439.213,
+    "train_steps_per_second": 27.453
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 30.0,
   "eval_steps": 500,
-  "global_step": 150420,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2161,12 +2161,371 @@
       "train_runtime": 6930.0607,
       "train_samples_per_second": 347.265,
       "train_steps_per_second": 21.705
     }
   ],
   "logging_steps": 500,
-  "max_steps": 150420,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 30,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -2175,12 +2534,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.5839169150106368e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 35.0,
   "eval_steps": 500,
+  "global_step": 175490,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "train_runtime": 6930.0607,
       "train_samples_per_second": 347.265,
       "train_steps_per_second": 21.705
+    },
+    {
+      "epoch": 30.01595532508975,
+      "grad_norm": 6.077478885650635,
+      "learning_rate": 4.997720667844322e-05,
+      "loss": 2.7286,
+      "step": 150500
+    },
+    {
+      "epoch": 30.11567610690068,
+      "grad_norm": 6.566033363342285,
+      "learning_rate": 4.983474841871332e-05,
+      "loss": 2.7319,
+      "step": 151000
+    },
+    {
+      "epoch": 30.215396888711606,
+      "grad_norm": 7.486234188079834,
+      "learning_rate": 4.969229015898342e-05,
+      "loss": 2.7899,
+      "step": 151500
+    },
+    {
+      "epoch": 30.315117670522536,
+      "grad_norm": 7.640929222106934,
+      "learning_rate": 4.954983189925352e-05,
+      "loss": 2.7598,
+      "step": 152000
+    },
+    {
+      "epoch": 30.414838452333466,
+      "grad_norm": 7.036547660827637,
+      "learning_rate": 4.940737363952362e-05,
+      "loss": 2.754,
+      "step": 152500
+    },
+    {
+      "epoch": 30.514559234144397,
+      "grad_norm": 7.128058910369873,
+      "learning_rate": 4.926491537979372e-05,
+      "loss": 2.7888,
+      "step": 153000
+    },
+    {
+      "epoch": 30.614280015955327,
+      "grad_norm": 7.1788249015808105,
+      "learning_rate": 4.912245712006382e-05,
+      "loss": 2.7662,
+      "step": 153500
+    },
+    {
+      "epoch": 30.714000797766253,
+      "grad_norm": 7.081215858459473,
+      "learning_rate": 4.897999886033392e-05,
+      "loss": 2.7722,
+      "step": 154000
+    },
+    {
+      "epoch": 30.813721579577184,
+      "grad_norm": 6.131695747375488,
+      "learning_rate": 4.883754060060402e-05,
+      "loss": 2.7464,
+      "step": 154500
+    },
+    {
+      "epoch": 30.913442361388114,
+      "grad_norm": 6.66817569732666,
+      "learning_rate": 4.869508234087412e-05,
+      "loss": 2.7352,
+      "step": 155000
+    },
+    {
+      "epoch": 31.013163143199044,
+      "grad_norm": 7.4430952072143555,
+      "learning_rate": 4.8552908997663685e-05,
+      "loss": 2.7503,
+      "step": 155500
+    },
+    {
+      "epoch": 31.11288392500997,
+      "grad_norm": 7.984841346740723,
+      "learning_rate": 4.8410450737933786e-05,
+      "loss": 2.6821,
+      "step": 156000
+    },
+    {
+      "epoch": 31.2126047068209,
+      "grad_norm": 7.386984348297119,
+      "learning_rate": 4.8267992478203886e-05,
+      "loss": 2.6916,
+      "step": 156500
+    },
+    {
+      "epoch": 31.31232548863183,
+      "grad_norm": 6.3857951164245605,
+      "learning_rate": 4.8125534218473987e-05,
+      "loss": 2.6826,
+      "step": 157000
+    },
+    {
+      "epoch": 31.41204627044276,
+      "grad_norm": 7.394888401031494,
+      "learning_rate": 4.798307595874409e-05,
+      "loss": 2.7099,
+      "step": 157500
+    },
+    {
+      "epoch": 31.51176705225369,
+      "grad_norm": 7.39955997467041,
+      "learning_rate": 4.784061769901419e-05,
+      "loss": 2.7056,
+      "step": 158000
+    },
+    {
+      "epoch": 31.61148783406462,
+      "grad_norm": 6.624033451080322,
+      "learning_rate": 4.769844435580375e-05,
+      "loss": 2.6903,
+      "step": 158500
+    },
+    {
+      "epoch": 31.71120861587555,
+      "grad_norm": 6.656693458557129,
+      "learning_rate": 4.755627101259331e-05,
+      "loss": 2.6877,
+      "step": 159000
+    },
+    {
+      "epoch": 31.81092939768648,
+      "grad_norm": 7.474542140960693,
+      "learning_rate": 4.741381275286341e-05,
+      "loss": 2.6965,
+      "step": 159500
+    },
+    {
+      "epoch": 31.910650179497406,
+      "grad_norm": 7.388774394989014,
+      "learning_rate": 4.727135449313351e-05,
+      "loss": 2.7145,
+      "step": 160000
+    },
+    {
+      "epoch": 32.01037096130834,
+      "grad_norm": 7.423541069030762,
+      "learning_rate": 4.712889623340361e-05,
+      "loss": 2.6943,
+      "step": 160500
+    },
+    {
+      "epoch": 32.11009174311926,
+      "grad_norm": 6.063508033752441,
+      "learning_rate": 4.698643797367371e-05,
+      "loss": 2.6214,
+      "step": 161000
+    },
+    {
+      "epoch": 32.20981252493019,
+      "grad_norm": 7.619082450866699,
+      "learning_rate": 4.6843979713943814e-05,
+      "loss": 2.6318,
+      "step": 161500
+    },
+    {
+      "epoch": 32.30953330674112,
+      "grad_norm": 6.978066921234131,
+      "learning_rate": 4.670152145421392e-05,
+      "loss": 2.6327,
+      "step": 162000
+    },
+    {
+      "epoch": 32.40925408855205,
+      "grad_norm": 6.166346073150635,
+      "learning_rate": 4.655906319448402e-05,
+      "loss": 2.6419,
+      "step": 162500
+    },
+    {
+      "epoch": 32.508974870362984,
+      "grad_norm": 7.364738464355469,
+      "learning_rate": 4.641660493475412e-05,
+      "loss": 2.6356,
+      "step": 163000
+    },
+    {
+      "epoch": 32.608695652173914,
+      "grad_norm": 7.476531982421875,
+      "learning_rate": 4.627414667502422e-05,
+      "loss": 2.6344,
+      "step": 163500
+    },
+    {
+      "epoch": 32.708416433984844,
+      "grad_norm": 7.627068042755127,
+      "learning_rate": 4.613168841529432e-05,
+      "loss": 2.6434,
+      "step": 164000
+    },
+    {
+      "epoch": 32.808137215795774,
+      "grad_norm": 7.334908962249756,
+      "learning_rate": 4.598923015556442e-05,
+      "loss": 2.663,
+      "step": 164500
+    },
+    {
+      "epoch": 32.907857997606705,
+      "grad_norm": 6.580120086669922,
+      "learning_rate": 4.5847341728873446e-05,
+      "loss": 2.6406,
+      "step": 165000
+    },
+    {
+      "epoch": 33.00757877941763,
+      "grad_norm": 6.953055381774902,
+      "learning_rate": 4.570488346914355e-05,
+      "loss": 2.6517,
+      "step": 165500
+    },
+    {
+      "epoch": 33.10729956122856,
+      "grad_norm": 6.980926036834717,
+      "learning_rate": 4.556242520941365e-05,
+      "loss": 2.589,
+      "step": 166000
+    },
+    {
+      "epoch": 33.20702034303949,
+      "grad_norm": 7.215412616729736,
+      "learning_rate": 4.541996694968375e-05,
+      "loss": 2.5831,
+      "step": 166500
+    },
+    {
+      "epoch": 33.30674112485042,
+      "grad_norm": 7.203444004058838,
+      "learning_rate": 4.527750868995385e-05,
+      "loss": 2.5739,
+      "step": 167000
+    },
+    {
+      "epoch": 33.40646190666135,
+      "grad_norm": 5.696502685546875,
+      "learning_rate": 4.513505043022395e-05,
+      "loss": 2.604,
+      "step": 167500
+    },
+    {
+      "epoch": 33.50618268847228,
+      "grad_norm": 6.160342216491699,
+      "learning_rate": 4.499259217049405e-05,
+      "loss": 2.5848,
+      "step": 168000
+    },
+    {
+      "epoch": 33.60590347028321,
+      "grad_norm": 6.758869171142578,
+      "learning_rate": 4.485013391076415e-05,
+      "loss": 2.6157,
+      "step": 168500
+    },
+    {
+      "epoch": 33.70562425209414,
+      "grad_norm": 7.064002513885498,
+      "learning_rate": 4.4708245484073166e-05,
+      "loss": 2.5765,
+      "step": 169000
+    },
+    {
+      "epoch": 33.80534503390506,
+      "grad_norm": 7.993391513824463,
+      "learning_rate": 4.4565787224343267e-05,
+      "loss": 2.6115,
+      "step": 169500
+    },
+    {
+      "epoch": 33.90506581571599,
+      "grad_norm": 7.196022033691406,
+      "learning_rate": 4.442332896461337e-05,
+      "loss": 2.591,
+      "step": 170000
+    },
+    {
+      "epoch": 34.00478659752692,
+      "grad_norm": 8.118667602539062,
+      "learning_rate": 4.428115562140293e-05,
+      "loss": 2.5833,
+      "step": 170500
+    },
+    {
+      "epoch": 34.10450737933785,
+      "grad_norm": 7.465199947357178,
+      "learning_rate": 4.413869736167303e-05,
+      "loss": 2.5509,
+      "step": 171000
+    },
+    {
+      "epoch": 34.204228161148784,
+      "grad_norm": 6.739304542541504,
+      "learning_rate": 4.399623910194313e-05,
+      "loss": 2.5357,
+      "step": 171500
+    },
+    {
+      "epoch": 34.303948942959714,
+      "grad_norm": 6.758444786071777,
+      "learning_rate": 4.385378084221323e-05,
+      "loss": 2.567,
+      "step": 172000
+    },
+    {
+      "epoch": 34.403669724770644,
+      "grad_norm": 6.511049270629883,
+      "learning_rate": 4.371132258248333e-05,
+      "loss": 2.5759,
+      "step": 172500
+    },
+    {
+      "epoch": 34.503390506581574,
+      "grad_norm": 7.730967044830322,
+      "learning_rate": 4.356886432275343e-05,
+      "loss": 2.5494,
+      "step": 173000
+    },
+    {
+      "epoch": 34.6031112883925,
+      "grad_norm": 6.543623924255371,
+      "learning_rate": 4.342640606302353e-05,
+      "loss": 2.5482,
+      "step": 173500
+    },
+    {
+      "epoch": 34.70283207020343,
+      "grad_norm": 7.216828346252441,
+      "learning_rate": 4.328394780329364e-05,
+      "loss": 2.5593,
+      "step": 174000
+    },
+    {
+      "epoch": 34.80255285201436,
+      "grad_norm": 6.891706943511963,
+      "learning_rate": 4.3141774460083194e-05,
+      "loss": 2.5409,
+      "step": 174500
+    },
+    {
+      "epoch": 34.90227363382529,
+      "grad_norm": 7.4927778244018555,
+      "learning_rate": 4.29993162003533e-05,
+      "loss": 2.5673,
+      "step": 175000
+    },
+    {
+      "epoch": 35.0,
+      "step": 175490,
+      "total_flos": 1.8479030675124096e+17,
+      "train_loss": 0.37831091759340585,
+      "train_runtime": 6392.496,
+      "train_samples_per_second": 439.213,
+      "train_steps_per_second": 27.453
     }
   ],
   "logging_steps": 500,
+  "max_steps": 175490,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 35,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.8479030675124096e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null