End of training

Browse files

Files changed (6) hide show

README.md +20 -2
all_results.json +12 -12
eval_results.json +7 -7
runs/Jul18_02-12-34_fe084eaf0329/events.out.tfevents.1721270420.fe084eaf0329.45280.1 +3 -0
train_results.json +6 -6
trainer_state.json +98 -5

README.md CHANGED Viewed

@@ -1,9 +1,24 @@
 ---
 tags:
 - generated_from_trainer
 model-index:
 - name: mini-roberta-javanese
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -11,7 +26,10 @@ should probably proofread and complete it, then remove this comment. -->
 # mini-roberta-javanese
-This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 ## Model description

 ---
 tags:
 - generated_from_trainer
+datasets:
+- akahana/GlotCC-V1-jav-Latn
+metrics:
+- accuracy
 model-index:
 - name: mini-roberta-javanese
+  results:
+  - task:
+      name: Masked Language Modeling
+      type: fill-mask
+    dataset:
+      name: akahana/GlotCC-V1-jav-Latn default
+      type: akahana/GlotCC-V1-jav-Latn
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.14698866640019598
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # mini-roberta-javanese
+This model is a fine-tuned version of [](https://huggingface.co/) on the akahana/GlotCC-V1-jav-Latn default dataset.
+It achieves the following results on the evaluation set:
+- Loss: 6.3746
+- Accuracy: 0.1470
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 10.0,
-    "eval_accuracy": 0.13617949114930072,
-    "eval_loss": 6.647983074188232,
-    "eval_runtime": 53.5181,
     "eval_samples": 8106,
-    "eval_samples_per_second": 151.463,
-    "eval_steps_per_second": 37.875,
-    "perplexity": 771.2272476651699,
-    "total_flos": 5910924298141440.0,
-    "train_loss": 7.017849675472083,
-    "train_runtime": 3142.2268,
     "train_samples": 160441,
-    "train_samples_per_second": 510.596,
-    "train_steps_per_second": 3.991
 }

 {
+    "epoch": 15.0,
+    "eval_accuracy": 0.14698866640019598,
+    "eval_loss": 6.374551773071289,
+    "eval_runtime": 52.0555,
     "eval_samples": 8106,
+    "eval_samples_per_second": 155.718,
+    "eval_steps_per_second": 38.939,
+    "perplexity": 586.7223872208433,
+    "total_flos": 8866386447212160.0,
+    "train_loss": 2.1665261722384206,
+    "train_runtime": 1599.9695,
     "train_samples": 160441,
+    "train_samples_per_second": 1504.163,
+    "train_steps_per_second": 11.756
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 10.0,
-    "eval_accuracy": 0.13617949114930072,
-    "eval_loss": 6.647983074188232,
-    "eval_runtime": 53.5181,
     "eval_samples": 8106,
-    "eval_samples_per_second": 151.463,
-    "eval_steps_per_second": 37.875,
-    "perplexity": 771.2272476651699
 }

 {
+    "epoch": 15.0,
+    "eval_accuracy": 0.14698866640019598,
+    "eval_loss": 6.374551773071289,
+    "eval_runtime": 52.0555,
     "eval_samples": 8106,
+    "eval_samples_per_second": 155.718,
+    "eval_steps_per_second": 38.939,
+    "perplexity": 586.7223872208433
 }

runs/Jul18_02-12-34_fe084eaf0329/events.out.tfevents.1721270420.fe084eaf0329.45280.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f5a04b186a27db5b552af5c112090f332c6676d2d70a28a61baa7c5b8285399c
+size 417

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 10.0,
-    "total_flos": 5910924298141440.0,
-    "train_loss": 7.017849675472083,
-    "train_runtime": 3142.2268,
     "train_samples": 160441,
-    "train_samples_per_second": 510.596,
-    "train_steps_per_second": 3.991
 }

 {
+    "epoch": 15.0,
+    "total_flos": 8866386447212160.0,
+    "train_loss": 2.1665261722384206,
+    "train_runtime": 1599.9695,
     "train_samples": 160441,
+    "train_samples_per_second": 1504.163,
+    "train_steps_per_second": 11.756
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.0,
   "eval_steps": 500,
-  "global_step": 12540,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -191,12 +191,105 @@
       "train_runtime": 3142.2268,
       "train_samples_per_second": 510.596,
       "train_steps_per_second": 3.991
     }
   ],
   "logging_steps": 500,
-  "max_steps": 12540,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -210,7 +303,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5910924298141440.0,
   "train_batch_size": 128,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 15.0,
   "eval_steps": 500,
+  "global_step": 18810,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "train_runtime": 3142.2268,
       "train_samples_per_second": 510.596,
       "train_steps_per_second": 3.991
+    },
+    {
+      "epoch": 10.36682615629984,
+      "grad_norm": 2.343043327331543,
+      "learning_rate": 4.87772461456672e-05,
+      "loss": 6.6945,
+      "step": 13000
+    },
+    {
+      "epoch": 10.76555023923445,
+      "grad_norm": 2.0774621963500977,
+      "learning_rate": 4.7448165869218504e-05,
+      "loss": 6.6465,
+      "step": 13500
+    },
+    {
+      "epoch": 11.164274322169058,
+      "grad_norm": 2.5551674365997314,
+      "learning_rate": 4.611908559276981e-05,
+      "loss": 6.6086,
+      "step": 14000
+    },
+    {
+      "epoch": 11.562998405103668,
+      "grad_norm": 2.335573196411133,
+      "learning_rate": 4.479000531632111e-05,
+      "loss": 6.5677,
+      "step": 14500
+    },
+    {
+      "epoch": 11.961722488038278,
+      "grad_norm": 2.7488040924072266,
+      "learning_rate": 4.346092503987241e-05,
+      "loss": 6.5439,
+      "step": 15000
+    },
+    {
+      "epoch": 12.360446570972886,
+      "grad_norm": 2.1827917098999023,
+      "learning_rate": 4.213184476342371e-05,
+      "loss": 6.4975,
+      "step": 15500
+    },
+    {
+      "epoch": 12.759170653907496,
+      "grad_norm": 2.1983468532562256,
+      "learning_rate": 4.080276448697501e-05,
+      "loss": 6.4953,
+      "step": 16000
+    },
+    {
+      "epoch": 13.157894736842104,
+      "grad_norm": 2.4948813915252686,
+      "learning_rate": 3.9473684210526316e-05,
+      "loss": 6.4546,
+      "step": 16500
+    },
+    {
+      "epoch": 13.556618819776714,
+      "grad_norm": 2.0236194133758545,
+      "learning_rate": 3.814460393407762e-05,
+      "loss": 6.432,
+      "step": 17000
+    },
+    {
+      "epoch": 13.955342902711324,
+      "grad_norm": 2.3203213214874268,
+      "learning_rate": 3.681552365762892e-05,
+      "loss": 6.4038,
+      "step": 17500
+    },
+    {
+      "epoch": 14.354066985645932,
+      "grad_norm": 2.347102165222168,
+      "learning_rate": 3.5486443381180226e-05,
+      "loss": 6.3872,
+      "step": 18000
+    },
+    {
+      "epoch": 14.752791068580542,
+      "grad_norm": 2.5316317081451416,
+      "learning_rate": 3.415736310473153e-05,
+      "loss": 6.3687,
+      "step": 18500
+    },
+    {
+      "epoch": 15.0,
+      "step": 18810,
+      "total_flos": 8866386447212160.0,
+      "train_loss": 2.1665261722384206,
+      "train_runtime": 1599.9695,
+      "train_samples_per_second": 1504.163,
+      "train_steps_per_second": 11.756
     }
   ],
   "logging_steps": 500,
+  "max_steps": 18810,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 15,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 8866386447212160.0,
   "train_batch_size": 128,
   "trial_name": null,
   "trial_params": null