sharkMeow
/

clip-roberta-finetuned

@@ -1,4 +1,6 @@
 ---
 tags:
 - generated_from_trainer
 model-index:
@@ -12,7 +14,7 @@ should probably proofread and complete it, then remove this comment. -->
 [<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](https://wandb.ai/shark_meow_team/huggingface/runs/hbdfi8xo)
 # clip-roberta-finetuned
-This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.3715

 ---
+license: gpl-3.0
+base_model: ckiplab/bert-base-chinese
 tags:
 - generated_from_trainer
 model-index:
 [<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](https://wandb.ai/shark_meow_team/huggingface/runs/hbdfi8xo)
 # clip-roberta-finetuned
+This model is a fine-tuned version of [ckiplab/bert-base-chinese](https://huggingface.co/ckiplab/bert-base-chinese) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.3715

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 100.0,
-    "eval_loss": 1.237874984741211,
-    "eval_runtime": 2.0967,
-    "eval_samples_per_second": 341.492,
-    "eval_steps_per_second": 3.816,
-    "total_flos": 3.1668214733568e+16,
-    "train_loss": 0.36876122029622393,
-    "train_runtime": 1639.2452,
-    "train_samples_per_second": 146.043,
-    "train_steps_per_second": 1.83
 }

 {
     "epoch": 100.0,
+    "eval_loss": 0.37145158648490906,
+    "eval_runtime": 9.4488,
+    "eval_samples_per_second": 263.419,
+    "eval_steps_per_second": 2.646,
+    "total_flos": 6.5849779842816e+16,
+    "train_loss": 0.7235021141247872,
+    "train_runtime": 2314.4669,
+    "train_samples_per_second": 107.541,
+    "train_steps_per_second": 1.685
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 100.0,
-    "eval_loss": 1.237874984741211,
-    "eval_runtime": 2.0967,
-    "eval_samples_per_second": 341.492,
-    "eval_steps_per_second": 3.816
 }

 {
     "epoch": 100.0,
+    "eval_loss": 0.37145158648490906,
+    "eval_runtime": 9.4488,
+    "eval_samples_per_second": 263.419,
+    "eval_steps_per_second": 2.646
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 100.0,
-    "total_flos": 3.1668214733568e+16,
-    "train_loss": 0.36876122029622393,
-    "train_runtime": 1639.2452,
-    "train_samples_per_second": 146.043,
-    "train_steps_per_second": 1.83
 }

 {
     "epoch": 100.0,
+    "total_flos": 6.5849779842816e+16,
+    "train_loss": 0.7235021141247872,
+    "train_runtime": 2314.4669,
+    "train_samples_per_second": 107.541,
+    "train_steps_per_second": 1.685
 }

trainer_state.json CHANGED Viewed

@@ -2,174 +2,174 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 100.0,
-  "eval_steps": 300,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 10.0,
-      "grad_norm": 10.267565727233887,
-      "learning_rate": 4.5e-05,
-      "loss": 2.6587,
-      "step": 300
     },
     {
       "epoch": 10.0,
-      "eval_loss": 2.672071695327759,
-      "eval_runtime": 2.1303,
-      "eval_samples_per_second": 336.103,
-      "eval_steps_per_second": 3.755,
-      "step": 300
     },
     {
       "epoch": 20.0,
-      "grad_norm": 5.43134069442749,
-      "learning_rate": 4e-05,
-      "loss": 0.5242,
-      "step": 600
     },
     {
       "epoch": 20.0,
-      "eval_loss": 1.995083212852478,
-      "eval_runtime": 2.183,
-      "eval_samples_per_second": 327.995,
-      "eval_steps_per_second": 3.665,
-      "step": 600
     },
     {
       "epoch": 30.0,
-      "grad_norm": 2.2661261558532715,
-      "learning_rate": 3.5e-05,
-      "loss": 0.1995,
-      "step": 900
     },
     {
       "epoch": 30.0,
-      "eval_loss": 1.776659369468689,
-      "eval_runtime": 2.105,
-      "eval_samples_per_second": 340.146,
-      "eval_steps_per_second": 3.801,
-      "step": 900
     },
     {
       "epoch": 40.0,
-      "grad_norm": 1.7297999858856201,
-      "learning_rate": 3e-05,
-      "loss": 0.1025,
-      "step": 1200
     },
     {
       "epoch": 40.0,
-      "eval_loss": 1.6002683639526367,
-      "eval_runtime": 2.1049,
-      "eval_samples_per_second": 340.159,
-      "eval_steps_per_second": 3.801,
-      "step": 1200
     },
     {
       "epoch": 50.0,
-      "grad_norm": 1.119903326034546,
-      "learning_rate": 2.5e-05,
-      "loss": 0.0609,
-      "step": 1500
     },
     {
       "epoch": 50.0,
-      "eval_loss": 1.5019861459732056,
-      "eval_runtime": 2.0694,
-      "eval_samples_per_second": 345.998,
-      "eval_steps_per_second": 3.866,
-      "step": 1500
     },
     {
       "epoch": 60.0,
-      "grad_norm": 0.4384348690509796,
-      "learning_rate": 2e-05,
-      "loss": 0.042,
-      "step": 1800
     },
     {
       "epoch": 60.0,
-      "eval_loss": 1.3371723890304565,
-      "eval_runtime": 2.1069,
-      "eval_samples_per_second": 339.838,
-      "eval_steps_per_second": 3.797,
-      "step": 1800
     },
     {
       "epoch": 70.0,
-      "grad_norm": 0.4751300811767578,
-      "learning_rate": 1.5e-05,
-      "loss": 0.0315,
-      "step": 2100
     },
     {
       "epoch": 70.0,
-      "eval_loss": 1.3104065656661987,
-      "eval_runtime": 2.0197,
-      "eval_samples_per_second": 354.506,
-      "eval_steps_per_second": 3.961,
-      "step": 2100
     },
     {
       "epoch": 80.0,
-      "grad_norm": 1.0900623798370361,
-      "learning_rate": 1e-05,
-      "loss": 0.0271,
-      "step": 2400
     },
     {
       "epoch": 80.0,
-      "eval_loss": 1.2714661359786987,
-      "eval_runtime": 2.1021,
-      "eval_samples_per_second": 340.608,
-      "eval_steps_per_second": 3.806,
-      "step": 2400
     },
     {
       "epoch": 90.0,
-      "grad_norm": 0.31860601902008057,
-      "learning_rate": 5e-06,
-      "loss": 0.0212,
-      "step": 2700
     },
     {
       "epoch": 90.0,
-      "eval_loss": 1.2446495294570923,
-      "eval_runtime": 2.1073,
-      "eval_samples_per_second": 339.765,
-      "eval_steps_per_second": 3.796,
-      "step": 2700
     },
     {
       "epoch": 100.0,
-      "grad_norm": 0.22674699127674103,
       "learning_rate": 0.0,
-      "loss": 0.0202,
-      "step": 3000
     },
     {
       "epoch": 100.0,
-      "eval_loss": 1.237874984741211,
-      "eval_runtime": 2.1055,
-      "eval_samples_per_second": 340.065,
-      "eval_steps_per_second": 3.8,
-      "step": 3000
     },
     {
       "epoch": 100.0,
-      "step": 3000,
-      "total_flos": 3.1668214733568e+16,
-      "train_loss": 0.36876122029622393,
-      "train_runtime": 1639.2452,
-      "train_samples_per_second": 146.043,
-      "train_steps_per_second": 1.83
     }
   ],
-  "logging_steps": 300,
-  "max_steps": 3000,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 100,
   "save_steps": 500,
@@ -185,8 +185,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.1668214733568e+16,
-  "train_batch_size": 80,
   "trial_name": null,
   "trial_params": null
 }

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 100.0,
+  "eval_steps": 390,
+  "global_step": 3900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 10.0,
+      "grad_norm": 12.714141845703125,
+      "learning_rate": 9e-06,
+      "loss": 3.3102,
+      "step": 390
     },
     {
       "epoch": 10.0,
+      "eval_loss": 2.768110990524292,
+      "eval_runtime": 9.8747,
+      "eval_samples_per_second": 252.057,
+      "eval_steps_per_second": 2.532,
+      "step": 390
     },
     {
       "epoch": 20.0,
+      "grad_norm": 13.40042781829834,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 1.6079,
+      "step": 780
     },
     {
       "epoch": 20.0,
+      "eval_loss": 1.5404176712036133,
+      "eval_runtime": 9.8518,
+      "eval_samples_per_second": 252.644,
+      "eval_steps_per_second": 2.538,
+      "step": 780
     },
     {
       "epoch": 30.0,
+      "grad_norm": 11.014426231384277,
+      "learning_rate": 7e-06,
+      "loss": 0.7749,
+      "step": 1170
     },
     {
       "epoch": 30.0,
+      "eval_loss": 0.9965859651565552,
+      "eval_runtime": 9.5463,
+      "eval_samples_per_second": 260.73,
+      "eval_steps_per_second": 2.619,
+      "step": 1170
     },
     {
       "epoch": 40.0,
+      "grad_norm": 5.882655620574951,
+      "learning_rate": 6e-06,
+      "loss": 0.4468,
+      "step": 1560
     },
     {
       "epoch": 40.0,
+      "eval_loss": 0.7464911937713623,
+      "eval_runtime": 9.522,
+      "eval_samples_per_second": 261.395,
+      "eval_steps_per_second": 2.626,
+      "step": 1560
     },
     {
       "epoch": 50.0,
+      "grad_norm": 6.569639682769775,
+      "learning_rate": 5e-06,
+      "loss": 0.2965,
+      "step": 1950
     },
     {
       "epoch": 50.0,
+      "eval_loss": 0.5969729423522949,
+      "eval_runtime": 9.4996,
+      "eval_samples_per_second": 262.01,
+      "eval_steps_per_second": 2.632,
+      "step": 1950
     },
     {
       "epoch": 60.0,
+      "grad_norm": 4.880886554718018,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.2199,
+      "step": 2340
     },
     {
       "epoch": 60.0,
+      "eval_loss": 0.5014213919639587,
+      "eval_runtime": 9.4946,
+      "eval_samples_per_second": 262.15,
+      "eval_steps_per_second": 2.633,
+      "step": 2340
     },
     {
       "epoch": 70.0,
+      "grad_norm": 5.099749565124512,
+      "learning_rate": 3e-06,
+      "loss": 0.1751,
+      "step": 2730
     },
     {
       "epoch": 70.0,
+      "eval_loss": 0.44686585664749146,
+      "eval_runtime": 9.4777,
+      "eval_samples_per_second": 262.616,
+      "eval_steps_per_second": 2.638,
+      "step": 2730
     },
     {
       "epoch": 80.0,
+      "grad_norm": 3.513817548751831,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.1487,
+      "step": 3120
     },
     {
       "epoch": 80.0,
+      "eval_loss": 0.402406245470047,
+      "eval_runtime": 9.4812,
+      "eval_samples_per_second": 262.52,
+      "eval_steps_per_second": 2.637,
+      "step": 3120
     },
     {
       "epoch": 90.0,
+      "grad_norm": 2.282205104827881,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.1317,
+      "step": 3510
     },
     {
       "epoch": 90.0,
+      "eval_loss": 0.3745902478694916,
+      "eval_runtime": 9.5617,
+      "eval_samples_per_second": 260.309,
+      "eval_steps_per_second": 2.615,
+      "step": 3510
     },
     {
       "epoch": 100.0,
+      "grad_norm": 2.7403271198272705,
       "learning_rate": 0.0,
+      "loss": 0.1234,
+      "step": 3900
     },
     {
       "epoch": 100.0,
+      "eval_loss": 0.37145158648490906,
+      "eval_runtime": 9.4722,
+      "eval_samples_per_second": 262.769,
+      "eval_steps_per_second": 2.639,
+      "step": 3900
     },
     {
       "epoch": 100.0,
+      "step": 3900,
+      "total_flos": 6.5849779842816e+16,
+      "train_loss": 0.7235021141247872,
+      "train_runtime": 2314.4669,
+      "train_samples_per_second": 107.541,
+      "train_steps_per_second": 1.685
     }
   ],
+  "logging_steps": 390,
+  "max_steps": 3900,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 100,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 6.5849779842816e+16,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null
 }