sharkMeow
/

clip-roberta-finetuned

@@ -1,4 +1,6 @@
 ---
 tags:
 - generated_from_trainer
 model-index:
@@ -11,7 +13,7 @@ should probably proofread and complete it, then remove this comment. -->
 # clip-roberta-finetuned
-This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.2379

 ---
+license: gpl-3.0
+base_model: ckiplab/bert-base-chinese
 tags:
 - generated_from_trainer
 model-index:
 # clip-roberta-finetuned
+This model is a fine-tuned version of [ckiplab/bert-base-chinese](https://huggingface.co/ckiplab/bert-base-chinese) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.2379

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 150.0,
-    "eval_loss": 7.790220260620117,
-    "eval_runtime": 2.0586,
-    "eval_samples_per_second": 347.804,
-    "eval_steps_per_second": 2.429,
-    "total_flos": 2.4882168719232e+16,
-    "train_loss": 0.27142260054747264,
-    "train_runtime": 1293.2486,
-    "train_samples_per_second": 145.448,
-    "train_steps_per_second": 1.856
 }

 {
+    "epoch": 100.0,
+    "eval_loss": 1.237874984741211,
+    "eval_runtime": 2.0967,
+    "eval_samples_per_second": 341.492,
+    "eval_steps_per_second": 3.816,
+    "total_flos": 3.1668214733568e+16,
+    "train_loss": 0.36876122029622393,
+    "train_runtime": 1639.2452,
+    "train_samples_per_second": 146.043,
+    "train_steps_per_second": 1.83
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 150.0,
-    "eval_loss": 7.790220260620117,
-    "eval_runtime": 2.0586,
-    "eval_samples_per_second": 347.804,
-    "eval_steps_per_second": 2.429
 }

 {
+    "epoch": 100.0,
+    "eval_loss": 1.237874984741211,
+    "eval_runtime": 2.0967,
+    "eval_samples_per_second": 341.492,
+    "eval_steps_per_second": 3.816
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 150.0,
-    "total_flos": 2.4882168719232e+16,
-    "train_loss": 0.27142260054747264,
-    "train_runtime": 1293.2486,
-    "train_samples_per_second": 145.448,
-    "train_steps_per_second": 1.856
 }

 {
+    "epoch": 100.0,
+    "total_flos": 3.1668214733568e+16,
+    "train_loss": 0.36876122029622393,
+    "train_runtime": 1639.2452,
+    "train_samples_per_second": 146.043,
+    "train_steps_per_second": 1.83
 }

trainer_state.json CHANGED Viewed

@@ -1,177 +1,177 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 150.0,
-  "eval_steps": 240,
-  "global_step": 2400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 15.0,
-      "grad_norm": 8.367707252502441,
       "learning_rate": 4.5e-05,
-      "loss": 2.2125,
-      "step": 240
     },
     {
-      "epoch": 15.0,
-      "eval_loss": 7.397521495819092,
-      "eval_runtime": 2.1385,
-      "eval_samples_per_second": 334.807,
-      "eval_steps_per_second": 2.338,
-      "step": 240
     },
     {
-      "epoch": 30.0,
-      "grad_norm": 1.8289117813110352,
       "learning_rate": 4e-05,
-      "loss": 0.2662,
-      "step": 480
     },
     {
-      "epoch": 30.0,
-      "eval_loss": 7.690220355987549,
-      "eval_runtime": 2.1441,
-      "eval_samples_per_second": 333.943,
-      "eval_steps_per_second": 2.332,
-      "step": 480
     },
     {
-      "epoch": 45.0,
-      "grad_norm": 2.331444501876831,
       "learning_rate": 3.5e-05,
-      "loss": 0.0878,
-      "step": 720
     },
     {
-      "epoch": 45.0,
-      "eval_loss": 7.727816581726074,
-      "eval_runtime": 2.0769,
-      "eval_samples_per_second": 344.747,
-      "eval_steps_per_second": 2.407,
-      "step": 720
     },
     {
-      "epoch": 60.0,
-      "grad_norm": 0.5191037058830261,
       "learning_rate": 3e-05,
-      "loss": 0.0478,
-      "step": 960
     },
     {
-      "epoch": 60.0,
-      "eval_loss": 7.767454147338867,
-      "eval_runtime": 2.1215,
-      "eval_samples_per_second": 337.5,
-      "eval_steps_per_second": 2.357,
-      "step": 960
     },
     {
-      "epoch": 75.0,
-      "grad_norm": 0.29538920521736145,
       "learning_rate": 2.5e-05,
-      "loss": 0.0271,
-      "step": 1200
     },
     {
-      "epoch": 75.0,
-      "eval_loss": 7.800107479095459,
-      "eval_runtime": 2.0372,
-      "eval_samples_per_second": 351.464,
-      "eval_steps_per_second": 2.454,
-      "step": 1200
     },
     {
-      "epoch": 90.0,
-      "grad_norm": 0.24271079897880554,
       "learning_rate": 2e-05,
-      "loss": 0.0204,
-      "step": 1440
     },
     {
-      "epoch": 90.0,
-      "eval_loss": 7.77035665512085,
-      "eval_runtime": 2.04,
-      "eval_samples_per_second": 350.977,
-      "eval_steps_per_second": 2.451,
-      "step": 1440
     },
     {
-      "epoch": 105.0,
-      "grad_norm": 0.1700560748577118,
       "learning_rate": 1.5e-05,
-      "loss": 0.0153,
-      "step": 1680
     },
     {
-      "epoch": 105.0,
-      "eval_loss": 7.756166934967041,
-      "eval_runtime": 2.0413,
-      "eval_samples_per_second": 350.761,
-      "eval_steps_per_second": 2.449,
-      "step": 1680
     },
     {
-      "epoch": 120.0,
-      "grad_norm": 0.10675892233848572,
       "learning_rate": 1e-05,
-      "loss": 0.0144,
-      "step": 1920
     },
     {
-      "epoch": 120.0,
-      "eval_loss": 7.7686991691589355,
-      "eval_runtime": 2.038,
-      "eval_samples_per_second": 351.324,
-      "eval_steps_per_second": 2.453,
-      "step": 1920
     },
     {
-      "epoch": 135.0,
-      "grad_norm": 0.15030677616596222,
       "learning_rate": 5e-06,
-      "loss": 0.0118,
-      "step": 2160
     },
     {
-      "epoch": 135.0,
-      "eval_loss": 7.785387992858887,
-      "eval_runtime": 2.0545,
-      "eval_samples_per_second": 348.496,
-      "eval_steps_per_second": 2.434,
-      "step": 2160
     },
     {
-      "epoch": 150.0,
-      "grad_norm": 0.15037034451961517,
       "learning_rate": 0.0,
-      "loss": 0.0109,
-      "step": 2400
     },
     {
-      "epoch": 150.0,
-      "eval_loss": 7.790220260620117,
-      "eval_runtime": 2.0423,
-      "eval_samples_per_second": 350.583,
-      "eval_steps_per_second": 2.448,
-      "step": 2400
     },
     {
-      "epoch": 150.0,
-      "step": 2400,
-      "total_flos": 2.4882168719232e+16,
-      "train_loss": 0.27142260054747264,
-      "train_runtime": 1293.2486,
-      "train_samples_per_second": 145.448,
-      "train_steps_per_second": 1.856
     }
   ],
-  "logging_steps": 240,
-  "max_steps": 2400,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 150,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -185,7 +185,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.4882168719232e+16,
   "train_batch_size": 80,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 100.0,
+  "eval_steps": 300,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 10.0,
+      "grad_norm": 10.267565727233887,
       "learning_rate": 4.5e-05,
+      "loss": 2.6587,
+      "step": 300
     },
     {
+      "epoch": 10.0,
+      "eval_loss": 2.672071695327759,
+      "eval_runtime": 2.1303,
+      "eval_samples_per_second": 336.103,
+      "eval_steps_per_second": 3.755,
+      "step": 300
     },
     {
+      "epoch": 20.0,
+      "grad_norm": 5.43134069442749,
       "learning_rate": 4e-05,
+      "loss": 0.5242,
+      "step": 600
     },
     {
+      "epoch": 20.0,
+      "eval_loss": 1.995083212852478,
+      "eval_runtime": 2.183,
+      "eval_samples_per_second": 327.995,
+      "eval_steps_per_second": 3.665,
+      "step": 600
     },
     {
+      "epoch": 30.0,
+      "grad_norm": 2.2661261558532715,
       "learning_rate": 3.5e-05,
+      "loss": 0.1995,
+      "step": 900
     },
     {
+      "epoch": 30.0,
+      "eval_loss": 1.776659369468689,
+      "eval_runtime": 2.105,
+      "eval_samples_per_second": 340.146,
+      "eval_steps_per_second": 3.801,
+      "step": 900
     },
     {
+      "epoch": 40.0,
+      "grad_norm": 1.7297999858856201,
       "learning_rate": 3e-05,
+      "loss": 0.1025,
+      "step": 1200
     },
     {
+      "epoch": 40.0,
+      "eval_loss": 1.6002683639526367,
+      "eval_runtime": 2.1049,
+      "eval_samples_per_second": 340.159,
+      "eval_steps_per_second": 3.801,
+      "step": 1200
     },
     {
+      "epoch": 50.0,
+      "grad_norm": 1.119903326034546,
       "learning_rate": 2.5e-05,
+      "loss": 0.0609,
+      "step": 1500
     },
     {
+      "epoch": 50.0,
+      "eval_loss": 1.5019861459732056,
+      "eval_runtime": 2.0694,
+      "eval_samples_per_second": 345.998,
+      "eval_steps_per_second": 3.866,
+      "step": 1500
     },
     {
+      "epoch": 60.0,
+      "grad_norm": 0.4384348690509796,
       "learning_rate": 2e-05,
+      "loss": 0.042,
+      "step": 1800
     },
     {
+      "epoch": 60.0,
+      "eval_loss": 1.3371723890304565,
+      "eval_runtime": 2.1069,
+      "eval_samples_per_second": 339.838,
+      "eval_steps_per_second": 3.797,
+      "step": 1800
     },
     {
+      "epoch": 70.0,
+      "grad_norm": 0.4751300811767578,
       "learning_rate": 1.5e-05,
+      "loss": 0.0315,
+      "step": 2100
     },
     {
+      "epoch": 70.0,
+      "eval_loss": 1.3104065656661987,
+      "eval_runtime": 2.0197,
+      "eval_samples_per_second": 354.506,
+      "eval_steps_per_second": 3.961,
+      "step": 2100
     },
     {
+      "epoch": 80.0,
+      "grad_norm": 1.0900623798370361,
       "learning_rate": 1e-05,
+      "loss": 0.0271,
+      "step": 2400
     },
     {
+      "epoch": 80.0,
+      "eval_loss": 1.2714661359786987,
+      "eval_runtime": 2.1021,
+      "eval_samples_per_second": 340.608,
+      "eval_steps_per_second": 3.806,
+      "step": 2400
     },
     {
+      "epoch": 90.0,
+      "grad_norm": 0.31860601902008057,
       "learning_rate": 5e-06,
+      "loss": 0.0212,
+      "step": 2700
     },
     {
+      "epoch": 90.0,
+      "eval_loss": 1.2446495294570923,
+      "eval_runtime": 2.1073,
+      "eval_samples_per_second": 339.765,
+      "eval_steps_per_second": 3.796,
+      "step": 2700
     },
     {
+      "epoch": 100.0,
+      "grad_norm": 0.22674699127674103,
       "learning_rate": 0.0,
+      "loss": 0.0202,
+      "step": 3000
     },
     {
+      "epoch": 100.0,
+      "eval_loss": 1.237874984741211,
+      "eval_runtime": 2.1055,
+      "eval_samples_per_second": 340.065,
+      "eval_steps_per_second": 3.8,
+      "step": 3000
     },
     {
+      "epoch": 100.0,
+      "step": 3000,
+      "total_flos": 3.1668214733568e+16,
+      "train_loss": 0.36876122029622393,
+      "train_runtime": 1639.2452,
+      "train_samples_per_second": 146.043,
+      "train_steps_per_second": 1.83
     }
   ],
+  "logging_steps": 300,
+  "max_steps": 3000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 3.1668214733568e+16,
   "train_batch_size": 80,
   "trial_name": null,
   "trial_params": null