Model save

Files changed (6) hide show

README.md CHANGED Viewed

@@ -53,11 +53,11 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 1e-05
-- train_batch_size: 1
-- eval_batch_size: 1
 - seed: 42
 - gradient_accumulation_steps: 32
-- total_train_batch_size: 32
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 1000

 The following hyperparameters were used during training:
 - learning_rate: 1e-05
+- train_batch_size: 8
+- eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 32
+- total_train_batch_size: 256
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 1000

all_results.json CHANGED Viewed

@@ -7,9 +7,9 @@
     "eval_steps_per_second": 0.516,
     "eval_wer": 0.10174567584881486,
     "total_flos": 1.5025096510930944e+20,
-    "train_loss": 0.029662437230219198,
-    "train_runtime": 33102.9931,
     "train_samples": 22116,
-    "train_samples_per_second": 1.336,
-    "train_steps_per_second": 0.042
 }

     "eval_steps_per_second": 0.516,
     "eval_wer": 0.10174567584881486,
     "total_flos": 1.5025096510930944e+20,
+    "train_loss": 0.0,
+    "train_runtime": 0.2812,
     "train_samples": 22116,
+    "train_samples_per_second": 157281.733,
+    "train_steps_per_second": 4914.165
 }

runs/Aug20_11-15-37_DITEC2014063010/events.out.tfevents.1724163511.DITEC2014063010.19184.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:c12437b077e2382e32242751fe8592b161637632ce0c6b4ae80a1a29bdefcf7d
+size 6099

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 1.999819135467535,
     "total_flos": 1.5025096510930944e+20,
-    "train_loss": 0.029662437230219198,
-    "train_runtime": 33102.9931,
     "train_samples": 22116,
-    "train_samples_per_second": 1.336,
-    "train_steps_per_second": 0.042
 }

 {
     "epoch": 1.999819135467535,
     "total_flos": 1.5025096510930944e+20,
+    "train_loss": 0.0,
+    "train_runtime": 0.2812,
     "train_samples": 22116,
+    "train_samples_per_second": 157281.733,
+    "train_steps_per_second": 4914.165
 }

trainer_state.json CHANGED Viewed

@@ -402,23 +402,14 @@
       "loss": 0.0844,
       "step": 1375
     },
-    {
-      "epoch": 1.999819135467535,
-      "eval_loss": 0.14780554175376892,
-      "eval_runtime": 18259.5061,
-      "eval_samples_per_second": 0.52,
-      "eval_steps_per_second": 0.52,
-      "eval_wer": 0.10174567584881486,
-      "step": 1382
-    },
     {
       "epoch": 1.999819135467535,
       "step": 1382,
       "total_flos": 1.5025096510930944e+20,
-      "train_loss": 0.029662437230219198,
-      "train_runtime": 33102.9931,
-      "train_samples_per_second": 1.336,
-      "train_steps_per_second": 0.042
     }
   ],
   "logging_steps": 25,

       "loss": 0.0844,
       "step": 1375
     },
     {
       "epoch": 1.999819135467535,
       "step": 1382,
       "total_flos": 1.5025096510930944e+20,
+      "train_loss": 0.0,
+      "train_runtime": 0.2812,
+      "train_samples_per_second": 157281.733,
+      "train_steps_per_second": 4914.165
     }
   ],
   "logging_steps": 25,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:116e25ebda8a70d357a01b41e14270f82bdd6e179b329884f001f9aabbeebd0f
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:f49e1c774ad26e8ca9801f06aeb95b535c1d5764f78640973f4d9d39e6c0f33f
 size 5368