Model save

Browse files

Files changed (6) hide show

README.md +26 -24
merges.txt +0 -0
model.safetensors +1 -1
tokenizer.json +0 -0
training_args.bin +1 -1
vocab.json +0 -0

README.md CHANGED Viewed

@@ -16,8 +16,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 3.1495
-- Accuracy: 0.4121
 ## Model description
@@ -40,6 +40,8 @@ The following hyperparameters were used during training:
 - train_batch_size: 32
 - eval_batch_size: 64
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 32000
@@ -48,28 +50,28 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch | Step   | Validation Loss | Accuracy |
-|:-------------:|:-----:|:------:|:---------------:|:--------:|
-| 3.6536        | 1.0   | 17459  | 3.6063          | 0.3536   |
-| 3.4313        | 2.0   | 34918  | 3.3959          | 0.3757   |
-| 3.2641        | 3.0   | 52377  | 3.2704          | 0.3901   |
-| 3.1763        | 4.0   | 69836  | 3.2136          | 0.3968   |
-| 3.1125        | 5.0   | 87295  | 3.1768          | 0.4015   |
-| 3.0607        | 6.0   | 104754 | 3.1599          | 0.4039   |
-| 3.0231        | 7.0   | 122213 | 3.1423          | 0.4063   |
-| 2.986         | 8.0   | 139672 | 3.1343          | 0.4077   |
-| 2.9519        | 9.0   | 157131 | 3.1277          | 0.4090   |
-| 2.9272        | 10.0  | 174590 | 3.1228          | 0.4100   |
-| 2.9034        | 11.0  | 192049 | 3.1221          | 0.4106   |
-| 2.8763        | 12.0  | 209508 | 3.1221          | 0.4111   |
-| 2.851         | 13.0  | 226967 | 3.1256          | 0.4114   |
-| 2.8383        | 14.0  | 244426 | 3.1238          | 0.4119   |
-| 2.8084        | 15.0  | 261885 | 3.1268          | 0.4121   |
-| 2.7877        | 16.0  | 279344 | 3.1320          | 0.4121   |
-| 2.7651        | 17.0  | 296803 | 3.1339          | 0.4122   |
-| 2.7424        | 18.0  | 314262 | 3.1409          | 0.4121   |
-| 2.7208        | 19.0  | 331721 | 3.1441          | 0.4121   |
-| 2.7009        | 20.0  | 349180 | 3.1495          | 0.4121   |
 ### Framework versions

 This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 3.0426
+- Accuracy: 0.4215
 ## Model description
 - train_batch_size: 32
 - eval_batch_size: 64
 - seed: 42
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 256
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 32000
 ### Training results
+| Training Loss | Epoch   | Step  | Validation Loss | Accuracy |
+|:-------------:|:-------:|:-----:|:---------------:|:--------:|
+| 6.4165        | 0.9996  | 1977  | 4.6002          | 0.2628   |
+| 4.4252        | 1.9996  | 3955  | 3.9054          | 0.3265   |
+| 3.8303        | 2.9997  | 5933  | 3.5867          | 0.3593   |
+| 3.552         | 3.9997  | 7911  | 3.4361          | 0.3746   |
+| 3.4003        | 4.9998  | 9889  | 3.3533          | 0.3826   |
+| 3.3048        | 5.9999  | 11867 | 3.2995          | 0.3884   |
+| 3.2405        | 6.9999  | 13845 | 3.2618          | 0.3921   |
+| 3.1938        | 8.0     | 15823 | 3.2395          | 0.3949   |
+| 3.1584        | 8.9996  | 17800 | 3.2179          | 0.3974   |
+| 3.1331        | 9.9996  | 19778 | 3.1996          | 0.3994   |
+| 3.1128        | 10.9997 | 21756 | 3.1903          | 0.4005   |
+| 3.0941        | 11.9997 | 23734 | 3.1839          | 0.4014   |
+| 3.0833        | 12.9998 | 25712 | 3.1728          | 0.4024   |
+| 3.0736        | 13.9999 | 27690 | 3.1701          | 0.4029   |
+| 3.0665        | 14.9999 | 29668 | 3.1649          | 0.4034   |
+| 3.0616        | 16.0    | 31646 | 3.1627          | 0.4037   |
+| 3.0446        | 16.9996 | 33623 | 3.1264          | 0.4081   |
+| 2.9699        | 17.9996 | 35601 | 3.0900          | 0.4133   |
+| 2.8822        | 18.9997 | 37579 | 3.0569          | 0.4182   |
+| 2.7774        | 19.9912 | 39540 | 3.0426          | 0.4215   |
 ### Framework versions

merges.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c98cba2c9cbcfc29de67ee654fdcc3c3d2f60389d0278787872824513d9e561e
 size 391370592

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff393615d7d407bee3cf4961aa64e38a79b69b3951ac62aea898a7e45449fec8
 size 391370592

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e2e41b61d7b23f3bbf589db0587afc78ea22a155efbb2f69ce7f02f48797b01
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d501ead4e2d226120da332c060e2e576b9590ff3e16ea1f84b1ff957f5e1aa3
 size 5240

vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff