e-hossam96
/

arabic-nano-gpt-v1

@@ -16,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [openai-community/gpt2](https://huggingface.co/openai-community/gpt2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 8.5767
 ## Model description
@@ -35,33 +35,62 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0006
 - train_batch_size: 32
 - eval_batch_size: 32
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 100
 ### Training results
-| Training Loss | Epoch   | Step | Validation Loss |
-|:-------------:|:-------:|:----:|:---------------:|
-| 6.6922        | 6.6667  | 100  | 6.8460          |
-| 4.4109        | 13.3333 | 200  | 6.6570          |
-| 2.7038        | 20.0    | 300  | 6.9939          |
-| 1.427         | 26.6667 | 400  | 7.3622          |
-| 0.6413        | 33.3333 | 500  | 7.6590          |
-| 0.2914        | 40.0    | 600  | 7.9181          |
-| 0.1481        | 46.6667 | 700  | 8.1451          |
-| 0.0928        | 53.3333 | 800  | 8.2888          |
-| 0.069         | 60.0    | 900  | 8.3402          |
-| 0.055         | 66.6667 | 1000 | 8.4368          |
-| 0.0478        | 73.3333 | 1100 | 8.4684          |
-| 0.0399        | 80.0    | 1200 | 8.5143          |
-| 0.0363        | 86.6667 | 1300 | 8.5179          |
-| 0.0329        | 93.3333 | 1400 | 8.5729          |
-| 0.0306        | 100.0   | 1500 | 8.5767          |
 ### Framework versions

 This model is a fine-tuned version of [openai-community/gpt2](https://huggingface.co/openai-community/gpt2) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 3.0267
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0002
 - train_batch_size: 32
 - eval_batch_size: 32
 - seed: 42
+- gradient_accumulation_steps: 16
+- total_train_batch_size: 512
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.01
+- num_epochs: 24
 ### Training results
+| Training Loss | Epoch   | Step   | Validation Loss |
+|:-------------:|:-------:|:------:|:---------------:|
+| 4.1743        | 0.5849  | 5000   | 3.6616          |
+| 3.6165        | 1.1698  | 10000  | 3.4256          |
+| 3.5241        | 1.7547  | 15000  | 3.3273          |
+| 3.4341        | 2.3396  | 20000  | 3.2706          |
+| 3.4023        | 2.9245  | 25000  | 3.2331          |
+| 3.3652        | 3.5094  | 30000  | 3.2024          |
+| 3.347         | 4.0943  | 35000  | 3.1826          |
+| 3.3223        | 4.6791  | 40000  | 3.1637          |
+| 3.3107        | 5.2640  | 45000  | 3.1526          |
+| 3.2985        | 5.8489  | 50000  | 3.1370          |
+| 3.2873        | 6.4338  | 55000  | 3.1296          |
+| 3.2758        | 7.0187  | 60000  | 3.1190          |
+| 3.2686        | 7.6036  | 65000  | 3.1105          |
+| 3.2568        | 8.1885  | 70000  | 3.1042          |
+| 3.2546        | 8.7734  | 75000  | 3.0982          |
+| 3.248         | 9.3583  | 80000  | 3.0925          |
+| 3.2431        | 9.9432  | 85000  | 3.0881          |
+| 3.2371        | 10.5281 | 90000  | 3.0820          |
+| 3.2346        | 11.1130 | 95000  | 3.0784          |
+| 3.2273        | 11.6979 | 100000 | 3.0747          |
+| 3.2207        | 12.2828 | 105000 | 3.0701          |
+| 3.2191        | 12.8677 | 110000 | 3.0665          |
+| 3.2148        | 13.4526 | 115000 | 3.0638          |
+| 3.2132        | 14.0374 | 120000 | 3.0594          |
+| 3.2079        | 14.6223 | 125000 | 3.0580          |
+| 3.204         | 15.2072 | 130000 | 3.0549          |
+| 3.2035        | 15.7921 | 135000 | 3.0512          |
+| 3.1999        | 16.3770 | 140000 | 3.0473          |
+| 3.2001        | 16.9619 | 145000 | 3.0462          |
+| 3.1957        | 17.5468 | 150000 | 3.0432          |
+| 3.1948        | 18.1317 | 155000 | 3.0417          |
+| 3.19          | 18.7166 | 160000 | 3.0394          |
+| 3.1873        | 19.3015 | 165000 | 3.0384          |
+| 3.1848        | 19.8864 | 170000 | 3.0367          |
+| 3.1826        | 20.4713 | 175000 | 3.0334          |
+| 3.1839        | 21.0562 | 180000 | 3.0325          |
+| 3.1818        | 21.6411 | 185000 | 3.0314          |
+| 3.1775        | 22.2260 | 190000 | 3.0295          |
+| 3.1747        | 22.8109 | 195000 | 3.0284          |
+| 3.1724        | 23.3957 | 200000 | 3.0273          |
+| 3.1757        | 23.9806 | 205000 | 3.0267          |
 ### Framework versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e5b6cbff43b9e7c3e4ecc8514c85e7bf1985855621676169c39a859167c7055
 size 42555416

 version https://git-lfs.github.com/spec/v1
+oid sha256:6320e78744782619a6a28fdcd81e435c3bc43b9be00cc1dfc19429abd5c59d1a
 size 42555416

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3136559c3247ff5f3a551db29995826b7e6becd712db85d5f973849645b828fb
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e2c7bd8cceec1b7f617905b6ef6d88624a19a55b7d14c1c915309fd01e54aa5
 size 5240