Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

adapter_config.json +3 -3
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
special_tokens_map.json +1 -1
tokenizer.json +9 -0
tokenizer_config.json +9 -1
trainer_state.json +38 -440
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -19,10 +19,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "dense_h_to_4h",
     "dense_4h_to_h",
-    "query_key_value",
-    "dense"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "dense_4h_to_h",
+    "dense_h_to_4h",
+    "dense",
+    "query_key_value"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eecf8169c8be3e35abd4e96a249f53f09943c4687bd081b243b2fef88018cbde
 size 134235712

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d4461c4aed665c1b53a42c76c7a6ff93770827a9bfdcea098c7c1c6a9d4654f
 size 134235712

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8492d69578283b2fc86e2d03895bd7c0781b214da6715927578401f47e03f371
 size 268514874

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcb92441d99d23b1bebf1edf2c5306c4997e94ea824d3faea4948b66a6a98ef8
 size 268514874

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e0cfda1a5b08c3e9214d276266e233a8a53d309b6ebd855baaf595daae3aeb47
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca077bd60595fe183ed3eac1c31057bc0e4041f85096470d60a5ead003f3b02c
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31ea39dd85d8fdd7963ae8fca104a21064c32ab31d9951bd542c75f5d686bcc7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:824a429c5f95423b97fd2ff7dc1e1dffcd96691286babb37392f00bfcecaeb1b
 size 1064

special_tokens_map.json CHANGED Viewed

@@ -14,7 +14,7 @@
     "single_word": false
   },
   "pad_token": {
-    "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

     "single_word": false
   },
   "pad_token": {
+    "content": "[PAD]",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

tokenizer.json CHANGED Viewed

@@ -232,6 +232,15 @@
       "rstrip": false,
       "normalized": true,
       "special": false
     }
   ],
   "normalizer": {

       "rstrip": false,
       "normalized": true,
       "special": false
+    },
+    {
+      "id": 50277,
+      "content": "[PAD]",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
     }
   ],
   "normalizer": {

tokenizer_config.json CHANGED Viewed

@@ -200,13 +200,21 @@
       "rstrip": false,
       "single_word": false,
       "special": false
     }
   },
   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "model_max_length": 1000000000000000019884624838656,
-  "pad_token": "<|endoftext|>",
   "tokenizer_class": "GPTNeoXTokenizer",
   "unk_token": "<|endoftext|>"
 }

       "rstrip": false,
       "single_word": false,
       "special": false
+    },
+    "50277": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
     }
   },
   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
   "tokenizer_class": "GPTNeoXTokenizer",
   "unk_token": "<|endoftext|>"
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.9972041006523766,
   "eval_steps": 500,
-  "global_step": 201,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,610 +11,208 @@
     {
       "epoch": 0.03,
       "learning_rate": 0.0002,
-      "loss": 2.2476,
       "step": 2
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.0002,
-      "loss": 2.2095,
       "step": 4
     },
     {
       "epoch": 0.09,
       "learning_rate": 0.0002,
-      "loss": 1.7971,
       "step": 6
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.0002,
-      "loss": 1.7855,
       "step": 8
     },
     {
       "epoch": 0.15,
       "learning_rate": 0.0002,
-      "loss": 1.5748,
       "step": 10
     },
     {
       "epoch": 0.18,
       "learning_rate": 0.0002,
-      "loss": 1.514,
       "step": 12
     },
     {
       "epoch": 0.21,
       "learning_rate": 0.0002,
-      "loss": 2.0154,
       "step": 14
     },
     {
       "epoch": 0.24,
       "learning_rate": 0.0002,
-      "loss": 2.0265,
       "step": 16
     },
     {
       "epoch": 0.27,
       "learning_rate": 0.0002,
-      "loss": 2.2248,
       "step": 18
     },
     {
       "epoch": 0.3,
       "learning_rate": 0.0002,
-      "loss": 1.6516,
       "step": 20
     },
     {
       "epoch": 0.33,
       "learning_rate": 0.0002,
-      "loss": 1.7012,
       "step": 22
     },
     {
       "epoch": 0.36,
       "learning_rate": 0.0002,
-      "loss": 1.7529,
       "step": 24
     },
     {
       "epoch": 0.39,
       "learning_rate": 0.0002,
-      "loss": 1.6224,
       "step": 26
     },
     {
       "epoch": 0.42,
       "learning_rate": 0.0002,
-      "loss": 1.5869,
       "step": 28
     },
     {
       "epoch": 0.45,
       "learning_rate": 0.0002,
-      "loss": 1.7821,
       "step": 30
     },
     {
       "epoch": 0.48,
       "learning_rate": 0.0002,
-      "loss": 1.8414,
       "step": 32
     },
     {
       "epoch": 0.51,
       "learning_rate": 0.0002,
-      "loss": 2.5965,
       "step": 34
     },
     {
       "epoch": 0.54,
       "learning_rate": 0.0002,
-      "loss": 1.8098,
       "step": 36
     },
     {
       "epoch": 0.57,
       "learning_rate": 0.0002,
-      "loss": 1.6632,
       "step": 38
     },
     {
       "epoch": 0.6,
       "learning_rate": 0.0002,
-      "loss": 1.7756,
       "step": 40
     },
     {
       "epoch": 0.63,
       "learning_rate": 0.0002,
-      "loss": 1.5594,
       "step": 42
     },
     {
       "epoch": 0.66,
       "learning_rate": 0.0002,
-      "loss": 1.6928,
       "step": 44
     },
     {
       "epoch": 0.69,
       "learning_rate": 0.0002,
-      "loss": 1.7223,
       "step": 46
     },
     {
       "epoch": 0.72,
       "learning_rate": 0.0002,
-      "loss": 1.5006,
       "step": 48
     },
     {
       "epoch": 0.75,
       "learning_rate": 0.0002,
-      "loss": 2.3682,
       "step": 50
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0002,
-      "loss": 1.9393,
       "step": 52
     },
     {
       "epoch": 0.81,
       "learning_rate": 0.0002,
-      "loss": 1.823,
       "step": 54
     },
     {
       "epoch": 0.84,
       "learning_rate": 0.0002,
-      "loss": 1.6966,
       "step": 56
     },
     {
       "epoch": 0.86,
       "learning_rate": 0.0002,
-      "loss": 1.5331,
       "step": 58
     },
     {
       "epoch": 0.89,
       "learning_rate": 0.0002,
-      "loss": 1.5971,
       "step": 60
     },
     {
       "epoch": 0.92,
       "learning_rate": 0.0002,
-      "loss": 1.7346,
       "step": 62
     },
     {
       "epoch": 0.95,
       "learning_rate": 0.0002,
-      "loss": 1.6502,
       "step": 64
     },
     {
       "epoch": 0.98,
       "learning_rate": 0.0002,
-      "loss": 1.7093,
       "step": 66
-    },
-    {
-      "epoch": 1.01,
-      "learning_rate": 0.0002,
-      "loss": 1.9674,
-      "step": 68
-    },
-    {
-      "epoch": 1.04,
-      "learning_rate": 0.0002,
-      "loss": 2.1178,
-      "step": 70
-    },
-    {
-      "epoch": 1.07,
-      "learning_rate": 0.0002,
-      "loss": 1.6422,
-      "step": 72
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 0.0002,
-      "loss": 1.5777,
-      "step": 74
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 0.0002,
-      "loss": 1.6813,
-      "step": 76
-    },
-    {
-      "epoch": 1.16,
-      "learning_rate": 0.0002,
-      "loss": 1.4568,
-      "step": 78
-    },
-    {
-      "epoch": 1.19,
-      "learning_rate": 0.0002,
-      "loss": 1.4511,
-      "step": 80
-    },
-    {
-      "epoch": 1.22,
-      "learning_rate": 0.0002,
-      "loss": 1.6265,
-      "step": 82
-    },
-    {
-      "epoch": 1.25,
-      "learning_rate": 0.0002,
-      "loss": 1.2337,
-      "step": 84
-    },
-    {
-      "epoch": 1.28,
-      "learning_rate": 0.0002,
-      "loss": 2.0693,
-      "step": 86
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.0002,
-      "loss": 1.6134,
-      "step": 88
-    },
-    {
-      "epoch": 1.34,
-      "learning_rate": 0.0002,
-      "loss": 1.5955,
-      "step": 90
-    },
-    {
-      "epoch": 1.37,
-      "learning_rate": 0.0002,
-      "loss": 1.4866,
-      "step": 92
-    },
-    {
-      "epoch": 1.4,
-      "learning_rate": 0.0002,
-      "loss": 1.4122,
-      "step": 94
-    },
-    {
-      "epoch": 1.43,
-      "learning_rate": 0.0002,
-      "loss": 1.4224,
-      "step": 96
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 0.0002,
-      "loss": 1.5695,
-      "step": 98
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 0.0002,
-      "loss": 1.7786,
-      "step": 100
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 0.0002,
-      "loss": 2.3576,
-      "step": 102
-    },
-    {
-      "epoch": 1.55,
-      "learning_rate": 0.0002,
-      "loss": 1.6475,
-      "step": 104
-    },
-    {
-      "epoch": 1.58,
-      "learning_rate": 0.0002,
-      "loss": 1.7765,
-      "step": 106
-    },
-    {
-      "epoch": 1.61,
-      "learning_rate": 0.0002,
-      "loss": 1.5304,
-      "step": 108
-    },
-    {
-      "epoch": 1.64,
-      "learning_rate": 0.0002,
-      "loss": 1.33,
-      "step": 110
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 0.0002,
-      "loss": 1.4141,
-      "step": 112
-    },
-    {
-      "epoch": 1.7,
-      "learning_rate": 0.0002,
-      "loss": 1.5615,
-      "step": 114
-    },
-    {
-      "epoch": 1.73,
-      "learning_rate": 0.0002,
-      "loss": 1.5599,
-      "step": 116
-    },
-    {
-      "epoch": 1.76,
-      "learning_rate": 0.0002,
-      "loss": 2.1615,
-      "step": 118
-    },
-    {
-      "epoch": 1.79,
-      "learning_rate": 0.0002,
-      "loss": 1.6991,
-      "step": 120
-    },
-    {
-      "epoch": 1.82,
-      "learning_rate": 0.0002,
-      "loss": 1.6502,
-      "step": 122
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 0.0002,
-      "loss": 1.5974,
-      "step": 124
-    },
-    {
-      "epoch": 1.88,
-      "learning_rate": 0.0002,
-      "loss": 1.2396,
-      "step": 126
-    },
-    {
-      "epoch": 1.91,
-      "learning_rate": 0.0002,
-      "loss": 1.3839,
-      "step": 128
-    },
-    {
-      "epoch": 1.94,
-      "learning_rate": 0.0002,
-      "loss": 1.5737,
-      "step": 130
-    },
-    {
-      "epoch": 1.97,
-      "learning_rate": 0.0002,
-      "loss": 1.5733,
-      "step": 132
-    },
-    {
-      "epoch": 2.0,
-      "learning_rate": 0.0002,
-      "loss": 1.369,
-      "step": 134
-    },
-    {
-      "epoch": 2.03,
-      "learning_rate": 0.0002,
-      "loss": 2.2205,
-      "step": 136
-    },
-    {
-      "epoch": 2.06,
-      "learning_rate": 0.0002,
-      "loss": 2.0597,
-      "step": 138
-    },
-    {
-      "epoch": 2.09,
-      "learning_rate": 0.0002,
-      "loss": 1.5924,
-      "step": 140
-    },
-    {
-      "epoch": 2.12,
-      "learning_rate": 0.0002,
-      "loss": 1.5504,
-      "step": 142
-    },
-    {
-      "epoch": 2.15,
-      "learning_rate": 0.0002,
-      "loss": 1.4464,
-      "step": 144
-    },
-    {
-      "epoch": 2.18,
-      "learning_rate": 0.0002,
-      "loss": 1.3526,
-      "step": 146
-    },
-    {
-      "epoch": 2.21,
-      "learning_rate": 0.0002,
-      "loss": 1.2872,
-      "step": 148
-    },
-    {
-      "epoch": 2.24,
-      "learning_rate": 0.0002,
-      "loss": 1.139,
-      "step": 150
-    },
-    {
-      "epoch": 2.27,
-      "learning_rate": 0.0002,
-      "loss": 2.0427,
-      "step": 152
-    },
-    {
-      "epoch": 2.3,
-      "learning_rate": 0.0002,
-      "loss": 1.7152,
-      "step": 154
-    },
-    {
-      "epoch": 2.33,
-      "learning_rate": 0.0002,
-      "loss": 1.6782,
-      "step": 156
-    },
-    {
-      "epoch": 2.36,
-      "learning_rate": 0.0002,
-      "loss": 1.5993,
-      "step": 158
-    },
-    {
-      "epoch": 2.39,
-      "learning_rate": 0.0002,
-      "loss": 1.5009,
-      "step": 160
-    },
-    {
-      "epoch": 2.42,
-      "learning_rate": 0.0002,
-      "loss": 1.2242,
-      "step": 162
-    },
-    {
-      "epoch": 2.45,
-      "learning_rate": 0.0002,
-      "loss": 1.3298,
-      "step": 164
-    },
-    {
-      "epoch": 2.48,
-      "learning_rate": 0.0002,
-      "loss": 1.159,
-      "step": 166
-    },
-    {
-      "epoch": 2.51,
-      "learning_rate": 0.0002,
-      "loss": 2.0425,
-      "step": 168
-    },
-    {
-      "epoch": 2.53,
-      "learning_rate": 0.0002,
-      "loss": 1.7428,
-      "step": 170
-    },
-    {
-      "epoch": 2.56,
-      "learning_rate": 0.0002,
-      "loss": 1.6052,
-      "step": 172
-    },
-    {
-      "epoch": 2.59,
-      "learning_rate": 0.0002,
-      "loss": 1.5935,
-      "step": 174
-    },
-    {
-      "epoch": 2.62,
-      "learning_rate": 0.0002,
-      "loss": 1.3055,
-      "step": 176
-    },
-    {
-      "epoch": 2.65,
-      "learning_rate": 0.0002,
-      "loss": 1.1967,
-      "step": 178
-    },
-    {
-      "epoch": 2.68,
-      "learning_rate": 0.0002,
-      "loss": 1.3355,
-      "step": 180
-    },
-    {
-      "epoch": 2.71,
-      "learning_rate": 0.0002,
-      "loss": 1.0649,
-      "step": 182
-    },
-    {
-      "epoch": 2.74,
-      "learning_rate": 0.0002,
-      "loss": 2.3474,
-      "step": 184
-    },
-    {
-      "epoch": 2.77,
-      "learning_rate": 0.0002,
-      "loss": 1.6763,
-      "step": 186
-    },
-    {
-      "epoch": 2.8,
-      "learning_rate": 0.0002,
-      "loss": 1.5105,
-      "step": 188
-    },
-    {
-      "epoch": 2.83,
-      "learning_rate": 0.0002,
-      "loss": 1.5544,
-      "step": 190
-    },
-    {
-      "epoch": 2.86,
-      "learning_rate": 0.0002,
-      "loss": 1.1297,
-      "step": 192
-    },
-    {
-      "epoch": 2.89,
-      "learning_rate": 0.0002,
-      "loss": 1.2825,
-      "step": 194
-    },
-    {
-      "epoch": 2.92,
-      "learning_rate": 0.0002,
-      "loss": 1.3587,
-      "step": 196
-    },
-    {
-      "epoch": 2.95,
-      "learning_rate": 0.0002,
-      "loss": 1.2585,
-      "step": 198
-    },
-    {
-      "epoch": 2.98,
-      "learning_rate": 0.0002,
-      "loss": 1.3599,
-      "step": 200
     }
   ],
   "logging_steps": 2,
-  "max_steps": 201,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 8906354934939648.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9990680335507922,
   "eval_steps": 500,
+  "global_step": 67,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.03,
       "learning_rate": 0.0002,
+      "loss": 2.4703,
       "step": 2
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.0002,
+      "loss": 2.1197,
       "step": 4
     },
     {
       "epoch": 0.09,
       "learning_rate": 0.0002,
+      "loss": 1.7723,
       "step": 6
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.0002,
+      "loss": 1.7626,
       "step": 8
     },
     {
       "epoch": 0.15,
       "learning_rate": 0.0002,
+      "loss": 1.852,
       "step": 10
     },
     {
       "epoch": 0.18,
       "learning_rate": 0.0002,
+      "loss": 1.8027,
       "step": 12
     },
     {
       "epoch": 0.21,
       "learning_rate": 0.0002,
+      "loss": 1.9243,
       "step": 14
     },
     {
       "epoch": 0.24,
       "learning_rate": 0.0002,
+      "loss": 2.0395,
       "step": 16
     },
     {
       "epoch": 0.27,
       "learning_rate": 0.0002,
+      "loss": 2.0185,
       "step": 18
     },
     {
       "epoch": 0.3,
       "learning_rate": 0.0002,
+      "loss": 1.7649,
       "step": 20
     },
     {
       "epoch": 0.33,
       "learning_rate": 0.0002,
+      "loss": 1.884,
       "step": 22
     },
     {
       "epoch": 0.36,
       "learning_rate": 0.0002,
+      "loss": 1.7038,
       "step": 24
     },
     {
       "epoch": 0.39,
       "learning_rate": 0.0002,
+      "loss": 1.4675,
       "step": 26
     },
     {
       "epoch": 0.42,
       "learning_rate": 0.0002,
+      "loss": 1.6643,
       "step": 28
     },
     {
       "epoch": 0.45,
       "learning_rate": 0.0002,
+      "loss": 1.8479,
       "step": 30
     },
     {
       "epoch": 0.48,
       "learning_rate": 0.0002,
+      "loss": 1.7631,
       "step": 32
     },
     {
       "epoch": 0.51,
       "learning_rate": 0.0002,
+      "loss": 2.289,
       "step": 34
     },
     {
       "epoch": 0.54,
       "learning_rate": 0.0002,
+      "loss": 1.7244,
       "step": 36
     },
     {
       "epoch": 0.57,
       "learning_rate": 0.0002,
+      "loss": 1.6199,
       "step": 38
     },
     {
       "epoch": 0.6,
       "learning_rate": 0.0002,
+      "loss": 1.8003,
       "step": 40
     },
     {
       "epoch": 0.63,
       "learning_rate": 0.0002,
+      "loss": 1.3866,
       "step": 42
     },
     {
       "epoch": 0.66,
       "learning_rate": 0.0002,
+      "loss": 1.5901,
       "step": 44
     },
     {
       "epoch": 0.69,
       "learning_rate": 0.0002,
+      "loss": 1.7516,
       "step": 46
     },
     {
       "epoch": 0.72,
       "learning_rate": 0.0002,
+      "loss": 1.5123,
       "step": 48
     },
     {
       "epoch": 0.75,
       "learning_rate": 0.0002,
+      "loss": 2.5375,
       "step": 50
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0002,
+      "loss": 1.8782,
       "step": 52
     },
     {
       "epoch": 0.81,
       "learning_rate": 0.0002,
+      "loss": 1.7455,
       "step": 54
     },
     {
       "epoch": 0.84,
       "learning_rate": 0.0002,
+      "loss": 1.7001,
       "step": 56
     },
     {
       "epoch": 0.86,
       "learning_rate": 0.0002,
+      "loss": 1.345,
       "step": 58
     },
     {
       "epoch": 0.89,
       "learning_rate": 0.0002,
+      "loss": 1.5965,
       "step": 60
     },
     {
       "epoch": 0.92,
       "learning_rate": 0.0002,
+      "loss": 1.7818,
       "step": 62
     },
     {
       "epoch": 0.95,
       "learning_rate": 0.0002,
+      "loss": 1.5499,
       "step": 64
     },
     {
       "epoch": 0.98,
       "learning_rate": 0.0002,
+      "loss": 1.9485,
       "step": 66
     }
   ],
   "logging_steps": 2,
+  "max_steps": 67,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 2968886748168192.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f041775d0619e837f65da19fcf4653910fa859003661bfbb706e65bc69371e51
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:74c76c61090f9e71a3620f025aebcf947d167dd8bd4dc37e6f751e6fce36fd3e
 size 4728