Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

adapter_config.json +2 -2
adapter_model.safetensors +1 -1
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
special_tokens_map.json +18 -2
tokenizer.json +18 -0
tokenizer_config.json +22 -2
trainer_state.json +55 -655
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -19,9 +19,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "dense_h_to_4h",
-    "dense",
     "query_key_value",
     "dense_4h_to_h"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "query_key_value",
+    "dense",
+    "dense_h_to_4h",
     "dense_4h_to_h"
   ],
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8bc9e8b8fa5ab20fe49e7ad22db3834f345b8d39a2ab8dce84f24a39e9efd6c
 size 134235712

 version https://git-lfs.github.com/spec/v1
+oid sha256:fddb2469e6ffe1163534c9cea4ae13c8a9672bf68d3d2abe558cce949943902e
 size 134235712

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3bcab11211f58b01afa256e63e81135b8cbf84c3ec0790e7eb1bb1223fdd80cb
-size 268515002

 version https://git-lfs.github.com/spec/v1
+oid sha256:314d2ba87e948610c2ad9be021f9d9906adc2aed9ce526e3d2329042f35ff5c2
+size 268514874

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28b7d813a624fe8658b7f7e2cbd72b69959aab96c5c1f4020b7daca9eb41da70
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1a8122975853f947e69e03187a29428024ead29190ec994e53ee279eeb7c9ad
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c79c66b60a0abe3dc1f1792ced2b6c99f10b3ada4ba94ee60000ba5931c603a9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:81007ec48272bbdc4f9622c046f9c026bf8120ed11d1398fd97bb5168a6f3dda
 size 1064

special_tokens_map.json CHANGED Viewed

@@ -1,13 +1,29 @@
 {
   "bos_token": {
-    "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "eos_token": {
-    "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

 {
+  "additional_special_tokens": [
+    {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    }
+  ],
   "bos_token": {
+    "content": "<|im_start|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "eos_token": {
+    "content": "<|im_end|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

tokenizer.json CHANGED Viewed

@@ -241,6 +241,24 @@
       "rstrip": false,
       "normalized": false,
       "special": true
     }
   ],
   "normalizer": {

       "rstrip": false,
       "normalized": false,
       "special": true
+    },
+    {
+      "id": 50278,
+      "content": "<|im_end|>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 50279,
+      "content": "<|im_start|>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
     }
   ],
   "normalizer": {

tokenizer_config.json CHANGED Viewed

@@ -208,11 +208,31 @@
       "rstrip": false,
       "single_word": false,
       "special": true
     }
   },
-  "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
-  "eos_token": "<|endoftext|>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "[PAD]",
   "tokenizer_class": "GPTNeoXTokenizer",

       "rstrip": false,
       "single_word": false,
       "special": true
+    },
+    "50278": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50279": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
     }
   },
+  "additional_special_tokens": [
+    "<|im_end|>",
+    "<|im_start|>"
+  ],
+  "bos_token": "<|im_start|>",
   "clean_up_tokenization_spaces": true,
+  "eos_token": "<|im_end|>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "[PAD]",
   "tokenizer_class": "GPTNeoXTokenizer",

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.983219390926041,
   "eval_steps": 500,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,910 +11,310 @@
     {
       "epoch": 0.02,
       "learning_rate": 0.0002,
-      "loss": 2.7995,
       "step": 2
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.0002,
-      "loss": 2.6136,
       "step": 4
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.0002,
-      "loss": 2.5334,
       "step": 6
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.0002,
-      "loss": 2.3354,
       "step": 8
     },
     {
       "epoch": 0.1,
       "learning_rate": 0.0002,
-      "loss": 2.2897,
       "step": 10
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.0002,
-      "loss": 2.4492,
       "step": 12
     },
     {
       "epoch": 0.14,
       "learning_rate": 0.0002,
-      "loss": 2.3472,
       "step": 14
     },
     {
       "epoch": 0.16,
       "learning_rate": 0.0002,
-      "loss": 2.3725,
       "step": 16
     },
     {
       "epoch": 0.18,
       "learning_rate": 0.0002,
-      "loss": 2.171,
       "step": 18
     },
     {
       "epoch": 0.2,
       "learning_rate": 0.0002,
-      "loss": 2.006,
       "step": 20
     },
     {
       "epoch": 0.22,
       "learning_rate": 0.0002,
-      "loss": 2.061,
       "step": 22
     },
     {
       "epoch": 0.24,
       "learning_rate": 0.0002,
-      "loss": 2.1283,
       "step": 24
     },
     {
       "epoch": 0.26,
       "learning_rate": 0.0002,
-      "loss": 1.9722,
       "step": 26
     },
     {
       "epoch": 0.28,
       "learning_rate": 0.0002,
-      "loss": 2.2341,
       "step": 28
     },
     {
       "epoch": 0.3,
       "learning_rate": 0.0002,
-      "loss": 2.1143,
       "step": 30
     },
     {
       "epoch": 0.32,
       "learning_rate": 0.0002,
-      "loss": 2.1717,
       "step": 32
     },
     {
       "epoch": 0.34,
       "learning_rate": 0.0002,
-      "loss": 2.2766,
       "step": 34
     },
     {
       "epoch": 0.36,
       "learning_rate": 0.0002,
-      "loss": 2.2678,
       "step": 36
     },
     {
       "epoch": 0.38,
       "learning_rate": 0.0002,
-      "loss": 2.2475,
       "step": 38
     },
     {
       "epoch": 0.4,
       "learning_rate": 0.0002,
-      "loss": 2.175,
       "step": 40
     },
     {
       "epoch": 0.42,
       "learning_rate": 0.0002,
-      "loss": 2.2936,
       "step": 42
     },
     {
       "epoch": 0.44,
       "learning_rate": 0.0002,
-      "loss": 1.9248,
       "step": 44
     },
     {
       "epoch": 0.46,
       "learning_rate": 0.0002,
-      "loss": 1.9746,
       "step": 46
     },
     {
       "epoch": 0.48,
       "learning_rate": 0.0002,
-      "loss": 1.9783,
       "step": 48
     },
     {
       "epoch": 0.5,
       "learning_rate": 0.0002,
-      "loss": 1.996,
       "step": 50
     },
     {
       "epoch": 0.52,
       "learning_rate": 0.0002,
-      "loss": 2.1721,
       "step": 52
     },
     {
       "epoch": 0.54,
       "learning_rate": 0.0002,
-      "loss": 2.1123,
       "step": 54
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.0002,
-      "loss": 2.1182,
       "step": 56
     },
     {
       "epoch": 0.58,
       "learning_rate": 0.0002,
-      "loss": 2.2188,
       "step": 58
     },
     {
       "epoch": 0.6,
       "learning_rate": 0.0002,
-      "loss": 2.2285,
       "step": 60
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.0002,
-      "loss": 2.2411,
       "step": 62
     },
     {
       "epoch": 0.64,
       "learning_rate": 0.0002,
-      "loss": 2.1371,
       "step": 64
     },
     {
       "epoch": 0.66,
       "learning_rate": 0.0002,
-      "loss": 2.2014,
       "step": 66
     },
     {
       "epoch": 0.68,
       "learning_rate": 0.0002,
-      "loss": 2.1145,
       "step": 68
     },
     {
       "epoch": 0.7,
       "learning_rate": 0.0002,
-      "loss": 1.9422,
       "step": 70
     },
     {
       "epoch": 0.72,
       "learning_rate": 0.0002,
-      "loss": 2.25,
       "step": 72
     },
     {
       "epoch": 0.74,
       "learning_rate": 0.0002,
-      "loss": 2.021,
       "step": 74
     },
     {
       "epoch": 0.76,
       "learning_rate": 0.0002,
-      "loss": 1.9697,
       "step": 76
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0002,
-      "loss": 2.1596,
       "step": 78
     },
     {
       "epoch": 0.8,
       "learning_rate": 0.0002,
-      "loss": 2.2133,
       "step": 80
     },
     {
       "epoch": 0.82,
       "learning_rate": 0.0002,
-      "loss": 2.0871,
       "step": 82
     },
     {
       "epoch": 0.84,
       "learning_rate": 0.0002,
-      "loss": 2.1383,
       "step": 84
     },
     {
       "epoch": 0.86,
       "learning_rate": 0.0002,
-      "loss": 2.113,
       "step": 86
     },
     {
       "epoch": 0.88,
       "learning_rate": 0.0002,
-      "loss": 2.157,
       "step": 88
     },
     {
       "epoch": 0.89,
       "learning_rate": 0.0002,
-      "loss": 2.0908,
       "step": 90
     },
     {
       "epoch": 0.91,
       "learning_rate": 0.0002,
-      "loss": 2.1134,
       "step": 92
     },
     {
       "epoch": 0.93,
       "learning_rate": 0.0002,
-      "loss": 1.9216,
       "step": 94
     },
     {
       "epoch": 0.95,
       "learning_rate": 0.0002,
-      "loss": 1.9645,
       "step": 96
     },
     {
       "epoch": 0.97,
       "learning_rate": 0.0002,
-      "loss": 2.0131,
       "step": 98
     },
     {
       "epoch": 0.99,
       "learning_rate": 0.0002,
-      "loss": 1.771,
       "step": 100
-    },
-    {
-      "epoch": 1.01,
-      "learning_rate": 0.0002,
-      "loss": 2.2615,
-      "step": 102
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 0.0002,
-      "loss": 2.1583,
-      "step": 104
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 0.0002,
-      "loss": 2.1306,
-      "step": 106
-    },
-    {
-      "epoch": 1.07,
-      "learning_rate": 0.0002,
-      "loss": 2.0571,
-      "step": 108
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 0.0002,
-      "loss": 2.0018,
-      "step": 110
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 0.0002,
-      "loss": 2.2008,
-      "step": 112
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 0.0002,
-      "loss": 1.9969,
-      "step": 114
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 0.0002,
-      "loss": 2.1301,
-      "step": 116
-    },
-    {
-      "epoch": 1.17,
-      "learning_rate": 0.0002,
-      "loss": 2.1158,
-      "step": 118
-    },
-    {
-      "epoch": 1.19,
-      "learning_rate": 0.0002,
-      "loss": 2.058,
-      "step": 120
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 0.0002,
-      "loss": 1.9263,
-      "step": 122
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 0.0002,
-      "loss": 1.976,
-      "step": 124
-    },
-    {
-      "epoch": 1.25,
-      "learning_rate": 0.0002,
-      "loss": 1.7705,
-      "step": 126
-    },
-    {
-      "epoch": 1.27,
-      "learning_rate": 0.0002,
-      "loss": 2.1356,
-      "step": 128
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 0.0002,
-      "loss": 2.0895,
-      "step": 130
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.0002,
-      "loss": 2.0903,
-      "step": 132
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 0.0002,
-      "loss": 2.1718,
-      "step": 134
-    },
-    {
-      "epoch": 1.35,
-      "learning_rate": 0.0002,
-      "loss": 2.0289,
-      "step": 136
-    },
-    {
-      "epoch": 1.37,
-      "learning_rate": 0.0002,
-      "loss": 2.0385,
-      "step": 138
-    },
-    {
-      "epoch": 1.39,
-      "learning_rate": 0.0002,
-      "loss": 2.1406,
-      "step": 140
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 0.0002,
-      "loss": 2.0461,
-      "step": 142
-    },
-    {
-      "epoch": 1.43,
-      "learning_rate": 0.0002,
-      "loss": 1.8267,
-      "step": 144
-    },
-    {
-      "epoch": 1.45,
-      "learning_rate": 0.0002,
-      "loss": 1.7962,
-      "step": 146
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 0.0002,
-      "loss": 1.9104,
-      "step": 148
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 0.0002,
-      "loss": 1.9261,
-      "step": 150
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 0.0002,
-      "loss": 2.0658,
-      "step": 152
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 0.0002,
-      "loss": 1.9514,
-      "step": 154
-    },
-    {
-      "epoch": 1.55,
-      "learning_rate": 0.0002,
-      "loss": 1.9531,
-      "step": 156
-    },
-    {
-      "epoch": 1.57,
-      "learning_rate": 0.0002,
-      "loss": 2.0651,
-      "step": 158
-    },
-    {
-      "epoch": 1.59,
-      "learning_rate": 0.0002,
-      "loss": 2.1144,
-      "step": 160
-    },
-    {
-      "epoch": 1.61,
-      "learning_rate": 0.0002,
-      "loss": 2.1396,
-      "step": 162
-    },
-    {
-      "epoch": 1.63,
-      "learning_rate": 0.0002,
-      "loss": 2.1084,
-      "step": 164
-    },
-    {
-      "epoch": 1.65,
-      "learning_rate": 0.0002,
-      "loss": 1.9944,
-      "step": 166
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 0.0002,
-      "loss": 1.9001,
-      "step": 168
-    },
-    {
-      "epoch": 1.69,
-      "learning_rate": 0.0002,
-      "loss": 1.8781,
-      "step": 170
-    },
-    {
-      "epoch": 1.71,
-      "learning_rate": 0.0002,
-      "loss": 2.016,
-      "step": 172
-    },
-    {
-      "epoch": 1.73,
-      "learning_rate": 0.0002,
-      "loss": 1.8475,
-      "step": 174
-    },
-    {
-      "epoch": 1.75,
-      "learning_rate": 0.0002,
-      "loss": 1.8842,
-      "step": 176
-    },
-    {
-      "epoch": 1.77,
-      "learning_rate": 0.0002,
-      "loss": 2.0971,
-      "step": 178
-    },
-    {
-      "epoch": 1.79,
-      "learning_rate": 0.0002,
-      "loss": 2.1377,
-      "step": 180
-    },
-    {
-      "epoch": 1.81,
-      "learning_rate": 0.0002,
-      "loss": 2.1522,
-      "step": 182
-    },
-    {
-      "epoch": 1.83,
-      "learning_rate": 0.0002,
-      "loss": 2.1235,
-      "step": 184
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 0.0002,
-      "loss": 2.1875,
-      "step": 186
-    },
-    {
-      "epoch": 1.87,
-      "learning_rate": 0.0002,
-      "loss": 2.1081,
-      "step": 188
-    },
-    {
-      "epoch": 1.89,
-      "learning_rate": 0.0002,
-      "loss": 2.0388,
-      "step": 190
-    },
-    {
-      "epoch": 1.91,
-      "learning_rate": 0.0002,
-      "loss": 2.1445,
-      "step": 192
-    },
-    {
-      "epoch": 1.93,
-      "learning_rate": 0.0002,
-      "loss": 1.9927,
-      "step": 194
-    },
-    {
-      "epoch": 1.95,
-      "learning_rate": 0.0002,
-      "loss": 1.9217,
-      "step": 196
-    },
-    {
-      "epoch": 1.97,
-      "learning_rate": 0.0002,
-      "loss": 2.0054,
-      "step": 198
-    },
-    {
-      "epoch": 1.99,
-      "learning_rate": 0.0002,
-      "loss": 2.0122,
-      "step": 200
-    },
-    {
-      "epoch": 2.01,
-      "learning_rate": 0.0002,
-      "loss": 1.9734,
-      "step": 202
-    },
-    {
-      "epoch": 2.03,
-      "learning_rate": 0.0002,
-      "loss": 2.0048,
-      "step": 204
-    },
-    {
-      "epoch": 2.05,
-      "learning_rate": 0.0002,
-      "loss": 2.1303,
-      "step": 206
-    },
-    {
-      "epoch": 2.07,
-      "learning_rate": 0.0002,
-      "loss": 2.1415,
-      "step": 208
-    },
-    {
-      "epoch": 2.09,
-      "learning_rate": 0.0002,
-      "loss": 2.0024,
-      "step": 210
-    },
-    {
-      "epoch": 2.11,
-      "learning_rate": 0.0002,
-      "loss": 2.022,
-      "step": 212
-    },
-    {
-      "epoch": 2.13,
-      "learning_rate": 0.0002,
-      "loss": 2.0235,
-      "step": 214
-    },
-    {
-      "epoch": 2.15,
-      "learning_rate": 0.0002,
-      "loss": 1.9017,
-      "step": 216
-    },
-    {
-      "epoch": 2.17,
-      "learning_rate": 0.0002,
-      "loss": 2.0065,
-      "step": 218
-    },
-    {
-      "epoch": 2.19,
-      "learning_rate": 0.0002,
-      "loss": 1.8304,
-      "step": 220
-    },
-    {
-      "epoch": 2.21,
-      "learning_rate": 0.0002,
-      "loss": 1.8986,
-      "step": 222
-    },
-    {
-      "epoch": 2.23,
-      "learning_rate": 0.0002,
-      "loss": 1.8563,
-      "step": 224
-    },
-    {
-      "epoch": 2.25,
-      "learning_rate": 0.0002,
-      "loss": 1.6831,
-      "step": 226
-    },
-    {
-      "epoch": 2.27,
-      "learning_rate": 0.0002,
-      "loss": 2.1172,
-      "step": 228
-    },
-    {
-      "epoch": 2.29,
-      "learning_rate": 0.0002,
-      "loss": 2.0506,
-      "step": 230
-    },
-    {
-      "epoch": 2.31,
-      "learning_rate": 0.0002,
-      "loss": 2.0761,
-      "step": 232
-    },
-    {
-      "epoch": 2.33,
-      "learning_rate": 0.0002,
-      "loss": 1.9416,
-      "step": 234
-    },
-    {
-      "epoch": 2.35,
-      "learning_rate": 0.0002,
-      "loss": 2.0938,
-      "step": 236
-    },
-    {
-      "epoch": 2.37,
-      "learning_rate": 0.0002,
-      "loss": 2.1338,
-      "step": 238
-    },
-    {
-      "epoch": 2.39,
-      "learning_rate": 0.0002,
-      "loss": 1.9816,
-      "step": 240
-    },
-    {
-      "epoch": 2.41,
-      "learning_rate": 0.0002,
-      "loss": 1.9698,
-      "step": 242
-    },
-    {
-      "epoch": 2.43,
-      "learning_rate": 0.0002,
-      "loss": 1.8987,
-      "step": 244
-    },
-    {
-      "epoch": 2.45,
-      "learning_rate": 0.0002,
-      "loss": 1.7703,
-      "step": 246
-    },
-    {
-      "epoch": 2.47,
-      "learning_rate": 0.0002,
-      "loss": 1.972,
-      "step": 248
-    },
-    {
-      "epoch": 2.49,
-      "learning_rate": 0.0002,
-      "loss": 1.7901,
-      "step": 250
-    },
-    {
-      "epoch": 2.51,
-      "learning_rate": 0.0002,
-      "loss": 1.7711,
-      "step": 252
-    },
-    {
-      "epoch": 2.53,
-      "learning_rate": 0.0002,
-      "loss": 2.0413,
-      "step": 254
-    },
-    {
-      "epoch": 2.55,
-      "learning_rate": 0.0002,
-      "loss": 2.1376,
-      "step": 256
-    },
-    {
-      "epoch": 2.57,
-      "learning_rate": 0.0002,
-      "loss": 2.0942,
-      "step": 258
-    },
-    {
-      "epoch": 2.59,
-      "learning_rate": 0.0002,
-      "loss": 2.0144,
-      "step": 260
-    },
-    {
-      "epoch": 2.61,
-      "learning_rate": 0.0002,
-      "loss": 2.0191,
-      "step": 262
-    },
-    {
-      "epoch": 2.63,
-      "learning_rate": 0.0002,
-      "loss": 2.0158,
-      "step": 264
-    },
-    {
-      "epoch": 2.65,
-      "learning_rate": 0.0002,
-      "loss": 1.9745,
-      "step": 266
-    },
-    {
-      "epoch": 2.67,
-      "learning_rate": 0.0002,
-      "loss": 2.0842,
-      "step": 268
-    },
-    {
-      "epoch": 2.68,
-      "learning_rate": 0.0002,
-      "loss": 1.7788,
-      "step": 270
-    },
-    {
-      "epoch": 2.7,
-      "learning_rate": 0.0002,
-      "loss": 1.9144,
-      "step": 272
-    },
-    {
-      "epoch": 2.72,
-      "learning_rate": 0.0002,
-      "loss": 2.0329,
-      "step": 274
-    },
-    {
-      "epoch": 2.74,
-      "learning_rate": 0.0002,
-      "loss": 1.8356,
-      "step": 276
-    },
-    {
-      "epoch": 2.76,
-      "learning_rate": 0.0002,
-      "loss": 1.9365,
-      "step": 278
-    },
-    {
-      "epoch": 2.78,
-      "learning_rate": 0.0002,
-      "loss": 2.0144,
-      "step": 280
-    },
-    {
-      "epoch": 2.8,
-      "learning_rate": 0.0002,
-      "loss": 2.1001,
-      "step": 282
-    },
-    {
-      "epoch": 2.82,
-      "learning_rate": 0.0002,
-      "loss": 2.0506,
-      "step": 284
-    },
-    {
-      "epoch": 2.84,
-      "learning_rate": 0.0002,
-      "loss": 2.0066,
-      "step": 286
-    },
-    {
-      "epoch": 2.86,
-      "learning_rate": 0.0002,
-      "loss": 1.9752,
-      "step": 288
-    },
-    {
-      "epoch": 2.88,
-      "learning_rate": 0.0002,
-      "loss": 2.0953,
-      "step": 290
-    },
-    {
-      "epoch": 2.9,
-      "learning_rate": 0.0002,
-      "loss": 2.0454,
-      "step": 292
-    },
-    {
-      "epoch": 2.92,
-      "learning_rate": 0.0002,
-      "loss": 1.9639,
-      "step": 294
-    },
-    {
-      "epoch": 2.94,
-      "learning_rate": 0.0002,
-      "loss": 1.9039,
-      "step": 296
-    },
-    {
-      "epoch": 2.96,
-      "learning_rate": 0.0002,
-      "loss": 1.7684,
-      "step": 298
-    },
-    {
-      "epoch": 2.98,
-      "learning_rate": 0.0002,
-      "loss": 1.719,
-      "step": 300
     }
   ],
   "logging_steps": 2,
-  "max_steps": 300,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 2.612372246097101e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9944064636420137,
   "eval_steps": 500,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.02,
       "learning_rate": 0.0002,
+      "loss": 2.6734,
       "step": 2
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.0002,
+      "loss": 2.5223,
       "step": 4
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.0002,
+      "loss": 2.5395,
       "step": 6
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.0002,
+      "loss": 2.4201,
       "step": 8
     },
     {
       "epoch": 0.1,
       "learning_rate": 0.0002,
+      "loss": 2.4077,
       "step": 10
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.0002,
+      "loss": 2.46,
       "step": 12
     },
     {
       "epoch": 0.14,
       "learning_rate": 0.0002,
+      "loss": 2.3741,
       "step": 14
     },
     {
       "epoch": 0.16,
       "learning_rate": 0.0002,
+      "loss": 2.5008,
       "step": 16
     },
     {
       "epoch": 0.18,
       "learning_rate": 0.0002,
+      "loss": 2.3597,
       "step": 18
     },
     {
       "epoch": 0.2,
       "learning_rate": 0.0002,
+      "loss": 2.1931,
       "step": 20
     },
     {
       "epoch": 0.22,
       "learning_rate": 0.0002,
+      "loss": 2.3606,
       "step": 22
     },
     {
       "epoch": 0.24,
       "learning_rate": 0.0002,
+      "loss": 2.4487,
       "step": 24
     },
     {
       "epoch": 0.26,
       "learning_rate": 0.0002,
+      "loss": 2.2416,
       "step": 26
     },
     {
       "epoch": 0.28,
       "learning_rate": 0.0002,
+      "loss": 2.3211,
       "step": 28
     },
     {
       "epoch": 0.3,
       "learning_rate": 0.0002,
+      "loss": 2.3693,
       "step": 30
     },
     {
       "epoch": 0.32,
       "learning_rate": 0.0002,
+      "loss": 2.3048,
       "step": 32
     },
     {
       "epoch": 0.34,
       "learning_rate": 0.0002,
+      "loss": 2.2307,
       "step": 34
     },
     {
       "epoch": 0.36,
       "learning_rate": 0.0002,
+      "loss": 2.3252,
       "step": 36
     },
     {
       "epoch": 0.38,
       "learning_rate": 0.0002,
+      "loss": 2.3334,
       "step": 38
     },
     {
       "epoch": 0.4,
       "learning_rate": 0.0002,
+      "loss": 2.1768,
       "step": 40
     },
     {
       "epoch": 0.42,
       "learning_rate": 0.0002,
+      "loss": 2.1346,
       "step": 42
     },
     {
       "epoch": 0.44,
       "learning_rate": 0.0002,
+      "loss": 2.1112,
       "step": 44
     },
     {
       "epoch": 0.46,
       "learning_rate": 0.0002,
+      "loss": 2.1268,
       "step": 46
     },
     {
       "epoch": 0.48,
       "learning_rate": 0.0002,
+      "loss": 2.0301,
       "step": 48
     },
     {
       "epoch": 0.5,
       "learning_rate": 0.0002,
+      "loss": 2.104,
       "step": 50
     },
     {
       "epoch": 0.52,
       "learning_rate": 0.0002,
+      "loss": 2.1416,
       "step": 52
     },
     {
       "epoch": 0.54,
       "learning_rate": 0.0002,
+      "loss": 2.2677,
       "step": 54
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.0002,
+      "loss": 2.2711,
       "step": 56
     },
     {
       "epoch": 0.58,
       "learning_rate": 0.0002,
+      "loss": 2.1959,
       "step": 58
     },
     {
       "epoch": 0.6,
       "learning_rate": 0.0002,
+      "loss": 2.2885,
       "step": 60
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.0002,
+      "loss": 2.293,
       "step": 62
     },
     {
       "epoch": 0.64,
       "learning_rate": 0.0002,
+      "loss": 2.3157,
       "step": 64
     },
     {
       "epoch": 0.66,
       "learning_rate": 0.0002,
+      "loss": 2.2223,
       "step": 66
     },
     {
       "epoch": 0.68,
       "learning_rate": 0.0002,
+      "loss": 2.1248,
       "step": 68
     },
     {
       "epoch": 0.7,
       "learning_rate": 0.0002,
+      "loss": 2.0144,
       "step": 70
     },
     {
       "epoch": 0.72,
       "learning_rate": 0.0002,
+      "loss": 2.1136,
       "step": 72
     },
     {
       "epoch": 0.74,
       "learning_rate": 0.0002,
+      "loss": 2.2022,
       "step": 74
     },
     {
       "epoch": 0.76,
       "learning_rate": 0.0002,
+      "loss": 2.0508,
       "step": 76
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0002,
+      "loss": 2.1912,
       "step": 78
     },
     {
       "epoch": 0.8,
       "learning_rate": 0.0002,
+      "loss": 2.3011,
       "step": 80
     },
     {
       "epoch": 0.82,
       "learning_rate": 0.0002,
+      "loss": 2.1513,
       "step": 82
     },
     {
       "epoch": 0.84,
       "learning_rate": 0.0002,
+      "loss": 2.2956,
       "step": 84
     },
     {
       "epoch": 0.86,
       "learning_rate": 0.0002,
+      "loss": 2.1961,
       "step": 86
     },
     {
       "epoch": 0.88,
       "learning_rate": 0.0002,
+      "loss": 2.1879,
       "step": 88
     },
     {
       "epoch": 0.89,
       "learning_rate": 0.0002,
+      "loss": 2.0191,
       "step": 90
     },
     {
       "epoch": 0.91,
       "learning_rate": 0.0002,
+      "loss": 2.1988,
       "step": 92
     },
     {
       "epoch": 0.93,
       "learning_rate": 0.0002,
+      "loss": 1.9186,
       "step": 94
     },
     {
       "epoch": 0.95,
       "learning_rate": 0.0002,
+      "loss": 1.9487,
       "step": 96
     },
     {
       "epoch": 0.97,
       "learning_rate": 0.0002,
+      "loss": 1.9328,
       "step": 98
     },
     {
       "epoch": 0.99,
       "learning_rate": 0.0002,
+      "loss": 2.0568,
       "step": 100
     }
   ],
   "logging_steps": 2,
+  "max_steps": 100,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 8622354846867456.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:adfe46aed346f74908f655d2e2f142221a67caf58bc32c87cb4f0db24880e60a
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:52e0bf11052fc5400b27a40e0097429b7b7441842497f5cd45007f996e627210
 size 4728