Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

adapter_config.json +1 -1
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
special_tokens_map.json +3 -25
tokenizer.json +0 -27
tokenizer_config.json +3 -31
trainer_state.json +52 -208
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -20,8 +20,8 @@
   "revision": null,
   "target_modules": [
     "query_key_value",
-    "dense",
     "dense_h_to_4h",
     "dense_4h_to_h"
   ],
   "task_type": "CAUSAL_LM",

   "revision": null,
   "target_modules": [
     "query_key_value",
     "dense_h_to_4h",
+    "dense",
     "dense_4h_to_h"
   ],
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fddb2469e6ffe1163534c9cea4ae13c8a9672bf68d3d2abe558cce949943902e
 size 134235712

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1498a003705f5dc06807d024876b15d8df8a44c2e04b42e597c51d06c3780b0
 size 134235712

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:314d2ba87e948610c2ad9be021f9d9906adc2aed9ce526e3d2329042f35ff5c2
 size 268514874

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b38ca7b86273250274e0d6a3a5676932493365d4eb943ac6e711970cb97cd73
 size 268514874

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1a8122975853f947e69e03187a29428024ead29190ec994e53ee279eeb7c9ad
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:98fe5f2173f9e5ac71064e84ba62ff7741e3d2ed1014d512a7a0fcde357a9886
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81007ec48272bbdc4f9622c046f9c026bf8120ed11d1398fd97bb5168a6f3dda
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b371ae767212827ffe8a91587d7467c4f40f93812413ed6571b08320a4c26332
 size 1064

special_tokens_map.json CHANGED Viewed

@@ -1,41 +1,19 @@
 {
-  "additional_special_tokens": [
-    {
-      "content": "<|im_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false
-    },
-    {
-      "content": "<|im_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false
-    }
-  ],
   "bos_token": {
-    "content": "<|im_start|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "eos_token": {
-    "content": "<|im_end|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "[PAD]",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "unk_token": {
     "content": "<|endoftext|>",
     "lstrip": false,

 {
   "bos_token": {
+    "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "eos_token": {
+    "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
+  "pad_token": "<|endoftext|>",
   "unk_token": {
     "content": "<|endoftext|>",
     "lstrip": false,

tokenizer.json CHANGED Viewed

@@ -232,33 +232,6 @@
       "rstrip": false,
       "normalized": true,
       "special": false
-    },
-    {
-      "id": 50277,
-      "content": "[PAD]",
-      "single_word": false,
-      "lstrip": false,
-      "rstrip": false,
-      "normalized": false,
-      "special": true
-    },
-    {
-      "id": 50278,
-      "content": "<|im_end|>",
-      "single_word": false,
-      "lstrip": false,
-      "rstrip": false,
-      "normalized": false,
-      "special": true
-    },
-    {
-      "id": 50279,
-      "content": "<|im_start|>",
-      "single_word": false,
-      "lstrip": false,
-      "rstrip": false,
-      "normalized": false,
-      "special": true
     }
   ],
   "normalizer": {

       "rstrip": false,
       "normalized": true,
       "special": false
     }
   ],
   "normalizer": {

tokenizer_config.json CHANGED Viewed

@@ -200,41 +200,13 @@
       "rstrip": false,
       "single_word": false,
       "special": false
-    },
-    "50277": {
-      "content": "[PAD]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "50278": {
-      "content": "<|im_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "50279": {
-      "content": "<|im_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
     }
   },
-  "additional_special_tokens": [
-    "<|im_end|>",
-    "<|im_start|>"
-  ],
-  "bos_token": "<|im_start|>",
   "clean_up_tokenization_spaces": true,
-  "eos_token": "<|im_end|>",
   "model_max_length": 1000000000000000019884624838656,
-  "pad_token": "[PAD]",
   "tokenizer_class": "GPTNeoXTokenizer",
   "unk_token": "<|endoftext|>"
 }

       "rstrip": false,
       "single_word": false,
       "special": false
     }
   },
+  "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
   "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|endoftext|>",
   "tokenizer_class": "GPTNeoXTokenizer",
   "unk_token": "<|endoftext|>"
 }

trainer_state.json CHANGED Viewed

@@ -1,320 +1,164 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9944064636420137,
   "eval_steps": 500,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.02,
       "learning_rate": 0.0002,
-      "loss": 2.6734,
       "step": 2
     },
     {
-      "epoch": 0.04,
       "learning_rate": 0.0002,
-      "loss": 2.5223,
       "step": 4
     },
     {
-      "epoch": 0.06,
       "learning_rate": 0.0002,
-      "loss": 2.5395,
       "step": 6
     },
     {
-      "epoch": 0.08,
       "learning_rate": 0.0002,
-      "loss": 2.4201,
       "step": 8
     },
     {
-      "epoch": 0.1,
       "learning_rate": 0.0002,
-      "loss": 2.4077,
       "step": 10
     },
     {
-      "epoch": 0.12,
       "learning_rate": 0.0002,
-      "loss": 2.46,
       "step": 12
     },
     {
-      "epoch": 0.14,
       "learning_rate": 0.0002,
-      "loss": 2.3741,
       "step": 14
     },
     {
-      "epoch": 0.16,
       "learning_rate": 0.0002,
-      "loss": 2.5008,
       "step": 16
     },
     {
-      "epoch": 0.18,
       "learning_rate": 0.0002,
-      "loss": 2.3597,
       "step": 18
     },
     {
-      "epoch": 0.2,
       "learning_rate": 0.0002,
-      "loss": 2.1931,
       "step": 20
     },
     {
-      "epoch": 0.22,
       "learning_rate": 0.0002,
-      "loss": 2.3606,
       "step": 22
     },
     {
-      "epoch": 0.24,
       "learning_rate": 0.0002,
-      "loss": 2.4487,
       "step": 24
     },
     {
-      "epoch": 0.26,
       "learning_rate": 0.0002,
-      "loss": 2.2416,
       "step": 26
     },
     {
-      "epoch": 0.28,
       "learning_rate": 0.0002,
-      "loss": 2.3211,
       "step": 28
     },
     {
-      "epoch": 0.3,
       "learning_rate": 0.0002,
-      "loss": 2.3693,
       "step": 30
     },
     {
-      "epoch": 0.32,
       "learning_rate": 0.0002,
-      "loss": 2.3048,
       "step": 32
     },
     {
-      "epoch": 0.34,
       "learning_rate": 0.0002,
-      "loss": 2.2307,
       "step": 34
     },
     {
-      "epoch": 0.36,
       "learning_rate": 0.0002,
-      "loss": 2.3252,
       "step": 36
     },
     {
-      "epoch": 0.38,
       "learning_rate": 0.0002,
-      "loss": 2.3334,
       "step": 38
     },
     {
-      "epoch": 0.4,
       "learning_rate": 0.0002,
-      "loss": 2.1768,
       "step": 40
     },
     {
-      "epoch": 0.42,
       "learning_rate": 0.0002,
-      "loss": 2.1346,
       "step": 42
     },
     {
-      "epoch": 0.44,
       "learning_rate": 0.0002,
-      "loss": 2.1112,
       "step": 44
     },
     {
-      "epoch": 0.46,
       "learning_rate": 0.0002,
-      "loss": 2.1268,
       "step": 46
     },
     {
-      "epoch": 0.48,
       "learning_rate": 0.0002,
-      "loss": 2.0301,
       "step": 48
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 0.0002,
-      "loss": 2.104,
-      "step": 50
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 0.0002,
-      "loss": 2.1416,
-      "step": 52
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 0.0002,
-      "loss": 2.2677,
-      "step": 54
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 0.0002,
-      "loss": 2.2711,
-      "step": 56
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 0.0002,
-      "loss": 2.1959,
-      "step": 58
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 0.0002,
-      "loss": 2.2885,
-      "step": 60
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 0.0002,
-      "loss": 2.293,
-      "step": 62
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 0.0002,
-      "loss": 2.3157,
-      "step": 64
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 0.0002,
-      "loss": 2.2223,
-      "step": 66
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 0.0002,
-      "loss": 2.1248,
-      "step": 68
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 0.0002,
-      "loss": 2.0144,
-      "step": 70
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 0.0002,
-      "loss": 2.1136,
-      "step": 72
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 0.0002,
-      "loss": 2.2022,
-      "step": 74
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 0.0002,
-      "loss": 2.0508,
-      "step": 76
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 0.0002,
-      "loss": 2.1912,
-      "step": 78
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 0.0002,
-      "loss": 2.3011,
-      "step": 80
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 0.0002,
-      "loss": 2.1513,
-      "step": 82
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 0.0002,
-      "loss": 2.2956,
-      "step": 84
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 0.0002,
-      "loss": 2.1961,
-      "step": 86
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 0.0002,
-      "loss": 2.1879,
-      "step": 88
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 0.0002,
-      "loss": 2.0191,
-      "step": 90
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 0.0002,
-      "loss": 2.1988,
-      "step": 92
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 0.0002,
-      "loss": 1.9186,
-      "step": 94
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 0.0002,
-      "loss": 1.9487,
-      "step": 96
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 0.0002,
-      "loss": 1.9328,
-      "step": 98
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 0.0002,
-      "loss": 2.0568,
-      "step": 100
     }
   ],
   "logging_steps": 2,
-  "max_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 8622354846867456.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9846153846153847,
   "eval_steps": 500,
+  "global_step": 48,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.04,
       "learning_rate": 0.0002,
+      "loss": 2.2696,
       "step": 2
     },
     {
+      "epoch": 0.08,
       "learning_rate": 0.0002,
+      "loss": 2.4542,
       "step": 4
     },
     {
+      "epoch": 0.12,
       "learning_rate": 0.0002,
+      "loss": 2.3623,
       "step": 6
     },
     {
+      "epoch": 0.16,
       "learning_rate": 0.0002,
+      "loss": 2.5283,
       "step": 8
     },
     {
+      "epoch": 0.21,
       "learning_rate": 0.0002,
+      "loss": 2.5501,
       "step": 10
     },
     {
+      "epoch": 0.25,
       "learning_rate": 0.0002,
+      "loss": 2.7343,
       "step": 12
     },
     {
+      "epoch": 0.29,
       "learning_rate": 0.0002,
+      "loss": 2.1721,
       "step": 14
     },
     {
+      "epoch": 0.33,
       "learning_rate": 0.0002,
+      "loss": 2.2801,
       "step": 16
     },
     {
+      "epoch": 0.37,
       "learning_rate": 0.0002,
+      "loss": 2.4526,
       "step": 18
     },
     {
+      "epoch": 0.41,
       "learning_rate": 0.0002,
+      "loss": 2.4499,
       "step": 20
     },
     {
+      "epoch": 0.45,
       "learning_rate": 0.0002,
+      "loss": 2.4254,
       "step": 22
     },
     {
+      "epoch": 0.49,
       "learning_rate": 0.0002,
+      "loss": 2.6891,
       "step": 24
     },
     {
+      "epoch": 0.53,
       "learning_rate": 0.0002,
+      "loss": 2.2323,
       "step": 26
     },
     {
+      "epoch": 0.57,
       "learning_rate": 0.0002,
+      "loss": 2.1318,
       "step": 28
     },
     {
+      "epoch": 0.62,
       "learning_rate": 0.0002,
+      "loss": 2.6934,
       "step": 30
     },
     {
+      "epoch": 0.66,
       "learning_rate": 0.0002,
+      "loss": 2.4916,
       "step": 32
     },
     {
+      "epoch": 0.7,
       "learning_rate": 0.0002,
+      "loss": 2.6042,
       "step": 34
     },
     {
+      "epoch": 0.74,
       "learning_rate": 0.0002,
+      "loss": 2.6981,
       "step": 36
     },
     {
+      "epoch": 0.78,
       "learning_rate": 0.0002,
+      "loss": 2.3111,
       "step": 38
     },
     {
+      "epoch": 0.82,
       "learning_rate": 0.0002,
+      "loss": 2.3537,
       "step": 40
     },
     {
+      "epoch": 0.86,
       "learning_rate": 0.0002,
+      "loss": 2.5255,
       "step": 42
     },
     {
+      "epoch": 0.9,
       "learning_rate": 0.0002,
+      "loss": 2.3537,
       "step": 44
     },
     {
+      "epoch": 0.94,
       "learning_rate": 0.0002,
+      "loss": 2.5072,
       "step": 46
     },
     {
+      "epoch": 0.98,
       "learning_rate": 0.0002,
+      "loss": 2.4306,
       "step": 48
     }
   ],
   "logging_steps": 2,
+  "max_steps": 48,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 2047338095837184.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52e0bf11052fc5400b27a40e0097429b7b7441842497f5cd45007f996e627210
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee130089c2b6cb201cbccea96e2e23972d6b73ac0c5bb342769e44977ea7d1af
 size 4728