Add pretrained model

Browse files

Files changed (13) hide show

config.json +10 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
rng_state_2.pth +3 -0
rng_state_3.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +4 -0
tokenizer.json +0 -0
tokenizer_config.json +8 -0
trainer_state.json +196 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "architectures": [
+    "MambaModel"
+  ],
+  "d_model": 512,
+  "mamba_layer": 24,
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.2",
+  "vocab_size": 25426
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:07a8347e2037f04f81aa44c66249be1a046ddb99a880d66005d8e4e64a099689
+size 262998656

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac7b77ee39b6b682a8ee916e75fda7013310e73d61a43147d2c2115d7a0f8e9f
+size 526118394

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:08c0461ead1d086b6a7b05ee652866e36e6149706b273358575cd003c7a3c74f
+size 14960

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6535ceff04190f148d8ab8cf37f923d0d48880339c08388a16cbac532cacaa26
+size 14960

rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0ff44d5a772eb074ac4c7038ce3ad928f186c1109b33721d9e18813b8ea9821d
+size 14960

rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd493093e5f3d375ac8690daf11ca272b0923a4906fa47075345bbccd33df4ce
+size 14960

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c98faabda8bc1e24341e61d274292ecafdf6fa257df7d8331e9214e8b4643aa0
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "pad_token": "[PAD]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "added_tokens_decoder": {},
+  "clean_up_tokenization_spaces": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "unk_token": "[UNK]"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,196 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 31250,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "grad_norm": 0.00015208835247904062,
+      "learning_rate": 4.8e-05,
+      "loss": 0.0005,
+      "step": 1250
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.000780147616751492,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.0001,
+      "step": 2500
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 2.6835205062525347e-05,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.0002,
+      "step": 3750
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.0013310563517734408,
+      "learning_rate": 4.2e-05,
+      "loss": 0.0,
+      "step": 5000
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 2.0090383259230293e-05,
+      "learning_rate": 4e-05,
+      "loss": 0.0,
+      "step": 6250
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.0005068681784905493,
+      "learning_rate": 3.8e-05,
+      "loss": 0.0001,
+      "step": 7500
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 0.0011675615096464753,
+      "learning_rate": 3.6e-05,
+      "loss": 0.0004,
+      "step": 8750
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 1.4769906556466594e-05,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.0,
+      "step": 10000
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 0.000697318697348237,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.0,
+      "step": 11250
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.0014425746630877256,
+      "learning_rate": 3e-05,
+      "loss": 0.0,
+      "step": 12500
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 5.298478572512977e-05,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.0,
+      "step": 13750
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 2.2371379600372165e-05,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.0,
+      "step": 15000
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 0.0001511627488071099,
+      "learning_rate": 2.4e-05,
+      "loss": 0.0,
+      "step": 16250
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 0.0011282784398645163,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.0,
+      "step": 17500
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 6.4835912780836225e-06,
+      "learning_rate": 2e-05,
+      "loss": 0.0,
+      "step": 18750
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 6.069922619644785e-06,
+      "learning_rate": 1.8e-05,
+      "loss": 0.0,
+      "step": 20000
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 3.5463058338791598e-06,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.0,
+      "step": 21250
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 1.4286022633314133e-05,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.0,
+      "step": 22500
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 5.859881639480591e-06,
+      "learning_rate": 1.2e-05,
+      "loss": 0.0,
+      "step": 23750
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 7.3442338361928705e-06,
+      "learning_rate": 1e-05,
+      "loss": 0.0,
+      "step": 25000
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 8.827374585962389e-06,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.0,
+      "step": 26250
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 5.32037984157796e-06,
+      "learning_rate": 6e-06,
+      "loss": 0.0,
+      "step": 27500
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 2.4539526748412754e-06,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.0,
+      "step": 28750
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 4.904304205410881e-06,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.0,
+      "step": 30000
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 2.830231323969201e-06,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 31250
+    }
+  ],
+  "logging_steps": 1250,
+  "max_steps": 31250,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1250,
+  "total_flos": 1.2558389540626104e+18,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d1b2c297b9f6ca56c10529b42fa95f5ef87ec325355dee476ba664a2fd52d5cd
+size 5048