Upload 13 files

Browse files

Files changed (13) hide show

config.json +36 -0
generation_config.json +7 -0
optimizer.pt +3 -0
pytorch_model-00001-of-00002.bin +3 -0
pytorch_model-00002-of-00002.bin +3 -0
pytorch_model.bin.index.json +490 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer_config.json +214 -0
trainer_state.json +0 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "architectures": [
+    "MambaForCausalLM"
+  ],
+  "bos_token_id": 0,
+  "conv_kernel": 4,
+  "eos_token_id": 0,
+  "expand": 2,
+  "fused_add_norm": true,
+  "hidden_act": "silu",
+  "hidden_size": 2560,
+  "initializer_range": 0.1,
+  "intermediate_size": 5120,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "mamba",
+  "n_layer": 48,
+  "num_hidden_layers": 48,
+  "pad_token_id": 0,
+  "pad_vocab_size_multiple": 8,
+  "rescale_prenorm_residual": false,
+  "residual_in_fp32": true,
+  "rms_norm": true,
+  "state_size": 16,
+  "time_step_floor": 0.0001,
+  "time_step_init_scheme": "random",
+  "time_step_max": 0.1,
+  "time_step_min": 0.001,
+  "time_step_rank": 160,
+  "time_step_scale": 1.0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.0",
+  "use_bias": false,
+  "use_cache": true,
+  "use_conv_bias": true,
+  "vocab_size": 50280
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "pad_token_id": 0,
+  "transformers_version": "4.41.0"
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:28aceec4f38f616d2c4ab1075c278738b8ed8786740f296b6efd8d596ee1027c
+size 16867928192

pytorch_model-00001-of-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2d044e62b284b79f170fe6a948c1b789b661b855da817d57a94dc4e69ffd0f0
+size 4969794150

pytorch_model-00002-of-00002.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:617831e2ea9c23548b4bf740f7148daea93c223259068526b16f6ded666f3d6f
+size 3464130832

pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,490 @@

+{
+  "metadata": {
+    "total_size": 8433756160
+  },
+  "weight_map": {
+    "backbone.embeddings.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.0.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.0.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.0.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.0.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.0.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.0.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.0.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.0.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.0.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.0.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.1.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.1.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.1.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.1.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.1.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.1.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.1.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.1.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.1.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.1.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.10.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.10.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.10.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.10.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.10.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.10.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.10.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.10.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.10.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.10.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.11.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.11.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.11.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.11.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.11.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.11.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.11.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.11.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.11.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.11.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.12.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.12.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.12.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.12.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.12.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.12.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.12.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.12.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.12.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.12.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.13.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.13.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.13.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.13.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.13.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.13.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.13.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.13.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.13.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.13.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.14.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.14.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.14.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.14.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.14.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.14.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.14.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.14.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.14.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.14.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.15.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.15.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.15.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.15.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.15.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.15.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.15.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.15.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.15.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.15.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.16.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.16.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.16.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.16.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.16.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.16.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.16.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.16.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.16.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.16.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.17.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.17.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.17.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.17.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.17.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.17.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.17.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.17.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.17.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.17.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.18.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.18.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.18.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.18.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.18.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.18.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.18.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.18.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.18.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.18.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.19.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.19.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.19.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.19.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.19.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.19.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.19.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.19.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.19.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.19.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.2.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.2.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.2.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.2.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.2.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.2.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.2.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.2.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.2.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.2.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.20.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.20.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.20.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.20.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.20.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.20.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.20.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.20.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.20.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.20.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.21.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.21.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.21.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.21.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.21.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.21.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.21.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.21.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.21.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.21.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.22.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.22.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.22.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.22.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.22.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.22.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.22.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.22.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.22.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.22.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.23.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.23.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.23.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.23.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.23.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.23.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.23.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.23.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.23.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.23.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.24.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.24.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.24.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.24.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.24.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.24.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.24.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.24.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.24.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.24.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.25.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.25.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.25.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.25.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.25.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.25.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.25.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.25.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.25.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.25.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.26.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.26.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.26.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.26.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.26.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.26.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.26.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.26.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.26.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.26.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.27.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.27.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.27.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.27.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.27.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.27.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.27.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.27.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.27.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.27.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.28.mixer.A_log": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.28.mixer.D": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.28.mixer.conv1d.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.28.mixer.conv1d.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.28.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.28.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.28.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.28.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.28.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.28.norm.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.29.mixer.A_log": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.29.mixer.D": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.29.mixer.conv1d.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.29.mixer.conv1d.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.29.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.29.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.29.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.29.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.29.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.29.norm.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.3.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.3.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.3.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.3.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.3.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.3.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.3.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.3.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.3.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.3.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.30.mixer.A_log": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.30.mixer.D": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.30.mixer.conv1d.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.30.mixer.conv1d.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.30.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.30.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.30.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.30.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.30.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.30.norm.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.31.mixer.A_log": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.31.mixer.D": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.31.mixer.conv1d.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.31.mixer.conv1d.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.31.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.31.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.31.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.31.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.31.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.31.norm.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.32.mixer.A_log": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.32.mixer.D": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.32.mixer.conv1d.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.32.mixer.conv1d.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.32.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.32.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.32.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.32.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.32.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.32.norm.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.33.mixer.A_log": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.33.mixer.D": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.33.mixer.conv1d.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.33.mixer.conv1d.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.33.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.33.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.33.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.33.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.33.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.33.norm.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.34.mixer.A_log": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.34.mixer.D": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.34.mixer.conv1d.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.34.mixer.conv1d.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.34.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.34.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.34.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.34.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.34.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.34.norm.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.35.mixer.A_log": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.35.mixer.D": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.35.mixer.conv1d.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.35.mixer.conv1d.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.35.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.35.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.35.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.35.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.35.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.35.norm.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.36.mixer.A_log": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.36.mixer.D": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.36.mixer.conv1d.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.36.mixer.conv1d.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.36.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.36.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.36.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.36.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.36.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.36.norm.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.37.mixer.A_log": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.37.mixer.D": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.37.mixer.conv1d.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.37.mixer.conv1d.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.37.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.37.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.37.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.37.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.37.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.37.norm.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.38.mixer.A_log": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.38.mixer.D": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.38.mixer.conv1d.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.38.mixer.conv1d.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.38.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.38.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.38.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.38.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.38.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.38.norm.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.39.mixer.A_log": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.39.mixer.D": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.39.mixer.conv1d.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.39.mixer.conv1d.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.39.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.39.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.39.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.39.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.39.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.39.norm.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.4.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.4.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.4.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.4.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.4.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.4.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.4.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.4.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.4.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.4.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.40.mixer.A_log": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.40.mixer.D": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.40.mixer.conv1d.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.40.mixer.conv1d.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.40.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.40.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.40.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.40.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.40.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.40.norm.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.41.mixer.A_log": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.41.mixer.D": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.41.mixer.conv1d.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.41.mixer.conv1d.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.41.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.41.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.41.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.41.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.41.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.41.norm.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.42.mixer.A_log": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.42.mixer.D": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.42.mixer.conv1d.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.42.mixer.conv1d.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.42.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.42.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.42.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.42.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.42.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.42.norm.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.43.mixer.A_log": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.43.mixer.D": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.43.mixer.conv1d.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.43.mixer.conv1d.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.43.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.43.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.43.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.43.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.43.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.43.norm.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.44.mixer.A_log": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.44.mixer.D": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.44.mixer.conv1d.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.44.mixer.conv1d.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.44.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.44.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.44.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.44.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.44.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.44.norm.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.45.mixer.A_log": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.45.mixer.D": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.45.mixer.conv1d.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.45.mixer.conv1d.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.45.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.45.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.45.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.45.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.45.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.45.norm.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.46.mixer.A_log": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.46.mixer.D": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.46.mixer.conv1d.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.46.mixer.conv1d.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.46.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.46.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.46.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.46.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.46.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.46.norm.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.47.mixer.A_log": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.47.mixer.D": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.47.mixer.conv1d.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.47.mixer.conv1d.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.47.mixer.dt_proj.bias": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.47.mixer.dt_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.47.mixer.in_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.47.mixer.out_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.47.mixer.x_proj.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.47.norm.weight": "pytorch_model-00002-of-00002.bin",
+    "backbone.layers.5.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.5.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.5.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.5.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.5.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.5.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.5.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.5.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.5.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.5.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.6.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.6.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.6.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.6.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.6.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.6.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.6.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.6.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.6.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.6.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.7.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.7.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.7.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.7.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.7.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.7.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.7.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.7.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.7.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.7.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.8.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.8.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.8.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.8.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.8.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.8.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.8.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.8.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.8.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.8.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.9.mixer.A_log": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.9.mixer.D": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.9.mixer.conv1d.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.9.mixer.conv1d.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.9.mixer.dt_proj.bias": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.9.mixer.dt_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.9.mixer.in_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.9.mixer.out_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.9.mixer.x_proj.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.layers.9.norm.weight": "pytorch_model-00001-of-00002.bin",
+    "backbone.norm_f.weight": "pytorch_model-00002-of-00002.bin",
+    "lm_head.weight": "pytorch_model-00001-of-00002.bin"
+  }
+}

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:386fcc8cc1089aade9450d86fb239ea3483f455fd2d78d8378645feecfec9d69
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41cd6a88d2d7f809d13bb42dda010de83344837fa38fb584b22d32f177162581
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,214 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|padding|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50254": {
+      "content": "                        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50255": {
+      "content": "                       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50256": {
+      "content": "                      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50257": {
+      "content": "                     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50258": {
+      "content": "                    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50259": {
+      "content": "                   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50260": {
+      "content": "                  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50261": {
+      "content": "                 ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50262": {
+      "content": "                ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50263": {
+      "content": "               ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50264": {
+      "content": "              ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50265": {
+      "content": "             ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50266": {
+      "content": "            ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50267": {
+      "content": "           ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50268": {
+      "content": "          ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50269": {
+      "content": "         ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50270": {
+      "content": "        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50271": {
+      "content": "       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50272": {
+      "content": "      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50273": {
+      "content": "     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50274": {
+      "content": "    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50275": {
+      "content": "   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50276": {
+      "content": "  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPTNeoXTokenizer",
+  "unk_token": "<|endoftext|>"
+}

trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:47947ad77b77f97c177fd9d7f8b1faa1906cfe44ebce02481444a2f0faa2fa96
+size 5112