falcon3 release

Browse files

Files changed (11) hide show

.gitattributes +35 -0
README.md +217 -0
config.json +35 -0
generation_config.json +10 -0
model-00001-of-00003.safetensors +3 -0
model-00002-of-00003.safetensors +3 -0
model-00003-of-00003.safetensors +3 -0
model.safetensors.index.json +650 -0
special_tokens_map.json +36 -0
tokenizer.json +0 -0
tokenizer_config.json +130 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,217 @@

+---
+language:
+- en
+tags:
+- falcon3
+- falcon3_mamba
+- falcon_mamba
+base_model:
+- tiiuae/Falcon3-Mamba-7B-Base
+---
+# Falcon3-Mamba-7B-Instruct
+**Falcon3** family of Open Foundation Models is a set of pretrained and instruct LLMs ranging from 1B to 10B.
+This repository contains the **Falcon3-Mamba-7B-Instruct**. It achieves, compared to similar SSM-based models of the same size, state of art results (at release's time) on reasoning, language understanding, instruction following, code and mathematics tasks.
+Falcon3-Mamba-7B-Instruct supports a context length up to 32K and was mainly trained on english corpus.
+## Model Details
+- Architecture (same as [Falcon-Mamba-7b](https://huggingface.co/tiiuae/falcon-mamba-7b))
+  - Mamba1 based causal decoder only architecture trained on a causal language modeling task (i.e., predict the next token).
+  - 64 decoder blocks
+  - width: 4096
+  - state_size: 16
+  - 32k context length
+  - 65k vocab size
+- Continue Pretrained from [Falcon Mamba 7B](https://huggingface.co/tiiuae/falcon-mamba-7b), with another 1500 Gigatokens of data comprising of web, code, STEM and high quality data.
+- Postrained on 1.2 million samples of STEM, conversations, code, and safety.
+- Developed by [Technology Innovation Institute](https://www.tii.ae)
+- License: TII Falcon-LLM License 2.0
+- Model Release Date: December 2024
+## Getting started
+<details>
+<summary> Click to expand </summary>
+```python
+from transformers import AutoTokenizer, AutoModelForCausalLM
+from transformers import AutoModelForCausalLM, AutoTokenizer
+model_name = "tiiuae/Falcon3-Mamba-7B-Instruct"
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype="auto",
+    device_map="auto"
+)
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+prompt = "How many hours in one day?"
+messages = [
+    {"role": "system", "content": "You are a helpful friendly assistant Falcon3 from TII, try to follow instructions as much as possible."},
+    {"role": "user", "content": prompt}
+]
+text = tokenizer.apply_chat_template(
+    messages,
+    tokenize=False,
+    add_generation_prompt=True
+)
+model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
+generated_ids = model.generate(
+    **model_inputs,
+    max_new_tokens=1024
+)
+generated_ids = [
+    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
+]
+response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
+print(response)
+```
+</details>
+<br>
+# Benchmarks
+We report in the following table our internal pipeline benchmarks. For the benchmarks marked by star, we normalize the results with HuggingFace score normalization:
+<table border="1" style="width: 100%; text-align: center; border-collapse: collapse;">
+    <colgroup>
+        <col style="width: 10%;">
+        <col style="width: 10%;">
+        <col style="width: 7%;">
+        <col style="width: 7%;">
+        <col style="width: 7%;">
+        <col style="background-color: rgba(80, 15, 213, 0.5); width: 7%;">
+    </colgroup>
+    <thead>
+        <tr>
+            <th>Category</th>
+            <th>Benchmark</th>
+            <th>Zamba2-7B-instruct</th>
+            <th>Jamba-1.5-Mini</th>
+            <th>Llama-3.1-8B-Instruct</th>
+            <th>Falcon3-Mamba-7B-Instruct</th>
+        </tr>
+    </thead>
+    <tbody>
+        <tr>
+            <td rowspan="3">General</td>
+            <td>MMLU (5-shot)</td>
+            <td>-</td>
+            <td>68.7%</td>
+            <td>55.9%</td>
+            <td>65.3%</td>
+        </tr>
+        <tr>
+            <td>MMLU-PRO (5-shot)*</td>
+            <td>32.4%</td>
+            <td>31.6%</td>
+            <td>21.8%</td>
+            <td>26.3%</td>
+        </tr>
+        <tr>
+            <td>IFEval</td>
+            <td>69.9%</td>
+            <td>65.7%</td>
+            <td>78.8%</td>
+            <td>71.7%</td>
+        </tr>
+        <tr>
+            <td rowspan="2">Math</td>
+            <td>GSM8K (5-shot)</td>
+            <td>-</td>
+            <td>74.9%</td>
+            <td>19.2%</td>
+            <td>65.2%</td>
+        </tr>
+        <tr>
+            <td>MATH Lvl-5 (4-shot)</td>
+            <td>-</td>
+            <td>6.9%</td>
+            <td>10.4%</td>
+            <td>27.3%</td>
+        </tr>
+        <tr>
+            <td rowspan="4">Reasoning</td>
+            <td>Arc Challenge (25-shot)</td>
+            <td>-</td>
+            <td>54.3%</td>
+            <td>46.6%</td>
+            <td>53.7%</td>
+        </tr>
+        <tr>
+            <td>GPQA (0-shot)*</td>
+            <td>10.3%</td>
+            <td>11.1%</td>
+            <td>33.6%</td>
+            <td>7.2%</td>
+        </tr>
+        <tr>
+            <td>MUSR (0-shot)*</td>
+            <td>8.2%</td>
+            <td>12.2%</td>
+            <td>38.6%</td>
+            <td>8.3%</td>
+        </tr>
+        <tr>
+            <td>BBH (3-shot)*</td>
+            <td>33.3%</td>
+            <td>35.3%</td>
+            <td>43.7%</td>
+            <td>25.2%</td>
+        </tr>
+        <tr>
+            <td rowspan="4">CommonSense Understanding</td>
+            <td>PIQA (0-shot)</td>
+            <td>-</td>
+            <td>82.3%</td>
+            <td>78.9%</td>
+            <td>80.9%</td>
+        </tr>
+        <tr>
+            <td>SciQ (0-shot)</td>
+            <td>-</td>
+            <td>94.9%</td>
+            <td>80.2%</td>
+            <td>93.6%</td>
+        </tr>
+        <tr>
+            <td>Winogrande (0-shot)</td>
+            <td>-</td>
+            <td>64.5%</td>
+            <td>-</td>
+            <td>-</td>
+        </tr>
+        <tr>
+            <td>OpenbookQA (0-shot)</td>
+            <td>-</td>
+            <td>34.6%</td>
+            <td>46.2%</td>
+            <td>47.2%</td>
+        </tr>
+    </tbody>
+</table>
+## Useful links
+- View our [release blogpost](https://huggingface.co/blog/falcon3).
+- Feel free to join [our discord server](https://discord.gg/fwXpMyGc) if you have any questions or to interact with our researchers and developers.
+## Citation
+If the Falcon3 family of models were helpful to your work, feel free to give us a cite.
+```
+@misc{Falcon3,
+    title = {The Falcon 3 Family of Open Models},
+    author = {Falcon-LLM Team},
+    month = {December},
+    year = {2024}
+}
+```

config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "architectures": [
+    "FalconMambaForCausalLM"
+  ],
+  "bos_token_id": 0,
+  "conv_kernel": 4,
+  "eos_token_id": 0,
+  "expand": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.1,
+  "intermediate_size": 8192,
+  "layer_norm_epsilon": 1e-05,
+  "mixer_rms_eps": 1e-05,
+  "model_type": "falcon_mamba",
+  "num_hidden_layers": 64,
+  "pad_token_id": 0,
+  "rescale_prenorm_residual": false,
+  "residual_in_fp32": true,
+  "state_size": 16,
+  "tie_word_embeddings": false,
+  "time_step_floor": 0.0001,
+  "time_step_init_scheme": "random",
+  "time_step_max": 0.1,
+  "time_step_min": 0.001,
+  "time_step_rank": 256,
+  "time_step_scale": 1.0,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.47.0",
+  "use_bias": false,
+  "use_cache": true,
+  "use_conv_bias": true,
+  "use_mambapy": false,
+  "vocab_size": 65024
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": [
+    10,
+    11
+  ],
+  "pad_token_id": 0,
+  "transformers_version": "4.47.0"
+}

model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:500dd14977bed48ef9d9221a781e1555b7da7d31a48cf128fc469767c7f87260
+size 4956184024

model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:33c6def23cf1f3f85791838409fda5e8a29fc1cb564071f0a795fa2378266825
+size 4987536920

model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b7f1f26946f4aee515a476d51d829760862f2380da88b99e7d99313d2628606
+size 4601680888

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,650 @@

+{
+  "metadata": {
+    "total_size": 14545330176
+  },
+  "weight_map": {
+    "backbone.embeddings.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.0.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.0.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.0.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.0.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.0.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.0.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.0.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.0.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.0.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.0.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.1.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.1.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.1.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.1.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.1.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.1.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.1.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.1.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.1.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.1.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.10.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.10.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.10.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.10.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.10.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.10.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.10.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.10.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.10.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.10.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.11.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.11.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.11.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.11.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.11.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.11.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.11.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.11.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.11.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.11.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.12.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.12.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.12.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.12.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.12.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.12.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.12.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.12.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.12.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.12.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.13.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.13.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.13.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.13.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.13.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.13.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.13.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.13.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.13.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.13.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.14.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.14.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.14.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.14.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.14.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.14.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.14.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.14.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.14.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.14.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.15.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.15.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.15.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.15.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.15.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.15.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.15.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.15.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.15.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.15.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.16.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.16.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.16.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.16.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.16.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.16.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.16.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.16.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.16.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.16.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.17.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.17.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.17.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.17.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.17.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.17.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.17.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.17.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.17.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.17.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.18.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.18.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.18.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.18.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.18.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.18.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.18.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.18.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.18.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.18.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.19.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.19.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.19.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.19.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.19.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.19.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.19.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.19.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.19.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.19.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.2.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.2.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.2.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.2.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.2.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.2.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.2.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.2.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.2.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.2.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.20.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.20.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.20.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.20.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.20.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.20.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.20.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.20.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.20.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.20.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.21.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.21.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.21.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.21.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.21.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.21.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.21.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.21.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.21.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.21.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.22.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.22.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.22.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.22.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.22.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.22.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.22.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.22.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.22.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.22.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.23.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.23.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.23.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.23.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.23.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.23.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.23.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.23.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.23.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.23.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.24.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.24.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.24.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.24.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.24.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.24.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.24.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.24.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.24.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.24.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.25.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.25.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.25.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.25.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.25.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.25.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.25.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.25.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.25.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.25.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.26.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.26.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.26.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.26.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.26.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.26.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.26.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.26.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.26.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.26.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.27.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.27.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.27.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.27.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.27.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.27.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.27.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.27.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.27.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.27.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.28.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.28.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.28.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.28.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.28.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.28.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.28.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.28.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.28.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.28.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.29.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.29.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.29.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.29.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.29.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.29.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.29.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.29.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.29.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.29.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.3.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.3.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.3.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.3.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.3.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.3.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.3.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.3.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.3.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.3.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.30.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.30.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.30.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.30.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.30.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.30.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.30.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.30.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.30.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.30.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.31.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.31.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.31.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.31.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.31.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.31.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.31.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.31.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.31.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.31.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.32.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.32.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.32.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.32.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.32.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.32.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.32.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.32.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.32.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.32.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.33.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.33.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.33.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.33.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.33.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.33.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.33.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.33.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.33.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.33.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.34.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.34.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.34.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.34.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.34.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.34.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.34.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.34.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.34.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.34.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.35.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.35.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.35.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.35.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.35.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.35.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.35.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.35.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.35.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.35.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.36.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.36.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.36.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.36.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.36.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.36.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.36.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.36.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.36.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.36.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.37.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.37.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.37.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.37.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.37.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.37.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.37.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.37.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.37.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.37.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.38.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.38.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.38.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.38.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.38.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.38.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.38.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.38.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.38.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.38.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.39.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.39.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.39.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.39.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.39.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.39.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.39.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.39.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.39.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.39.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.4.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.4.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.4.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.4.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.4.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.4.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.4.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.4.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.4.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.4.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.40.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.40.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.40.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.40.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.40.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.40.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.40.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.40.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.40.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.40.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.41.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.41.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.41.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.41.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.41.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.41.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.41.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.41.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.41.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.41.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.42.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.42.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.42.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.42.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.42.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.42.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.42.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.42.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.42.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.42.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.43.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.43.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.43.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.43.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.43.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.43.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.43.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.43.mixer.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.43.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.43.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.44.mixer.A_log": "model-00002-of-00003.safetensors",
+    "backbone.layers.44.mixer.D": "model-00002-of-00003.safetensors",
+    "backbone.layers.44.mixer.conv1d.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.44.mixer.conv1d.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.44.mixer.dt_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.layers.44.mixer.dt_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.44.mixer.in_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.44.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.44.mixer.x_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.44.norm.weight": "model-00002-of-00003.safetensors",
+    "backbone.layers.45.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.45.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.45.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.45.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.45.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.45.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.45.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.45.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.45.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.45.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.46.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.46.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.46.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.46.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.46.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.46.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.46.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.46.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.46.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.46.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.47.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.47.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.47.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.47.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.47.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.47.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.47.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.47.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.47.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.47.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.48.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.48.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.48.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.48.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.48.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.48.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.48.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.48.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.48.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.48.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.49.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.49.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.49.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.49.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.49.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.49.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.49.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.49.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.49.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.49.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.5.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.5.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.5.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.5.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.5.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.5.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.5.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.5.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.5.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.5.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.50.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.50.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.50.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.50.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.50.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.50.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.50.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.50.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.50.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.50.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.51.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.51.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.51.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.51.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.51.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.51.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.51.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.51.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.51.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.51.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.52.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.52.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.52.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.52.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.52.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.52.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.52.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.52.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.52.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.52.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.53.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.53.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.53.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.53.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.53.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.53.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.53.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.53.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.53.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.53.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.54.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.54.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.54.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.54.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.54.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.54.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.54.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.54.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.54.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.54.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.55.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.55.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.55.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.55.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.55.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.55.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.55.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.55.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.55.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.55.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.56.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.56.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.56.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.56.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.56.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.56.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.56.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.56.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.56.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.56.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.57.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.57.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.57.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.57.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.57.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.57.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.57.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.57.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.57.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.57.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.58.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.58.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.58.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.58.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.58.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.58.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.58.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.58.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.58.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.58.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.59.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.59.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.59.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.59.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.59.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.59.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.59.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.59.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.59.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.59.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.6.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.6.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.6.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.6.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.6.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.6.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.6.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.6.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.6.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.6.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.60.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.60.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.60.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.60.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.60.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.60.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.60.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.60.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.60.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.60.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.61.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.61.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.61.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.61.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.61.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.61.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.61.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.61.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.61.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.61.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.62.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.62.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.62.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.62.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.62.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.62.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.62.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.62.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.62.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.62.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.63.mixer.A_log": "model-00003-of-00003.safetensors",
+    "backbone.layers.63.mixer.D": "model-00003-of-00003.safetensors",
+    "backbone.layers.63.mixer.conv1d.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.63.mixer.conv1d.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.63.mixer.dt_proj.bias": "model-00003-of-00003.safetensors",
+    "backbone.layers.63.mixer.dt_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.63.mixer.in_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.63.mixer.out_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.63.mixer.x_proj.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.63.norm.weight": "model-00003-of-00003.safetensors",
+    "backbone.layers.7.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.7.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.7.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.7.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.7.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.7.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.7.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.7.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.7.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.7.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.8.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.8.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.8.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.8.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.8.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.8.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.8.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.8.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.8.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.8.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.9.mixer.A_log": "model-00001-of-00003.safetensors",
+    "backbone.layers.9.mixer.D": "model-00001-of-00003.safetensors",
+    "backbone.layers.9.mixer.conv1d.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.9.mixer.conv1d.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.9.mixer.dt_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.layers.9.mixer.dt_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.9.mixer.in_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.9.mixer.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.9.mixer.x_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.layers.9.norm.weight": "model-00001-of-00003.safetensors",
+    "backbone.norm_f.weight": "model-00003-of-00003.safetensors",
+    "lm_head.weight": "model-00003-of-00003.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "additional_special_tokens": [
+    ">>TITLE<<",
+    ">>ABSTRACT<<",
+    ">>INTRODUCTION<<",
+    ">>SUMMARY<<",
+    ">>COMMENT<<",
+    ">>ANSWER<<",
+    ">>QUESTION<<",
+    "assistant",
+    "<|begin_of_text|>",
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": {
+    "content": "<|begin_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|end_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": ">>TITLE<<",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": ">>TITLE<<",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": ">>ABSTRACT<<",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": ">>INTRODUCTION<<",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": ">>SUMMARY<<",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": ">>COMMENT<<",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": ">>ANSWER<<",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": ">>QUESTION<<",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "assistant",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "8": {
+      "content": "<|begin_of_text|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "9": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "10": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "11": {
+      "content": "<|end_of_text|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    ">>TITLE<<",
+    ">>ABSTRACT<<",
+    ">>INTRODUCTION<<",
+    ">>SUMMARY<<",
+    ">>COMMENT<<",
+    ">>ANSWER<<",
+    ">>QUESTION<<",
+    "assistant",
+    "<|begin_of_text|>",
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": "<|begin_of_text|>",
+  "chat_template": "{{bos_token}}{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|end_of_text|>",
+  "extra_special_tokens": {},
+  "max_length": null,
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_to_multiple_of": null,
+  "pad_token": ">>TITLE<<",
+  "pad_token_type_id": 0,
+  "padding_side": "left",
+  "tokenizer_class": "PreTrainedTokenizerFast"
+}