tiiuae
/

Falcon3-Mamba-7B-Instruct

Text Generation

Transformers

Safetensors

Model card Files Files and versions Community

ybelkada

DhiyaEddine commited on Dec 16, 2024

Commit

8c5250f

verified ·

1 Parent(s): 2a75b44

Update README.md (#3)

Browse files

- Update README.md (76441592e88f59bff4e182d507060625d99fc6b0)

Co-authored-by: Rhaiem <DhiyaEddine@users.noreply.huggingface.co>

Files changed (1) hide show

README.md +19 -19

README.md CHANGED Viewed

@@ -107,7 +107,7 @@ We report in the following table our internal pipeline benchmarks:
             <td rowspan="3">General</td>
             <td>MMLU (5-shot)</td>
             <td>-</td>
-            <td>-</td>
             <td>-</td>
             <td>68.5%</td>
             <td>-</td>
@@ -115,24 +115,24 @@ We report in the following table our internal pipeline benchmarks:
         <tr>
             <td>MMLU-PRO (5-shot)</td>
             <td>32.4%</td>
-            <td>-</td>
             <td>-</td>
             <td>29.6%</td>
-            <td>-</td>
         </tr>
         <tr>
             <td>IFEval</td>
             <td>69.9%</td>
-            <td>-</td>
             <td>-</td>
             <td>78.6%</td>
-            <td>-</td>
         </tr>
         <tr>
             <td rowspan="2">Math</td>
             <td>GSM8K (5-shot)</td>
             <td>-</td>
-            <td>-</td>
             <td>-</td>
             <td>-</td>
             <td>-</td>
@@ -140,16 +140,16 @@ We report in the following table our internal pipeline benchmarks:
         <tr>
             <td>MATH(4-shot)</td>
             <td>-</td>
             <td>-</td>
             <td>-</td>
-            <td>-</td>
-            <td>-</td>
         </tr>
         <tr>
             <td rowspan="4">Reasoning</td>
             <td>Arc Challenge (25-shot)</td>
             <td>-</td>
-            <td>-</td>
             <td>-</td>
             <td>-</td>
             <td>-</td>
@@ -157,32 +157,32 @@ We report in the following table our internal pipeline benchmarks:
         <tr>
             <td>GPQA (0-shot)</td>
             <td>10.3%</td>
-            <td>-</td>
             <td>-</td>
             <td>2.4%</td>
-            <td>-</td>
         </tr>
         <tr>
             <td>MUSR (0-shot)</td>
             <td>8.2%</td>
-            <td>-</td>
             <td>-</td>
             <td>8.4%</td>
-            <td>-</td>
         </tr>
         <tr>
             <td>BBH (3-shot)</td>
             <td>33.3%</td>
-            <td>-</td>
             <td>-</td>
             <td>29.9%</td>
-            <td>-</td>
         </tr>
         <tr>
             <td rowspan="4">CommonSense Understanding</td>
             <td>PIQA (0-shot)</td>
             <td>-</td>
-            <td>-</td>
             <td>-</td>
             <td>-</td>
             <td>-</td>
@@ -190,7 +190,7 @@ We report in the following table our internal pipeline benchmarks:
         <tr>
             <td>SciQ (0-shot)</td>
             <td>-</td>
-            <td>-</td>
             <td>-</td>
             <td>-</td>
             <td>-</td>
@@ -198,7 +198,7 @@ We report in the following table our internal pipeline benchmarks:
         <tr>
             <td>Winogrande (0-shot)</td>
             <td>-</td>
-            <td>-</td>
             <td>-</td>
             <td>-</td>
             <td>-</td>
@@ -206,7 +206,7 @@ We report in the following table our internal pipeline benchmarks:
         <tr>
             <td>OpenbookQA (0-shot)</td>
             <td>-</td>
-            <td>-</td>
             <td>-</td>
             <td>-</td>
             <td>-</td>

             <td rowspan="3">General</td>
             <td>MMLU (5-shot)</td>
             <td>-</td>
+            <td>68.7%</td>
             <td>-</td>
             <td>68.5%</td>
             <td>-</td>
         <tr>
             <td>MMLU-PRO (5-shot)</td>
             <td>32.4%</td>
+            <td>31.6%</td>
             <td>-</td>
             <td>29.6%</td>
+            <td>26.3%</td>
         </tr>
         <tr>
             <td>IFEval</td>
             <td>69.9%</td>
+            <td>65.7%</td>
             <td>-</td>
             <td>78.6%</td>
+            <td>71.7%</td>
         </tr>
         <tr>
             <td rowspan="2">Math</td>
             <td>GSM8K (5-shot)</td>
             <td>-</td>
+            <td>74.9%</td>
             <td>-</td>
             <td>-</td>
             <td>-</td>
         <tr>
             <td>MATH(4-shot)</td>
             <td>-</td>
+            <td>6.9%</td>
             <td>-</td>
             <td>-</td>
+            <td>27.3%</td>
         </tr>
         <tr>
             <td rowspan="4">Reasoning</td>
             <td>Arc Challenge (25-shot)</td>
             <td>-</td>
+            <td>54.3%</td>
             <td>-</td>
             <td>-</td>
             <td>-</td>
         <tr>
             <td>GPQA (0-shot)</td>
             <td>10.3%</td>
+            <td>11.1%</td>
             <td>-</td>
             <td>2.4%</td>
+            <td>7.2%</td>
         </tr>
         <tr>
             <td>MUSR (0-shot)</td>
             <td>8.2%</td>
+            <td>12.2%</td>
             <td>-</td>
             <td>8.4%</td>
+            <td>8.3%</td>
         </tr>
         <tr>
             <td>BBH (3-shot)</td>
             <td>33.3%</td>
+            <td>35.3%</td>
             <td>-</td>
             <td>29.9%</td>
+            <td>25.2%</td>
         </tr>
         <tr>
             <td rowspan="4">CommonSense Understanding</td>
             <td>PIQA (0-shot)</td>
             <td>-</td>
+            <td>82.3%</td>
             <td>-</td>
             <td>-</td>
             <td>-</td>
         <tr>
             <td>SciQ (0-shot)</td>
             <td>-</td>
+            <td>94.9%</td>
             <td>-</td>
             <td>-</td>
             <td>-</td>
         <tr>
             <td>Winogrande (0-shot)</td>
             <td>-</td>
+            <td>64.5%</td>
             <td>-</td>
             <td>-</td>
             <td>-</td>
         <tr>
             <td>OpenbookQA (0-shot)</td>
             <td>-</td>
+            <td>34.6%</td>
             <td>-</td>
             <td>-</td>
             <td>-</td>