neuralmagic
/

Meta-Llama-3.1-405B-Instruct-FP8-dynamic

Text Generation

text-generation-inference

Inference Endpoints

compressed-tensors

Model card Files Files and versions Community

Lin-K76 commited on Jul 24

Commit

e32ba06

•

1 Parent(s): f18b9c8

Update README.md

Files changed (1) hide show

README.md +22 -21

README.md CHANGED Viewed

@@ -138,6 +138,7 @@ lm_eval \
   --tasks openllm \
   --batch_size auto
 ```
 ### Accuracy
@@ -156,71 +157,71 @@ lm_eval \
   <tr>
    <td>MMLU (5-shot)
    </td>
-   <td>82.21
    </td>
-   <td>82.13
    </td>
-   <td>99.90%
    </td>
   </tr>
   <tr>
    <td>ARC Challenge (25-shot)
    </td>
-   <td>70.65
    </td>
-   <td>70.31
    </td>
-   <td>99.52%
    </td>
   </tr>
   <tr>
    <td>GSM-8K (5-shot, strict-match)
    </td>
-   <td>87.95
    </td>
-   <td>88.40
    </td>
-   <td>100.5%
    </td>
   </tr>
   <tr>
    <td>Hellaswag (10-shot)
    </td>
-   <td>86.33
    </td>
-   <td>86.27
    </td>
-   <td>99.93%
    </td>
   </tr>
   <tr>
    <td>Winogrande (5-shot)
    </td>
-   <td>85.00
    </td>
-   <td>85.00
    </td>
-   <td>100.0%
    </td>
   </tr>
   <tr>
    <td>TruthfulQA (0-shot)
    </td>
-   <td>59.90
    </td>
-   <td>60.01
    </td>
-   <td>100.1%
    </td>
   </tr>
   <tr>
    <td><strong>Average</strong>
    </td>
-   <td><strong>78.67</strong>
    </td>
-   <td><strong>78.69</strong>
    </td>
-   <td><strong>100.0%</strong>
    </td>
   </tr>
 </table>

   --tasks openllm \
   --batch_size auto
 ```
+Certain benchmarks for the full precision model are still being acquired. Average recovery is calculated only with metrics that both models have been evaluated on.
 ### Accuracy
   <tr>
    <td>MMLU (5-shot)
    </td>
+   <td>*
    </td>
+   <td>88.34
    </td>
+   <td>*
    </td>
   </tr>
   <tr>
    <td>ARC Challenge (25-shot)
    </td>
+   <td>73.38
    </td>
+   <td>72.61
    </td>
+   <td>98.95%
    </td>
   </tr>
   <tr>
    <td>GSM-8K (5-shot, strict-match)
    </td>
+   <td>95.07
    </td>
+   <td>95.00
    </td>
+   <td>99.93%
    </td>
   </tr>
   <tr>
    <td>Hellaswag (10-shot)
    </td>
+   <td>*
    </td>
+   <td>88.34
    </td>
+   <td>*
    </td>
   </tr>
   <tr>
    <td>Winogrande (5-shot)
    </td>
+   <td>87.21
    </td>
+   <td>87.45
    </td>
+   <td>100.2%
    </td>
   </tr>
   <tr>
    <td>TruthfulQA (0-shot)
    </td>
+   <td>*
    </td>
+   <td>64.71
    </td>
+   <td>*
    </td>
   </tr>
   <tr>
    <td><strong>Average</strong>
    </td>
+   <td><strong>*</strong>
    </td>
+   <td><strong>82.38</strong>
    </td>
+   <td><strong>98.95%</strong>
    </td>
   </tr>
 </table>