TIGER-Lab
/

MAmmoTH-7B-Mistral

Inference Endpoints

Model card Files Files and versions Community

wenhu commited on Dec 7, 2023

Commit

2cfceb2

•

1 Parent(s): fc738c7

Update README.md

Files changed (1) hide show

README.md +3 -2

README.md CHANGED Viewed

@@ -40,12 +40,13 @@ The models are evaluated using open-ended and multiple-choice math problems from
 |---------------------------|---------------|-----------|-----------|-----------|
 | MAmmoTH-7B             	| **Hybrid**   	| 53.6  	| 31.5 	    | 44.5   	|
 | MAmmoTH-Coder-7B  	    | **Hybrid**   	| 59.4  	| 33.4  	| 47.2  	|
-| MetaMath-7B-Mistral       | **CoT**   	| **77.7** 	| 28.2 	    | 49.3      |
 | OpenChat-3.5-7B           | **CoT**   	| 77.3 	    | 28.6 	    | 49.6      |
 | DeepSeek-Coder-34B        | **PoT**   	| 58.2   	| 35.3 	    | 46.5      |
 | Grok-1                    | **CoT**       | 62.9      | 15.7      | -         |
 | QWen-72B                  | **CoT**       | 78.9      | 35.2      | -         |
-| ChatGLM-3-6B              | **CoT**       | 72.3      | 25.7      | 45.6      |
 | MAmmoTH-7B-Mistral  	    | **Hybrid**   	| 75.0   	| **40.0** 	| **52.5**  |
 ## Usage

 |---------------------------|---------------|-----------|-----------|-----------|
 | MAmmoTH-7B             	| **Hybrid**   	| 53.6  	| 31.5 	    | 44.5   	|
 | MAmmoTH-Coder-7B  	    | **Hybrid**   	| 59.4  	| 33.4  	| 47.2  	|
+| MetaMath-7B-Mistral       | **CoT**   	| 77.7  	| 28.2 	    | 49.3      |
 | OpenChat-3.5-7B           | **CoT**   	| 77.3 	    | 28.6 	    | 49.6      |
+| ChatGLM-3-6B              | **CoT**       | 72.3      | 25.7      | 45.6      |
 | DeepSeek-Coder-34B        | **PoT**   	| 58.2   	| 35.3 	    | 46.5      |
 | Grok-1                    | **CoT**       | 62.9      | 15.7      | -         |
 | QWen-72B                  | **CoT**       | 78.9      | 35.2      | -         |
+| DeepSeek-67B-Chat         | **CoT**       | **84.1**  | 32.6      | -         |
 | MAmmoTH-7B-Mistral  	    | **Hybrid**   	| 75.0   	| **40.0** 	| **52.5**  |
 ## Usage