guerra-llm-ai-leaderboard

Running

App Files Files Community

luisrguerra commited on Apr 8

Commit

04313bf

•

1 Parent(s): 38e21f8

Update index.html

Browse files

Files changed (1) hide show

index.html +51 -11

index.html CHANGED Viewed

@@ -38,6 +38,7 @@
     <div><canvas id="winograndeChart" height="150"></canvas></div>
     <div><canvas id="arcChart" height="150"></canvas></div>
     <div><canvas id="mtbenchChart" height="150"></canvas></div>
     <p>The MMLU (Massive Multitask Language Understanding) test is a benchmark that measures language understanding and performance on 57 tasks.</p>
     <p>MT-Bench: Benchmark test with questions prepared by the Chatbot Arena team. Uses GPT-4 to evaluate responses.</p>
     <p>GSM8K is a dataset of 8.5K high quality linguistically diverse grade school math word problems created by human problem writers. A bright middle school student should be able to solve every problem.</p>
@@ -68,13 +69,12 @@
     </ul>
     <h4>Models with the best cost benefit:</h4>
     <ul>
-      <li>Gemini Pro 1.0</li>
       <li>Gemini Pro 1.5</li>
       <li>gpt-3.5-turbo-0613</li>
-      <li>gpt-3.5-turbo-1106</li>
       <li>Claude 3 Haiku</li>
-      <li>Claude Instant 1-1.2</li>
       <li>Mixtral 8x7B Instruct</li>
     </ul>
     <h4>Models with fewer hallucinations:</h4>
     <ul>
@@ -101,6 +101,7 @@
       <li>Mistral 7B</li>
       <li>Yi 34B</li>
       <li>Grok 1</li>
       <li>Llama 2 7-70B</li>
       <li>Gemma 2-7B</li>
     </ul>
@@ -123,7 +124,7 @@
       <li>gpt-4-0314 - OpenAI</li>
       <li>gpt-3.5-turbo-1106 - OpenAI</li>
       <li>gpt-4-0314 - OpenAI</li>
-      <li>Gemini Pro 1.0 - Openrouter with compatibility with OpenAI api, Google api service.</li>
       <li>Claude 3 - Openrouter with compatibility with OpenAI api, Anthropic api service.</li>
       <li>Claude 2-2.1 - Openrouter with compatibility with OpenAI api, Anthropic api service.</li>
       <li>Claude Instant 1-1.2 - Openrouter with compatibility with OpenAI api, Anthropic api service.</li>
@@ -135,24 +136,22 @@
     <ul>
       <li>Claude 3 Opus</li>
     </ul>
-    <h4>Models with the same level of GPT-4:</h4>
     <ul>
       <li>Gemini Ultra</li>
       <li>Gemini Pro 1.5</li>
       <li>Gemini Pro (Bard/Online)</li>
-      <li>Claude 3 Opus</li>
       <li>Claude 3 Sonnet</li>
     </ul>
     <h4>Models with the same level or better than GPT-3.5 but lower than GPT-4:</h4>
     <ul>
-      <li>Gemini Pro 1.0 without web access</li>
-      <li>Claude 3 Sonnet</li>
       <li>Claude 3 Haiku</li>
       <li>Claude 2-2.1</li>
       <li>Claude 1</li>
       <li>Claude Instant 1-1.2</li>
-      <li>Mistral Medium</li>
       <li>Mistral Large</li>
     </ul>
     <h4>Versions of models already surpassed by fine-tune, new versions or new architectures:</h4>
     <ul>
@@ -174,6 +173,12 @@
       <li>StableLM Tuned Alpha</li>
       <li>Stable Beluga 2</li>
     </ul>
     <script>
@@ -189,6 +194,7 @@
             hellaswag:null,
             arc:null,
             nothallucination: null,
             parameters: 'Probably smaller than GPT-4',
             organization: 'OpenAI',
             license: 'Proprietary',
@@ -204,6 +210,7 @@
             hellaswag:92.7,
             arc:94.2,
             nothallucination: 97.0,
             parameters: 'Probably smaller than GPT-4',
             organization: 'OpenAI',
             license: 'Proprietary',
@@ -219,6 +226,7 @@
             hellaswag:91.9,
             arc:94.6,
             nothallucination: 97.0,
             parameters: '1T (questionable)',
             organization: 'OpenAI',
             license: 'Proprietary',
@@ -234,6 +242,7 @@
             hellaswag:95.4,
             arc:96.3,
             nothallucination: 97.0,
             parameters: '1T (questionable)',
             organization: 'OpenAI',
             license: 'Proprietary',
@@ -249,6 +258,7 @@
             hellaswag:79.4,
             arc:81.7,
             nothallucination: 96.5,
             parameters: '20B - 175B (not confirmed)',
             organization: 'OpenAI',
             license: 'Proprietary',
@@ -264,6 +274,7 @@
             hellaswag:85.5,
             arc:85.2,
             nothallucination: 96.5,
             parameters: '20B - 175B (not confirmed)',
             organization: 'OpenAI',
             license: 'Proprietary',
@@ -279,6 +290,7 @@
             hellaswag:60.8,
             arc:79.1,
             nothallucination: 96.5,
             parameters: '20B - 175B (not confirmed)',
             organization: 'OpenAI',
             license: 'Proprietary',
@@ -294,6 +306,7 @@
             hellaswag:95.4,
             arc:96.4,
             nothallucination: 92.6,
             parameters: null,
             organization: 'Anthropic',
             license: 'Proprietary',
@@ -309,6 +322,7 @@
             hellaswag:null,
             arc:89.0,
             nothallucination: 94,
             parameters: null,
             organization: 'Anthropic',
             license: 'Proprietary',
@@ -324,6 +338,7 @@
             hellaswag:null,
             arc:85.9,
             nothallucination: 92.4,
             parameters: null,
             organization: 'Anthropic',
             license: 'Proprietary',
@@ -339,6 +354,7 @@
             hellaswag:null,
             arc:null,
             nothallucination: 91.5,
             parameters: '137B',
             organization: 'Anthropic',
             license: 'Proprietary',
@@ -354,6 +370,7 @@
             hellaswag:null,
             arc:91,
             nothallucination: 91.5,
             parameters: '137B',
             organization: 'Anthropic',
             license: 'Proprietary',
@@ -369,6 +386,7 @@
             hellaswag:null,
             arc:null,
             nothallucination: null,
             parameters: null,
             organization: 'Anthropic',
             license: 'Proprietary',
@@ -384,6 +402,7 @@
             hellaswag:null,
             arc:null,
             nothallucination: null,
             parameters: null,
             organization: 'Anthropic',
             license: 'Proprietary',
@@ -399,6 +418,7 @@
             hellaswag:92.5,
             arc:null,
             nothallucination: null,
             parameters: null,
             organization: 'Google',
             license: 'Proprietary',
@@ -414,6 +434,7 @@
             hellaswag:87.8,
             arc:null,
             nothallucination: null,
             parameters: null,
             organization: 'Google',
             license: 'Proprietary',
@@ -429,6 +450,7 @@
             hellaswag:null,
             arc:null,
             nothallucination: null,
             parameters: null,
             organization: 'Google',
             license: 'Proprietary',
@@ -437,13 +459,14 @@
             name: 'Gemini Pro',
             mmlu: 71.8,
             mtbench: null,
-            arenaelo:1111,
             gsm8k: 77.9,
             winogrande: null,
             truthfulqa: null,
             hellaswag:84.7,
             arc:null,
             nothallucination: 95.2,
             parameters: null,
             organization: 'Google',
             license: 'Proprietary',
@@ -459,6 +482,7 @@
             hellaswag:89.2,
             arc:94.2,
             nothallucination: null,
             parameters: null,
             organization: 'Mistral',
             license: 'Proprietary',
@@ -474,6 +498,7 @@
             hellaswag:null,
             arc:null,
             nothallucination: null,
             parameters: null,
             organization: 'Mistral',
             license: 'Proprietary',
@@ -489,6 +514,7 @@
             hellaswag:86.7,
             arc:70.14,
             nothallucination: 90.7,
             parameters: '45B (MOE)',
             organization: 'Mistral',
             license: 'Apache 2.0',
@@ -504,6 +530,7 @@
             hellaswag:null,
             arc:null,
             nothallucination: null,
             parameters: "33B",
             organization: 'xAI',
             license: 'Proprietary',
@@ -519,6 +546,7 @@
             hellaswag:89.0,
             arc:68.9,
             nothallucination: null,
             parameters: null,
             organization: 'Databricks',
             license: 'Databricks Open Model',
@@ -534,6 +562,7 @@
             hellaswag:85.69,
             arc:64.59,
             nothallucination: null,
             parameters: '34B',
             organization: '01 AI',
             license: 'Yi License',
@@ -549,6 +578,7 @@
             hellaswag:null,
             arc:null,
             nothallucination: null,
             parameters: '70B',
             organization: 'Perplexity AI',
             license: 'Proprietary',
@@ -564,6 +594,7 @@
             hellaswag:null,
             arc:null,
             nothallucination: 94.9,
             parameters: '70B',
             organization: 'Perplexity AI',
             license: 'Proprietary',
@@ -582,6 +613,7 @@
                                   '<th>TruthfulQA</th>' +
                                   '<th>HellaSwag</th>' +
                                   '<th>ARC</th>' +
                                   '<th>Not hallucination</th>' +
                                   '<th>Parameters</th>' +
                                   '<th>Organization</th>' +
@@ -599,6 +631,7 @@
                               '<td>' + item.truthfulqa + '</td>' +
                               '<td>' + item.hellaswag + '</td>' +
                               '<td>' + item.arc + '</td>' +
                               '<td>' + item.nothallucination + '%'+ '</td>' +
                               '<td>' + item.parameters + '</td>' +
                               '<td>' + item.organization + '</td>' +
@@ -640,6 +673,10 @@
           const hellaswagMultiplier = 100/hellaswagMaxValue;
           const arcMaxValue = getBenchmarkMaxValue("arc",data);
           const arcMultiplier = 100/arcMaxValue;
           let dataset = [];
           for (let i = 0; i < data.length; i++) {
             dataset.push({
@@ -653,6 +690,8 @@
                 (data[i].truthfulqa*truthfulqaMultiplier),
                 (data[i].hellaswag*hellaswagMultiplier),
                 (data[i].arc*arcMultiplier),
               ],
               borderWidth: 2
             })
@@ -661,7 +700,7 @@
         }
         const dataSetRadar = getDataSetRadar(benchmarkData);
         let data = {
-            labels: ['MMLU', 'MT-bench','Arena Elo','GSM8k','Winogrande','TruthfulQA','HellaSwag','ARC'],
             datasets: getDataSetRadar(benchmarkData)
         };
@@ -721,6 +760,7 @@
        updateChart('winograndeChart','winogrande');
        updateChart('arcChart','arc');
        updateChart('mtbenchChart','mtbench');
     </script>
 </body>

     <div><canvas id="winograndeChart" height="150"></canvas></div>
     <div><canvas id="arcChart" height="150"></canvas></div>
     <div><canvas id="mtbenchChart" height="150"></canvas></div>
+    <div><canvas id="alpacaevalChart" height="150"></canvas></div>
     <p>The MMLU (Massive Multitask Language Understanding) test is a benchmark that measures language understanding and performance on 57 tasks.</p>
     <p>MT-Bench: Benchmark test with questions prepared by the Chatbot Arena team. Uses GPT-4 to evaluate responses.</p>
     <p>GSM8K is a dataset of 8.5K high quality linguistically diverse grade school math word problems created by human problem writers. A bright middle school student should be able to solve every problem.</p>
     </ul>
     <h4>Models with the best cost benefit:</h4>
     <ul>
       <li>Gemini Pro 1.5</li>
+      <li>gpt-3.5-turbo-0125</li>
       <li>gpt-3.5-turbo-0613</li>
       <li>Claude 3 Haiku</li>
       <li>Mixtral 8x7B Instruct</li>
+      <li>OpenChat</li>
     </ul>
     <h4>Models with fewer hallucinations:</h4>
     <ul>
       <li>Mistral 7B</li>
       <li>Yi 34B</li>
       <li>Grok 1</li>
+      <li>DBRX Instruct</li>
       <li>Llama 2 7-70B</li>
       <li>Gemma 2-7B</li>
     </ul>
       <li>gpt-4-0314 - OpenAI</li>
       <li>gpt-3.5-turbo-1106 - OpenAI</li>
       <li>gpt-4-0314 - OpenAI</li>
+      <li>Gemini Pro 1.0-1.5 - Openrouter with compatibility with OpenAI api, Google api service.</li>
       <li>Claude 3 - Openrouter with compatibility with OpenAI api, Anthropic api service.</li>
       <li>Claude 2-2.1 - Openrouter with compatibility with OpenAI api, Anthropic api service.</li>
       <li>Claude Instant 1-1.2 - Openrouter with compatibility with OpenAI api, Anthropic api service.</li>
     <ul>
       <li>Claude 3 Opus</li>
     </ul>
+    <h4>Models with the same level of GPT-4 but lower than GPT-4 Turbo:</h4>
     <ul>
       <li>Gemini Ultra</li>
       <li>Gemini Pro 1.5</li>
       <li>Gemini Pro (Bard/Online)</li>
       <li>Claude 3 Sonnet</li>
     </ul>
     <h4>Models with the same level or better than GPT-3.5 but lower than GPT-4:</h4>
     <ul>
       <li>Claude 3 Haiku</li>
       <li>Claude 2-2.1</li>
       <li>Claude 1</li>
       <li>Claude Instant 1-1.2</li>
       <li>Mistral Large</li>
+      <li>Mistral Medium</li>
+      <li>Gemini Pro 1.0 without web access</li>
     </ul>
     <h4>Versions of models already surpassed by fine-tune, new versions or new architectures:</h4>
     <ul>
       <li>StableLM Tuned Alpha</li>
       <li>Stable Beluga 2</li>
     </ul>
+    <h4>Best OpenAI Models:</h4>
+    <ul>
+      <li>gpt-4-1106-preview (turbo)</li>
+      <li>gpt-3.5-turbo-0613</li>
+      <li>gpt-3.5-turbo-0125</li>
+    </ul>
     <script>
             hellaswag:null,
             arc:null,
             nothallucination: null,
+            alpacaeval: null,
             parameters: 'Probably smaller than GPT-4',
             organization: 'OpenAI',
             license: 'Proprietary',
             hellaswag:92.7,
             arc:94.2,
             nothallucination: 97.0,
+            alpacaeval: 50,
             parameters: 'Probably smaller than GPT-4',
             organization: 'OpenAI',
             license: 'Proprietary',
             hellaswag:91.9,
             arc:94.6,
             nothallucination: 97.0,
+            alpacaeval: 30.2,
             parameters: '1T (questionable)',
             organization: 'OpenAI',
             license: 'Proprietary',
             hellaswag:95.4,
             arc:96.3,
             nothallucination: 97.0,
+            alpacaeval: 35.3,
             parameters: '1T (questionable)',
             organization: 'OpenAI',
             license: 'Proprietary',
             hellaswag:79.4,
             arc:81.7,
             nothallucination: 96.5,
+            alpacaeval: 22.7,
             parameters: '20B - 175B (not confirmed)',
             organization: 'OpenAI',
             license: 'Proprietary',
             hellaswag:85.5,
             arc:85.2,
             nothallucination: 96.5,
+            alpacaeval: 18.1,
             parameters: '20B - 175B (not confirmed)',
             organization: 'OpenAI',
             license: 'Proprietary',
             hellaswag:60.8,
             arc:79.1,
             nothallucination: 96.5,
+            alpacaeval: 19.3,
             parameters: '20B - 175B (not confirmed)',
             organization: 'OpenAI',
             license: 'Proprietary',
             hellaswag:95.4,
             arc:96.4,
             nothallucination: 92.6,
+            alpacaeval: 40.4,
             parameters: null,
             organization: 'Anthropic',
             license: 'Proprietary',
             hellaswag:null,
             arc:89.0,
             nothallucination: 94,
+            alpacaeval: 34.9,
             parameters: null,
             organization: 'Anthropic',
             license: 'Proprietary',
             hellaswag:null,
             arc:85.9,
             nothallucination: 92.4,
+            alpacaeval: null,
             parameters: null,
             organization: 'Anthropic',
             license: 'Proprietary',
             hellaswag:null,
             arc:null,
             nothallucination: 91.5,
+            alpacaeval: 25.3,
             parameters: '137B',
             organization: 'Anthropic',
             license: 'Proprietary',
             hellaswag:null,
             arc:91,
             nothallucination: 91.5,
+            alpacaeval: 28.2,
             parameters: '137B',
             organization: 'Anthropic',
             license: 'Proprietary',
             hellaswag:null,
             arc:null,
             nothallucination: null,
+            alpacaeval: 27.3,
             parameters: null,
             organization: 'Anthropic',
             license: 'Proprietary',
             hellaswag:null,
             arc:null,
             nothallucination: null,
+            alpacaeval: null,
             parameters: null,
             organization: 'Anthropic',
             license: 'Proprietary',
             hellaswag:92.5,
             arc:null,
             nothallucination: null,
+            alpacaeval: null,
             parameters: null,
             organization: 'Google',
             license: 'Proprietary',
             hellaswag:87.8,
             arc:null,
             nothallucination: null,
+            alpacaeval: null,
             parameters: null,
             organization: 'Google',
             license: 'Proprietary',
             hellaswag:null,
             arc:null,
             nothallucination: null,
+            alpacaeval: null,
             parameters: null,
             organization: 'Google',
             license: 'Proprietary',
             name: 'Gemini Pro',
             mmlu: 71.8,
             mtbench: null,
+            arenaelo:1127,
             gsm8k: 77.9,
             winogrande: null,
             truthfulqa: null,
             hellaswag:84.7,
             arc:null,
             nothallucination: 95.2,
+            alpacaeval: 24.4,
             parameters: null,
             organization: 'Google',
             license: 'Proprietary',
             hellaswag:89.2,
             arc:94.2,
             nothallucination: null,
+            alpacaeval: 32.7,
             parameters: null,
             organization: 'Mistral',
             license: 'Proprietary',
             hellaswag:null,
             arc:null,
             nothallucination: null,
+            alpacaeval: 28.6,
             parameters: null,
             organization: 'Mistral',
             license: 'Proprietary',
             hellaswag:86.7,
             arc:70.14,
             nothallucination: 90.7,
+            alpacaeval: 23.7,
             parameters: '45B (MOE)',
             organization: 'Mistral',
             license: 'Apache 2.0',
             hellaswag:null,
             arc:null,
             nothallucination: null,
+            alpacaeval: null,
             parameters: "33B",
             organization: 'xAI',
             license: 'Proprietary',
             hellaswag:89.0,
             arc:68.9,
             nothallucination: null,
+            alpacaeval: null,
             parameters: null,
             organization: 'Databricks',
             license: 'Databricks Open Model',
             hellaswag:85.69,
             arc:64.59,
             nothallucination: null,
+            alpacaeval: 27.2,
             parameters: '34B',
             organization: '01 AI',
             license: 'Yi License',
             hellaswag:null,
             arc:null,
             nothallucination: null,
+            alpacaeval: null,
             parameters: '70B',
             organization: 'Perplexity AI',
             license: 'Proprietary',
             hellaswag:null,
             arc:null,
             nothallucination: 94.9,
+            alpacaeval: null,
             parameters: '70B',
             organization: 'Perplexity AI',
             license: 'Proprietary',
                                   '<th>TruthfulQA</th>' +
                                   '<th>HellaSwag</th>' +
                                   '<th>ARC</th>' +
+                                  '<th>AlpacaEval</th>' +
                                   '<th>Not hallucination</th>' +
                                   '<th>Parameters</th>' +
                                   '<th>Organization</th>' +
                               '<td>' + item.truthfulqa + '</td>' +
                               '<td>' + item.hellaswag + '</td>' +
                               '<td>' + item.arc + '</td>' +
+                              '<td>' + item.alpacaeval + '%'+ '</td>' +
                               '<td>' + item.nothallucination + '%'+ '</td>' +
                               '<td>' + item.parameters + '</td>' +
                               '<td>' + item.organization + '</td>' +
           const hellaswagMultiplier = 100/hellaswagMaxValue;
           const arcMaxValue = getBenchmarkMaxValue("arc",data);
           const arcMultiplier = 100/arcMaxValue;
+          const alpacaevalMaxValue = getBenchmarkMaxValue("alpacaeval",data);
+          const alpacaevalMultiplier = 100/alpacaevalMaxValue;
+          const notHallucinationMaxValue = getBenchmarkMaxValue("nothallucination",data);
+          const notHallucinationMultiplier = 100/notHallucinationMaxValue;
           let dataset = [];
           for (let i = 0; i < data.length; i++) {
             dataset.push({
                 (data[i].truthfulqa*truthfulqaMultiplier),
                 (data[i].hellaswag*hellaswagMultiplier),
                 (data[i].arc*arcMultiplier),
+                (data[i].alpacaeval*alpacaevalMultiplier),
+                (data[i].nothallucination*notHallucinationMultiplier)
               ],
               borderWidth: 2
             })
         }
         const dataSetRadar = getDataSetRadar(benchmarkData);
         let data = {
+            labels: ['MMLU', 'MT-bench','Arena Elo','GSM8k','Winogrande','TruthfulQA','HellaSwag','ARC','AlpacaEval','Not Hallucination'],
             datasets: getDataSetRadar(benchmarkData)
         };
        updateChart('winograndeChart','winogrande');
        updateChart('arcChart','arc');
        updateChart('mtbenchChart','mtbench');
+       updateChart('alpacaevalChart','alpacaeval');
     </script>
 </body>