guerra-llm-ai-leaderboard

Running

App Files Files Community

luisrguerra commited on Mar 30

Commit

59a655b

•

1 Parent(s): f148f53

Update index.html

Browse files

Files changed (1) hide show

index.html +53 -0

index.html CHANGED Viewed

@@ -29,6 +29,9 @@
 <body>
     <div><canvas id="radarChart" height="750"></canvas></div>
     <p>The MMLU (Massive Multitask Language Understanding) test is a benchmark that measures language understanding and performance on 57 tasks.</p>
     <p>MT-Bench: Benchmark test with questions prepared by the Chatbot Arena team. Uses GPT-4 to evaluate responses.</p>
     <p>GSM8K is a dataset of 8.5K high quality linguistically diverse grade school math word problems created by human problem writers. A bright middle school student should be able to solve every problem.</p>
@@ -458,6 +461,21 @@
             organization: 'xAI',
             license: 'Proprietary',
           },
           {
             name: 'Yi 34B',
             mmlu: 73.5,
@@ -616,6 +634,41 @@
             data: data,
             options: options
         });
     </script>
 </body>
 </html>

 <body>
     <div><canvas id="radarChart" height="750"></canvas></div>
+    <div><canvas id="mmluChart" height="200"></canvas></div>
+    <div><canvas id="gsm8kChart" height="200"></canvas></div>
+    <div><canvas id="arenaeloChart" height="200"></canvas></div>
     <p>The MMLU (Massive Multitask Language Understanding) test is a benchmark that measures language understanding and performance on 57 tasks.</p>
     <p>MT-Bench: Benchmark test with questions prepared by the Chatbot Arena team. Uses GPT-4 to evaluate responses.</p>
     <p>GSM8K is a dataset of 8.5K high quality linguistically diverse grade school math word problems created by human problem writers. A bright middle school student should be able to solve every problem.</p>
             organization: 'xAI',
             license: 'Proprietary',
           },
+          {
+            name: 'DBRX Instruct',
+            mmlu: 73.7,
+            mtbench: null,
+            arenaelo:null,
+            gsm8k: 66.9,
+            winogrande: 81.8,
+            truthfulqa: 66.9,
+            hellaswag:89.0,
+            arc:68.9,
+            nothallucination: null,
+            parameters: null,
+            organization: 'Databricks',
+            license: 'Databricks Open Model',
+          },
           {
             name: 'Yi 34B',
             mmlu: 73.5,
             data: data,
             options: options
         });
+       function updateChart(id,benchmarkName){
+          function sortBenchmarkData(benchmarkName){
+            return benchmarkData.sort((a, b) => b[benchmarkName] - a[benchmarkName]);
+          }
+          function removeItemsNull(data,benchmarkName){
+            return data.filter(item => item[benchmarkName] !== null);
+          }
+          benchmarkData2 = removeItemsNull(sortBenchmarkData(benchmarkName),benchmarkName);
+          function getLabelSetMlluChart(data){
+            return data.map(item => item.name);
+          }
+          function getDataSetMlluChart(data){
+            return data.map(item => item[benchmarkName]);
+          }
+          let element = document.getElementById(id).getContext('2d');
+          new Chart(element, {
+               type: 'bar',
+               data: {
+                   labels: getLabelSetMlluChart(benchmarkData2),
+                   datasets: [{
+                       label: benchmarkName,
+                       data: getDataSetMlluChart(benchmarkData2)
+                   }]
+               },
+               options: {
+                   maintainAspectRatio: false
+               }
+          });
+       }
+       updateChart('mmluChart','mmlu');
+       updateChart('gsm8kChart','gsm8k');
+       updateChart('arenaeloChart','arenaelo');
     </script>
 </body>
 </html>