Spaces:

braindao
/

soliditybench-leaderboard

Running

brunneis commited on Oct 10

Commit

8a3c7da

•

1 Parent(s): b66e0d8

Update HumanEval for Solidity scores

Files changed (1) hide show

src/leaderboard/read_evals.py CHANGED Viewed

@@ -42,11 +42,11 @@ class EvalResult:
         with open(json_filepath) as fp:
             data = json.load(fp)
-        if 'human_eval_solidity_pass@1' not in data['results']:
-            data['results']['human_eval_solidity_pass@1'] = {'score': 0}
-        if 'human_eval_solidity_pass@3' not in data['results']:
-            data['results']['human_eval_solidity_pass@3'] = {'score': 0}
         org, model = get_org_and_model_names_from_filepath(json_filepath)
         config = data.get("config")
@@ -123,8 +123,8 @@ class EvalResult:
         # average = sum([v for v in self.results.values() if v is not None]) / len(Tasks)
         scores = {
             'naive_judge': self.results.get('naive_judge', 0),
-            'human_eval_solidity_pass@1': self.results.get('human_eval_solidity_pass@1', 0),
-            'human_eval_solidity_pass@3': self.results.get('human_eval_solidity_pass@3', 0)
         }
         solbench = 0
@@ -132,8 +132,8 @@ class EvalResult:
         if non_zero_scores:
             weights = {
                 'naive_judge': 0.3,
-                'human_eval_solidity_pass@1': 0.5,
-                'human_eval_solidity_pass@3': 0.2
             }
             total_weight = sum(weights[k] for k in non_zero_scores)
             solbench = sum(scores[k] * weights[k] / total_weight for k in non_zero_scores)

         with open(json_filepath) as fp:
             data = json.load(fp)
+        if 'human_eval_solidity_pass_1' not in data['results']:
+            data['results']['human_eval_solidity_pass_1'] = {'score': 0}
+        if 'human_eval_solidity_pass_3' not in data['results']:
+            data['results']['human_eval_solidity_pass_3'] = {'score': 0}
         org, model = get_org_and_model_names_from_filepath(json_filepath)
         config = data.get("config")
         # average = sum([v for v in self.results.values() if v is not None]) / len(Tasks)
         scores = {
             'naive_judge': self.results.get('naive_judge', 0),
+            'human_eval_solidity_pass_1': self.results.get('human_eval_solidity_pass_1', 0),
+            'human_eval_solidity_pass_3': self.results.get('human_eval_solidity_pass_3', 0)
         }
         solbench = 0
         if non_zero_scores:
             weights = {
                 'naive_judge': 0.3,
+                'human_eval_solidity_pass_1': 0.5,
+                'human_eval_solidity_pass_3': 0.2
             }
             total_weight = sum(weights[k] for k in non_zero_scores)
             solbench = sum(scores[k] * weights[k] / total_weight for k in non_zero_scores)