IL-TUR-Leaderboard

Running

App Files Files Community

shounakpaul95 commited on Jul 9

Commit

647c84c

•

1 Parent(s): 25db2bc

Update eval_utils.py

Browse files

Files changed (1) hide show

eval_utils.py +12 -11

eval_utils.py CHANGED Viewed

@@ -37,7 +37,7 @@ def evaluate_bail(gold_data, pred_data):
     f1 = f1_score(gold_labels, pred_labels, average="macro")
     print("Macro-F1 on HLDC-all-districts test set:", f1)
-    return f1
 def get_BLEU_score(ref_text_all, machine_text_all):
     sc_all = []
@@ -89,7 +89,8 @@ def evaluate_cjpe(gold_data, pred_data):
         }
     }
     print("Explanability for ILDC Expert:", explanation_result)
-    return {**prediction_result, **explanation_result}
 def span2bio(txt, roles):
     roles = sorted(roles, key = lambda x:x['start'])
@@ -161,7 +162,7 @@ def evaluate_lner(gold_data, pred_data, text_data):
         results_per_fold[f"fold_{fold}"] = avg_f1
     print("Strict macro-F1 on L-NER Dataset:", results_per_fold)
-    return results_per_fold
 def evaluate_rr(gold_data, pred_data):
@@ -187,7 +188,7 @@ def evaluate_rr(gold_data, pred_data):
     f1 = f1_score(all_gold_labels, all_pred_labels, average="macro")
     print(f"Macro-F1 on combined test set:", f1)
-    return f1
 def evaluate_lsi(gold_data, pred_data):
@@ -210,7 +211,7 @@ def evaluate_lsi(gold_data, pred_data):
     f1 = f1_score(gold_matrix, pred_matrix, average="macro")
     print("Macro-F1 on ILSI test set:", f1)
-    return f1
 def evaluate_pcr(gold_data, pred_data):
@@ -240,7 +241,7 @@ def evaluate_pcr(gold_data, pred_data):
     max_f1 = max(f1_scores)
     index_max = f1_scores.index(max_f1) + 1
-    return f"{max_f1:.2f}@{index_max}"
 def evaluate_summ(gold_data, pred_data):
@@ -262,7 +263,7 @@ def evaluate_summ(gold_data, pred_data):
     _, _, bs = bert_score.score(pred_summaries, gold_summaries, lang="en", verbose=True, device='cuda')
     print("BERTSCORE:", bs.mean().item())
-    return {'ROUGE': rl_scores['rouge-l']['f'], 'BERTSCORE': bs.mean().item()}
 def evaluate_lmt(gold_data, pred_data):
@@ -323,12 +324,12 @@ def create_output_json(evaluation_results):
             "ROUGE-L": evaluation_results["cjpe"]["ROUGE-L"],
             "BLEU": evaluation_results["cjpe"]["BLEU"],
         },
-        "BAIL": {"mF1": evaluation_results["bail"]},
-        "LSI": {"mF1": evaluation_results["lsi"]},
-        "PCR": {"muF1@K": evaluation_results["pcr"]},
         "SUMM": {
             "ROUGE-L": evaluation_results["summ"]["ROUGE-L"],
-            "BERTSCORE": "-",  # Placeholder BERTSCORE
         },
         "L-MT": {
             "BLEU": evaluation_results["lmt"]["BLEU"],

     f1 = f1_score(gold_labels, pred_labels, average="macro")
     print("Macro-F1 on HLDC-all-districts test set:", f1)
+    return {"mF1": f1}
 def get_BLEU_score(ref_text_all, machine_text_all):
     sc_all = []
         }
     }
     print("Explanability for ILDC Expert:", explanation_result)
+    #return {**prediction_result, **explanation_result}
+    return {"mF1": f1, "ROUGE-L": rouge_score, "BLEU": bleu_score}
 def span2bio(txt, roles):
     roles = sorted(roles, key = lambda x:x['start'])
         results_per_fold[f"fold_{fold}"] = avg_f1
     print("Strict macro-F1 on L-NER Dataset:", results_per_fold)
+    return {"strict mF1": sum(results_per_fold.values())/len(results_per_fold)}
 def evaluate_rr(gold_data, pred_data):
     f1 = f1_score(all_gold_labels, all_pred_labels, average="macro")
     print(f"Macro-F1 on combined test set:", f1)
+    return {"mF1": f1}
 def evaluate_lsi(gold_data, pred_data):
     f1 = f1_score(gold_matrix, pred_matrix, average="macro")
     print("Macro-F1 on ILSI test set:", f1)
+    return {"mF1": f1}
 def evaluate_pcr(gold_data, pred_data):
     max_f1 = max(f1_scores)
     index_max = f1_scores.index(max_f1) + 1
+    return {"muF1@K": f"{max_f1:.2f}@{index_max}"}
 def evaluate_summ(gold_data, pred_data):
     _, _, bs = bert_score.score(pred_summaries, gold_summaries, lang="en", verbose=True, device='cuda')
     print("BERTSCORE:", bs.mean().item())
+    return {'ROUGE-L': rl_scores['rouge-l']['f'], 'BERTSCORE': bs.mean().item()}
 def evaluate_lmt(gold_data, pred_data):
             "ROUGE-L": evaluation_results["cjpe"]["ROUGE-L"],
             "BLEU": evaluation_results["cjpe"]["BLEU"],
         },
+        "BAIL": {"mF1": evaluation_results["bail"]["mF1"]},
+        "LSI": {"mF1": evaluation_results["lsi"]["mF1"]},
+        "PCR": {"muF1@K": evaluation_results["pcr"]["muF1@K"]},
         "SUMM": {
             "ROUGE-L": evaluation_results["summ"]["ROUGE-L"],
+            "BERTSCORE": evaluation_results["summ"]["BERTSCORE"] #"-",  # Placeholder BERTSCORE
         },
         "L-MT": {
             "BLEU": evaluation_results["lmt"]["BLEU"],