README.md · shahrukhx01/roberta-base-squad2-boolq-baseline at bce19e43d8e8fdd3e9cbe04ba67b937a64dbded0

BoolQ Validation dataset Evaluation:

support => 3270
accuracy => 0.73
macro f1 => 0.71

SQuAD Validation dataset Evaluation:

eval_HasAns_exact = 55.9885
eval_HasAns_f1 = 70.4997
eval_HasAns_total = 5928
eval_NoAns_exact = 20.5719
eval_NoAns_f1 = 20.5719
eval_NoAns_total = 5945
eval_best_exact = 50.0969
eval_best_exact_thresh = 0.0
eval_best_f1 = 50.1
eval_best_f1_thresh = 0.0
eval_exact = 38.2549
eval_f1 = 45.5
eval_samples = 12165
eval_total = 11873