vectara
/

hallucination_evaluation_model

Text Classification

Model card Files Files and versions Community

simonhughes22 commited on Nov 2, 2023

Commit

1a1b26d

•

1 Parent(s): d5ff4ed

Update README.md

Files changed (1) hide show

README.md +3 -4

README.md CHANGED Viewed

@@ -9,10 +9,9 @@ The model was trained on the NLI data and a variety of datasets evaluating summa
 ## Performance
-TRUE Dataset (Minus Vitamin C, FEVER and PAWS) - 0.872 AUC Score
-SummaC Benchmark (Test) - 0.764 Balanced Accuracy
-SummaC Benchmark (Test) - 0.831 AUC Score
-[AnyScale Ranking Test](https://www.anyscale.com/blog/llama-2-is-about-as-factually-accurate-as-gpt-4-for-summaries-and-is-30x-cheaper) - 86.6 % Accuracy
 ## Usage

 ## Performance
+* [TRUE Dataset (Minus Vitamin C, FEVER and PAWS)](https://arxiv.org/pdf/2204.04991.pdf) - 0.872 AUC Score
+* [SummaC Benchmark (Test Split)](https://aclanthology.org/2022.tacl-1.10.pdf) - 0.764 Balanced Accuracy, 0.831 AUC Score
+* [AnyScale Ranking Test for Hallucinations](https://www.anyscale.com/blog/llama-2-is-about-as-factually-accurate-as-gpt-4-for-summaries-and-is-30x-cheaper) - 86.6 % Accuracy
 ## Usage