Spaces:

mideind
/

maeliprof

Sleeping

App Files Files Community

gardarjuto commited on 17 days ago

Commit

3835c7d

•

1 Parent(s): e568e74

Whitelisted select Wiki-QA questions to make it easier/more fun

Browse files

Files changed (1) hide show

quiz.py +31 -9

quiz.py CHANGED Viewed

@@ -8,8 +8,25 @@ from score import calculate_gpt4o_scores, BENCHMARK_SCORES
 # Define benchmarks
 BENCHMARKS = {
     "icelandic-winogrande": {
-        "name": "Winogrande",
         "path": "mideind/icelandic-winogrande",
         "type": "multiple_choice",
     },
@@ -48,11 +65,6 @@ BENCHMARKS = {
         "path": "mideind/icelandic-arc-challenge",
         "type": "multiple_choice",
     },
-    "icelandic-wiki-qa": {
-        "name": "Íslensk saga og menning",
-        "path": "mideind/icelandic_wiki_qa",
-        "type": "free_text",
-    },
 }
 DATASETS = {
@@ -186,8 +198,17 @@ class BenchmarkQuiz:
     def load_benchmark(self, benchmark_name: str) -> List[Dict[str, Any]]:
         dataset = DATASETS[benchmark_name]
-        random_indices = random.sample(range(len(dataset)), 5)
-        samples = dataset.select(random_indices)
         if benchmark_name == "icelandic-winogrande":
             samples = [winogrande_preprocessing(sample) for sample in samples]
         elif benchmark_name == "grammatical-error-detection":
@@ -196,7 +217,8 @@ class BenchmarkQuiz:
             ]
         elif benchmark_name == "icelandic-inflection-all":
             while any(
-                sample["noun_phrase"] in BENCHMARKS[benchmark_name]["blacklisted_noun_phrases"]
                 for sample in samples
             ):
                 random_indices = random.sample(range(len(dataset)), 5)

 # Define benchmarks
 BENCHMARKS = {
+    "icelandic-wiki-qa": {
+        "name": "Íslensk saga og menning",
+        "path": "mideind/icelandic_wiki_qa",
+        "type": "free_text",
+        "white_listed_questions": [
+            "Hver er talinn hafa átt Snorralaug?",
+            "Í hvaða bandaríska háskóla var bókasafnið sem Halldór Hermannsson var bókavörður við?",
+            "Hvaða íslenska barnabók hlaut Íslensku bókmenntaverðlaunin árið 1999?",
+            "Hvenær hefst kirkjuárið í íslensku þjóðkirkjunni?",
+            "Hvað táknaði broddur yfir sérhljóði upphaflega í íslenskum handritum?",
+            "Hvaða ferskeytlu í íslenskum kveðskap er hægt að lesa bæði aftur á bak og áfram án þess að raska bragforminu?",
+            "Hver nefndi Ísland?",
+            "Fyrir hvaða kvikmynd var íslenska dægurlagið „Vegir liggja til allra átta” samið?",
+            "Í hvaða firði er Flugumýri?",
+            "Hver samdi Íslendinga sögu?",
+        ],
+    },
     "icelandic-winogrande": {
+        "name": "Almenn heimsþekking og ályktunarhæfni",
         "path": "mideind/icelandic-winogrande",
         "type": "multiple_choice",
     },
         "path": "mideind/icelandic-arc-challenge",
         "type": "multiple_choice",
     },
 }
 DATASETS = {
     def load_benchmark(self, benchmark_name: str) -> List[Dict[str, Any]]:
         dataset = DATASETS[benchmark_name]
+        if benchmark_name == "icelandic-wiki-qa":
+            filtered_samples = [
+                sample
+                for sample in dataset
+                if sample["query"]
+                in BENCHMARKS[benchmark_name]["white_listed_questions"]
+            ]
+            samples = random.sample(filtered_samples, 5)
+        else:
+            random_indices = random.sample(range(len(dataset)), 5)
+            samples = dataset.select(random_indices)
         if benchmark_name == "icelandic-winogrande":
             samples = [winogrande_preprocessing(sample) for sample in samples]
         elif benchmark_name == "grammatical-error-detection":
             ]
         elif benchmark_name == "icelandic-inflection-all":
             while any(
+                sample["noun_phrase"]
+                in BENCHMARKS[benchmark_name]["blacklisted_noun_phrases"]
                 for sample in samples
             ):
                 random_indices = random.sample(range(len(dataset)), 5)