gardarjuto
commited on
Commit
•
3835c7d
1
Parent(s):
e568e74
Whitelisted select Wiki-QA questions to make it easier/more fun
Browse files
quiz.py
CHANGED
@@ -8,8 +8,25 @@ from score import calculate_gpt4o_scores, BENCHMARK_SCORES
|
|
8 |
|
9 |
# Define benchmarks
|
10 |
BENCHMARKS = {
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
11 |
"icelandic-winogrande": {
|
12 |
-
"name": "
|
13 |
"path": "mideind/icelandic-winogrande",
|
14 |
"type": "multiple_choice",
|
15 |
},
|
@@ -48,11 +65,6 @@ BENCHMARKS = {
|
|
48 |
"path": "mideind/icelandic-arc-challenge",
|
49 |
"type": "multiple_choice",
|
50 |
},
|
51 |
-
"icelandic-wiki-qa": {
|
52 |
-
"name": "Íslensk saga og menning",
|
53 |
-
"path": "mideind/icelandic_wiki_qa",
|
54 |
-
"type": "free_text",
|
55 |
-
},
|
56 |
}
|
57 |
|
58 |
DATASETS = {
|
@@ -186,8 +198,17 @@ class BenchmarkQuiz:
|
|
186 |
|
187 |
def load_benchmark(self, benchmark_name: str) -> List[Dict[str, Any]]:
|
188 |
dataset = DATASETS[benchmark_name]
|
189 |
-
|
190 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
191 |
if benchmark_name == "icelandic-winogrande":
|
192 |
samples = [winogrande_preprocessing(sample) for sample in samples]
|
193 |
elif benchmark_name == "grammatical-error-detection":
|
@@ -196,7 +217,8 @@ class BenchmarkQuiz:
|
|
196 |
]
|
197 |
elif benchmark_name == "icelandic-inflection-all":
|
198 |
while any(
|
199 |
-
sample["noun_phrase"]
|
|
|
200 |
for sample in samples
|
201 |
):
|
202 |
random_indices = random.sample(range(len(dataset)), 5)
|
|
|
8 |
|
9 |
# Define benchmarks
|
10 |
BENCHMARKS = {
|
11 |
+
"icelandic-wiki-qa": {
|
12 |
+
"name": "Íslensk saga og menning",
|
13 |
+
"path": "mideind/icelandic_wiki_qa",
|
14 |
+
"type": "free_text",
|
15 |
+
"white_listed_questions": [
|
16 |
+
"Hver er talinn hafa átt Snorralaug?",
|
17 |
+
"Í hvaða bandaríska háskóla var bókasafnið sem Halldór Hermannsson var bókavörður við?",
|
18 |
+
"Hvaða íslenska barnabók hlaut Íslensku bókmenntaverðlaunin árið 1999?",
|
19 |
+
"Hvenær hefst kirkjuárið í íslensku þjóðkirkjunni?",
|
20 |
+
"Hvað táknaði broddur yfir sérhljóði upphaflega í íslenskum handritum?",
|
21 |
+
"Hvaða ferskeytlu í íslenskum kveðskap er hægt að lesa bæði aftur á bak og áfram án þess að raska bragforminu?",
|
22 |
+
"Hver nefndi Ísland?",
|
23 |
+
"Fyrir hvaða kvikmynd var íslenska dægurlagið „Vegir liggja til allra átta” samið?",
|
24 |
+
"Í hvaða firði er Flugumýri?",
|
25 |
+
"Hver samdi Íslendinga sögu?",
|
26 |
+
],
|
27 |
+
},
|
28 |
"icelandic-winogrande": {
|
29 |
+
"name": "Almenn heimsþekking og ályktunarhæfni",
|
30 |
"path": "mideind/icelandic-winogrande",
|
31 |
"type": "multiple_choice",
|
32 |
},
|
|
|
65 |
"path": "mideind/icelandic-arc-challenge",
|
66 |
"type": "multiple_choice",
|
67 |
},
|
|
|
|
|
|
|
|
|
|
|
68 |
}
|
69 |
|
70 |
DATASETS = {
|
|
|
198 |
|
199 |
def load_benchmark(self, benchmark_name: str) -> List[Dict[str, Any]]:
|
200 |
dataset = DATASETS[benchmark_name]
|
201 |
+
if benchmark_name == "icelandic-wiki-qa":
|
202 |
+
filtered_samples = [
|
203 |
+
sample
|
204 |
+
for sample in dataset
|
205 |
+
if sample["query"]
|
206 |
+
in BENCHMARKS[benchmark_name]["white_listed_questions"]
|
207 |
+
]
|
208 |
+
samples = random.sample(filtered_samples, 5)
|
209 |
+
else:
|
210 |
+
random_indices = random.sample(range(len(dataset)), 5)
|
211 |
+
samples = dataset.select(random_indices)
|
212 |
if benchmark_name == "icelandic-winogrande":
|
213 |
samples = [winogrande_preprocessing(sample) for sample in samples]
|
214 |
elif benchmark_name == "grammatical-error-detection":
|
|
|
217 |
]
|
218 |
elif benchmark_name == "icelandic-inflection-all":
|
219 |
while any(
|
220 |
+
sample["noun_phrase"]
|
221 |
+
in BENCHMARKS[benchmark_name]["blacklisted_noun_phrases"]
|
222 |
for sample in samples
|
223 |
):
|
224 |
random_indices = random.sample(range(len(dataset)), 5)
|