gardarjuto commited on
Commit
3835c7d
1 Parent(s): e568e74

Whitelisted select Wiki-QA questions to make it easier/more fun

Browse files
Files changed (1) hide show
  1. quiz.py +31 -9
quiz.py CHANGED
@@ -8,8 +8,25 @@ from score import calculate_gpt4o_scores, BENCHMARK_SCORES
8
 
9
  # Define benchmarks
10
  BENCHMARKS = {
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
11
  "icelandic-winogrande": {
12
- "name": "Winogrande",
13
  "path": "mideind/icelandic-winogrande",
14
  "type": "multiple_choice",
15
  },
@@ -48,11 +65,6 @@ BENCHMARKS = {
48
  "path": "mideind/icelandic-arc-challenge",
49
  "type": "multiple_choice",
50
  },
51
- "icelandic-wiki-qa": {
52
- "name": "Íslensk saga og menning",
53
- "path": "mideind/icelandic_wiki_qa",
54
- "type": "free_text",
55
- },
56
  }
57
 
58
  DATASETS = {
@@ -186,8 +198,17 @@ class BenchmarkQuiz:
186
 
187
  def load_benchmark(self, benchmark_name: str) -> List[Dict[str, Any]]:
188
  dataset = DATASETS[benchmark_name]
189
- random_indices = random.sample(range(len(dataset)), 5)
190
- samples = dataset.select(random_indices)
 
 
 
 
 
 
 
 
 
191
  if benchmark_name == "icelandic-winogrande":
192
  samples = [winogrande_preprocessing(sample) for sample in samples]
193
  elif benchmark_name == "grammatical-error-detection":
@@ -196,7 +217,8 @@ class BenchmarkQuiz:
196
  ]
197
  elif benchmark_name == "icelandic-inflection-all":
198
  while any(
199
- sample["noun_phrase"] in BENCHMARKS[benchmark_name]["blacklisted_noun_phrases"]
 
200
  for sample in samples
201
  ):
202
  random_indices = random.sample(range(len(dataset)), 5)
 
8
 
9
  # Define benchmarks
10
  BENCHMARKS = {
11
+ "icelandic-wiki-qa": {
12
+ "name": "Íslensk saga og menning",
13
+ "path": "mideind/icelandic_wiki_qa",
14
+ "type": "free_text",
15
+ "white_listed_questions": [
16
+ "Hver er talinn hafa átt Snorralaug?",
17
+ "Í hvaða bandaríska háskóla var bókasafnið sem Halldór Hermannsson var bókavörður við?",
18
+ "Hvaða íslenska barnabók hlaut Íslensku bókmenntaverðlaunin árið 1999?",
19
+ "Hvenær hefst kirkjuárið í íslensku þjóðkirkjunni?",
20
+ "Hvað táknaði broddur yfir sérhljóði upphaflega í íslenskum handritum?",
21
+ "Hvaða ferskeytlu í íslenskum kveðskap er hægt að lesa bæði aftur á bak og áfram án þess að raska bragforminu?",
22
+ "Hver nefndi Ísland?",
23
+ "Fyrir hvaða kvikmynd var íslenska dægurlagið „Vegir liggja til allra átta” samið?",
24
+ "Í hvaða firði er Flugumýri?",
25
+ "Hver samdi Íslendinga sögu?",
26
+ ],
27
+ },
28
  "icelandic-winogrande": {
29
+ "name": "Almenn heimsþekking og ályktunarhæfni",
30
  "path": "mideind/icelandic-winogrande",
31
  "type": "multiple_choice",
32
  },
 
65
  "path": "mideind/icelandic-arc-challenge",
66
  "type": "multiple_choice",
67
  },
 
 
 
 
 
68
  }
69
 
70
  DATASETS = {
 
198
 
199
  def load_benchmark(self, benchmark_name: str) -> List[Dict[str, Any]]:
200
  dataset = DATASETS[benchmark_name]
201
+ if benchmark_name == "icelandic-wiki-qa":
202
+ filtered_samples = [
203
+ sample
204
+ for sample in dataset
205
+ if sample["query"]
206
+ in BENCHMARKS[benchmark_name]["white_listed_questions"]
207
+ ]
208
+ samples = random.sample(filtered_samples, 5)
209
+ else:
210
+ random_indices = random.sample(range(len(dataset)), 5)
211
+ samples = dataset.select(random_indices)
212
  if benchmark_name == "icelandic-winogrande":
213
  samples = [winogrande_preprocessing(sample) for sample in samples]
214
  elif benchmark_name == "grammatical-error-detection":
 
217
  ]
218
  elif benchmark_name == "icelandic-inflection-all":
219
  while any(
220
+ sample["noun_phrase"]
221
+ in BENCHMARKS[benchmark_name]["blacklisted_noun_phrases"]
222
  for sample in samples
223
  ):
224
  random_indices = random.sample(range(len(dataset)), 5)