yentinglin
commited on
Commit
•
84c68db
1
Parent(s):
a92da22
Update src/about.py
Browse files- src/about.py +11 -4
src/about.py
CHANGED
@@ -29,6 +29,13 @@ TITLE = """<h1 align="center" id="space-title">Open Taiwan LLM leaderboard</h1>"
|
|
29 |
INTRODUCTION_TEXT = """
|
30 |
This leaderboard showcases the performance of large language models (LLMs) on various Taiwanese Mandarin language understanding tasks. The models are evaluated on their accuracy across different benchmarks, providing insights into their strengths and weaknesses in comprehending and generating Taiwanese Mandarin text.
|
31 |
這個排行榜展示了大型語言模型 (LLMs) 在各種臺灣繁體中文語言理解任務上的表現。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
32 |
"""
|
33 |
|
34 |
# Which evaluations are you running? how can people reproduce what you have?
|
@@ -44,10 +51,10 @@ To reproduce our results, please follow the instructions in the provided GitHub
|
|
44 |
|
45 |
該排行榜在以下考題上評估 LLMs:
|
46 |
|
47 |
-
1. [TMLU(臺灣中文大規模多任務語言理解)](https://huggingface.co/datasets/miulab/tmlu):衡量模型理解各個領域(國中、高中、大學、國考)的能力。
|
48 |
-
2. TW Truthful QA:評估模型以臺灣特定的背景來回答問題,測試模型的在地化能力。
|
49 |
-
3. [TW Legal Eval](https://huggingface.co/datasets/lianghsun/tw-legal-benchmark-v1):使用臺灣律師資格考試的問題,評估模型對臺灣法律術語和概念的理解。
|
50 |
-
4. [MMLU(英文大規模多任務語言理解)](https://huggingface.co/datasets/cais/mmlu):測試模型在英語中各種任務上的表現。
|
51 |
|
52 |
要重現我們的結果,請按照:https://github.com/adamlin120/lm-evaluation-harness/blob/main/run_all.sh
|
53 |
"""
|
|
|
29 |
INTRODUCTION_TEXT = """
|
30 |
This leaderboard showcases the performance of large language models (LLMs) on various Taiwanese Mandarin language understanding tasks. The models are evaluated on their accuracy across different benchmarks, providing insights into their strengths and weaknesses in comprehending and generating Taiwanese Mandarin text.
|
31 |
這個排行榜展示了大型語言模型 (LLMs) 在各種臺灣繁體中文語言理解任務上的表現。
|
32 |
+
|
33 |
+
排行榜在以下考題上評估 LLMs:
|
34 |
+
|
35 |
+
1. [TMLU(臺灣中文大規模多任務語言理解)](https://huggingface.co/datasets/miulab/tmlu):衡量模型理解各個領域(國中、高中、大學、國考)的能力。
|
36 |
+
2. TW Truthful QA:評估模型以臺灣特定的背景來回答問題,測試模型的在地化能力。
|
37 |
+
3. [TW Legal Eval](https://huggingface.co/datasets/lianghsun/tw-legal-benchmark-v1):使用臺灣律師資格考試的問題,評估模型對臺灣法律術語和概念的理解。
|
38 |
+
4. [MMLU(英文大規模多任務語言理解)](https://huggingface.co/datasets/cais/mmlu):測試模型在英語中各種任務上的表現。
|
39 |
"""
|
40 |
|
41 |
# Which evaluations are you running? how can people reproduce what you have?
|
|
|
51 |
|
52 |
該排行榜在以下考題上評估 LLMs:
|
53 |
|
54 |
+
1. 📚 [TMLU(臺灣中文大規模多任務語言理解)](https://huggingface.co/datasets/miulab/tmlu):衡量模型理解各個領域(國中、高中、大學、國考)的能力。
|
55 |
+
2. 🇹🇼 TW Truthful QA:評估模型以臺灣特定的背景來回答問題,測試模型的在地化能力。
|
56 |
+
3. ⚖️ [TW Legal Eval](https://huggingface.co/datasets/lianghsun/tw-legal-benchmark-v1):使用臺灣律師資格考試的問題,評估模型對臺灣法律術語和概念的理解。
|
57 |
+
4. 🌐📚 [MMLU(英文大規模多任務語言理解)](https://huggingface.co/datasets/cais/mmlu):測試模型在英語中各種任務上的表現。
|
58 |
|
59 |
要重現我們的結果,請按照:https://github.com/adamlin120/lm-evaluation-harness/blob/main/run_all.sh
|
60 |
"""
|