iknow-lab
/

azou

@@ -34,12 +34,13 @@ base model: [klue/roberta-large](https://huggingface.co/klue/roberta-large)
 ### 제로샷 분류 성능
 |task|azou|GPT-3.5-turbo|
 |---|---|---|
-|aihub_complaints_topic|0.3284|0.15|
-|aihub_dialog_topic|0.428|0.32|
-|ko_relation_fields|0.403|0.381|
-|Average|<b>0.3865</b>|0.2837|
-- GPT 3.5-turbo의 경우, 비용 문제로 aihub_complaints_topic는 1300개, aihub_dialog_topic와 ko_relation_fields는 1000개만 평가했습니다.
 - aihub_complaints_topic: AIHub [민원 업무 자동화 인공지능 언어 데이터](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=619) - 16개 카테고리 class 분류
 - aihub_dialog_topic: AIHub [한국어 대화 요약](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=117)의 10개 주제 class 분류
 - ko_relation_fields: AIHub [한국어 지식기반 관계 데이터](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71633) 의 13개 주제 및 분야 분류
@@ -47,14 +48,14 @@ base model: [klue/roberta-large](https://huggingface.co/klue/roberta-large)
 ### Seen Task 성능
 |task|accuracy|
 |---|---|
-|nsmc|0.8742|
-|apeach|0.8326|
-|klue-ynat|0.8208|
-|kobest-boolq|0.896|
-|kobest-copa|0.709|
-|kobest-hellaswag|0.764|
-|kobest-sentineg|0.9219|
-|kobest-wic|0.7984|
 ### CSATQA

 ### 제로샷 분류 성능
 |task|azou|GPT-3.5-turbo|
 |---|---|---|
+|aihub_complaints_topic|32.84|15|
+|aihub_dialog_topic|42.8|32|
+|ko_relation_fields|40.3|38.1|
+|Average|<b>38.65</b>|28.37|
+- 학습에 사용하지 않은 텍스트와 라벨도 잘 분류하는지 판단하기 위해, AIHub의 텍스트 분류 데이터셋들을 가져와서 ChatGPT와 정확도를 비교했습니다.
+- GPT 3.5-turbo의 경우, 비용 문제로 aihub_complaints_topic는 1300개, aihub_dialog_topic와 ko_relation_fields는 1000개만 평가했습니다(azou는 전체 평가).
 - aihub_complaints_topic: AIHub [민원 업무 자동화 인공지능 언어 데이터](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=619) - 16개 카테고리 class 분류
 - aihub_dialog_topic: AIHub [한국어 대화 요약](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=117)의 10개 주제 class 분류
 - ko_relation_fields: AIHub [한국어 지식기반 관계 데이터](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71633) 의 13개 주제 및 분야 분류
 ### Seen Task 성능
 |task|accuracy|
 |---|---|
+|nsmc|87.42|
+|apeach|83.26|
+|klue-ynat|82.08|
+|kobest-boolq|89.6|
+|kobest-copa|70.9|
+|kobest-hellaswag|76.4|
+|kobest-sentineg|92.19|
+|kobest-wic|79.84|
 ### CSATQA