--- license: cc-by-nc-sa-4.0 pipeline_tag: fill-mask ---

Finance-KcELECTRA-v1.0


구어체의 금융 관련 질의를 데이터로 활용하여 "beomi/KcELECTRA-base"에서 이름을 착안하여 Finance-KcELECTRA-base-v1.0으로 지었습니다.

<학습 말뭉치 구축>

1. 네이버 신문 기사 데이터 (카드, 보험, 은행 키워드 기사 각 15만 건) 2. 일반적인 성능을 위해 한국어 위키 텍스트 말뭉치 사용 (https://ko-nlp.github.io/Korpora) 3. 자체 보유 중인 구어체의 금융 관련 FAQ 지식 및 금융 채팅 대화 데이터 활용

<베이스 모델>

"ELECTRA-Base"의 모델 사이즈를 사용하였습니다.

<성능 비교>

자체 제작한 2607개 분류의 약 10만개의 질의세트를 학습하여 평가 진행
테스트셋은 각 분류당 1개의 질문 2607개로 학습 시 진행한 결과는 아래와 같습니다.
Finance-KcELECTRA-base-v1
2000STEPS -- acc = 0.7909474491752972
4000STEPS -- acc = 0.9673954737245877
6000STEPS -- acc = 0.984656693517453

KcELECTRA-base
2000STEPS -- acc = 0.5124664365170695
4000STEPS -- acc = 0.9136939010356732
6000STEPS -- acc = 0.9612581511315689

초기 1epoch에 기존 Kc-ELECTRA에 비해서 빠르게 학습이 수행되는 것을 확인하였습니다.
이후에도 성능이 조금이나마 앞선 것을 확인할 수 있었습니다.