한국어 학습과 관련한 질문이 있습니다.
#1
by
HWkim
- opened
GliNER 모델을 테스트하고 싶습니다.
본 모델을 학습할때 사용한 한국어 데이터셋이 무엇인지 궁금합니다.
안녕하세요, 답변이 늦었네요.
공개되어 있는 데이터셋 위주로 학습을 진행하였습니다.
- https://github.com/kmounlp/NER
- https://github.com/korean-named-entity/konne
- https://github.com/naver/nlp-challenge/blob/master/missions/ner/data/train/train_data
- NIKL ner 데이터 셋 중 일부
- AIHUB ner 데이터 셋 중 일부
요정도를 사용했구요,
데이터 셋 마다 태그 셋이 조금씩 달라서, TTA 태그 셋으로 통일해서 작업했습니다.
taeminlee
changed discussion status to
closed
taeminlee
changed discussion status to
open