File size: 1,348 Bytes
0b04eaf 641cf80 de0aece ea0704a 0b04eaf ea0704a cbc0396 ea0704a c65012e ea0704a c65012e ea0704a |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 |
---
language:
- ja
widget:
- text: 株式会社はJurabi、東京都台東区に本社を置くIT企業である。
license: cc-by-sa-3.0
---
# BERTによる日本語固有表現抽出のモデル
## 使用方法
必要なライブラリ(transformers、unidic_lite、fugashi)をpipなどでインストールして、下記のコードを実行するだけです。
```python
from transformers import BertJapaneseTokenizer, BertForTokenClassification
from transformers import pipeline
model = BertForTokenClassification.from_pretrained("jurabi/bert-ner-japanese")
tokenizer = BertJapaneseTokenizer.from_pretrained("jurabi/bert-ner-japanese")
ner_pipeline = pipeline('ner', model=model, tokenizer=tokenizer)
ner_pipeline("ここに固有表現抽出をしたい文を書いて下さい。")
```
## 事前学習モデル
東北大学乾研究室が公開している日本語BERTモデル([cl-tohoku/bert-base-japanese-v2](https://huggingface.co/cl-tohoku/bert-base-japanese-v2))
## 学習データ
ストックマーク株式会社が公開しているWikipediaを用いた日本語の固有表現抽出データセット([stockmarkteam/ner-wikipedia-dataset](https://github.com/stockmarkteam/ner-wikipedia-dataset))
## ライセンス
[Creative Commons Attribution-ShareAlike 3.0](https://creativecommons.org/licenses/by-sa/3.0/) |