jurabi
/

bert-ner-japanese

Token Classification

Inference Endpoints

Model card Files Files and versions Community

bert-ner-japanese / README.md

hayashi-jurabi's picture

Update README.md

cb88bdb almost 2 years ago

|

No virus

2.22 kB

	---
	language:
	- ja
	widget:
	- text: 株式会社Jurabiは、東京都台東区に本社を置くIT企業である。
	license: cc-by-sa-3.0
	---
	# BERTによる日本語固有表現抽出のモデル
	[BertForTokenClassification](https://huggingface.co/docs/transformers/model_doc/bert#transformers.BertForTokenClassification)を用いて、日本語の文から固有表現を抽出します。

	抽出される固有表現のタイプは、以下の8種類です。
	- 人名
	- 法人名（法人または法人に類する組織）
	- 政治的組織名（政治的組織名、政党名、政府組織名、行政組織名、軍隊名、国際組織名）
	- その他の組織名（競技組織名、公演組織名、その他）
	- 地名
	- 施設名
	- 製品名（商品名、番組名、映画名、書籍名、歌名、ブランド名等）
	- イベント名

	## 使用方法
	必要なライブラリ（transformers、unidic_lite、fugashi）をpipなどでインストールして、下記のコードを実行するだけです。

	```python
	from transformers import BertJapaneseTokenizer, BertForTokenClassification
	from transformers import pipeline

	model = BertForTokenClassification.from_pretrained("jurabi/bert-ner-japanese")
	tokenizer = BertJapaneseTokenizer.from_pretrained("jurabi/bert-ner-japanese")

	ner_pipeline = pipeline('ner', model=model, tokenizer=tokenizer)
	ner_pipeline("株式会社Jurabiは、東京都台東区に本社を置くIT企業である。")
	```

	## 事前学習モデル
	東北大学乾研究室が公開している日本語BERTモデル（[cl-tohoku/bert-base-japanese-v2](https://huggingface.co/cl-tohoku/bert-base-japanese-v2)）

	## 学習データ
	ストックマーク株式会社が公開しているWikipediaを用いた日本語の固有表現抽出データセット（[stockmarkteam/ner-wikipedia-dataset](https://github.com/stockmarkteam/ner-wikipedia-dataset)）

	## ソースコード
	ファインチューニングに使用したプログラムは、[jurabiinc/bert-ner-japanese](https://github.com/jurabiinc/bert-ner-japanese)で公開しています。

	## ライセンス
	[Creative Commons Attribution-ShareAlike 3.0](https://creativecommons.org/licenses/by-sa/3.0/)