metadata
license: apache-2.0
language:
- ja
tags:
- luke
- named entity recognition
studio-ousia/luke-japanese-baseに対して次の変更を加えたモデルです。
- ベースのモデルをRoBERTaから日本語BERTに切り替え、それに伴ってトークナイザがSentencepieceからWordPieceになりました
- 2023年7月1日時点の日本語Wikipediaのデータで事前学習をおこないました
[UNK]
(unknown) エンティティを扱えるようにしました
詳細はブログ記事をご参照ください。
使用方法
from transformers import AutoTokenizer, AutoModel
# 本モデル用のトークナイザのコードを使用するため、trust_remote_code=True の指定が必要です
tokenizer = AutoTokenizer.from_pretrained("uzabase/luke-japanese-wordpiece-base", trust_remote_code=True)
model = AutoModel.from_pretrained("uzabase/luke-japanese-wordpiece-base")
更新情報
- 2023/11/28: 以下の更新を行いました。
- トークナイザが transformers v4.34.0 以降で読み込み不可となっていた問題を修正しました。
- トークナイザの出力に
position_ids
を含めるように変更しました。- 以前は LUKE のモデルが 自動的に付与 する
position_ids
が使われていましたが、これは RoBERTa 仕様のものであり、BERT を使った本モデルでは正しい値となっていませんでした。そこで、 BERT 向けの正しいposition_ids
の値がモデルに入力されるように、position_ids
を明示的にトークナイザの出力に含めるようにしました。
- 以前は LUKE のモデルが 自動的に付与 する
- トークナイザの
entity_vocab
の各トークン("[PAD]"
等の特殊トークンを除く)の先頭に付いていた"None:"
の文字列を除去しました。- 例えば、
"None:聖徳太子"
となっていたトークンは"聖徳太子"
に修正されています。
- 例えば、
- 2023/09/07: モデルを公開しました。