studio-ousia/luke-japanese-baseに対して次の変更を加えたモデルです。
- ベースのモデルをRoBERTaから日本語BERTに切り替え、それに伴ってトークナイザがSentencepieceからWordPieceになりました
- 2023年7月1日時点の日本語Wikipediaのデータで事前学習をおこないました
[UNK]
(unknown) エンティティを扱えるようにしました
詳細はブログ記事をご参照ください。
使用方法
from transformers import AutoTokenizer, AutoModel
# 本モデル用のトークナイザのコードを使用するため、trust_remote_code=True の指定が必要です
tokenizer = AutoTokenizer.from_pretrained("uzabase/luke-japanese-wordpiece-base", trust_remote_code=True)
model = AutoModel.from_pretrained("uzabase/luke-japanese-wordpiece-base")
更新情報
- 2023/11/28: 以下の更新を行いました。
- トークナイザが transformers v4.34.0 以降で読み込み不可となっていた問題を修正しました。
- トークナイザの出力に
position_ids
を含めるように変更しました。- 以前は LUKE のモデルが 自動的に付与 する
position_ids
が使われていましたが、これは RoBERTa 仕様のものであり、BERT を使った本モデルでは正しい値となっていませんでした。そこで、 BERT 向けの正しいposition_ids
の値がモデルに入力されるように、position_ids
を明示的にトークナイザの出力に含めるようにしました。
- 以前は LUKE のモデルが 自動的に付与 する
- トークナイザの
entity_vocab
の各トークン("[PAD]"
等の特殊トークンを除く)の先頭に付いていた"None:"
の文字列を除去しました。- 例えば、
"None:聖徳太子"
となっていたトークンは"聖徳太子"
に修正されています。
- 例えば、
- 2023/09/07: モデルを公開しました。
- Downloads last month
- 201
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.