File size: 2,249 Bytes
9c7c98d 2601e53 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 |
---
license: apache-2.0
language:
- ja
tags:
- luke
- named entity recognition
---
[studio-ousia/luke-japanese-base](https://huggingface.co/studio-ousia/luke-japanese-base)に対して次の変更を加えたモデルです。
- ベースのモデルをRoBERTaから日本語BERTに切り替え、それに伴ってトークナイザがSentencepieceからWordPieceになりました
- 2023年7月1日時点の日本語Wikipediaのデータで事前学習をおこないました
- `[UNK]` (unknown) エンティティを扱えるようにしました
詳細は[ブログ記事](https://tech.uzabase.com/entry/2023/09/07/172958)をご参照ください。
## 使用方法
```python
from transformers import AutoTokenizer, AutoModel
# 本モデル用のトークナイザのコードを使用するため、trust_remote_code=True の指定が必要です
tokenizer = AutoTokenizer.from_pretrained("uzabase/luke-japanese-wordpiece-base", trust_remote_code=True)
model = AutoModel.from_pretrained("uzabase/luke-japanese-wordpiece-base")
```
## 更新情報
- **2023/11/28:** 以下の更新を行いました。
- トークナイザが transformers v4.34.0 以降で読み込み不可となっていた問題を修正しました。
- トークナイザの出力に `position_ids` を含めるように変更しました。
- 以前は LUKE のモデルが [自動的に付与](https://github.com/huggingface/transformers/blob/v4.35.2/src/transformers/models/luke/modeling_luke.py#L424) する `position_ids` が使われていましたが、これは RoBERTa 仕様のものであり、BERT を使った本モデルでは正しい値となっていませんでした。そこで、 BERT 向けの正しい `position_ids` の値がモデルに入力されるように、`position_ids` を明示的にトークナイザの出力に含めるようにしました。
- トークナイザの `entity_vocab` の各トークン(`"[PAD]"` 等の特殊トークンを除く)の先頭に付いていた `"None:"` の文字列を除去しました。
- 例えば、 `"None:聖徳太子"` となっていたトークンは `"聖徳太子"` に修正されています。
- **2023/09/07:** モデルを公開しました。
|