File size: 2,249 Bytes

---
license: apache-2.0
language:
- ja
tags:
- luke
- named entity recognition
---

[studio-ousia/luke-japanese-base](https://huggingface.co/studio-ousia/luke-japanese-base)に対して次の変更を加えたモデルです。

- ベースのモデルをRoBERTaから日本語BERTに切り替え、それに伴ってトークナイザがSentencepieceからWordPieceになりました
- 2023年7月1日時点の日本語Wikipediaのデータで事前学習をおこないました
- `[UNK]` (unknown) エンティティを扱えるようにしました

詳細は[ブログ記事](https://tech.uzabase.com/entry/2023/09/07/172958)をご参照ください。

## 使用方法

```python
from transformers import AutoTokenizer, AutoModel

# 本モデル用のトークナイザのコードを使用するため、trust_remote_code=True の指定が必要です
tokenizer = AutoTokenizer.from_pretrained("uzabase/luke-japanese-wordpiece-base", trust_remote_code=True)

model = AutoModel.from_pretrained("uzabase/luke-japanese-wordpiece-base")
```

## 更新情報

- **2023/11/28:** 以下の更新を行いました。
    - トークナイザが transformers v4.34.0 以降で読み込み不可となっていた問題を修正しました。
    - トークナイザの出力に `position_ids` を含めるように変更しました。
        - 以前は LUKE のモデルが [自動的に付与](https://github.com/huggingface/transformers/blob/v4.35.2/src/transformers/models/luke/modeling_luke.py#L424) する `position_ids` が使われていましたが、これは RoBERTa 仕様のものであり、BERT を使った本モデルでは正しい値となっていませんでした。そこで、 BERT 向けの正しい `position_ids` の値がモデルに入力されるように、`position_ids` を明示的にトークナイザの出力に含めるようにしました。
    - トークナイザの `entity_vocab` の各トークン（`"[PAD]"` 等の特殊トークンを除く）の先頭に付いていた `"None:"` の文字列を除去しました。
        - 例えば、 `"None:聖徳太子"` となっていたトークンは `"聖徳太子"` に修正されています。
- **2023/09/07:** モデルを公開しました。