albert-base-japanese-v1-with-japanese
日本語事前学習済みALBERTモデルです
このモデルではTokenizerにBertJapaneseTokenizerクラスを利用しています
albert-base-japanese-v1よりトークナイズ処理が楽になっています
How to use
ファインチューニング
このモデルはPreTrainedモデルです
基本的には各種タスク用にファインチューニングして使用されることを想定しています
Fill-Mask
for PyTorch
from transformers import (
AutoModelForMaskedLM, AutoTokenizer
)
tokenizer = AutoTokenizer.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
model = AutoModelForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
text = "明日は明日の[MASK]が吹く"
tokens = tokenizer(text, return_tensors="pt")
mask_index = tokens["input_ids"][0].tolist().index(tokenizer.mask_token_id)
predict = model(**tokens)[0]
_, result = predict[0, mask_index].topk(5)
print(tokenizer.convert_ids_to_tokens(result.tolist()))
for TensorFlow
from transformers import (
TFAutoModelForMaskedLM, AutoTokenizer
)
import tensorflow as tf
tokenizer = AutoTokenizer.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
model = TFAutoModelForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
text = "明日は明日の[MASK]が吹く"
tokens = tokenizer(text, return_tensors="tf")
mask_index = tokens["input_ids"][0].numpy().tolist().index(tokenizer.mask_token_id)
predict = model(**tokens)[0]
result = tf.math.top_k(predict[0, mask_index], k=5)
print(tokenizer.convert_ids_to_tokens(result.indices.numpy()))
Training Data
学習には
を利用しています
Tokenizer
トークナイザーはBertJapaneseTokenizerクラスを利用しています
こちらも学習データは同様です
Licenese
- Downloads last month
- 161
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.