init

Files changed (8) hide show

README.md +66 -0
added_tokens.json +1 -0
config.json +28 -0
pytorch_model.bin +3 -0
special_tokens_map.json +1 -0
spiece.model +3 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0

README.md ADDED Viewed

	@@ -0,0 +1,66 @@

+---
+tags:
+- fill-mask
+- japanese
+- albert
+language:
+- ja
+license: mit
+widget:
+- text: "2022年の[MASK]概要"
+---
+## albert-base-japanese-v1
+日本語事前学習済みALBERTモデルです
+## How to use
+### ファインチューニング
+このモデルはPreTrainedモデルです
+基本的には各種タスク用にファインチューニングして使用されることを想定しています
+### Fill-Mask
+このモデルではTokenizerにSentencepieceを利用しています
+そのままでは`[MASK]`トークンのあとに[余計なトークンが混入する問題](https://ken11.jp/blog/sentencepiece-tokenizer-bug)があるので、利用する際には以下のようにする必要があります
+```py
+from transformers import (
+    AlbertForMaskedLM, AlbertTokenizerFast
+)
+import torch
+tokenizer = AlbertTokenizerFast.from_pretrained("ken11/albert-base-japanese-v1")
+model = AlbertForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1")
+text = "大学で[MASK]の研究をしています"
+tokenized_text = tokenizer.tokenize(text)
+del tokenized_text[tokenized_text.index(tokenizer.mask_token) + 1]
+input_ids = [tokenizer.cls_token_id]
+input_ids.extend(tokenizer.convert_tokens_to_ids(tokenized_text))
+input_ids.append(tokenizer.sep_token_id)
+inputs = {"input_ids": [input_ids], "token_type_ids": [[0]*len(input_ids)], "attention_mask": [[1]*len(input_ids)]}
+batch = {k: torch.tensor(v, dtype=torch.int64) for k, v in inputs.items()}
+output = model(**batch)[0]
+_, result = output[0, input_ids.index(tokenizer.mask_token_id)].topk(5)
+print(tokenizer.convert_ids_to_tokens(result.tolist()))
+# ['英語', '心理学', '数学', '医学', '日本語']
+```
+## Training Data
+学習には
+- [日本語Wikipediaの全文](https://ja.wikipedia.org/wiki/Wikipedia:%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89)
+- [livedoorニュースコーパス](https://www.rondhuit.com/download.html#ldcc)
+を利用しています
+## Tokenizer
+トークナイザーは[Sentencepiece](https://github.com/google/sentencepiece)を利用しています
+こちらも学習データは同様です
+## Licenese
+[The MIT license](https://opensource.org/licenses/MIT)

added_tokens.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"<pad>": 32000}

config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "architectures": [
+    "AlbertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 2,
+  "classifier_dropout_prob": 0.1,
+  "embedding_size": 128,
+  "eos_token_id": 3,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "inner_group_num": 1,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "albert",
+  "num_attention_heads": 12,
+  "num_hidden_groups": 1,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.12.5",
+  "type_vocab_size": 2,
+  "vocab_size": 32001
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:359a2eb4bf8438c7ee79f71d9ae5cb999e8f7c43e271165090b39fec0a43a86b
+size 45934350

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "[CLS]", "eos_token": "[SEP]", "unk_token": "<unk>", "sep_token": "[SEP]", "pad_token": "<pad>", "cls_token": "[CLS]", "mask_token": {"content": "[MASK]", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true}}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a92e9d6477b60da3a89422630e3b2bcf94335e2b5b2d199d308976405c965227
+size 800120

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"do_lower_case": false, "remove_space": true, "keep_accents": true, "bos_token": "[CLS]", "eos_token": "[SEP]", "unk_token": "<unk>", "sep_token": "[SEP]", "pad_token": "<pad>", "cls_token": "[CLS]", "mask_token": {"content": "[MASK]", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "tokenize_chinese_chars": false, "sp_model_kwargs": {}, "tokenizer_class": "AlbertTokenizer"}