recruit-jp
/

japanese-typo-detector-roberta-base

Token Classification

Inference Endpoints

Model card Files Files and versions Community

keisuke-kiryu commited on Nov 17, 2023

Commit

ba95365

•

1 Parent(s): 0fc73c6

Update README.md

Files changed (1) hide show

README.md +15 -11

README.md CHANGED Viewed

@@ -3,28 +3,32 @@ license: cc-by-sa-4.0
 language:
 - ja
 widget:
-- text: "これは日本語のタイポを検出する真相学習モデルです。"
 ---
 # モデルの概要
   - 日本語の文章を入力すると各文字ごとに誤植である確率を出力します
-  - 各クラスのラベルは以下に従います
-    0: xx
-    1: xx
-    2: xx
-    3: xx
-    4: xx
-    5: xx
-    6: xx
-    7: xx
-    8: xx
   - 本モデルは日本語の文章が入力されることを前提としています
 # モデルの使い方
   ```python
     import transformers
   ```
 # ライセンス
   - 本モデルは京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開しているRoBERTaの事前学習モデル(ku-nlp/roberta-base-japanese-char-wwm)をFine-Tuningしたものです。
   - 本モデルは事前学習モデルのライセンス"CC-BY-SA 4.0"を継承します。

 language:
 - ja
 widget:
+- text: "これは日本語の誤植を検出する真相学習モデルです。"
 ---
 # モデルの概要
   - 日本語の文章を入力すると各文字ごとに誤植である確率を出力します
   - 本モデルは日本語の文章が入力されることを前提としています
+  - 各ラベルの意味は以下の通りです
+    0 : OK
+    1 : deletion
+    2 : insertion_a
+    3 : insertion_b
+    4 : kanji-conversion_a
+    5 : kanji-conversion_b
+    6 : substitution
+    7 : transposition
+    8 : others
 # モデルの使い方
   ```python
     import transformers
   ```
+# 学習データ
+  - 京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開している[日本語Wikipedia入力誤りデータセット (v2)](https://nlp.ist.i.kyoto-u.ac.jp/?%E6%97%A5%E6%9C%AC%E8%AA%9EWikipedia%E5%85%A5%E5%8A%9B%E8%AA%A4%E3%82%8A%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88)のtrainセットを利用しています
 # ライセンス
   - 本モデルは京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開しているRoBERTaの事前学習モデル(ku-nlp/roberta-base-japanese-char-wwm)をFine-Tuningしたものです。
   - 本モデルは事前学習モデルのライセンス"CC-BY-SA 4.0"を継承します。