recruit-jp
/

japanese-typo-detector-roberta-base

@@ -9,18 +9,24 @@ widget:
 # モデルの概要
   - 日本語の文章を入力すると各文字ごとに誤植である確率を出力します
   - 本モデルは日本語の文章が入力されることを前提としています
-  - 各ラベルの意味は以下の通りです
-    0 : OK
-    1 : deletion
-    2 : insertion_a
-    3 : insertion_b
-    4 : kanji-conversion_a
-    5 : kanji-conversion_b
-    6 : substitution
-    7 : transposition
-    8 : others
 # モデルの使い方
 ## サンプルコード
   ```python
@@ -75,8 +81,6 @@ widget:
   。 :
   ```
-# 学習データ
-  - 京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開している[日本語Wikipedia入力誤りデータセット (v2)](https://nlp.ist.i.kyoto-u.ac.jp/?%E6%97%A5%E6%9C%AC%E8%AA%9EWikipedia%E5%85%A5%E5%8A%9B%E8%AA%A4%E3%82%8A%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88)のtrainセットを利用しています
 # ライセンス
   - 本モデルは京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開しているRoBERTaの事前学習モデル(ku-nlp/roberta-base-japanese-char-wwm)をFine-Tuningしたものです。

 # モデルの概要
   - 日本語の文章を入力すると各文字ごとに誤植である確率を出力します
   - 本モデルは日本語の文章が入力されることを前提としています
+  - 各ラベルの意味は以下の通りです
+    |id|label|meaning|
+    |--|--|--|
+    |0 | OK|  誤字なし|
+    |1 |deletion| 1文字の抜け
+    |2 | insertion_a|  余分な1文字の挿入
+    |3 | insertion_b | 直前の文字列と一致する２文字以上の余分な文字の挿入
+    |4 | kanji-conversion_a  |同一の読みを持つ漢字の入れ替え（誤変換）
+    |5 | kanji-conversion_b  |近い読みを持つ漢字の入れ替え（誤変換）
+    |6 | substitution  |1文字の入れ替え
+    |7 | transposition  |隣接する２文字間の転置
+    |8 | others  | その他の入力誤り
+    - 誤り種類の詳細については学習データセットの元論文をご参照ください
+      -  [日本語 Wikipedia の編集履歴に基づく 入力誤りデータセットと訂正システムの改良](https://www.anlp.jp/proceedings/annual_meeting/2021/pdf_dir/E8-3.pdf)
+# 学習データ
+  - 京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開している[日本語Wikipedia入力誤りデータセット (v2)](https://nlp.ist.i.kyoto-u.ac.jp/?%E6%97%A5%E6%9C%AC%E8%AA%9EWikipedia%E5%85%A5%E5%8A%9B%E8%AA%A4%E3%82%8A%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88)のtrainセットを利用しています
 # モデルの使い方
 ## サンプルコード
   ```python
   。 :
   ```
 # ライセンス
   - 本モデルは京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開しているRoBERTaの事前学習モデル(ku-nlp/roberta-base-japanese-char-wwm)をFine-Tuningしたものです。