keisuke-kiryu commited on
Commit
52add50
1 Parent(s): 7665c5f

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +17 -13
README.md CHANGED
@@ -9,18 +9,24 @@ widget:
9
  # モデルの概要
10
  - 日本語の文章を入力すると各文字ごとに誤植である確率を出力します
11
  - 本モデルは日本語の文章が入力されることを前提としています
12
- - 各ラベルの意味は以下の通りです
13
- 0 : OK
14
- 1 : deletion
15
- 2 : insertion_a
16
- 3 : insertion_b
17
- 4 : kanji-conversion_a
18
- 5 : kanji-conversion_b
19
- 6 : substitution
20
- 7 : transposition
21
- 8 : others
22
-
 
 
 
23
 
 
 
 
24
  # モデルの使い方
25
  ## サンプルコード
26
  ```python
@@ -75,8 +81,6 @@ widget:
75
  。 :
76
  ```
77
 
78
- # 学習データ
79
- - 京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開している[日本語Wikipedia入力誤りデータセット (v2)](https://nlp.ist.i.kyoto-u.ac.jp/?%E6%97%A5%E6%9C%AC%E8%AA%9EWikipedia%E5%85%A5%E5%8A%9B%E8%AA%A4%E3%82%8A%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88)のtrainセットを利用しています
80
 
81
  # ライセンス
82
  - 本モデルは京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開しているRoBERTaの事前学習モデル(ku-nlp/roberta-base-japanese-char-wwm)をFine-Tuningしたものです。
 
9
  # モデルの概要
10
  - 日本語の文章を入力すると各文字ごとに誤植である確率を出力します
11
  - 本モデルは日本語の文章が入力されることを前提としています
12
+ - 各ラベルの意味は以下の通りです
13
+ |id|label|meaning|
14
+ |--|--|--|
15
+ |0 | OK| 誤字なし|
16
+ |1 |deletion| 1文字の抜け
17
+ |2 | insertion_a| 余分な1文字の挿入
18
+ |3 | insertion_b | 直前の文字列と一致する2文字以上の余分な文字の挿入
19
+ |4 | kanji-conversion_a |同一の読みを持つ漢字の入れ替え(誤変換)
20
+ |5 | kanji-conversion_b |近い読みを持つ漢字の入れ替え(誤変換)
21
+ |6 | substitution |1文字の入れ替え
22
+ |7 | transposition |隣接する2文字間の転置
23
+ |8 | others | その他の入力誤り
24
+ - 誤り種類の詳細については学習データセットの元論文をご参照ください
25
+ - [日本語 Wikipedia の編集履歴に基づく 入力誤りデータセットと訂正システムの改良](https://www.anlp.jp/proceedings/annual_meeting/2021/pdf_dir/E8-3.pdf)
26
 
27
+ # 学習データ
28
+ - 京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開している[日本語Wikipedia入力誤りデータセット (v2)](https://nlp.ist.i.kyoto-u.ac.jp/?%E6%97%A5%E6%9C%AC%E8%AA%9EWikipedia%E5%85%A5%E5%8A%9B%E8%AA%A4%E3%82%8A%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88)のtrainセットを利用しています
29
+
30
  # モデルの使い方
31
  ## サンプルコード
32
  ```python
 
81
  。 :
82
  ```
83
 
 
 
84
 
85
  # ライセンス
86
  - 本モデルは京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開しているRoBERTaの事前学習モデル(ku-nlp/roberta-base-japanese-char-wwm)をFine-Tuningしたものです。