--- license: cc-by-sa-4.0 language: - ja widget: - text: "これは日本語の誤植を検出する真相学習モデルです。" --- # モデルの概要 - 日本語の文章を入力すると各文字ごとに誤植である確率を出力します - 本モデルは日本語の文章が入力されることを前提としています - 各ラベルの意味は以下の通りです 0 : OK 1 : deletion 2 : insertion_a 3 : insertion_b 4 : kanji-conversion_a 5 : kanji-conversion_b 6 : substitution 7 : transposition 8 : others # モデルの使い方 ```python import transformers ``` # 学習データ - 京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開している[日本語Wikipedia入力誤りデータセット (v2)](https://nlp.ist.i.kyoto-u.ac.jp/?%E6%97%A5%E6%9C%AC%E8%AA%9EWikipedia%E5%85%A5%E5%8A%9B%E8%AA%A4%E3%82%8A%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88)のtrainセットを利用しています # ライセンス - 本モデルは京都大学大学院情報学研究科知能情報学コース言語メディア研究室 (https://nlp.ist.i.kyoto-u.ac.jp/ )が公開しているRoBERTaの事前学習モデル(ku-nlp/roberta-base-japanese-char-wwm)をFine-Tuningしたものです。 - 本モデルは事前学習モデルのライセンス"CC-BY-SA 4.0"を継承します。 # 免責事項 - ㈱リクルートは、本モデル利用による成果に関し、正確性、有用性、確実性、違法性の確認及び何らの保証も補償を行わないものとし、また、モデル利用によって利用者に生じた損害および第三者との間における紛争について㈱リクルートは一切責任を負いません。