drewThomasson's picture
Upload 20 files
2d103b4 verified
■■■ このパッケージの構成 ■■■
・README: このファイル
・UniDicMA 本体ファイル群(MeCab用短単位解析辞書。バイナリ化済みなのでそのまま使用可)
・UniDicMA 学習時の途中経過ファイル群
- licenses: ライセンス関係のファイル群を格納
- eval: このUniDicMAの短単位自動解析結果の精度および、性能評価のために学習に利用したコーパス名・ファイル名のリストファイルを格納
-・ eval/score.txt: 以下の学習・評価用データを使った短単位自動解析性能
-・ eval/train_list.tsv: 性能評価の際のMeCab学習用データ一覧(コーパス名+コーパス内ファイル名)
-・ eval/test_list.tsv: 性能評価の際の評価用データ一覧(コーパス名+コーパス内ファイル名)。train_list.tsvとのオーバーラップはない。
- ChaMame 1.0.3 for Windows: Window OS のみで動作するUI、chamame インストーラーを格納(分類語彙表DBを内包しているため、このディレクトリのみ別ライセンス)
- sql: このUniDicMAを学習するためのコーパスおよび語彙をDBから抽出するために使ったsqlを格納。所内向けの備忘録的な意味合いが強い。
■■■ 辞書情報 ■■■
辞書のキーをNFKC正規化したエントリを含む延べ短単位数:
879,222
辞書のキーをNFKC正規化したエントリを含まない延べ短単位数:
870,629
辞書のキーをNFKC正規化したエントリを含む階層的な見出し語を考慮しない表層形の異なり数:
674,928
書字形出現形数:
870,589
発音形出現形数:
447,734
語形出現形数:
447,709
書字形基本形数:
371,949
発音形基本形数:
246,898
語形基本形数:
246,873
語彙素数:
228,315
各値の詳細は以下のURLを参照
https://unidic.ninjal.ac.jp/faq#count_suw
また各値のカウントには以下のスクリプトを使用
https://github.com/teru-oka-1933/unidic_ma_factory
https://github.com/teru-oka-1933/unidic_ma_factory/blob/master/ph8_count_suw.py
解析性能に関しては、evalディレクトリを参照
■■■ 更新情報 ■■■
□□□□□□□□ 2.3.0 更新 □□□□□□□□
短単位規定「補則1 略語として扱わない外来語の最小単位」を修正
【修正前】
省略された外来語の最小単位のうち, 表3 .2に掲げたものは省略された外来語の最小単位として扱わない。
【修正後】
省略された外来語の最小単位のうち, 表3 .2に掲げたようなものは省略された外来語の最小単位として扱わない。
【修正前】
表3 .2 略語として扱わない外来語の最小単位
【修正後】
表3 .2 略語として扱わない外来語の最小単位の例
これにより、これまで1短単位とみなしてきたアルミホイル、アルミサッシ、デフレスパイラル、インフレスパイラルを1短単位としてみなさない。
□□□□□□□□ 3.0.0.0 更新 □□□□□□□□
一部の動詞・形容詞において、連用形-ウ音便の発音形に二重の長音符号が展開される不具合を修正
不具合の例)
語彙素「覆う(オオウ)」語形「オオウ」(動詞・五段-ワア行-一般)で連用形-ウ音便の発音形が「オーー」となる(正しくは「オオー」)
(1)以下の詳細活用型(「Infl」テーブル「活用型」列)の新設、および活用展開の定義
・五段-ワア行-オウ+う=オ段
・五段-ワア行-オウ+う=一般
・五段-ワア行-オウ+ふ=オ段
・五段-ワア行-オウ+ふ=一般
・文語四段-ハ行-オウ+う=オ段
・文語四段-ハ行-オウ+う=一般
・文語四段-ハ行-オウ+ふ=オ段
・文語四段-ハ行-オウ+ふ=一般
・文語形容詞-ク-ウシ=オ段
・文語形容詞-ク-ウシ=一般
・文語形容詞-ク-オシ=オ段
・文語形容詞-ク-オシ=一般
(2)新しい詳細活用型に該当する語形の活用型の更新
・五段-ワア行-オウ 28語形
・文語四段-ハ行-オウ 24語形
・文語形容詞-ク-ウシ 12語形
・文語形容詞-ク-オシ 20語形
(3)以下の詳細活用型の削除
・文語形容詞-ク-遠シ ※文語形容詞-ク-オシに統合したため