2008年11月17日月曜日

UniDic辞書を学習させる[予定]

前回のじゃあんまりなので学習させることを考えます。
まだ実際に学習させたわけではなく構想段階です。

MeCab辞書の学習のさせ方はこちら
必要なのは設定ファイル類の他に、
1.Seed辞書
2.学習用コーパス
です。

1は前回作った物を使います。
2は…すぐに使えるデータが見つからなかったのでWikipedia等のHP上の文書から採取することを考えます。幸いUniDic辞書という学習済みの辞書がありますのでこれを変換に使います。


○学習コーパスの作り方を考えます。
1.とりあえず1文1行になっている大量の日本語テキストを用意する。
  これはWikipediaのアーカイブから変換することで出来そうです。
2.学習コーパスに変換するためにUniDic辞書を"単語","LID","RID","COST","よみ"形式に書き換える。
  (前回の辞書の"読み"と"単語"を入れ替えた物)
3.2の辞書をMeCabにセットし1のテキストを流し込む。
4.出来上がった学習コーパスの表層文字と素性を入れ替える。
…これでいけるかな?

○最終的にこんな感じのが出来ればOKだと思います。
たろう 太郎
は は
はなこ 花子
が が
すき 好き
だ だ
. .
EOS
しょうちゅう 焼酎
すき 好き
の の
おやじ 親父
. .
EOS

とここまで考えて「好き」の読みが「ずき」にならない(可能性がある)ことに気がつきました。
やってみるしかないか…

0 件のコメント: