Debian etch (4.0)のパッケージにある MeCab をインストールして辞書を UTF-8 化するメモ

2008年 2月 27日 02:07

次のような感じで MeCab をインストールすると、デフォルトでは EUC-JP の文字コードで辞書がインストールされます。

aptitude install mecab

UTF-8 な環境で作業する場合には、いろいろと都合が悪かったりするので、MeCab の辞書を UTF-8 に変換して使う場合のメモを書いておきます。なお、詳しく検証とかはしていないので、参考にする方は自己責任でお願いします。

ネット上を探すと IPA の辞書を使っている例が多かったのですが、デフォルトだと juman 辞書が入るみたいなので、これを UTF-8 化してみます。ちなみに、IPA 辞書は non-free みたいです。

mecab コマンドを実行する際に参照される辞書は /var/lib/mecab/dic/debian みたいですが、実際の辞書の場所は /usr/share/mecab/dic/juman/ になります。なので、/usr/share/mecab/dic/juman/ の内容を UTF-8 化して、/var/lib/mecab/dic/juman_utf-8/ に辞書を作成してみます。

やり方は次のようになります。

cd /var/lib/mecab/dic/
mkdir juman_utf-8
/usr/lib/mecab/mecab-dict-index -d /usr/share/mecab/dic/juman -o /var/lib/mecab/dic/juman_utf-8 -f euc-jp -t utf-8

次に、dicrc ファイルをコピーします。

cp /usr/share/mecab/dic/juman/dicrc /var/lib/mecab/dic/juman_utf-8/dicrc

コピーした /var/lib/mecab/dic/juman_utf-8/dicrc ファイル内の dictionary-charset = euc-jp を dictionary-charset = utf-8 に変更して保存します。

これで、MeCab の辞書の UTF-8 化は完了です。UTF-8 の辞書を参照して MeCab を使用するには次のようにすればOKです。

mecab -d /var/lib/mecab/dic/juman_utf-8

また、-d オプションを指定しないで実行すれば デフォルトの EUC-JP の辞書で MeCab を使用することができます。


トラックバック URL


※言及リンクのないトラックバックは削除されます。
※書き込まれてから公開されるまで時間がかかる場合があります。

コメントをどうぞ

Spam protection by WP Captcha-Free

※書き込まれてから公開されるまで時間がかかる場合があります。