mecabでのユーザ辞書でハマった話
コストは単純に足し込むと思ってたのだけど、遷移コストなんてものがあるのね。。
日本テレビ東京で学ぶMeCabのコスト計算
しかし困ったぞ、、cost 0 でユーザ辞書に登録しても採用されない問題!
どんな事が起きるかというと、、
(形態素解析の例としては良くないが。。)
山形、山形県、山形産、山形県産、切り落とし
みたいなユーザ辞書を作ったとして、
『山形県産牛モモ切り落とし』
みたいな単語を形態素解析した場合
当然、
山形県産 牛 モモ 切り落とし
と期待したい所だが
山形 県 産 牛 モモ 切り 落とし
みたいな結果になり得る。。
これを防ぐには、それぞれの単語に適切なコストを振らなきゃならないが、辛すぎる。。という話。。。
なんか良い方法がないだろうか。。。