中年engineerの独り言 - crumbjp

LinuxとApacheの憂鬱

自然言語

自然言語処理の落書き(canopy問題)

やはりcanopyが厄介だ。。 T2サンプリングの問題 自然言語処理では物凄くスパースなベクトルを扱ってるので canopy(T2)の段階で、クラスタ数が必要以上に増える。その後、canopy(T1)で重心算出すると、20個以上の重心がT2内に入ってる状態になったりする。…

All in mongo の形態素解析エンジン

.body .section { margin-left:10px; } .body .section dl{ margin-left:20px; } https://github.com/crumbjp/analysis/tree/master/monmorp About MONMORP MongoDB上で動作する ”とにかくお手軽な 形態素解析エンジンです。 MongoDBが立ち上がってる状態か…