中年engineerの独り言 - crumbjp

LinuxとApacheの憂鬱

自然言語

自然言語処理の落書き(canopy問題)

やはりcanopyが厄介だ。。 T2サンプリングの問題 自然言語処理では物凄くスパースなベクトルを扱ってるので canopy(T2)の段階で、クラスタ数が必要以上に増える。その後、canopy(T1)で重心算出すると、20個以上の重心がT2内に入ってる状態になったりする。…

All in mongo の形態素解析エンジン

https://github.com/crumbjp/analysis/tree/master/monmorp About MONMORP MongoDB上で動作する ”とにかくお手軽な 形態素解析エンジンです。 MongoDBが立ち上がってる状態からなら、10分程度で使える状態になります!!MongoDBのコレクションを直接、形態…