中年engineerの独り言 - crumbjp

LinuxとApacheの憂鬱

2013-08-01から1ヶ月間の記事一覧

自然言語解析 in MONMO(中編)

一連の自然言語処理をMONMOちゃん上で実現する試みの第2弾 前回は形態素解析まで行った。今回は、形態素解析結果から、そのドキュメントの特徴を表す『ベクトル』を算出する、ベクタライズを行う。 monmo-NLProcessing github https://github.com/monmo/mon…

自然言語解析 in MONMO(前編)

前回MONMOちゃんの紹介の続き。今回は(日本語)自然言語解析の第一歩であるトークンナイズ(tokenize)を行う。 monmo-NLProcessing github https://github.com/monmo/monmo-NLProcessing 形態素解析 日本語の解析で一般的に使われるtokenize手法で、辞書を…

MongoDB製JOB Queue

お盆が暇だったので MongoDB製Job queue を作った。 名前はMONMOちゃん。javascriptで手軽に使いたい部分があって個人用で考えていたが 結構マトモなモノが出来上がったので公開する事にする。またMONMOちゃんを使って、自然言語処理も一式書いてみたが こち…

熟語解析が難しい。。。(もはや走り書きメモ)

修正: x: unigram => o: bigram 勢いで書くとこうだよ・・・ 形態素解析でTokenize後にN-gramで熟語解析しようとしたが、ちと困った。。 日本 維新 の 会これをbigramすると 日本維新 維新の の会となって、これを使ってもう一回Tokenizeすると 日本維新 の…