中年engineerの独り言 - crumbjp

LinuxとApacheの憂鬱

MongoDB2.6リリースノート斜め読み!

ご存知の通りMongoDB2.6がリリースされました!

相変わらず乱文で解説!!

Aggregation Enhancements

Aggregationが強化された。

db.collection.aggregate() がカーソルを返却するようになった
今まで最終結果には64MBの制約があったが、解消されたようだ。

というかそれが普通。。。

パイプラインがexplainをサポート
今までは感覚で是非を判断していたので嬉しい改善!
ディスクソートが効率的になった
$out オペレータで指定のコレクションに結果出力が可能
今までは結果をforで回して入れなおしてたのでこれも便利。
$redact でパイプライン中にデータの微修正ができる
あんまり使う機会が思い当たらない。。
多分この様な用途でMongoDBを使うこと自体が詰んでる。
新しいoperator
  • $let, $map
  • $literal, $size
  • $cond

この辺りはまたいずれ。。
本当に大規模のデータを扱ったときにAggregationは非力なので、ちょっと便利に使いたい人向けの機能と思ってよい。

Text Search Integration

大丈夫。使い物にならない。

Insert and Update Improvements

consistency に関わる改善がある。

MongoDBはドキュメントの"フィールド"の順番を保つルールがある
  • _id は常に先頭
  • フィールド値の更新やリネームは順番が変わる場合がある
UPDATE系の新オペレータ
  • $bit xor
  • $min/$max update if max or min
  • $push capped-array系(昔ここで解説した)に$position が追加
  • $currentDate (説明不要)
  • $mul multiplicative increments マニアック。。。

また少し便利になった!

New Write Operation Protocol

write concernの辺りのアップデート。結構重要

Ordered Operations
処理順を保障し、失敗があった時点で以降の処理を中止する。
Write operation: A => B => C => D
Bが失敗した場合、C , Dはキャンセル
結果、Aだけが反映。
Unordered Operations
順序性は無い。失敗があったオペレーションだけが影響を受ける
Write operation: A => B => C => D
Bが失敗した場合、Bだけが影響を受ける
結果、A,C,Dが反映。

MSI Package for MongoDB Available for Windows

どうでもいい

Security Improvements

SSLが使えるようになった。
以上。

が、、多くのDBと同じく、DBはDMZ以降にあるべきで、SSL化してスループットが落ちるのは許容できん。

mecabでのユーザ辞書でハマった話

コストは単純に足し込むと思ってたのだけど、遷移コストなんてものがあるのね。。
日本テレビ東京で学ぶMeCabのコスト計算

しかし困ったぞ、、cost 0 でユーザ辞書に登録しても採用されない問題!

どんな事が起きるかというと、、

形態素解析の例としては良くないが。。)

山形、山形県、山形産、山形県産、切り落とし 
みたいなユーザ辞書を作ったとして、

山形県産牛モモ切り落とし』

みたいな単語を形態素解析した場合

当然、
山形県産 牛 モモ 切り落とし

と期待したい所だが

山形 県 産 牛 モモ 切り 落とし

みたいな結果になり得る。。
これを防ぐには、それぞれの単語に適切なコストを振らなきゃならないが、辛すぎる。。という話。。。

なんか良い方法がないだろうか。。。

MongoDB vs MySQL性能比較

MongoDB Aggregation FWシリーズの最後
- Aggregation FW機能、SQLとの比較
- Aggregation FWの特徴と地雷
- (今回)MongoDB vs MySQL性能比較

Aggregation FWについては、大体、把握している情報を吐き出したと思う。

MongoDBのRDBMSライクな機能について性能を比較してみた。

その前に。。

NoSQL

基本的には、RDBMSから機能を削り、別の部分に特化することで
ハイパフォーマンスを実現しながらも実用に耐える品質に仕上げたプロダクトである。

MongoDB vs Other NoSQL

MongoDBはNoSQLの中では低速な部類に入る。

これは他のNoSQLに比べて豊富な機能が提供されているからでRDBMSからJOINを除いた相当の機能』と言っても良いくらいの豊富さだ。部分的にはRDBMSを凌駕するような機能すらある。

MongoDB vs RDBMS

RDBMSとMongoDBの関係もやはり同じで、全体的に見てRDBMSの方が機能が豊富だ。
その分、性能にも差が出て当然だ。

基本的に、、

RDBMS
システム全体の基本バックエンド
MongoDB
システムの中の数機能(性能とある程度の機能が欲しい場所)のバックエンド
極端な話、Solrなんかと同じ扱いでよいと思っている。
格闘技に例えると。。
大半のNoSQL
ボクシング
MongoDB
キックボクシング
RDBMS
総合

こんな感じかな。

性能比較

MongoDB単体での色々性能比較はコチラ

条件
環境
SAKURA VPS3G
取り扱うデータ
4KB(11column) x 1000万件 = 40GB
MongoDB
2.4.4
MySQL
5.5.30
クエリー条件
msql/mongo コマンドから直接実行(構文解析コスト含む)
インデックス
検索クエリーはプライマリーキーで特定できるものを使用

計測結果

MongoDB(s) CPU InnoDB(s) CPU MyISAM(s) CPU
insert 1157 80% 3534 65% 1880 55%
range fetch 30 5% 1962 70% 1777 90%
range count 3 - 452 100% 3 -
group 235 65% 439 110% 241 60%

詳細は後述

総評

全体的にMongoDBとMyISAMのデータ構造や実装は似ているように見える。
特にCOUNTのカーソル舐めや、GROUP BYの全データ舐めなどは、性能が似通っている。
単純な使い方をする場合はMongoDBかMyISAMを選択すると良さそう。


よく言われるように、InsertはInnoDBよりMyISAMの方が遥かに早い。
MongoDBは更に早いがこれはドキュメントDBは一塊のデータ(structure)をそのまま書くだけなので納得。


一番はっきりしているのが範囲検索の速度だ。
単純な用途で、かつ、範囲検索がしたい場合はMongoDBはお勧めである。

以下、計測の詳細

INSERT

1000万行

200行単位でINSERT

INSERT INTO TEST VALUES
(0,0,0,0,"aaaaaaaaaa","bbbbbbbbbbbbbbbbbbbb","cccccccccccccccccccccccccccccc","dddddddddddddddddddddddddddddddddddddddddddddddddd","eeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeee
(1,1,1,1,"aaaaaaaaaa","bbbbbbbbbbbbbbbbbbbb","cccccccccccccccccccccccccccccc","dddddddddddddddddddddddddddddddddddddddddddddddddd","eeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeee
  :
(199,199,199,199,"aaaaaaaaaa","bbbbbbbbbbbbbbbbbbbb","cccccccccccccccccccccccccccccc","dddddddddddddddddddddddddddddddddddddddddddddddddd","eeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeee
INSERT INTO TEST VALUES
(200,200,...),
 :
 :
(9999999,9999999,...);

mongoimportで投入。JSONパースのコストが高くmongoimport側のCPU使用率が非常に高くなる。

{ "_id" : 0, "value0" : 0, "value1" : 0, "value2" : 0, "value3" : "aaaaaaaaaa", "value4" : "bbbbbbbbbbbbbbbbbbbb", "value5" : "cccccccccccccccccccccccccccccc", "value6" : "dddddddddddddddddddddddddddddddddddddddddddddddddd", "value7" : "eeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeee", "value8" : 0, "value}
{ "_id" : 1, "value0" : 1, "value1" : 1, "value2" : 1, "value3" : "aaaaaaaaaa", "value4" : "bbbbbbbbbbbbbbbbbbbb", "value5" : "cccccccccccccccccccccccccccccc", "value6" : "dddddddddddddddddddddddddddddddddddddddddddddddddd", "value7" : "eeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeee", "value8" : 1, "value}
 :
{ "_id" : 9999999, ... }

JSONコストをスキップする為に、CSVを読んで、C++ driverから直接BSONを作ってやると若干早くなるが
微々たるモノでクライアント側のCPU負荷が下がるだけなので、わざわざ結果を書かなかった。

BSONObj obj =  BSON(
  "_id" << i <<
                    "value0" << v0 <<
                    "value1" << v1 <<
                    "value2" << v2 <<
                    "value3" << v3 <<
                    "value4" << v4 <<
                    "value5" << v5 <<
                    "value6" << v6 <<
                    "value7" << v7 <<
                    "value8" << v8 <<
                    "value9" << v9);
conn.insert( ns ,obj);

SELECT(範囲)

1000 queries

正直、PRIMARYキーのBETWEENがこんな差がつくとは思わなかった。。。

SELECT * FROM TEST WHERE id BETWEEN 0 AND 9999;
SELECT * FROM TEST WHERE id BETWEEN 10000 AND 19999;
  :
SELECT * FROM TEST WHERE id BETWEEN 9990000 AND 9999999;

MongoDBの範囲検索は超はやい!

db.TEST.find({_id:{$gte:0,$lt:10000}});
db.TEST.find({_id:{$gte:10000,$lt:20000}});
  :
db.TEST.find({_id:{$gte:9990000,$lt:10000000}});

COUNT(範囲)

1000 queries

PRIMARYキーの範囲検索+カウントでは、MyISAMが顕著に早い。
明らかにインデックスだけで処理が完結している速度。

SELECT COUNT(*) FROM TEST WHERE id BETWEEN 0 AND 9999;
SELECT COUNT(*) FROM TEST WHERE id BETWEEN 10000 AND 19999;
  :
SELECT COUNT(*) FROM TEST WHERE id BETWEEN 9990000 AND 9999999;

明らかにCovered Index & カーソールの両端判定の恩恵を受けている。
これは予想通り。むしろMyISAMが同等の速度を出している方が驚き。

db.TEST.find({_id:{$gte:0,$lt:10000}}).count();
db.TEST.find({_id:{$gte:10000,$lt:20000}}).count();
  :
db.TEST.find({_id:{$gte:9990000,$lt:10000000}}).count();

GROUP

(4000group x 2500)

これもMyISAMが超健闘。早い!!
MyISAMのデータ構造がスパースな情報にアクセスするクエリーに向いている模様。

SELECT value2, COUNT(id) FROM TEST GROUP BY value2 ORDER BY value2;

Aggregation FWも中々早い。が、、コンテキストのサイズに注意。
クエリーで消費するメモリー総量と結果サイズが引っかかり所。。

db.TEST.aggregate([
 {$group: { _id:"$value2", count: {$sum:1 }}},
 {$sort: {_id:1} }
]);

Aggregation FWの特徴と地雷

MongoDBのAggregation FWはSQLの集約関数(COUNT,SUM,GROUP等)の様な組み込み機能の集合である。

非常に便利なのだが、色々と問題があって、手放しにはお勧めできない。

Aggregation FWの機能や利用する時のハマリ所をリストアップしてみた。

機能

MapReduceの様にロジックを投入できる訳ではなく、組み込みの機能を利用するだけなので、柔軟性は無いものの殆どの用途に十分なほどの機能が用意されている。

1. noscripting=trueで運用できる

なによりサーバサイドでスクリプトを走らせるリスクを回避できる事が最大のポイント

2. SECONDARYで動作

Primaryへの負荷を掛けることなく動作できる。
専用のhiddenノードで運用すすればオンライン系への負担も無いのでとても便利。

3. パイプライン

多段の集計が可能。ある意味SQLより強力。(サブクエリーでも一応できるが、、)
$match (WHERE) -> $group (GROUP BY) -> $match (HAVING) -> $group -> $sort

4. SQLのGROUP BYより高度な集計
配列が扱える
GROUP BYを掛けつつ、ある要素はユニーク要素が配列で欲しい。など
FIRST/LAST
GROUP BYで集計毎に最初の要素が欲しい。など。。
5. 主な機能

こちら


地雷リスト

1. メモリー制限

クエリーが10%以上のメモリーを使うと強制的に殺されるようだ。

(多分MongoDB全体の制限)

terminating request:  request heap use exceeded 10% of physical RAM

これでは満足な集計が出来ない。
ソート系は特にヤバイ

上記の様に折角hidden secondaryで動作できる仕様の割に中途半端な制限。


2. Sharding環境では、、

mongosにクエリーを投げる事で、各Shardへのリクエストはヨロシクやってくれるのだが
なんとPRIMARYノードに投げてしまう!
この制御方法もなさそうだ。。
これでは使えない・・・

結果的に大規模なデータでは使えないということ。

3. 16MB制限

全集計結果が16MBに収まらなければならない。
やはり巨大なデータセットの解析には無力。

これじゃ受け取る側もツライし、カーソルで返してくれるのが普通だと思うのだが・・・


結論

そんな訳で、、
AggregationFWは便利なのだが、現状では中途半端な感が否めない。
まだお勧めできる状態にあるとは言えないな。

これらを解ってて使う分には良いが
AggregationFWに頼ったシステムを構築すると、後々痛い目を見るだろう。

やはり解析はMongoDBの外で行った方が良いと思う。
MongoHadoopか、、
チャレンジングな人はMonmoちゃん使ってあげて!!w

Aggregation FW機能、SQLとの比較

使い方や例など詳細は本家のドキュメントを参照してください。

基本機能
オペレータ SQL相当 説明
$project SELECT 集計用のフィールドの削除・追加・定義など
$match WHERE 絞込み条件を指定
$limit LIMIT 対象行数指定
$skip LIMIT 読み飛ばし行数指定
$unwind - 配列フィールドを複数ドキュメントに展開(使わない使えない使いたくない)
$group GROUP BY 集計
$sort ORDER BY ソート
$geoNear - 座標フィールド近傍検索+ソート
集計($group)機能
集計オペレータ SQL相当 説明
$first - SQLでもやりたい事は多いのでうれしい
$last - 同上
$max MAX
$min MIN
$avg AVG
$sum SUM {$sum:1}でCOUNTを代用できる
$push - 全要素を配列として返す
$addToSet - $pushのユニーク版(どっちも便利)
論理演算子
オペレータ SQL相当 説明
$and AND
$or OR
$not NOT
比較演算子
オペレータ SQL相当 説明
$cmp - Rubyの<=>
$eq =
$gt >
$gte >=
$lt
$lte <=
$ne !=
算術演算子
オペレータ SQL相当 説明
$add +
$subtract -
$multiply *
$divide /
$mod MOD 余り
文字列操作
オペレータ SQL相当 説明
$concat CONCAT 文字列結合
$strcasecmp - 文字列比較($cmpの文字列版)
$substr SUBSTR 部分文字列
$toLower LOWER 小文字変換
$toUpper UPPER 大文字変換
日付関連
オペレータ SQL相当 説明
$dayOfYear ... 1-366
$dayOfMonth ... 1-31
$dayOfWeek ... 1-7
$year ...
$month ... 1-12
$week ... 0-53
$hour ... 0-23
$minute ... 0-59
$second ... 0-59(,60)
$millisecond ... 0-999
オペレータ SQL相当 説明
$cond ... 3項演算子
$ifNull NVL/IFNULL NULL値置換

mongodb in Sakura VPSのスローダウン仮説

サクラvps3Gのmongoで原因不明のスローダウンが発生。

どうも、急激にディスクリードが遅くなったようだ。

プロセス再起動も効果なし、メモリーも十分。

謎だったのだが、一つ仮定は作れた。

・どうやら50Gもあるコレクションで起きてるっぽい
・そこには古くて暫く触ってないデータが大量にある

ココからは想像だが、、

サクラの仮想環境はもちろんサーバのイメージは専用の巨大ストレージにあって、ポータブルな構成になっている筈だ。

巨大なストレージは巨大なキャッシュ層があるのが普通で
モリーキャッシュやフラッシュなど多層構造のキャッシュがある。

フレッシュじゃないデータ(ブロック)はキャッシュ層の下層に追いやられていき、最後はディスクに落ちる

仮想サーバから見たとき、同じディスクリード(mongoはmmapなのでpagefault)に見えても、裏では軽くキャッシュから取るだけだったり、ドデカイfaultとディスク処理になってるのかもしれない。

と仮定すると、データは適度に触れと云うことになるな。。
キャッシュを独占的に使うようなやり方は気が引けるんだけども、、、

MongoDB丸の内勉強会でしゃべって来ました

MongoDB丸の内勉強会 #14

http://atnd.org/events/44449

もう14回ですか!月1なので一年以上経ちましたね。
思えばこの勉強会から色々始まったものがあるなぁ〜

Sharding体験?

前半は参加者でシャーディング構築のハンズオン
皆さん、Firewall設定とかで苦戦していた様ですね。

僕はいつものTF101(Android)で参戦したので戦力外。。

MongoDBだけで自然言語処理

後半は僕が喋らせてもらいました。


前半はスライドを使って座学
http://www.slideshare.net/crumbjp/mongodb-26372826

後半は、一応ハンズオンでしたが、時間が押してて
僕も遠慮なくタイピングしたので、付いて来た人は居ないかもしれない(TT;

時間が無くて、形態素解析と熟語解析までで一旦終わりましたが、皆さん楽しんで貰えましたかね?

普通に考えたら到底『正しい』とは言えないMongoDBの使い方ですが
僕的には、これこそがベストなんじゃないかな?と思ったり。。

もう他のフレームワークでロジック書く気がしなくなった。


そんなこんなで楽しんで来ましたが、
話は途中までだったので次回以降、どこかで続きをやりたいなぁ