中年engineerの独り言 - crumbjp

LinuxとApacheの憂鬱

MongoDBのデータファイルを直撃してHadoopでM/Rすると。。

なんかまた、おかしなプロダクトを発見した。

https://github.com/groupon/mongo-deep-mapreduce

最初、mongo-hadoopと何が違うんだ?と思ったが。。
 Move the raw Mongo files into HDFS

なんだと!?データファイルを直撃して食うのか!!!
またC++ => Java職人が変態的な仕事をしましたよ・・・

さて、、しかしレプリカセットなら良いが、Shardingしちゃったらどうするんだろ?
DB名とコレクション名じゃ上手くいかんだろう?

もちっとドキュメント読まなきゃ。。