中年engineerの独り言 - crumbjp

LinuxとApacheの憂鬱

MongoDB3.2 readConcernの挙動について

実装 mongosの場合はもうちょっと複雑になるが、レプリカセットの場合はこの辺に実装があるようだ === /db/repl/replication_coordinator_impl.cpp === auto loopCondition = [this, isMajorityReadConcern, targetOpTime] { return isMajorityReadConcern ?…

MongoDB3.2 ReleaseNote所感

そろそろ3.2も手を付けようと思うので、検証がてらつらつらと。。 リリースノート https://docs.mongodb.org/manual/release-notes/3.2/非常に丁寧な日本語訳があるので、こちらもどうぞ http://qiita.com/fetaro/items/cd570d70623b58b5deef WiredTiger as …

AWS上にハイパフォーマンスMongoDBを構築する方法

AWSインスタンスの選定 AWSインスタンスタイプ一覧以下のインスタンスボリュームが付随しているプロダクトラインが候補になる。 個人的にはi2.xxx が好みである。 r3.xxx メモリ最適化インスタンス i2.xxx SSD容量最適化インスタンス ただし、インスタンスボ…

あまり頻発するような問題ではないようだ

http://d.hatena.ne.jp/hiroppon/20151216/1450251504 以前、MongoDB3.0系のバックアップを取り上げた。色々検証したが、データファイル自体が破壊されるような事は起きなかった。 中のデータがある程度おかしいのかもしれないし、極稀にファイル破壊が起き…

バックアップができない!?

ご存知の様にMongoDBのバックアップは fsyncLock Snapshot fsyncUnlock の流れなのだが、、 最近、MongoDB3.2 系のドキュメントにこんな事が書かれていた Compatibility with WiredTiger Changed in version 3.2: Starting in MongoDB 3.2, db.fsyncLock() c…

MongoDB3.0.xの設定ファイルテンプレ

Advent Calendar にも投稿した内容ですが、MongoDB3系の設定周り。 僕はこんな感じで運用してますよ。という位の内容。/usr/local/mongodb/ 以下に構築する場合の設定周り 1. ディレクトリ構成 バイナリをDLして適当に配置してください。 # mkdir -p /usr/lo…

MongoDB3系(WiredTiger)の現状

ご無沙汰してます。最近全然更新出来てない訳ですが、MongoDBに愛想が尽きて、離れていた訳ではありません。 むしろガッツリ嵌ってます。。最近は MongoDB3 系 WiredTiger を使いながら頑張っている訳ですが・・・ キリの良い所で書こうと思っていたのに、メ…

DB tech showcase 2015 登壇

DB tech showcase 2015 で話して来ました。http://www.slideshare.net/crumbjp/db-tech-showcase2015-how-to-replicate 3年目ですが、だんだん制服組が減って、エンジニアが増えてていい感じでした〜

MongoDB 3.0 リリースノート斜め読み

遂にMongoDB 3.0 が正式リリースされました!! 例によってリリースノートを斜め読みします。 http://docs.mongodb.org/master/release-notes/3.0/ が、、最初に一言で纏めると、まあ、、目玉機能はロックレベルの話だけですよー でわ。。 Pluggable Storage…

MongoDB aggregation の検証

だいぶ空いてしまったが、久々の更新!Aggregate周りを色々検証したので載せておく。基本的なTAG構造。TAGを扱う上でオーソドックスなクエリーと性能を調査。 性能は、people 2000万件、hobies 3200万件、完全ランダムデータで計測。 月数千円で手に入るコン…

Proposal about notablescan option

I issue this ticket from strong sense of impending crisis and wanted to know how others thinks about this. https://jira.mongodb.org/browse/SERVER-15561This proposal is about the feature of the notablescan option. This is not for the progra…

Mongoクエリー・ベース・レプリケーション

レプリカセット間レプリケーション MongoDBではレプリカセットを跨いでデータを同期する手段が無い。 そもそもレプリカセット自体が冗長構成を目的としているので設計に組み込まれていないのだろう。 しかし現実は Staging環境や、PV系/集計系の分離など、…

Index intersection を試してみた。(失敗談)

MongoDB 2.6 からIndex intersectionという機能が追加された。 1つのクエリーで2つのインデックスを使う(かもしれない)機能で、より効率的にクエリーを処理できる。 (どう効率的なのか?はこのへんが詳しい)さて、じゃあ実際に見てみようというのが今…

MongoDB2.6.1 でやっとメジャーバージョンアップ

チェンジログ http://docs.mongodb.org/master/release-notes/2.6-changelog/ひたすらヤバイ者揃いですが、やっとメジャーバージョンアップ程度の品質になったかと。 やっと頑張れば使えるかな?暇が出来次第 http://mongodb.jp/ を早々に生贄にする所存。。

MongoDB 2.4 => 2.6 アップデートした

2.6.1(人柱バージョン)にチャレンジ 2.4.4 => 2.6.1 バージョンアップ手順 今回データファイルには互換性があるので超簡単 ディレクトリ構成 /usr/local/mongo |- bin -> mongodb-linux-x86_64-2.4.4/bin |- mongodb-linux-x86_64-2.4.4 |- data |- logs |- …

MongoDB2.6.0は時期尚早

MongoDBのメジャーバージョンアップはいつもの通り大混乱だ。 最早様式美ですらある。。いつも思うがmongodb.incの連中はmongodb使って欲しい訳だ。 Eat yourown dog food !! jira眺めてて、今問題が多そうな部分 インデクシング(全体的におかしい) Aggreg…

MongoDB2.6リリースノート斜め読み!

ご存知の通りMongoDB2.6がリリースされました!相変わらず乱文で解説!! Aggregation Enhancements Aggregationが強化された。 db.collection.aggregate() がカーソルを返却するようになった 今まで最終結果には64MBの制約があったが、解消されたようだ。 …

mecabでのユーザ辞書でハマった話

コストは単純に足し込むと思ってたのだけど、遷移コストなんてものがあるのね。。 日本テレビ東京で学ぶMeCabのコスト計算しかし困ったぞ、、cost 0 でユーザ辞書に登録しても採用されない問題!どんな事が起きるかというと、、(形態素解析の例としては良く…

MongoDB vs MySQL性能比較

MongoDB Aggregation FWシリーズの最後 - Aggregation FW機能、SQLとの比較 - Aggregation FWの特徴と地雷 - (今回)MongoDB vs MySQL性能比較Aggregation FWについては、大体、把握している情報を吐き出したと思う。 MongoDBのRDBMSライクな機能について性…

Aggregation FWの特徴と地雷

MongoDBのAggregation FWはSQLの集約関数(COUNT,SUM,GROUP等)の様な組み込み機能の集合である。非常に便利なのだが、色々と問題があって、手放しにはお勧めできない。Aggregation FWの機能や利用する時のハマリ所をリストアップしてみた。 機能 MapReduceの…

Aggregation FW機能、SQLとの比較

使い方や例など詳細は本家のドキュメントを参照してください。 基本機能 オペレータ SQL相当 説明 $project SELECT 集計用のフィールドの削除・追加・定義など $match WHERE 絞込み条件を指定 $limit LIMIT 対象行数指定 $skip LIMIT 読み飛ばし行数指定 $un…

mongodb in Sakura VPSのスローダウン仮説

サクラvps3Gのmongoで原因不明のスローダウンが発生。どうも、急激にディスクリードが遅くなったようだ。プロセス再起動も効果なし、メモリーも十分。謎だったのだが、一つ仮定は作れた。・どうやら50Gもあるコレクションで起きてるっぽい ・そこには古くて…

MongoDB丸の内勉強会でしゃべって来ました

MongoDB丸の内勉強会 #14 http://atnd.org/events/44449もう14回ですか!月1なので一年以上経ちましたね。 思えばこの勉強会から色々始まったものがあるなぁ〜 Sharding体験? 前半は参加者でシャーディング構築のハンズオン 皆さん、Firewall設定とかで…

サーチ評価の話(和訳)

仕事で考えなきゃならないケースが出てきたので 『後でやる』シリーズを消化していく。(赤字は私の所感) Googleサーチエンジンの改善に関する記事の和訳 (想定される問題をピックアップする目的) Search evaluation at Google Posted: Monday, September…

転職しました。。

退職エントリーが流行の様なので・・・ 9月末付けで楽天を退社しました。 楽天は、6年間お世話になりました。非常に働き易く良い会社だったと思います。 それまでは、長くても同じ職場には2年は居つかなかったのですが 特に大きな不満もなく、居心地が良…

自然言語処理の落書き(canopy問題)

やはりcanopyが厄介だ。。 T2サンプリングの問題 自然言語処理では物凄くスパースなベクトルを扱ってるので canopy(T2)の段階で、クラスタ数が必要以上に増える。その後、canopy(T1)で重心算出すると、20個以上の重心がT2内に入ってる状態になったりする。…

自然言語解析 in MONMO(後編)

一連の自然言語処理をMONMOちゃん上で実現する試みの第3弾 前回はベクタライズまで行った。今回は、形態素解析結果から、そのドキュメントの特徴を表す『ベクトル』を算出する、ベクタライズを行う。 monmo-NLProcessing github https://github.com/monmo/m…

自然言語解析 in MONMO(中編)

一連の自然言語処理をMONMOちゃん上で実現する試みの第2弾 前回は形態素解析まで行った。今回は、形態素解析結果から、そのドキュメントの特徴を表す『ベクトル』を算出する、ベクタライズを行う。 monmo-NLProcessing github https://github.com/monmo/mon…

自然言語解析 in MONMO(前編)

前回MONMOちゃんの紹介の続き。今回は(日本語)自然言語解析の第一歩であるトークンナイズ(tokenize)を行う。 monmo-NLProcessing github https://github.com/monmo/monmo-NLProcessing 形態素解析 日本語の解析で一般的に使われるtokenize手法で、辞書を…

MongoDB製JOB Queue

お盆が暇だったので MongoDB製Job queue を作った。 名前はMONMOちゃん。javascriptで手軽に使いたい部分があって個人用で考えていたが 結構マトモなモノが出来上がったので公開する事にする。またMONMOちゃんを使って、自然言語処理も一式書いてみたが こち…