読者です 読者をやめる 読者になる 読者になる

中年engineerの独り言 - crumbjp

LinuxとApacheの憂鬱

Rails の or クエリー

qiita.com まあ説明はこちらに譲るとして、、 一番の問題は 非常に気を遣う ということだ。 普通に使うと動くけど、レアケースで落ちるのが痛い。 qiita.com これが一番しっくり来た。 コメントの通りちょっと直さないと落ちるんだけど。。これをinitializer…

ITシステムを構築するということ

引っ越しついでに。。。 技術を体系的に理解するということ IT技術は日進月歩でどんどん進化も早くなるので、専門職化して行くのはある程度仕方ないとは思うけど やっぱり、その様な人材や技術を効率的に正確に扱うには、全体を万遍無く理解出来てないと難し…

Markdownじゃなきゃダメな体に・・・

引っ越して来ました。。。 もうMarkdownじゃなきゃやってらんないよね。。 へー色サポートしてるのね

ES6 transpiler すると壊れる問題

webpack + babel で一見ちゃんとtranspilerできるのだが、動かしてみるとエラる。 Uncaught TypeError: Cannot read property 'TYPED_ARRAY_SUPPORT' of undefined. 色々調べたが解決方法には辿り着かなくて何とかひねり出したのがこれ。 plugins: [ new web…

capistrano-bundle_rsync の :repo_tree がちゃんと動かない・・・

こうじゃないと動かないと思うんだが、これだけ使われてるライブラリでこんな5分で治る奴が放置されているとも思えんのだ・・・ だれか教えて偉い人!! https://github.com/sonots/capistrano-bundle_rsync/pull/15/files

MongoDB の チューニンガソン環境を作った。

例のGoogle compute engine 60日トライアル の$300 分をどう使おうか・・・と考えていたのだが、MongoDBのチューニンガソンに使えるんじゃないか!?と思って週末に一気に作ってみた。mongo-tuningason.crumb.jp"いきなり超負荷を掛けると、色々問題が起き…

mongosが腐る・・・

mongosの後ろのshardでstepdownが起きたときにmongosが追随せずに以降のクエリーが全て刺さり続けることがある。 こうなるともう自動で復活はしないようだ。 すべてのmongosが腐る訳ではなく、stepdown時に高負荷だったmongosが腐る傾向にある。 shardConnPo…

MongoDBクラスタ間の同期

node-mongosync https://www.npmjs.com/package/node-mongosyncステージング環境へのデータ同期や、MongoDB引っ越しの際に便利。 そうそう引っ越さないけど・・以前 mongoshellで実装したものの焼き直しだ。 node-native-driverでは、tailable cursor の clo…

『もう二度と、絶対にMongoDBを使うべきじゃない理由』というのがあるらしい

記事 https://fa-works.com/blog/why-you-should-never-ever-ever-use-mongodbなかなか香しいな。 というよりコイツ他のブログも結構ヒドイw とりあえず不満をぶちまけるタイプのようだ。で、、事の本質はプロダクトの設計がちゃんと出来ない人はどんな場合…

MongoDB3.2 readConcernの挙動について

実装 mongosの場合はもうちょっと複雑になるが、レプリカセットの場合はこの辺に実装があるようだ === /db/repl/replication_coordinator_impl.cpp === auto loopCondition = [this, isMajorityReadConcern, targetOpTime] { return isMajorityReadConcern ?…

MongoDB3.2 ReleaseNote所感

そろそろ3.2も手を付けようと思うので、検証がてらつらつらと。。 リリースノート https://docs.mongodb.org/manual/release-notes/3.2/非常に丁寧な日本語訳があるので、こちらもどうぞ http://qiita.com/fetaro/items/cd570d70623b58b5deef WiredTiger as …

AWS上にハイパフォーマンスMongoDBを構築する方法

AWSインスタンスの選定 AWSインスタンスタイプ一覧以下のインスタンスボリュームが付随しているプロダクトラインが候補になる。 個人的にはi2.xxx が好みである。 r3.xxx メモリ最適化インスタンス i2.xxx SSD容量最適化インスタンス ただし、インスタンスボ…

あまり頻発するような問題ではないようだ

http://d.hatena.ne.jp/hiroppon/20151216/1450251504 以前、MongoDB3.0系のバックアップを取り上げた。色々検証したが、データファイル自体が破壊されるような事は起きなかった。 中のデータがある程度おかしいのかもしれないし、極稀にファイル破壊が起き…

バックアップができない!?

ご存知の様にMongoDBのバックアップは fsyncLock Snapshot fsyncUnlock の流れなのだが、、 最近、MongoDB3.2 系のドキュメントにこんな事が書かれていた Compatibility with WiredTiger Changed in version 3.2: Starting in MongoDB 3.2, db.fsyncLock() c…

MongoDB3.0.xの設定ファイルテンプレ

Advent Calendar にも投稿した内容ですが、MongoDB3系の設定周り。 僕はこんな感じで運用してますよ。という位の内容。/usr/local/mongodb/ 以下に構築する場合の設定周り 1. ディレクトリ構成 バイナリをDLして適当に配置してください。 # mkdir -p /usr/lo…

MongoDB3系(WiredTiger)の現状

ご無沙汰してます。最近全然更新出来てない訳ですが、MongoDBに愛想が尽きて、離れていた訳ではありません。 むしろガッツリ嵌ってます。。最近は MongoDB3 系 WiredTiger を使いながら頑張っている訳ですが・・・ キリの良い所で書こうと思っていたのに、メ…

DB tech showcase 2015 登壇

DB tech showcase 2015 で話して来ました。http://www.slideshare.net/crumbjp/db-tech-showcase2015-how-to-replicate 3年目ですが、だんだん制服組が減って、エンジニアが増えてていい感じでした〜

MongoDB 3.0 リリースノート斜め読み

遂にMongoDB 3.0 が正式リリースされました!! 例によってリリースノートを斜め読みします。 http://docs.mongodb.org/master/release-notes/3.0/ が、、最初に一言で纏めると、まあ、、目玉機能はロックレベルの話だけですよー でわ。。 Pluggable Storage…

MongoDB aggregation の検証

だいぶ空いてしまったが、久々の更新!Aggregate周りを色々検証したので載せておく。基本的なTAG構造。TAGを扱う上でオーソドックスなクエリーと性能を調査。 性能は、people 2000万件、hobies 3200万件、完全ランダムデータで計測。 月数千円で手に入るコン…

Proposal about notablescan option

I issue this ticket from strong sense of impending crisis and wanted to know how others thinks about this. https://jira.mongodb.org/browse/SERVER-15561This proposal is about the feature of the notablescan option. This is not for the progra…

Mongoクエリー・ベース・レプリケーション

レプリカセット間レプリケーション MongoDBではレプリカセットを跨いでデータを同期する手段が無い。 そもそもレプリカセット自体が冗長構成を目的としているので設計に組み込まれていないのだろう。 しかし現実は Staging環境や、PV系/集計系の分離など、…

Index intersection を試してみた。(失敗談)

MongoDB 2.6 からIndex intersectionという機能が追加された。 1つのクエリーで2つのインデックスを使う(かもしれない)機能で、より効率的にクエリーを処理できる。 (どう効率的なのか?はこのへんが詳しい)さて、じゃあ実際に見てみようというのが今…

MongoDB2.6.1 でやっとメジャーバージョンアップ

チェンジログ http://docs.mongodb.org/master/release-notes/2.6-changelog/ひたすらヤバイ者揃いですが、やっとメジャーバージョンアップ程度の品質になったかと。 やっと頑張れば使えるかな?暇が出来次第 http://mongodb.jp/ を早々に生贄にする所存。。

MongoDB 2.4 => 2.6 アップデートした

2.6.1(人柱バージョン)にチャレンジ 2.4.4 => 2.6.1 バージョンアップ手順 今回データファイルには互換性があるので超簡単 ディレクトリ構成 /usr/local/mongo |- bin -> mongodb-linux-x86_64-2.4.4/bin |- mongodb-linux-x86_64-2.4.4 |- data |- logs |- …

MongoDB2.6.0は時期尚早

MongoDBのメジャーバージョンアップはいつもの通り大混乱だ。 最早様式美ですらある。。いつも思うがmongodb.incの連中はmongodb使って欲しい訳だ。 Eat yourown dog food !! jira眺めてて、今問題が多そうな部分 インデクシング(全体的におかしい) Aggreg…

MongoDB2.6リリースノート斜め読み!

ご存知の通りMongoDB2.6がリリースされました!相変わらず乱文で解説!! Aggregation Enhancements Aggregationが強化された。 db.collection.aggregate() がカーソルを返却するようになった 今まで最終結果には64MBの制約があったが、解消されたようだ。 …

mecabでのユーザ辞書でハマった話

コストは単純に足し込むと思ってたのだけど、遷移コストなんてものがあるのね。。 日本テレビ東京で学ぶMeCabのコスト計算しかし困ったぞ、、cost 0 でユーザ辞書に登録しても採用されない問題!どんな事が起きるかというと、、(形態素解析の例としては良く…

MongoDB vs MySQL性能比較

MongoDB Aggregation FWシリーズの最後 - Aggregation FW機能、SQLとの比較 - Aggregation FWの特徴と地雷 - (今回)MongoDB vs MySQL性能比較Aggregation FWについては、大体、把握している情報を吐き出したと思う。 MongoDBのRDBMSライクな機能について性…

Aggregation FWの特徴と地雷

MongoDBのAggregation FWはSQLの集約関数(COUNT,SUM,GROUP等)の様な組み込み機能の集合である。非常に便利なのだが、色々と問題があって、手放しにはお勧めできない。Aggregation FWの機能や利用する時のハマリ所をリストアップしてみた。 機能 MapReduceの…

Aggregation FW機能、SQLとの比較

使い方や例など詳細は本家のドキュメントを参照してください。 基本機能 オペレータ SQL相当 説明 $project SELECT 集計用のフィールドの削除・追加・定義など $match WHERE 絞込み条件を指定 $limit LIMIT 対象行数指定 $skip LIMIT 読み飛ばし行数指定 $un…

mongodb in Sakura VPSのスローダウン仮説

サクラvps3Gのmongoで原因不明のスローダウンが発生。どうも、急激にディスクリードが遅くなったようだ。プロセス再起動も効果なし、メモリーも十分。謎だったのだが、一つ仮定は作れた。・どうやら50Gもあるコレクションで起きてるっぽい ・そこには古くて…

MongoDB丸の内勉強会でしゃべって来ました

MongoDB丸の内勉強会 #14 http://atnd.org/events/44449もう14回ですか!月1なので一年以上経ちましたね。 思えばこの勉強会から色々始まったものがあるなぁ〜 Sharding体験? 前半は参加者でシャーディング構築のハンズオン 皆さん、Firewall設定とかで…

サーチ評価の話(和訳)

仕事で考えなきゃならないケースが出てきたので 『後でやる』シリーズを消化していく。(赤字は私の所感) Googleサーチエンジンの改善に関する記事の和訳 (想定される問題をピックアップする目的) Search evaluation at Google Posted: Monday, September…

転職しました。。

退職エントリーが流行の様なので・・・ 9月末付けで楽天を退社しました。 楽天は、6年間お世話になりました。非常に働き易く良い会社だったと思います。 それまでは、長くても同じ職場には2年は居つかなかったのですが 特に大きな不満もなく、居心地が良…

自然言語処理の落書き(canopy問題)

やはりcanopyが厄介だ。。 T2サンプリングの問題 自然言語処理では物凄くスパースなベクトルを扱ってるので canopy(T2)の段階で、クラスタ数が必要以上に増える。その後、canopy(T1)で重心算出すると、20個以上の重心がT2内に入ってる状態になったりする。…

自然言語解析 in MONMO(後編)

一連の自然言語処理をMONMOちゃん上で実現する試みの第3弾 前回はベクタライズまで行った。今回は、形態素解析結果から、そのドキュメントの特徴を表す『ベクトル』を算出する、ベクタライズを行う。 monmo-NLProcessing github https://github.com/monmo/m…

自然言語解析 in MONMO(中編)

一連の自然言語処理をMONMOちゃん上で実現する試みの第2弾 前回は形態素解析まで行った。今回は、形態素解析結果から、そのドキュメントの特徴を表す『ベクトル』を算出する、ベクタライズを行う。 monmo-NLProcessing github https://github.com/monmo/mon…

自然言語解析 in MONMO(前編)

前回MONMOちゃんの紹介の続き。今回は(日本語)自然言語解析の第一歩であるトークンナイズ(tokenize)を行う。 monmo-NLProcessing github https://github.com/monmo/monmo-NLProcessing 形態素解析 日本語の解析で一般的に使われるtokenize手法で、辞書を…

MongoDB製JOB Queue

お盆が暇だったので MongoDB製Job queue を作った。 名前はMONMOちゃん。javascriptで手軽に使いたい部分があって個人用で考えていたが 結構マトモなモノが出来上がったので公開する事にする。またMONMOちゃんを使って、自然言語処理も一式書いてみたが こち…

熟語解析が難しい。。。(もはや走り書きメモ)

修正: x: unigram => o: bigram 勢いで書くとこうだよ・・・ 形態素解析でTokenize後にN-gramで熟語解析しようとしたが、ちと困った。。 日本 維新 の 会これをbigramすると 日本維新 維新の の会となって、これを使ってもう一回Tokenizeすると 日本維新 の…

MongoDBはDBではない。環境である!

勢いでtwiteしたついでに、軽く書いてみた。MongoDBのfindAndModifyは物凄く便利で色々使い方があるのだが $setOnInsertと組み合わせると、お手軽セマフォになるので こんな感じで簡単にJOB管理に使える訳だ。 全ドキュメントを並列に処理する例 このスクリ…

今週末7/28は、大岡山でもんご祭り!

2013納涼もんご祭りここの所、これに掛かりきりです。 遊びに来てくださいな!・参加無料! ・色々面白い発表あり!! ・10gen来るかも? ・プロレスラーあり!?いや、、ホントかよ? いい大人が悪乗りすると怖いね!! 人とお金集めてホントにやっちゃうか…

All in mongo の形態素解析エンジン

.body .section { margin-left:10px; } .body .section dl{ margin-left:20px; } https://github.com/crumbjp/analysis/tree/master/monmorp About MONMORP MongoDB上で動作する ”とにかくお手軽な 形態素解析エンジンです。 MongoDBが立ち上がってる状態か…

Cockatoo

彼此数年ほど手がけているMongoDBベースのPHP製WEBフレームワーク『Cockatoo』いくつかのサービスで数年間、安定稼働を続けているのでそろそろ自信がついてきました。本来は社内で広めて行きたいのだけど諸般の(非技術的な)事情から暫く身動きが取れない状…

MongoDBのデータファイルを直撃してHadoopでM/Rすると。。

なんかまた、おかしなプロダクトを発見した。https://github.com/groupon/mongo-deep-mapreduce最初、mongo-hadoopと何が違うんだ?と思ったが。。 Move the raw Mongo files into HDFSなんだと!?データファイルを直撃して食うのか!!! またC++ => Java…

今更ながら簡単Sharding構築

Sharding構築手順とポイント 構成 mongos +-----------------+ | 192.168.159.50 | +-----------------+ ConfigDB +-----------------+ +-----------------+ +-----------------+ | 192.168.159.3 | | 192.168.159.4 | | 192.168.159.5 | +-----------------…

MongoDB 2.4 の性能 徹底評価(Memory vs DISK)

大体欲しいデータは揃ったのと、MongoDBの気持ちが解ってきたのでMongoDB2.4の性能調査は今回で最後の予定 実は前回MongoDB 2.4 の性能 徹底評価(レコード長による評価)のFETCHバイト数(1.5GB) 実は今回のOn-memoryデータ vs DISKリードに繋げる事を意図…

MongoDBが適さないケース

> 原文(Why MongoDB is a bad choice for storing our scraped data)私自身はMongoDBを推進する立場なのだが、確かにMongoDBに適さないケースはある。 闇雲に推進しても結局は全員がアンハッピーになるので、この様なネタもどんどん紹介していこうと思う。こ…

MongoDB 2.4 の性能 徹底評価(レコード長による評価)

前回のMongoDB 2.4 の性能 徹底評価の反響が大きかったので続編。 今回の調査対象 ドキュメントサイズ毎の性能を評価する。今回の検証用にベンチを書いた。 性能見積りにも使えると思うので、紹介しておきます。 MongoDB-JP/mongo_bench今回の検証も、Sakura…

/proc/[pid]/stat まとめ

いつも忘れるので、まとめておくことにした td { border-bottom: 1px solid #D6E3F7; } stat No フィールド scanf 説明 0 pid %d プロセス ID。 1 comm %s 括弧でくくられた実行形式のファイル名。実行形式がスワップアウトされているかどうかによらず、見る…