中年engineerの独り言 - crumbjp

LinuxとApacheの憂鬱

サーチ評価の話(和訳)

仕事で考えなきゃならないケースが出てきたので
『後でやる』シリーズを消化していく。

(赤字は私の所感)

Googleサーチエンジンの改善に関する記事の和訳

(想定される問題をピックアップする目的)

Search evaluation at Google
Posted: Monday, September 15, 2008

This series of posts has described Google's search quality efforts in areas such as ranking and search UI. Now I'll describe search evaluation. Simply put, search evaluation is the process of measuring the quality of our search results and our users' experience with search.

この一連のポストはGoogleのサーチやランキングにおける品質向上努力についてである。
サーチ評価とは、我々のサーチ結果の品質を計測するプロセスと我々のユーザのuser-experienceのことだ。

Let me introduce myself. I'm Scott Huffman, an engineering director responsible for leading search evaluation, working with a talented team of statisticians and software engineers. I've been here since 2005, and have been working on search in one form or another for the past fourteen years or so.

[自己紹介]2005年からサーチ評価をリードしてきた、統計分野のエンジニア

When I'm interviewing folks interested in joining the search evaluation team, I often use this scenario to describe what we do: Imagine a Google ranking engineer bursts into your office. "I have a great idea for improving our search results!" she exclaims. "It's simple: Whenever a page's title starts with the letter T, move it up in the results three slots." This engineer comes armed with several example search queries where, lo and behold, this idea actually improves the results significantly.

私はサーチ評価チームにjoinしたい人々との面接で、説明のため、たとえ話を使う。

ランキングエンジニアがきた事を想像してみて?
『サーチを向上させる為、いい事を思いついたの!!』
『簡単よ!いつでもタイトルがTから始まるページを上に持ってくればよい。』

このエンジニアはいくつかの例を示し、このアイディアは実際にすごく結果を向上させた。

※以降、Tハック

Now, you and I may think that this "letter T" hack is really a silly idea, but how can we know for sure? Search evaluation is charged with answering such questions. This hack hasn't really come up, but we are constantly evaluating everything, which can include:

  • proposed improvements to segmentation of Chinese queries
  • new approaches to fight spam
  • techniques for improving how we handle compound Swedish words
  • changes to how we handle links and anchortext
  • and everything in between

ここで、、あなたや私はTハックを馬鹿げたアイディアだと考えるかもしれない。しかしどうだろうか?
サーチ評価はこのような疑問に答えるためのものだ。

このハックが実際に提案された事はないが、我々は色々なことを評価している。
 - 漢字圏のサーチ結果向上の提案
 - スパム対策の新しいアプローチ
 - スウェーデン語に関する新技術
 - リンクとアンカーの扱いの変更
 - その他

As Udi mentioned in his initial post on search quality, in 2007 we launched over 450 improvements to Google search, and every one of them went through a comprehensive evaluation process.

Udi がサーチ品質について言及しているように
2007年我々はGoogle searchに450もの改善を包括的な評価プロセスを通して行った。

Not surprisingly, we take search evaluation very seriously. Precise evaluation enables our teams to know "which way is up". One of our tenets in search quality is to be very data-driven in our decision-making. We try hard not to rely on anecdotal examples, which are often misleading in search (where decisions can affect hundreds of millions of queries a day). Meticulous, statistically-meaningful evaluation gives us the data we need to make real search improvements.

驚くべき事ではない。我々は真剣にサーチ評価を行っている。詳細な評価をする事で我々はどの方法がよいのか知ることができた。
サーチ評価について一つ言える事は、データドリブンな意思決定であれ。だ。
我々は逸話的な事例に頼ってはならなかった。それらはミスリードを引き起こす。(一日、何億ものクエリーに影響してしまう)
入念に、統計的に意味深い評価こそが、我々が本当に必要とする結果を導く。

Evaluating search is difficult for several reasons.

First, understanding what a user really wants when they type a query -- the query's "intent" -- can be very difficult. For highly navigational queries like [ebay] or [orbitz], we can guess that most users want to navigate to the respective sites. But how about [olympics]? Does the user want news, medal counts from the recent Beijing games, the IOC's homepage, historical information about the games, ... ? This same exact question, of course, is faced by our ranking and search UI teams. Evaluation is the other side of that coin.

Second, comparing the quality of search engines (whether Google versus our competitors, Google versus Google a month ago, or Google versus Google plus the "letter T" hack) is never black and white. It's essentially impossible to make a change that is 100% positive in all situations; with any algorithmic change you make to search, many searches will get better and some will get worse.

Third, there are several dimensions to "good" results. Traditional search evaluation has focused on the relevance of the results, and of course that is our highest priority as well. But today's search-engine users expect more than just relevance. Are the results fresh and timely? Are they from authoritative sources? Are they comprehensive? Are they free of spam? Are their titles and snippets descriptive enough? Do they include additional UI elements a user might find helpful for the query (maps, images, query suggestions, etc.)? Our evaluations attempt to cover each of these dimensions where appropriate.

Fourth, evaluating Google search quality requires covering an enormous breadth. We cover over a hundred locales (country/language pairs) with in-depth evaluation. Beyond locales, we support search quality teams working on many different kinds of queries and features. For example, we explicitly measure the quality of Google's spelling suggestions, universal search results, image and video searches, related query suggestions, stock oneboxes, and many, many more.

サーチ評価はいくつかの理由から難しい:
 - ユーザがサーチによって本当は何を望んでいるのか(クエリーの意図)理解することが非常に難しい
  高度に導きやすいクエリー(ebeyやorbitz)では、殆どのユーザが、それぞれのサイトに飛びたい事であろう。
  しかしolympicsでは?ニュースが欲しい?メダルの数?IOCのサイト?歴代記録?
  ランキング/サーチチームにとって正に問題だ。(取り違えれば)この評価は真逆になる。

  答えが明確では無い問題の典型だ。サーチに限らず『どう評価して良いか明確ではない問題』におけるアプローチとして参考にできる

 - サーチ品質を他のエンジンと比較することも難しい。本質的に100%良くなる改善は不可能だ。
  どんなアルゴリズム的改善であっても、改善した人が大勢いる一方で悪化する人もいる。

 - 一口に『良い』といっても、色々な次元がある。
  伝統的なサーチ評価では『結果の関連性(望む結果が得られたか?)』や『我々の設定する優先度』をもって良しとする。
  しかし今日のユーザは『関連性』以上の事を期待している。タイムリーな情報か?信頼のおける情報か?包括的な情報か?スパムじゃない?興味を引くタイトル?
  ユーザはUI要素をクエリーに含めるかも?(maps,images,query,suggestions,など)
  我々の評価はこれらの側面もカバーしようとしている。

  ユーザが主体となるサービス全てに言えることだ。具体的に参考になる切り口でもある

 - Googleサーチの品質は、非常に大きな何百という地域(国/言語)をカバーすることを要求される。地域にまたがって、サーチ品質チームは幾つものクエリーや機能をサポートしている。
  たとえば、spell-suggestion、サーチ結果、画像/動画サーチ、query-suggestion、stock oneboxes?,その他。

To get at these issues, we employ a variety of evaluation methods and data sources:

Human evaluators. Google makes use of evaluators in many countries and languages. These evaluators are carefully trained and are asked to evaluate the quality of search results in several different ways. We sometimes show evaluators whole result sets by themselves or "side by side" with alternatives; in other cases, we show evaluators a single result at a time for a query and ask them to rate its quality along various dimensions.

Live traffic experiments. We also make use of experiments, in which small fractions of queries are shown results from alternative search approaches. Ben Gomes talked about how we make use of these experiments for testing search UI elements in his previous post. With these experiments, we are able to see real users' reactions (clicks, etc.) to alternative results.

これらの問題のため、我々は多様な評価方法や情報源を採用している。
 - 人間の評価者。Googleは多くの国や言語の評価者を活かしている。評価者は注意深くトレーニングされ幾つもの異なる方法でサーチ結果を評価することを求められている。
  ときに、評価者の評価が割れる事があったり、評価者の評価が一つになり、多様な側面から評価してくれるよう頼むこともある。

 - Live traffic実験。我々はまた少数のクエリーをに対し実験的に別アプローチのサーチ結果を表示している。Ben Gomesはexperiments for testing serach UI elemetsで
  我々がどのようにこれらを行っているか言及した。これらの実験によってサーチ結果によるユーザのリアルなリアクションを見る事ができる。

Clearly, we can never measure anything close to all the queries Google will get in the future. Every day, in fact, Google gets many millions of queries that we have never seen before, and will never see again. Therefore, we measure statistically, over representative samples of the query-stream. The "letter T" hack probably does improve a few queries, but over a representative sample of queries it affects, I'm confident it would be a big loser.

明らかに、、我々は殆どすべてのクエリーを計測する事はできていない。
事実、Googleは数百万もの新たな(また今後二度と送られる事のない)クエリーを毎日受けている。
そのため、我々はサンプリングを行い、統計的に計測している。
Tハックはおそらく、少数のクエリー結果を向上するが、そのようにサンプリングしたクエリにも影響を及ぼし、間違いなく巧く行かない。

One of the key skills of our evaluation team is experimental design. For each proposed search improvement, we generate an experiment plan that will allow us to measure the key aspects of the change. Often, we use a combination of human and live traffic evaluation. For instance, consider a proposed improvement to Google's "related searches" feature to increase its coverage across several locales. Our experiment plan might include live traffic evaluation in which we show the updated related search suggestions to users and measure click-through rates in each locale and break these down by position of each related search suggestion. We might also include human evaluation, in which for a representative sample of queries in each locale, we ask evaluators to rate the appropriateness, usefulness, and relevance of each individual related search suggestion. Including both types of evaluation allows us to understand the overall behavioral impact on users (via the live traffic experiment), and measure the detailed quality of the suggestions in each locale along multiple dimensions (via the human evaluation experiment).

我々サーチ評価チームにおけるキースキルのうちの一つは、実験的設計だ。
我々はそれぞれのサーチ向上施策案に実験を計画する。これによりその変更の主要な側面を計測できる。時に、人手での評価と組み合わせることもある。
たとえば、広範囲の地域にまたがるGoogle関連性サーチ機能に関する施策を検討する際、
Live traffic実験を含めるだろう。そして、関連サーチ候補の変化、地域毎のクリックレート、関連サーチ候補の位置の上下などを見る。
また、人手による評価も含めるだろう。そして、地域毎に不適切さ、不便さ、関連サーチ候補の調整などを依頼する。
これら両方の結果をもって、我々はこの施策の全体におけるインパクトを理解し、多角的に地域毎の候補クエリーの詳細をつめる事ができる。

  実証実験をせよと言うことか。A,Bテストなどもそれに含まれるだろう。手間もかかるし、スピードとトレードオフになる感は否めない。
多角的に評価したものを包括的に判断する部分も難しそうだ

Choosing an appropriate sample of queries to evaluate can be subtle. When evaluating a proposed search improvement, we consider not only whether a given query's results are changed by the proposal, but also how much impact the change is likely to have on users. For instance, a query whose first three results are changed is likely much higher impact than one for which results 9 and 10 are swapped. In Amit Singhal's previous post on ranking, he discussed synonyms. Recently, we evaluated a proposed update to make synonyms more aggressive in some cases. On a flat (non-impact-weighted) sample of affected queries, the change appeared to be quite positive. However, using an evaluation of an impact-weighted sample, we found that the change went much too far. For example, in Chinese, it synonymized "small" (小) and "big" (大)... not a good idea!

『適切なサンプリング』は微妙な問題をはらむ。
サーチ施策案を評価するとき、我々は、クエリー結果の変化だけでなく、ユーザにとってのインパクトの程も検討する。
たとえば、クエリの上位3つが変わったとき、9、10が入れ替わった時より、大きなインパクトがある。
Amit Singhalのprevious post on rankingの中で、彼は同義語について話している。
最近、我々は同義語をもっとアグレッシブに扱う施策を評価した。
平坦なサンプリングにおいて、これはとても巧くいくようだった。
しかしながら、重みづけサンプル(impact-weighted sample)においては、到底、成功とは言えない結果だった。
例えば、漢字において、small(小)とbig(大)は巧く行かない。

  サンプリング問題。平坦に取るだけでは駄目と・・・これは真逆の発想ですらある。。

We're serious about search evaluation because we are serious about giving you the highest quality search experience possible. Rather than guess at what will be useful, we use a careful data-driven approach to make sure our "great ideas" really are great for you. In this environment, the "letter T" hack never had a chance.

Posted by Scott Huffman, Engineering Director

我々は、サーチ評価に関して真剣だ。それはあなた方に可能な限り快適で高品質なサーチを届けたいからだ。
むしろ便利さよりも。。我々は『我々の良いと思う事』が本当に『あなた方にとって良い事』になるよう、データ駆動アプローチをしている。

このような環境ではTハックは絶対採用されない!