« 「はやぶさリンク」:野尻抱介さんからの呼びかけ | Main | 今井紀明氏のblogを読む »

2005.12.27

Google Danceを観察する

 はやぶさ関連といえば関連なのだが、直接はやぶさに関係ない、奇妙で、楽しい出来事が起きた。
 日経・清水編集委員への反論を書いた記事が、検索エンジンのGoogleから一時消失し、その後復活した。何が原因かは不明だが、その間Googleのどのサーバーで検索するかによって検索結果が異なる、さらには同一サーバーでも検索するたびに結果が異なるという現象が発生した。
 こういう現象はGoogle Danceと呼ばれるそうだ。多数のマシンをクラスター化したサーバー群で構成されているGoogle内部のキャッシュが更新される過程で、不整合が発生するのが原因という。

 私は、何人かの知人の協力を得てその過程を観察することができた。実に興味深かった。


 Google Danceについては、「Google 八分 の確認と対応の方法」というページが詳しく解説している。

 私は12月22日に、「はやぶさリンク」:日経新聞・清水正巳編集委員の記事に関してと題して、日本経済新聞の清水正巳編集委員が書いた「研究の失敗に寛容な風土はできるか」という記事に反論した。この記事には大きな反響があり、多数のコメントとトラックバックが付いた。これだけあちこちからリンクされると、検索エンジンでの表示順位も上がる。


 以下は12月25日朝からの経緯である。

 12月25日朝、私はネットの関連記事を漁っていて「清水正巳で検索しても松浦記事がトップに出るのに」という記述を見つけた。ご存知の通り、ロボット型検索エンジンは、さまざまな手法を使って記事の重要度を数値化し、重要な順に結果を表示する。
 興味を持った私は、各種検索エンジンをキーワード「清水正巳」で検索してみた。その結果は以下の通りだった。

清水氏オリジナル記事 松浦の12/22付け記事
Google 1ページ目2番目 1ページ目1番目
Yahoo! 1ページ目9番目 1ページ目1番目
msn 1ページ目1番目 1ページ目2番目
goo 1ページ目1番目 1ページ目3番目

kekkaari これもまた記事にしようと思い、私は記録をとっておいた。ネット社会の様相を写すひとつの例となると考えたのだ。左に掲載したのは、私の記事がトップに来ているGoogle検索結果の画像である。そのときにキャプチャーしそこねたので、これは現在の検索結果だ。

 ロボット型の検索エンジンは「クローラー」というソフトで、ネット全体の更新を常時監視して、検索結果に反映させている。上記結果もいつ変化するか分からない。12/25午後1時頃、私は再度Googleで「清水正巳」と検索してみた。

 するとGoogleの検索結果が、妙に安定しない。検索を繰り返してみると、

清水氏オリジナル記事 松浦の12/22付け記事
1ページ目2番目 1ページ目1番目

という結果と、

清水氏オリジナル記事 松浦の12/22付け記事
1ページ目1番目 掲載されず

kekkanashiが不規則に帰ってくる。この「掲載されず」は、単に掲載順番が下がったというものではない。最後まで検索結果を見ていっても載っていないのだ。Google上で記事の存在そのものが消えてしまっていた。左に掲載したのは、私の記事が落ちてしまっている検索結果のキャプチャーだ。Googleロゴがスペシャルになっているので25日のキャプチャーであることがわかる。

 Googleは世界各国にサーバーを持っており、どのサーバーでも日本語の検索ができる。試しに「www.google co.uk」(イギリスのサーバー)と「www.google.fr」(フランスのサーバー)、「www.google.de」(ドイツのサーバー)を検索するとすべてのサーバーから、

清水氏オリジナル記事 松浦の12/22付け記事
1ページ目2番目 1ページ目1番目

という結果が帰ってきた。本家Google.comでも試せば良かったのだが、ここはそのままだとGoogle.co.jpに飛ばされるので試さなかった。実はGoogle.comを使うのは簡単だったのだけれども。

 Googleはクラスター化されたサーバーを使用している。この状況は、Google日本で何らかの登録データの変化があり、それが日本国内のサーバーのキャッシュに行き渡る過程で不整合を起こしていると考えると理解できる。
 とすると次にはおそらく海外サーバーのデータ書き換えが起きるだろう。

 この時点で、私はネットに詳しい友人数名に連絡を取って、時々世界各国のGoogleにおけるキーワード「清水正巳」の検索結果を監視してもらえるように手配した。

 25日夜から早朝にかけては、Googleの「清水正巳」検索結果は、派手に踊りまくった。あちこちのGoogleサーバーで、検索をかけるタイミングによって、2種類の結果がでる状態がしばらく続いた。

 落ち着いたのは26日の朝だ。海外サーバーを含めたすべての検索で、

清水氏オリジナル記事 松浦の12/22付け記事
1ページ目1番目 掲載されず

 という結果が表示されるようになった。


 26日朝の段階で、私のところに知人から「該当記事の登録が消えている。その他のL/D記事の登録は消えていない」という連絡が入った。
 あるページが、Googleに登録されているかどうかは、そのページのURLをGoogleの検索窓に記入することで確認できる。
 さっそく確認してみたところ、清水編集委員への反論を書いた記事(URLはhttp://smatsu.air-nifty.com/lbyd/2005/12/post_08cc.html)が、Google登録から消えていることを確認した。
 トップページやその他の記事(例えば12月21日付けのCDの記事など)は登録されていた。

 そこで26日午後5時過ぎに、「松浦晋也のL/D」全体を再登録するようGoogleに申請してみた。

 この申請に意味があったのかなかったのか、26日午後6時頃から、再度Google Danceが始まった。キーワード「清水正巳」で、私の記事がトップに来たり来なかったりする。海外サーバーでも同様の状態となった。我々は、GoogleサーバーをIPアドレス単位で監視して「どこそこが踊っている」「こっちは踊っていない」と、お互いに報告し合った。

 夜半にかけて、ダンスは徐々に収束していった。27日午前1時過ぎにGoogle.comのサーバーのひとつが踊っているのを確認したのを最後に、検索結果は収束した。
 
 もちろん結果は

清水氏オリジナル記事 松浦の12/22付け記事
1ページ目2番目 1ページ目1番目

である。私の記事は1日振りにGoogleにおいて復活を果たしたわけだ。ちなみにGoogleのクローラーは、27日朝の段階で、まだ来ていない。再登録申請に意味があったのか無かったのかは、不明である。


 一体なぜこんなことが起きたのか。誰かが当該記事のデータを削除し、しかる後に復活させたのか。実は、私も最初は意図的にデータが削除された可能性を疑った。

 しかし、清水編集委員に関する記事のデータをGoogleから削除しても誰も得はしない。

 この記事が消えることで利害が発生しそうなのは、私を筆頭に、Google、清水編集委員、清水委員の所属する日本経済新聞の4者だろう。ところが、

 私は記事を検索で読んでもらえなくなって損。
 Googleは検索の信頼性が下がって損。
 清水編集委員は、ジャーナリストにあるまじき言論弾圧をした嫌疑をかけられて損。
 日経新聞は、言論機関にあるまじきネットへの圧力をかけたと疑われて損。

と、誰も得をしない。こんなバカなことを誰もするはずがない。

 おそらくは、Googleの登録データが何らかの原因で壊れ、そのまま世界中のサーバー群に壊れたデータが波及していったのだろう。その過程でGoogle Danceが発生、さらに修復の過程で再度Google Danceが起きたのだと思う。

 私としては、面白いものを見せてもらって、とても満足である。

#午後7時56分追記 また検索結果が、私の記事をはじくようになってしまった。ともあれ、しばらくは様子を見ることしようと思う。

|

« 「はやぶさリンク」:野尻抱介さんからの呼びかけ | Main | 今井紀明氏のblogを読む »

パソコン・インターネット」カテゴリの記事

はやぶさリンク」カテゴリの記事

Comments

自分のサイトの検索エンジン上でのランキングを上げるという内容で各種解説本が出ていますが、こうした「ダンス」が起こってせっかくの努力がチャラになるとしたらどうなるのかな?と考えてしまいます。
結構「グーグルダンスを乗り越える最強の・・・・」というサブタイトル本が出てきたりして。
こうした何だかわからないけど起こって、何だかわからないうちに治った!というのが一番厄介な故障ですが・・・・

Posted by: DVDを見せたがる男 | 2005.12.27 09:44 PM

「そんなバカな…」という事が何故か起きるのが面白いこの世の中。
でもきっとこの件も「まれに起きる障害」なんでしょうけど。

Posted by: すもも | 2005.12.28 12:02 AM

松浦さん、面白いレポートをありがとうございました。
#小生、IT関連の仕事に関わってる身ですが、不勉強ながら"Google Dance"については知らなかった。興味深い情報をありがとうございました。

情報検索(情報アクセス)が集中しすぎると、(1万台のWebサーバが)「アクセス集計・多数決ワッショイ」を遣り出して、普通では予測もつかん様な現象が起こり得るって事ですね。(^__^;;)

なんとなく、昔の東証の商い中の騒然とした雰囲気,一万人の400Mトラックレース,一万人の阿波踊り,等を次々と連想してしまって。。。しばらく笑いが止まらず、お腹がヨジレテいました。。
#まじめなネタなのに失礼。。。(-ω-;;)

ネットの世界(ITの世界&擬似AIの世界)、摩訶不思議なり。。ですね。

Posted by: てらぽん@藤沢 | 2005.12.28 12:24 AM

なんて奇遇なんでしょう、私のトラックバック記事もGoogleから消えました。
確かにあったんですよ。なぜなら、26日午前11:46に、Googleでキーワード「清水正巳 プロの視点」で私の記事を検索した方が飛んで来てますから。しかも一番読んで欲しい方面からだったので、うれしくってアクセスログを記録しちゃいました。もちろんすぐに同じキーワードで自分で検索してみたらトップページにありました。
でも・・・今は同じキーワードで検索しても私の記事はないんです。
でもでも、松浦さんと同じ現象に巡りあえるなんて感動ものです(^_^;)

Posted by: ダムダリ | 2005.12.28 01:07 AM

案外単純な理由かもしれませんよ。松浦さんの例の記事は読者も多くてコメントを書く人も多いです。ブログとしてはコメントのたびにページが更新されるのでサーバーの負荷も高くなります。先ほど例の記事を表示しようとしたら1分ほど、ブラウザが固まってしまいました。

Googleのクローラがやってきたときにたまたま同じような現象にぶつかると、データが壊れてしまうのかもしれません。確証はないですが。

あと、問題のページ以外の個別記事でも同様な現象が起きていないか、調べてみると面白いかもしれません。松浦さんがリンクされた解説ページにも書いてありますが、ブログのページランクは一般的に高すぎる傾向があるので、検索エンジン各社はそれぞれいろいろな工夫を試しているように感じます。

Posted by: 5thstar管理人 | 2005.12.28 02:04 AM

初めまして。
「清水正巳で検索云々という記述」ってウチのこと?と勝手に悦に入っている者です。違っていたら馬鹿の戯言とお笑いください。
当該記事に関しては清水氏への個人攻撃に近い内容ですので、松浦さんが眉をしかめているのは想像に難くないのですが(私としては攻撃のつもりじゃなくて呆れていたのです)、こんな駄文に最後まで目を通して頂いたことに感謝しています。

さて、検索順位の件ですが、私としてはある程度予想して検索して、結果、予想通りだったということです。(告白しちゃうならレトリックって事です)
松浦さんは、こちらの記事へのリンクが増えたからランクが上がったとおっしゃっていますが、トラックバックされた記事を見ると、例外なくこちらの記事へのリンクと同時に清水氏の記事へのリンクも張っています。まあ、これはネット住人の良識と見ても良いのですが。
つまり、こちらの記事のランクが上がると同時に清水氏の記事のランクも上がったってことになります。
そうした前提の上でこちらの記事が先に表示されるということを分析する必要があるんじゃないでしょうか。

Posted by: 秋津 | 2005.12.29 12:02 AM

負荷といえば、ですが…
トップページの記事の表示、一つの記事の長さがある程度以上のときはトップでの表示を途中から省略するといった機能は使用できないでしょうか?

もうピークは過ぎたのではやぶさ関連では問題は起きないかもしれませんが、長い記事がいくつか連続するとトップページ全体の表示文章量が非常に多くなり、サーバ的にもネットワーク的にも読者の視認性の面でも何かと負担になっているのではないかと思います。
3つのうち前者1つは想像、後者2つは体感です。

Posted by: ふぇ | 2005.12.30 07:30 PM

>トップでの表示を途中から省略するといった機能
 ココログの機能としては可能です。現在は私の好みで、このような表示を採用しています。

 私の場合、基本的に記事の冒頭だけを読んで読む読まないを判別することがないので(全体を必ず読みます)、全体が一気に表示されるほうが、余分なクリックをしなくてもいいので煩雑には感じないのです。

 ダウンロードする手間よりも、クリックな手間のほうが煩わしいと感じているわけです。

 長い記事がいくつか連続する場合も、近年のサーバー能力とネットワーク伝送速度の向上により、あまり大きな負荷にはならないだろうと判断しています。
 実際問題、HTMLのテキストですから、いくら文章が長いとしても、適当なサイズのJPEG画像のほうが容量が大きいでしょうし。

 ひょっとして、ふえさんの場合は、エアエッジのようなナローバンドの回線をお使いなのでしょうか。

 トップページに表示する記事数も変えられますので、少し考えさせてください。

秋津さん

 ええ、秋津さんの記事を観て、それでこの現象に気が付きました。
 BLOGのランキング決定はなかなか難しいようで、Googleも色々な手法を開発途上のようです。確かにリンクとトラックバックだけで判定しているわけではなさそうですね。

Posted by: 松浦晋也 | 2005.12.31 11:48 PM

Post a comment



(Not displayed with comment.)


Comments are moderated, and will not appear on this weblog until the author has approved them.



TrackBack


Listed below are links to weblogs that reference Google Danceを観察する:

« 「はやぶさリンク」:野尻抱介さんからの呼びかけ | Main | 今井紀明氏のblogを読む »