最近このコラム「Googleさん」ではスマートフォンや見守りカメラやの話が続きましたが、Googleの本領は、やっぱり「検索」です。
仕事でもプライベートでも、Google検索を使わない日はありません。私の仕事は海外のIT関連ニュースを速報でお伝えすることで、朝一番のネタ探しからGoogleさんのお世話になります。メディアの報道でみつけたネタについては公式発表を検索し、背景を把握するために関連情報を検索し(書いたことを覚えていない自分の記事が出てくることがよくある)……。
記事を公開して数分で、その記事が検索結果に表示されることもあって、クローラくん、どんだけせかせか働いてるんだろうと驚きます。
あ、クローラくんというのは、Wikipediaによると「ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラム」です(これももちろん検索しました)。
記事を公開して数分でその記事が検索結果に表示されるということは、クローラが記事公開にすぐ気づいて仕事し、検索インデックスに入れて、それをクエリに反応させたってことです。世の中には新しい記事がすごいスピードで公開され続けているのに、どうやって対応しているんだろう、と思います。
Googleは2013年から、「How Search works」という、検索のしくみを説明するWebサイトを公開しています。日本語版は「検索の仕組み」。
公開以来、少しずつ改善されているんですが、このWebサイトを大幅にアップデートしたと、GoogleのPublic Liaison for Searchであるダニー・サリバンさんが8月23日に公式ブログで発表しました。
実は内容的にはアップデート直前と変わっていないんですが、スクロールして少しクリックすれば検索のしくみについて学んでいける構成になりました。これなら検索についてそれほど興味のないユーザーでも、ちょっと時間をとって読んでみる気になるかも。
クローラがどのように働いて、Googleが「世界最大の図書館」と形容する検索インデックスを高速に、継続的に拡大・更新しているかも平易に説明しています。検索インデックスには、数千億のページが含まれ、容量は1億ギガバイト(=100ペタバイト)を超えるんだそうです。気が遠くなりそう。
先日、ダニー・サリバンさんが検索の仕組みについて語るオンラインセッションに参加させてもらったんですが、サリバンさんによると、毎年何兆件もの検索があり、毎日の検索の15%は初めて入力されるクエリなのだそうです。こういう未知のクエリにもなるべく的確に対応するために、新着ニュース記事やストリートビューの画像、動画などを、幅広く検索インデックスに取り込んでいます。
毎日検索していると、肌感覚ですが少しずつ進化していることが分かります。もちろん、「あれれ?」ということもあります。最近では、記事のタイトルをGoogleが省略して変なことになる現象がありました。Googleはこういうとき、すぐにフィードバックを求めて改善しようとします。
高度なアルゴリズムやAIで動いているGoogle検索ですが、こういう地道な努力や、世界に数千人いるといわれる外部の検索品質評価者によるチェック、サリバンさんのようなエンジニアと一般ユーザーの架け橋となる人材の採用など、意外と泥臭いというか、人間臭い方法で改善されているんですね。
日曜のひととき、検索のしくみを読んで見るのはいかがでしょうか。英語ですが、5分にまとめた動画もあります。
関連記事
からの記事と詳細 ( あなたが知りたいことを探し出す、Google検索の仕組み - ITmedia )
https://ift.tt/2XfW85u
科学&テクノロジー
No comments:
Post a Comment