株式会社Spelldata

〒100-0004
東京都千代田区大手町一丁目7番2号
東京サンケイビル27階
Tel: 03-3242-3150
Fax: 050-3488-8836
営業時間: 土日・祝日を除く 9:00〜17:30

信頼の確立のためのサイクル

Googleの日本語検索の品質向上に対応する

2017年2月4日
著者: 竹洞 陽一郎

2017年2月3日、Googleウェブマスター向け公式ブログで「日本語検索の品質向上にむけて」という記事が公開されました。

この発表は、日本のWeb関係者の間に衝撃をもたらしました。
今までGoogleは、日本語を対象としたWebページの評価アルゴリズムを発表したことがないからです。
昨今問題になっている、キュレーションメディアに代表される低品質コンテンツによる検索品質の汚染に対応するための施策です。

その一環として、今週、ウェブサイトの品質の評価方法に改善を加えました。
今回のアップデートにより、ユーザに有用で信頼できる情報を提供することよりも、検索結果のより上位に自ページを表示させることに主眼を置く、品質の低いサイトの順位が下がります。
その結果、オリジナルで有用なコンテンツを持つ高品質なサイトが、より上位に表示されるようになります。

このアルゴリズムの変更を歓迎する人も居れば、戦々恐々としている人も居るでしょう。
いずれの立場であっても、共通して最も興味のある事は、「オリジナルで有用なコンテンツを持つ高品質なサイトって何だろう?」という疑問ではないでしょうか?

Googleが採用している「情報品質」

この「オリジナルで有用なコンテンツを持つ高品質なサイト」とは何かを理解するために、皆さんに知って頂きたいのが、「情報品質」です。

情報品質とは

「情報品質」(Information Quality)とは、定性的な情報の品質の指標です。
Wikipediaでは、以下のように定義されています。

Information quality (IQ) is the quality of the content of information systems.
It is often pragmatically defined as: "The fitness for use of the information provided."

(情報品質とは、情報システムの内容の品質を表す用語である。
実際的には、しばしば「提供された情報の利用についての適合性」と定義される。)

より詳細な説明は、上述のWikipediaの記事に記載されている「概念上の問題」(Conceptual problems)を読むとより一層理解できると思います。

この実際的な定義は、殆どの日常目的について使うことができるが、専門家は、しばしば、情報品質についてより複雑なモデルを使う。
殆どの情報システムの実務者は、この用語をデータ品質の同義語として使う。
しかし、多くの学者はデータと情報を区別し、一部の学者はデータと情報の区別を強く主張する。

この区別は、例えて言うとシンタックスとセマンティクスの区別に類似している。
セマンティクスで1という値は、00001、1.0000、01.0、1のように異なるシンタックスで表現することが出来る。
それ故に、データの違いは必ずしも情報品質の低さを意味するわけではない。

情報品質保証は、特定の情報がある特定のコンテキストでの品質要求を満たすかどうか確かさを保証するプロセスである。
高い品質は全般的な要求を満たすことが出来るが、特定のコンテキストの要求を満たすことが出来ないと言われている。

逆に、何を言っているのか、分かりづらくなってしまったでしょうか?
もう少し、情報品質に関連する活動の全体像を説明させて下さい。
それから、情報品質について、できるだけ分かりやすく説明します。

情報品質に関するコンピュータ・サイエンス関連の学会の活動

情報品質についてのコンピュータ・サイエンス関連の学会の活動は10年以上前に始まっています。
2004年に、 IAIDQ (International Association of Information and Data Quality)が設立されました。
2007年に、マサチューセッツ工科大学で、MITIQ (MIT Information Quality)プログラムが開始されています。
毎年7月に、MIT Chief Data Officer and Information Quality Symposium (MITCDOIQ)が、マサチューセッツ州ケンブリッジで開催されています。

コンピュータ・サイエンスで最大規模の国際学会であるAssociation for Computing Machinery(ACM)でも、Data and Information Qualityという専門ジャーナルを発刊しています。

Googleの情報品質研究の参画

Googleの情報品質研究への参画は、表に見える形のものとしては、2014年8月に刊行された、「The Philosophy of Information Quality」(「情報品質の哲学体系」)があります。
この論文集にGoogleから3名参加して寄稿しています。

Googleの「情報品質」の採用

Googleが公開している「検索品質評価ガイド」には、情報品質の指標の一部が採用されています。
E-A-Tと呼ばれるものです。

情報の価値とは

クロード・シャノンと情報理論

情報品質の概念が生まれてきた背景を理解するためには、情報の価値とは何であるかを理解する必要があります。
情報の理論体系化は半世紀以上前の1949年に、情報技術の父、クロード・シャノンが「A Mathematical Theory of Communication」(「コミュニケーションの数学的理論」)という論文を発表しました。
翌1950年に「The Mathematical Theory of Communication」(邦訳「通信の数学的理論」)として書籍を出版しています。

細かい話ですが、1949年の論文の題名についている冠詞は「A Mathematical Theory…」、1950年に出版した書籍の題名についている冠詞は「The Mathematical Theory…」です。
これは何を意味しているかというと、「A」という冠詞が付いているのは、「コミュニケーションの数学的理論の一つ」という意味です。
「The」という冠詞が翌年付いているのは、「コミュニケーションの数学的理論」として確立したという事を意味しています。

この理論が、情報理論として、現在のコンピュータ通信の基礎となっているのです。

情報の価値をどう測る?

シャノンは、情報の価値を、確率論をベースに定量的に計測できるようにしました。
分かりやすい表現をすると、「その情報を受け取った相手が、知らない事であればあるほど、驚きの度合いが大きく、ありがたみがあり、情報の価値が高い」という事です。
「まぁ、それは確かにそうだね」と皆さん、納得頂けたと思います。

しかし、どの程度知っているのかは、人によって違います。
例えば、この「情報理論」を例に取りましょう。

「情報理論というのがあるんだ、それは知らなかったなぁ…」という、情報理論を全く知らない人にとっては、このブログの記事はとても価値があるでしょう。
「情報理論、そう言えば、大学で学んだなぁ…」という、ある程度は知っている人には、このブログの記事はそこそこ価値があるでしょう。
「情報理論、私の専門分野です。大学で教えています。」という、詳しく知っている人には、このブログの記事の情報理論の部分は殆ど価値が無いでしょう。

シャノンは、「情報の価値は情報の受け取り手がどのような情報を既に持っているかで異なる」ということを数学的に確率論をベースとして理論化もしているのです。
よくWebサイトのコンテンツを制作したり、Webサイトの設計をする際にペルソナを考えますが、ペルソナの設定は、情報の価値にも大きな影響を与えます。
想定しているペルソナの教育レベル、知識レベル、経験、価値観などによって、同じ情報であっても、情報の価値は異なるからです。

驚きが大きければ良いのか? … 情報品質の重要性

それでは、「驚きが大きい内容であれば情報の価値が大きいなら、嘘や怪しい内容でも良いのか?」という問題があります。
これが、正に、現在、私達が直面しているWebコンテンツの問題です。
そして、世にいう「エセ科学」商品やサービスの問題点でもあります。

情報理論は、データの質=情報の質は取り扱いません。
あくまでも、情報の定量的評価なのです。
そこで、情報の定性的評価として、情報品質が重要になります。

情報品質の10の指標

では、具体的に、どのような指標に基いて、Webコンテンツをチェックすれば、Googleが求める「オリジナルで有用なコンテンツ」となるのでしょうか?
そこで、活用して頂きたいのが、この情報品質の10の指標です。
Googleは、E-A-Tと3つに分類していますが、この10の指標の方が分かりやすいと思います。

情報源権威・信頼性/検証可能性(Authority/Verifiability)
その情報の出所が、信頼に足る人や機関であるか。
第三者が検証可能な情報か。
対象範囲(Scope of coverage)
主題の対象範囲についての尺度。
期間、地域や管轄、主題に関しての詳細度。
編集構成(Composition and Organization)
一貫性のある、論理的で、流れのある、特定のメッセージとして記述する能力の指標。
客観性(Objectivity)
書き手が事実を分析したり解釈したりする際に、どの程度、その書き手の偏見や意見が含まれているかの指標。
一貫性(Integrity)
モラルや倫理基準に忠実であるかどうか。
道徳上の品位が安定しているか。
扱っている内容が対象とした範囲について完全に、全体を、欠けること無く扱っているか。
包括性(Comprehensiveness)
対象範囲の大きさ
多くをカバーしている、もしくは含んでいる
包含性
包含的な考察である。 知的に包含的である。
保護手段
損失についても記述している、もしくは全体的な保護を提供している。
正当性(Validity)
その情報がどれだけの真実性を持っているのか、その度合いの正当性。
独自性(Uniqueness)
明確に、その情報の発生源だけでなく、その発生がどのように現れて、発見することができたのかについても記述されているか。
適時性(Timeliness)
発表された時点での最新時刻について記述。
再現性(Reproducibility)
文書化された手法が同じデータ・セットを使って同様の結果をもたらすことができるかどうか。

分かりづらい指標の解説

対象範囲

これは、情報理論の情報の価値とも関係する指標です。
この記事の冒頭で、情報品質の定義についてWikipediaの記述を引用しました。
終わりの方でこういう記述がありましたね。

情報品質保証は、特定の情報がある特定のコンテキストでの品質要求を満たすかどうか確かさを保証するプロセスである。
高い品質は全般的な要求を満たすことが出来るが、特定のコンテキストの要求を満たすことが出来ないと言われている。

これは何を言っているかというと、詳しい人を対象に価値ある情報を提供しようとすると、より詳細に、より難しい内容にせざるを得ません。
しかし、その結果、詳しくない人には、何を言っているのか、ちんぷんかんぷんの内容になってしまい、内容が理解できず、情報の価値が無くなってしまうのです。

逆に、詳しくない人を対象に価値ある情報を提供しようとすると、枝葉の詳しい話より、森全体を見渡すような概要のお話の方が価値がありますし、分かりやすいです。
しかし、そういう全体像の情報というのは、詳しい人にとっては既知の内容ですから、情報の価値が無いという事になります。

よく、IT関係の記事で、「初級者向け」「中級者向け」「上級者向け」のような、技術レベルでカテゴリ分けをしているものがあります。
そのような区分けをすることで、読み手のレベルに応じた価値あるコンテンツの提供が可能になります。

この対象範囲で、もう一つ重要な事は、書いてある内容が全般的に当て嵌まるものなのか、特定一部の事象に当て嵌まるものなのかを明示しなさいという事です。
それを明記することで、情報の信頼性や価値が変わるわけです。
一部の事象について当て嵌まる内容を、さも全体的に当て嵌まる内容のように書いたのでは、折角の情報の価値が失われてしまいます。

包括性

対象範囲の大きさは、簡単に言うと、「自分に都合の良い事だけ書いちゃ駄目よ」という事です。
この世の中の事象は、純粋数学でもない限り、「これが絶対に論理的に正しい」と言えないものが多いわけです。
物理法則だって、新発見と共に、書き換えられていきます。

物事の長所と短所は常に表裏一体です。
ですから、商品やサービスなどの長所ばかりを書いて、短所を欠かないとなると、それは対象範囲の大きさが小さいコンテンツという事になります。
これは、10の指標の内の1つ、一貫性にも反する事になります。

何かについての意見を書くのであれば、自分が主張したい意見だけとか、それを裏付ける証拠だけでは駄目なのです。
反対意見だって存在するはずなので、それも紹介して、それを裏付ける証拠も書くことで、対象範囲の大きさが向上します。

包含性は、全体を網羅してコンテンツを書く際には、感情的に、私利私欲で書くのではなく、論理的且つ公平な観点でコンテンツを書きなさいという事です。

保護手段は、何かのコンテンツを書く際に、よく知らない、予算や時間の都合でカバーできなかったものがある事もあります。
そんな場合は、その旨をちゃんと明記して、読者自身で調べられる参照先リストなどを提示しなさいという事です。

適時性

日本語でも、「タイムリー」(timely)という言葉を使いますね。日本語では、「旬」という言葉がぴったりな表現です。
野球で「タイムリーヒット」と言えば、塁上に走者がいる時に、打者がヒットを打って、守備側がミスせず、そのヒットだけで塁上の走者がホームインしたヒットを指します。
つまり、良いタイミングでヒットを打ったというわけです。

適時性は、最近見掛けた記事を例にします。

BuzzFeed Japanの記事で「『マクドナルドの肉の正体が明らかに』の根拠は そもそもの裁判がなかった?」という記事が書かれています。
BuzzFeed Japanの鈴木貫太郎さんは、この記事の中で、2017年1月中旬から下旬に、このマクドナルドの原材料の肉の裁判についての記事が掲載され、それについて調べたらその事実を確認出来なかった事を指摘しています。

しかし、記事には、裁判の申し立て内容や判決日、どこで裁判をしたのかなど詳細については、全く書かれていない。
裁判で「証明」された「肉」がどこに流通しているのかも書かれていない。

しかし、よくよく、英語で検索すると、英国のMail Onlineの記事が見つかります。
Victory for Jamie Oliver in the U.S. as McDonald’s is forced to stop using ‘pink slime’ in its burger recipe

記事の日付を見ると、2015年1月7日、2年以上前の記事です。
この鈴木貫太郎さんの検証内容は穴だらけです。ちゃんと確認したいなら、Jamie Oliver氏にコンタクトすれば良いのです。
2年前の事を元記事で書いた方も、それをよく調べもせずに直近の事として調べて糾弾している方も、適時性という観点では、ダメダメという事になります。

検索でヒットして、この記事を読まれている方も多いかと思います。
それも、タイムリーであるかどうか、つまり同じ情報品質に関する記事を書くにしても、Googleのような影響力のある企業の何かの発表に関連して公開するのと、何も無い時に単に情報品質の記事を出すのとでは、適時性が異なるわけです。

情報品質の担保=校閲の重要性

情報品質を担保するということは、平たく言うと、コンテンツ制作に「校閲」のステップを入れるという事です。
昨年、「校閲ガール」というTVドラマが話題になりました。

校閲とは、「文書や原稿などの誤りや不備な点を調べ、検討し、訂正したり校正したりすること。」とデジタル大辞泉では書かれています。

一般的に、記事を書くプロセスは、以下の4つから成り立ちます。

  1. 執筆
  2. 編集
  3. 校正 … 文章的な誤りを直す
  4. 校閲 … 客観的事実に反する誤りを直す

一般的に、校閲まで行ってコンテンツを執筆しているところは少ないのではないでしょうか?
校閲を行うためには、執筆された内容に対する専門知識が必要ですし、検証のための費用と時間も掛かります。
しかし、校閲というプロセスを入れる事で、コンテンツの品質は飛躍的に向上するのです。

「校閲ガール」が放映された時は、「校閲はそんな簡単なものじゃない」という批判がかなり出たように、非常に専門性の高い仕事で、採用するのも、育成するのも難しいと思います。
だからといって、低品質なコンテンツを作っていたのでは、Googleからも、世間の人達からも見向きもされないWebサイトになってしまいます。

この情報品質の10の指標のチェックリストを作って、それぞれの項目に適合するかどうかを、コンテンツ制作のプロセスに組み込む事で、コンテンツのチェック体制が変わるはずです。
「世の中のために、価値ある情報を伝えたい」と思っている方々に、この情報品質の記事が役立つ内容であったなら幸いです。

参考図書

北海道大学名誉教授の関口恭毅先生の著書です。
情報品質よりは、データ品質に関する内容になっています。

三番目の本は、情報品質に関する洋書の関口先生による翻訳本です。

洋書は、それなりの数のInformation Qualityの本が出ています。
お値段も張りますが、まずは、この本が良いかと思います。

[前のページに戻る]