Web Discovery Projectとは? Follow
Web Discovery Projectは、プライバシー保護したままBrave Searchの成長に貢献するためのプロジェクトです。このプロジェクトに参加すると、Brave Browser内で行われた検索とWebページの閲覧に関する匿名のデータが提供されます。すべてではありませんが、他の検索エンジンを経由して閲覧したページもここに含まれます。これらの 「データ」は、Brave Searchの独立したインデックスを構築し、検索クエリに関連する結果を確実に表示するのに役立ちます。「データ」とは、検索クエリ、検索結果のクリック、ブラウザで訪問したページのURL、それらのページでの滞在時間、ページ自体に関するいくつかのメタデータを指します。
Web Discovery Project はバックグラウンドで動作します。そのため、機能を有効にしていても何も意識する必要はありません。投稿されたデータは匿名化されて扱われるため、誰が投稿したのかを追跡したり、グループに分類したりすることはできません。また、いつでもオプトアウト(機能を無効にすることが)できます。
なぜBraveはWeb Discovery Projectをつくったのか
適切な検索結果を提供することは、人々が利用したいと思う検索エンジンを構築するために不可欠ですが、Web Discovery Projectが、品質と完全性において大企業に対抗できるプライベートな検索エンジンを作る方法なのです。検索結果を可能な限り関連性のあるものにするために、Braveは以下のようないくつかの重要な事柄を考慮する必要があります。
- 検索結果が検索キーワードにどれだけマッチしているか(キーワードに対して完全一致しているか、部分一致しているか、同義語に対してマッチングしているか、など)
- そのキーワードが直近でどれくらい検索されているか
- そのキーワードの検索結果がどれくらいクリックされているか
- そのキーワードがどれくらい人気か
- どのページが人気で、どのページが新しいアプローチなのか
- どのサイトがGoogle検索ボットを許可しているか
「検索結果を可能な限り関連性のあるものにする」とは、検索の品質を低下させるウェブコンテンツのノイズを減らすことでもあります。たとえば、「ヨーロッパ 天気」で検索したときに、ヨーロッパの歴史やヨーロッパのビジネスに関連する結果が表示されたとしたら、その検索結果はあなたのクエリとの関連性が低いことになります。Web Discovery Projectでの学習により、Brave Searchはこのようなノイズをフィルタリングすることができ、そしてプライバシーも守ることができます。検索の関連性を高めるために、プライバシーを犠牲にするべきではないとBraveは考えます。
背景
GoogleやMicrosoftなどのほとんどの検索プロバイダーは、検索エンジンとブラウザ(ChromeやEdgeなど)の両方で、お客様の検索や行動に関するデータを収集しています。このデータには、お客様のクエリや、どの検索結果をクリックしたか、お客様が閲覧したページのURL、そのページでの滞在時間、ページ自体のメタデータ(ページタイトル、コンテンツタイプなど)が含まれます。独立していない他の検索エンジン(DuckDuckGoなど)は、必ずしも自らデータを収集しているわけではありません。他の大規模な技術的インデックス(Bingなど)に依存することで、この種のデータ収集に頼っています。そしてこのデータは、あなた個人と関連づけられる可能性があり、しばしば実際に関連づけられています。
検索エンジンの提供企業は、これらのデータを継続的に収集し、検索インデックスを成長させています。検索結果を提供するために何十億ものウェブページのリストを作成し、よりよい検索結果をつくりだし、検索エンジンが陳腐化しないようにしています。この収集は本質的に悪いものではありません。しかし、Braveの選択した方法と比べてみると、その欠点が見えてきます。
- Web Discovery Projectでは、匿名で一般化されたデータとして投稿されます。
- Web Discovery Projectは、データをユーザと関連付けることができないように設計されています。Braveが広告主にデータを販売したり、盗難やハッキングによって失うデータがないことを、言葉ではなく技術によって約束することができるのです。
- Web Discovery Projectはオプトインした場合のみ有効で、透明性があります。
Unlinkabilityの保護
Braveは、他のBig Techの検索エンジンのようなやり方はしません。Web Discovery Projectは オプトイン方式を採用しています。 Web Discovery Projectで収集されたデータは 匿名性を確保するための特別な保護があります。これらの保護に加えて、Web Discovery Projectは “unlinkability(データ同士に関連性を持たせないこと)" の原則を遵守しています。これはデータをユーザ、ブラウザ、デバイスにリンクさせないことを意味します。Brave Searchには、ユーザーIDやセッションIDの概念がないため、レコードに関連性を持たせることを防ぐことができます。さらに、Web Discovery Projectには、Webサイトや検索エンジンにユーザや個人情報、機密情報を特定させることを防ぐための複数の保護機能が備えられています。
どのようなキーワードがよく検索されているのか?そのキーワードはどのようなウェブサイトにつながっているのか?それらのWebサイトはどのように利用されているのか?このような検索の方向性を導く問いは、Brave SearchがWebの世界をナビゲートし、ノイズを分離するため役立ちます。そして、Braveがユーザのために価値のある検索インデックスを作成するのに役立ちます。
Web Discovery Project FAQ
Web Discovery Projectにオプトインした場合、ブラウザはデバイス上で以下のデータを処理し、Braveのサーバーに安全に送信します。
- Braveブラウザで訪問したWebページのアドレス(URL)の一部、及びエンゲージメント指標(そのページにどれだけの時間が費やされたか)
- Braveブラウザ内の(Brave Search以外の)いくつかの検索エンジンで行われたクエリの一部(例:"New York weather today”)と、それに関連する検索結果のクリック。
- 訪問されたページのメタデータ(例:ページに動画が含まれている場合のページの作者や所有者に関する情報、ページタイトルなど)。ページのコンテンツそのものは収集しません。
- より詳細な情報についてはBraveのGitHubリポジトリに記載しているリストをご参照ください。
これらのデータを使って、Braveはあるウェブサイト(例:Wikipedia)への20秒以上の閲覧が何回発生していたか、あるクエリ(例:「What is Wikipedia?」)で何回ユーザーがそのサイトをクリックしたか、などを、プライベートで、かつリンクできない方法で、学習することができます。これによりBrave Searchは、ウェブサイトが適切なものであり、ユーザーがそのコンテンツに価値を見出している、ということを認識できるようになります。そして、検索エンジンは結果の関連性を理解し、より関連性の高いページを検索結果の上位に提供することができるようになります。 これらのデータでは、他のクエリ同士の関連性(例:Wikipediaを検索した人が他にどのような検索をしているのか)や、訪問したWebサイト同士の関連性などをBraveが知ることはできません。もちろん、データを個人やデバイスに結びつけることもできません。
「提供されたURLが一般公開されている」と扱うためには「誰から提供されたコンテンツであっても同じコンテンツ情報が提供される」という前提が必要になります。そしてこのような考え方はそのページがログインや個別のセッションなどの認証を受けていない場合にのみ成立します。また、送信されるURLをWeb Discovery Projectで扱うには、20人以上の異なる人が訪問しているものでなければならない、としています。このようにして、k-匿名性に近い分散システムを確立します。
加えて、アクセスを暗号化するCapability URL(共有ドキュメント、Dropboxのリンク、請求書のリンクなど。アクセス対象に応じて一部を暗号化するURL)を除外するために、さまざまな仕組みが適用されています。設計上、これらのURLはWeb Discovery Projectでは送信されないようになっています。また、仮に送信されたとしても、Record-Unlinkabilityプロトコルにより、データにアクセスできる人間が、送信されたデータからURLを復元したり、データを関連付けたりすることはできないようになっています。
こられの仕組みは、検索クエリにも適用されます。電子メール、電話番号、ハッシュ値など、個人情報と思われるものを含む検索クエリは、Web Discovery Projectには送信されずに自動的に破棄されます。
英語のドキュメントになります。
- Web Discovery Projectの概要は BraveのGitHubリポジトリをご覧ください。
- トップレベルのREADMEはこちら
- ソースコードはこちら
もしも何か問題を発見された場合は、GitHubリポジトリにIssueを作成いただくか、コミュニティフォーラムにご連絡ください。