Che cos'è il Web Discovery Project? Segui
Il Web Discovery Project è un modo preservare la privacy per contribuire alla crescita e indipendenza della Ricerca Brave. Se si decide di partecipare, si contribuirà con alcuni dati anonimi sulle ricerche e sulle visite alle pagine web effettuate all'interno del Brave Browser (incluse le pagine raggiunte tramite alcuni, ma non tutti, altri motori di ricerca). Questi dati aiutano a costruire l'indice indipendente di Ricerca Brave e a garantire che vengano mostrati i risultati rilevanti alle vostre query di ricerca e supportare esperienze più rilevanti con i prodotti e i servizi di Brave. Per 'dati' intendiamo query di ricerca, clic sui risultati di ricerca, gli URL delle pagine visitate nel browser, il tempo trascorso su quelle pagine e alcuni metadati sulle pagine stesse.
Il Web Discovery Project opera in background, quindi non richiede alcuno sforzo da parte dei contributori. I dati contribuiti non possono essere collegati a chi li ha forniti, né raggruppati insieme, il che impedisce tentativi di deanonimizzazione. È possibile rinunciare in qualsiasi momento.
Perché abbiamo creato il Web Discovery Project
Fornire risultati di ricerca rilevanti è essenziale per creare un motore di ricerca che le persone desiderano utilizzare. È il modo in cui creiamo un motore di ricerca privato che può ancora competere con le big tech per qualità e completezza. Per garantire che i risultati di ricerca siano il più rilevanti possibile, Brave deve comprendere alcune cose chiave, tra cui:
- Quanto i risultati di ricerca corrispondono alle parole chiave di ricerca (abbinamento a parole esatte, parti di parole, o sinonimi)
- Quanto recenti sono le ricerche per quelle parole chiave
- Quanto spesso viene cliccato un risultato di ricerca per una determinata parola chiave
- Quanto sono popolari le parole chiave di ricerca
- Quali pagine sono popolari o nuove
- Quali siti consentono il crawling solo al bot di ricerca di Google
Garantire la rilevanza significa anche ridurre il 'rumore' dei contenuti web che rende una ricerca meno rilevante. Per esempio, se si cerca 'previsioni meteo Europa' e si vedono risultati relativi alla storia europea o al business europeo, si direbbe che i risultati sono meno pertinenti alla vostra query. Apprendere attraverso il Web Discovery Project permette a Ricerca Brave di filtrare questo rumore, ma in un modo che preserva la privacy. Rendere la ricerca più pertinente non dovrebbe avvenire a scapito della vostra privacy online.
Contesto
La maggior parte dei fornitori di ricerca, come Google e Microsoft, raccolgono dati sul comportamento di ricerca dell’utente, sia nel motore di ricerca che nel browser (come Chrome o Edge). Questi dati includono le query, i risultati di ricerca su cui si clicca, gli URL delle pagine visitate, il tempo trascorso su quelle pagine e i metadati (come il titolo della pagina, tipo di contenuto, ecc.) sulle pagine stesse. Altri motori di ricerca non indipendenti (come DuckDuckGo) non necessariamente raccolgono dati autonomamente. Ma fanno comunque affidamento su questo tipo di raccolta attraverso la loro dipendenza da altri indici di big tech (come Bing). E questi dati possono essere, e spesso sono, associati personalmente a voi.
I fornitori di ricerca raccolgono questo tipo di dati per far crescere continuamente i loro indici - l'elenco di miliardi di pagine web da cui traggono per consegnare i risultati - e garantire che i risultati siano pertinenti e mai obsoleti. Questa raccolta non è intrinsecamente cattiva. Ma le sue carenze diventano evidenti quando si guarda al modo alternativo di Brave:
- Il Web Discovery Project permette di contribuire con dati anonimi e generalizzati.
- Il Web Discovery Project è progettato per impedirci di associare questi dati a voi. Questo significa che non ci sono dati che Brave potrebbe vendere agli inserzionisti o perdere per furto o hacking, permettendoci di promettere attraverso la tecnologia piuttosto che le parole.
- Il Web Discovery Project di Brave è solo con opt-in, e totalmente trasparente.
La protezione della non associabilità
Brave non segue le pratiche subdole degli altri motori di ricerca delle grandi aziende tecnologiche. Il progetto di Scoperta Web è opt-in e i dati raccolti nel quadro del progetto hanno specifiche protezioni per garantire l'anonimato. In aggiunta a queste protezioni, il progetto Web Discovery aderisce al principio di “non collegabilità” Ciò significa che non associamo dati a voi, al vostro browser o al vostro dispositivo. Ricerca Brave non ha un concetto di ID utente o sessione, il che impedisce la collegabilità dei record. Inoltre, il progetto di Scoperta Web include diverse protezioni per impedire che siti web o ricerche specifiche per voi, o che includono informazioni personali o sensibili, siano incluse.
Quali parole chiave vengono cercate più spesso? A quali siti web portano queste parole chiave? Come vengono interagiti questi siti web? Questo tipo di domande direzionali aiutano Ricerca Brave a navigare nel mondo delle pagine web disponibili e a separare il segnale dal rumore. E questo, a sua volta, ci aiuta a capire quali parti del web valga la pena indicizzare per gli utenti.
Se scegliete di partecipare al progetto di Scoperta Web, il vostro browser elaborerà i seguenti dati sul vostro dispositivo e li invierà in modo sicuro ai server di Brave:
- Una frazione degli indirizzi (URL) delle pagine web visitate nel Browser Brave, insieme alle metriche di coinvolgimento (quanto tempo si passa sulla pagina)
- Una frazione delle query (ad es. “tempo a New York oggi”) effettuate su alcuni motori di ricerca (al di fuori di Ricerca Brave) all'interno del Browser Brave, insieme al clic associato su un risultato (se presente)
- Metadati di quelle pagine visitate (ad esempio, se la pagina contiene un video, informazioni sull'autore o il proprietario della pagina, il titolo della pagina, ecc.), mai il contenuto della pagina stessa.
- Per un elenco completo, controllate il repo GitHub di Brave
Con questi dati, Brave può apprendere (in modo privato e non collegabile) cose come quante visite a un sito web (ad es. Wikipedia) sono durate più di 20 secondi, o quante volte una determinata query (ad es. “Cos'è Wikipedia?”) ha portato un utente a fare clic su quel sito web. Questo calibra Ricerca Brave per sapere che un sito web è legittimo e che gli utenti trovano il contenuto prezioso. Questo, a sua volta, consente al motore di ricerca di comprendere la rilevanza dei risultati e di servire pagine con maggiore rilevanza nella parte superiore dei risultati di ricerca.
Questi dati non permettono a Brave di sapere cose come query associate (ad es. altre query effettuate da persone che hanno cercato “Cos'è Wikipedia?”) o gli altri siti web visitati. E ovviamente non ci dice nulla che ci permetta di collegare i dati a un individuo o al suo dispositivo.
Per impostazione predefinita, tutti gli utenti sono disattivati dal Web Discovery Project. Se avete scelto di aderire al Web Discovery Project, potete rinunciare in qualsiasi momento. Qualunque sia la vostra scelta—aderire o rinunciare—la vostra esperienza con Brave o Ricerca Brave non cambierà.
Per rinunciare, aprite una nuova scheda nel browser Brave e cliccate su Impostazioni. Scorrete fino a “Web Discovery Project” e disattivate questa impostazione.Il Web Discovery Project è leggero e funziona solo in background. Non dovrebbe esserci alcun impatto percepibile sulla velocità di navigazione, sulla velocità di rendering delle pagine o su altri parametri simili. Tuttavia, potrebbe esserci un piccolo (ma probabilmente impercettibile) sovraccarico sotto forma di un maggiore consumo di CPU e larghezza di banda. Si noti che il Web Discovery Project funziona solo su dispositivi desktop, quindi non c'è alcun impatto sui piani dati mobili. Se notate problemi di prestazioni, vi preghiamo di notificarcelo immediatamente.
Tutti gli URL inviati devono essere pubblicamente disponibili—cioè, devono avere lo stesso contenuto indipendentemente da chi li sta contribuendo. Ciò può essere vero solo se le pagine non sono dietro una login, una sessione individuale o altra autenticazione. Tutti gli URL inviati devono essere stati visitati da almeno 20 persone diverse, il che stabilisce un quorum distribuito simile alla k-anonimizzazione.
Inoltre, vengono applicate diverse euristiche per escludere gli URL che codificano accesso, ad esempio gli URL di capacità (come documenti condivisi, link a Dropbox, link a fatture, ecc.). Per design, nessuno di questi URL viene inviato. E, anche se in qualche modo lo fossero, il protocollo di non tracciabilità dei record significa che nessuno con accesso ai dati potrebbe recuperare altri URL dalla stessa origine o associare alcun dato a qualcuno.
Le suddette protezioni si applicano anche alle query di ricerca. Qualsiasi query contenente dati personali apparenti, come email, numeri di telefono o hash, viene automaticamente scartata piuttosto che inviata.
- Una panoramica del Web Discovery Project è disponibile nel repo di GitHub di Brave.
- Leggi il README principale.
- Visualizza il codice sorgente.
Se notate un problema potenziale, siete pregati di creare un problema nel repo, o contattateci.