Big data e privacy

Pile of data, magnifier, boxes with papers and folders on a light background

Negli ultimi decenni, il mondo è cambiato enormemente sotto molti aspetti, specialmente per quanto riguarda l’IT. Il numero di persone con cui siamo in grado di comunicare quotidianamente è cresciuto enormemente, proprio come la quantità di informazioni a cui abbiamo accesso. Purtroppo però lo stesso discorso vale per la quantità di informazioni che le grandi aziende raccolgono su di noi. Termini come “big data” sono usati sempre più frequentemente col passare del tempo. Ma cosa significa esattamente questa espressione? Cosa sono i big data? Sono pericolosi? Come influiscono sulla nostra privacy? Queste sono alcune delle domande a cui risponderemo in questo articolo.

Che cosa sono i big data?

Lista con lente di ingrandimentoIl termine “big data” descrive le enormi quantità di dati (personali) che vengono continuamente raccolti da vari soggetti. Un esempio di big data sono tutte le informazioni che Google raccoglie sulle query di ricerca dei suoi utenti. Il fenomeno dei big data si è sviluppato relativamente di recente, perché (grandi) aziende e organizzazioni, come Facebook, Google e la maggior parte dei governi, hanno iniziato a raccogliere sempre più dati sui propri utenti, clienti e cittadini rispetto al passato. Le nuove tecnologie, la digitalizzazione globale e internet hanno contribuito considerevolmente allo sviluppo del fenomeno.

Le raccolte di big data sono spesso così vaste che è impossibile analizzarle con gli strumenti convenzionali di analisi. Tuttavia con i metodi giusti è possibile elaborare i big data, è possibile identificare una serie di “pattern” (schemi o modelli generali di comportamento) e trarre conclusioni interessanti. Per esempio, i big data sono spesso usati per ricerche di mercato su larga scala: quali prodotti hanno più probabilità di essere acquistati? Quale tipo di pubblicità è più efficace per attrarre e persuadere i clienti?

Siamo effettivamente in presenza di “big data” quando un set di dati soddisfa i seguenti tre criteri, noti anche come le 3 V:

  • Volume: I big data sono tutt’altra cosa rispetto ai piccoli campioni di dati che siamo abituati a immaginare. Si tratta di quantità di dati massive, risultanti da una lunga e continua osservazione.
  • Velocità: I big data vengono raccolti a velocità impressionante. Inoltre sono spesso accessibili in tempo reale (mentre vengono raccolti).
  • Varietà: I grandi set di dati spesso contengono informazioni eterogenee. Tra l’altro è anche possibile colmare dei gap combinando tra loro le informazioni presenti. Questo offre una panoramica ancora più completa.

Oltre a queste 3 V, i big data hanno altre caratteristiche. Per esempio, sono ottimi per l’apprendimento automatico. Ciò significa che possono essere efficacemente utilizzati per addestrare i computer e le macchine a svolgere determinati compiti. Inoltre, come abbiamo già brevemente accennato, i big data possono essere utilizzati per ricavare dei pattern. Questo avviene per lo più attraverso l’elaborazione elettronica. Infine i big data sono il riflesso dell’impronta digitale degli utenti. In altri termini sono un prodotto derivato dalle attività digitali e online delle persone, e possono essere utilizzati per creare profili personali individuali.

Diversi tipi di big data

Ci sono diversi metodi di classificazione dei big data. Il primo, che è usato più frequentemente, differenzia i big data in base al tipo di dati che vengono raccolti. Le tre possibili categorie utilizzate per questo tipo di classificazione sono: big data strutturati, big data non strutturati e big data semi-strutturati.

  1. Strutturati: Quando i big data sono strutturati, possono essere salvati e presentati con un’organizzazione logica che rende i dati stessi più accessibili e facili da comprendere. Immagina una lista di indirizzi di clienti creata da un’azienda. In questa lista, puoi trovare i nomi dei clienti, gli indirizzi e forse altri dettagli come i numeri di telefono, tutti strutturati chiaramente, ad esempio, in un grafico o in una tabella.
  2. Non strutturati: I big data non strutturati non sono organizzati. Manca una presentazione logica che avrebbe senso per l’essere umano medio. Non hanno la struttura, per esempio, di una tabella che denota una certa coerenza tra i diversi elementi del set di dati. Questo tipo di dati è piuttosto difficile da navigare e comprendere. Molti set di dati si presentano inizialmente come big data non strutturati.
  3. Semistrutturati: I big data semistrutturati, come avrai capito, hanno caratteristiche miste — sia dei big data strutturati che di quelli non strutturati. La natura e la rappresentazione di questo tipo di dati sono una via di mezzo tra i due: né del tutto arbitrarie né completamente organizzate. Un esempio potrebbe essere una pagina web che contiene specifici tag di meta dati (informazioni extra che non sono direttamente visibili nel testo). Questi tag mostrano informazioni specifiche, come l’autore di una pagina o la data di pubblicazione. Il testo non è strutturato, ma le parole chiave e altri meta dati che contiene contribuiscono a renderlo una base abbastanza adatta per l’analisi.

Classificazione basata sulla fonte dei big data

Un altro criterio comune per distinguere i diversi tipi di big data è guardare alla fonte dei dati. Chi o cosa ha generato le informazioni? Come la suddivisione precedente, anche questo metodo di classificazione consiste in 3 diverse categorie.

  1. Persone: Questa categoria riguarda i big data generati dalle persone. Degli esempi possono essere i libri, le immagini, i video così come informazioni e i dati (personali) su siti web e social media, come Facebook, Twitter, Instagram, e così via.
  2. Registrazione di processi: Questa categoria include il tipo più tradizionale di big data, che viene raccolto e analizzato da (grandi) aziende per migliorare determinati processi in un business.
  3. Macchine: Questo tipo di big data deriva dai sensori collocati nelle macchine. Un esempio potrebbe essere il sensore di calore che è spesso incorporato nei processori dei computer. I dati generati dalle macchine possono essere spesso molto complessi, ma al contempo ben strutturati e completi.

A cosa possono servire i big data?

Facebook logoTutto ciò che è stato trattato finora potrebbe sembrare un po’ astratto. Rendiamo le cose un po’ più concrete e discutiamo alcune applicazioni concrete dei big data. Dopo tutto, ci sono molti, molti modi in cui le aziende e le organizzazioni usano i big data. Una delle prime cose che viene in mente è l’enorme quantità di dati che le aziende raccolgono su di noi. Facebook raccoglie dati su tutti i suoi utenti e li analizza per decidere cosa mostrare sulle loro timeline. Naturalmente, questo viene fatto per mostrare contenuti in linea con le aspettative e i gusti del pubblico. Facebook spera che trovando contenuti a te congeniali sarai portato a usare il social per tempi più prolungati. A sua volta, Amazon raccoglie informazioni sui suoi clienti e sui prodotti che comprano. In tal modo, può mostrare raccomandazioni personalizzate e aumentare le vendite.

I big data sono anche usati in modi completamente diversi dalle strategie commerciali descritte sopra. Per esempio, le aziende di trasporto pubblico possono raccogliere dati sul traffico stradale.
In seguito, potrebbero analizzare questi dati per decidere, per esempio, quali percorsi richiedono autobus o treni aggiuntivi. Un altro caso ben noto di uso efficace dei big data riguarda il gigante delle consegne internazionali UPS. UPS utilizza un software speciale che è stato sviluppato a seguito dell’analisi dei big data. Questo software aiuta gli autisti di UPS ad evitare le curve a sinistra, che sono più costose, più dispendiose e più pericolose delle curve a destra. Presumibilmente, questo sistema ha già fatto risparmiare a UPS milioni di litri di carburante, tutto grazie ai big data.

Un altro interessante esempio di raccolta di big data sono i test del DNA presso siti come MyHeritage DNA. Questo sito sostiene di poterti aiutare a “scoprire le tue origini etniche e trovare nuovi parenti” con un semplice test del DNA. Inutile dire che questo processo implica raccolte importanti di dati e riferimenti incrociati. Anche i test del DNA “tradizionali” e fisici comportano un’enorme quantità di big data, poiché le aziende che conducono questi test ottengono serie di dati estremamente grandi su molte, molte persone. Naturalmente, è importante essere consapevoli dei possibili rischi che derivano da questi processi di raccolta. Tali rischi saranno evidenziati nella prossima parte di questo articolo.

I big data sono pericolosi?

Come mostrato sopra, i big data possono essere incredibilmente utili in molti casi. Forniscono tonnellate di informazioni utilizzabili per ottimizzare i processi e rendere le aziende più efficienti e redditizie. Tuttavia, questo non significa che la raccolta e l’utilizzo dei big data sia completamente priva di rischi. Ci sono cinque rischi importanti legati ai big data. Li analizzeremo tutti e cinque qui.

Hacker e ladri

C’è un rischio intrinseco che i tuoi dati personali e le informazioni sulle tue attività su internet possano essere rubati. Ogni utente di internet deve essere consapevole di questo. Il numero di fughe di dati e furti è aumentato drasticamente negli ultimi anni. Sempre più spesso hacker e criminali vendono blocchi di dati contenenti password e altre informazioni in luoghi come il dark web. Spesso queste serie di dati vengono rubate da aziende, organizzazioni e siti web istituzionali. Più grandi sono questi set di dati, più interessante diventa per i ladri cercare di ottenerli. Quando ci riescono, questi dati vengono utilizzati per scopi malevoli. Inutile dire che ciò potrebbe anche compromettere notevolmente la tua privacy, qualora tu fossi presente in uno di questi blocchi di dati.

Privacy

La pratica di raccogliere dati personali sta diventando sempre più diffusa. Tuttavia, gli attuali regolamenti sulla privacy non riescono a tenere il passo con i rapidi sviluppi della tecnologia. Questo lascia spazio a zone grigie e incertezze che non possono essere risolte con mezzi giuridici. Alcuni esempi di domande rilevanti in tal senso sono: Che tipo di dati è permesso raccogliere? Su quali soggetti? Chi dovrebbe avere accesso a questi dati?

Quando si raccolgono grandi quantità di dati, le possibilità che essi contengano dati sensibili sono alte. Questo aspetto è problematico, anche quando non sono coinvolti hacker e ladri. Dopo tutto, i dati personali sensibili possono essere oggetto di abuso da parte di chiunque abbia cattive intenzioni. Questo include aziende e organizzazioni (malintenzionate).

Analisi inesatta dei dati

Molte aziende e organizzazioni raccolgono i big data perché possono usarli per analisi interessanti. Questo può dare loro nuove importanti informazioni su qualsiasi aspetto stiano indagando (come, per esempio, le abitudini dei consumatori). A loro volta, queste informazioni e conclusioni possono dar luogo a cambiamenti aziendali finalizzati al profitto. Tuttavia, proprio come con qualsiasi altro normale set di dati, un’analisi errata dei big data può avere gravi conseguenze. Dopo tutto un’analisi impropria può facilmente portare a conclusioni sbagliate. Queste possono a loro volta tradursi in misure inefficaci o addirittura controproducenti.

Raccolta dei dati “sbagliati”

I big data stanno diventando sempre più popolari e le organizzazioni sono sempre più disposte a raccogliere ogni tipo di dati. Questo significa che vengono raccolte quantità gigantesche di dati senza che ci sia una ragione chiara per analizzarli. In altre parole, si crea un enorme database di informazioni grezze che sono state raccolte per ogni evenienza. Le aziende seguono un approccio del tipo “prima li raccogliamo (tanto è facile), e poi vediamo cosa farci”. Questo modo di operare non giova alla privacy degli utenti — è inutile dirlo. Non solo, ma può essere nocivo per le aziende stesse. Difatti una raccolta di dati irrilevanti o una raccolta male strutturata possono portare a decisioni aziendali inefficaci come menzionato nel precedente paragrafo.

Raccolta e conservazione dei big data con le intenzioni sbagliate

La raccolta dei big data è usata sempre più spesso da aziende, organizzazioni e governi per poter profilare gruppi di persone. Gli utenti o i cittadini non vengono quasi mai informati su quali dei loro dati personali vengono registrati, per non parlare del perché e del come. Inutile dire che questo ha serie implicazioni per la loro privacy online. Tutto quello che fai online, può essere salvato ed elaborato.
I grandi raccoglitori di grandi dati sono abili manipolatori: con la tecnologia giusta riescono a conoscerti sempre meglio, per poi manipolare il tuo processo decisionale.

Big data e privacy

Smartphone con foto dell'orecchioCome probabilmente avrai già capito, i big data comportano molti svantaggi e rischi. Tuttavia, molte aziende e organizzazioni continuano a raccogliere dati su vasta scala, soprattutto perchè può aiutarli a crescere e progredire. Raccogliere grandi quantità di dati è più facile che mai. Questo ha enormi conseguenze per la tua privacy. Abbiamo già discusso brevemente i possibili pericoli per la privacy legati alla raccolta delle informazioni da parte di malintenzionati. La tua privacy è strettamente legata alla raccolta di massa dei dati. Leggi la sezione successiva per capire quali problemi ne derivano.

Raccolta di dati su larga scala

Molte aziende, tra cui Google, Facebook e Twitter, sono fortemente dipendenti dalla pubblicità per ottenere introiti. Al fine di rendere i loro annunci il più efficaci possibile, queste aziende profilano gli utenti tenendo conto dei loro gusti e interessi. Questo è un possibile uso dei big data. Allo stesso modo, anche i governi e i servizi segreti fanno affidamento sui big data. Usano questa grande quantità di informazioni per tracciare le persone che ritengono sospette e indagare su di loro. Naturalmente, questo significa anche che esiste una grande quantità di big data su cui i criminali informatici possono mettere le mani — dati che questi soggetti potrebbero manipolare e sfruttare illecitamente. Tra i vari problemi derivanti dall’appropriazione indebita di big data troviamo il furto d’identità.

Ma le possibilità che derivano dalla raccolta nei database sono molto più ampie di così. Al giorno d’oggi, la tecnologia è diventata talmente avanzata e “intelligente” che può combinare intere serie di dati. Questo può essere fatto in un modo così intelligente e astuto, che le grandi società e organizzazioni probabilmente sanno più cose su di te di quante non ne sappia tu stesso! Chi sei, dove vivi, quali sono i tuoi hobby, chi sono i tuoi amici: nessuna di queste informazioni è ormai un segreto. Non è un pensiero molto confortante, potresti pensare. Fortunatamente, ci sono alcuni modi per proteggerti dalla violazione della privacy su larga scala che i big data possono causare.

Leggi sulla privacy

Cookie sullo schermoLe leggi e i regolamenti sulla privacy possono proteggerti dalla violazione della privacy, ma solo fino a un certo punto. Per rendere le cose più complicate, le leggi sulla privacy spesso differiscono notevolmente tra i diversi paesi e aree geografiche. Per esempio, in Europa è in vigore una legge relativamente severa sulla privacy dei consumatori chiamata GDPR (Regolamento generale sulla protezione dei dati). Questa legge si applica a tutti gli stati membri dell’UE, anche se possono esserci alcune differenze tra un paese e l’altro. Molte aziende internazionali hanno deciso di conformare ogni loro attività al GDPR. Questo è il motivo per cui Google, ad esempio, ora consente agli utenti di richiedere la cancellazione dei dati personali. Tuttavia, le leggi sulla privacy negli Stati Uniti differiscono da stato a stato e non proteggono i consumatori al pari di quelle europee. Purtroppo questo vale anche per la legge sulla privacy più rigida degli Stati Uniti, il CCPA (California Consumer Privacy Act).

In breve, non esiste una legge “globale” sulla privacy che si applichi a tutti i grandi collettori di dati e che protegga tutti gli utenti. Questo significa che la nostra privacy è compromessa non solo da atti illegali, ma anche da azioni perfettamente legali, per quanto paradossale possa sembrare. Fortunatamente, le violazioni della privacy su larga scala esposte da whistleblowers come Edward Snowden e Chelsea Manning hanno aumentato notevolmente la consapevolezza dei rischi connessi ai big data. Naturalmente, questo è solo un primo passo per migliorare le attuali leggi sulla privacy.

Molti utenti di internet non sono disposti ad attendere che le leggi sulla privacy recuperino il terreno perso — giustamente. Preferiscono agire in prima persona facendo tutto il possibile per proteggere la loro privacy. Vuoi evitare di diventare anche tu parte di innumerevoli sistemi di big data? Esistono diversi consigli e trucchi che possono aiutarti a raggiungere questo obiettivo.

Come evitare che i tuoi dati vengano salvati in sistemi di big data

I sistemi di big data incidono pesantemente sulla tua privacy e sulla tua sicurezza. Questi set di dati possono contenere ogni genere di informazioni (personali), che rischiano di essere sfruttate da grandi aziende o criminali informatici. Ecco perché dovresti sempre assicurarti di lasciare meno tracce online possibile. I seguenti consigli possono aiutarti a farlo:

  • Cerca di ridurre al minimo l’uso delle tue informazioni personali quando crei le password o in generale sul web. Per esempio: evita di usare il tuo nome, indirizzo, numero di telefono, data di nascita e così via.
  • Ricorda sempre quanto segue: tutto ciò che pubblichi su internet, resterà lì per sempre. Può non essere sempre vero, ma questo livello di consapevolezza contribuisce a salvaguardare la tua privacy. Gestirai automaticamente i tuoi dati privati con più attenzione una volta che sarai consapevole di questo fatto.
  • Assicurati che la tua connessione internet sia sicura e anonima, usando il browser Tor o una VPN.
  • Utilizza uno o più ad-blocker nel tuo browser.
  • Utilizza uno o più plugin per il browser che bloccano i tracker e i cookie.
  • Libera regolarmente la cache e cancella la tua cronologia di navigazione e i cookie.
  • Fai il logout dai siti web quando non li usi attivamente.

Compiere questi passaggi è un buon inizio per salvaguardare la tua privacy e sicurezza online. Tieni a mente, tuttavia, che i big data vengono raccolti in molti modi diversi — e non solo online. In breve, ovunque tu sia e qualsiasi cosa tu stia facendo, dovresti sempre essere vigile e cercare di proteggere i tuoi dati (personali) dai grandi sistemi e agenti di raccolta dati.

International security coordinator
Marko has a Bachelor's degree in Computer and Information Sciences. He coordinates and manages VPNOverview.com's team of international VPN researchers and writers.