Store data og personvern

Pile of data, magnifier, boxes with papers and folders on a light background

I løpet av de siste tiårene har verden endret seg enormt i mange henseender, spesielt når det gjelder IT. Antall mennesker vi er i stand til å kommunisere med daglig har vokst enormt, akkurat som mengden informasjon vi har tilgang til. Det samme gjelder imidlertid mengden informasjon store selskaper samler om oss. Begreper som store data blir brukt oftere etter hvert som tiden går. Men hva betyr dette, akkurat? Hva er store data? Er det farlig? Hvordan påvirker det personvernet, vårt i det hele tatt? Det er noen av spørsmålene vi vil dekke i denne artikkelen.

Hva er big (store) data?

Liste med forstørrelsesglassBegrepet «store data» beskriver de enorme mengdene (personlige) data som kontinuerlig blir samlet av forskjellige aktører. Et eksempel kan være all informasjon Google samler om sine brukere’ søk. Fenomenet med store data er en relativt fersk utvikling som startet fordi (store) selskaper og organisasjoner, som Facebook, Google og de fleste myndigheter, begynte å samle stadig flere data om brukerne, kundene og innbyggerne enn før. Ny teknologi, en digitalisert verden og internett har hjulpet denne utviklingen enormt.

Samlinger av store data er ofte så store at det er umulig å analysere dem ved hjelp av tradisjonell dataanalyse. Men hvis man analyserer store data på riktig måte, kan interessante mønstre og konklusjoner fremkalles. For eksempel blir store data ofte brukt til storskala markedsundersøkelser: hvilke produkter er mest sannsynlig å bli kjøpt? Hva slags reklame er mest effektiv når du vil nå og overtale kunder?

For at et datasett skal betraktes som store data, bør det vanligvis oppfylle følgende tre kriterier, også kjent som 3 v’s:

  • Volum: Store data er alt annet enn et lite utvalg. Det innebærer store samlinger av data, som følge av lang, kontinuerlig observasjon.
  • Hastighet: Dette har å gjøre med de imponerende hastighetene som store data samles inn. Videre er store data ofte tilgjengelige i sanntid (slik det blir samlet inn).
  • Variasjon: Store datasett inneholder ofte mange forskjellige typer informasjon. Data i store datasett kan til og med kombineres for å fylle ut hull og gjøre datasettet enda mer komplett.

Bortsett fra disse 3 v ene har store data noen andre egenskaper. For eksempel er stor data flott for maskinlæring. Dette betyr at den effektivt kan brukes til å lære datamaskiner og maskiner visse oppgaver. Videre, som vi allerede har berørt kort, kan store data brukes til å oppdage mønstre. Dette skjer stort sett på en veldig effektiv måte ved hjelp av datamaskiner som jobber med dataene. Til slutt er store data gjenspeiling av brukernes digitale fingeravtrykk. Dette betyr at det er et biprodukt av folks digitale og online aktiviteter og kan brukes til å bygge individuelle personlige profiler.

Ulike typer store data

Det er forskjellige måter å klassifisere store data på. Den første måten, som brukes oftest, differensierer store data basert på typen data som samles inn. De tre mulige kategoriene som brukes for denne typen klassifisering er: strukturerte store data, ustrukturerte store data og semistrukturerte store data.

  1. Strukturert: Når store data er strukturert, kan de lagres og presenteres på en organisert og logisk måte, noe som gjør dataene mer tilgjengelige og lettere å forstå. Et eksempel kan være en liste over kundeadresser opprettet av et selskap. I denne listen vil man sannsynligvis finne kundenes navn, adresser og kanskje andre detaljer som telefonnumre, alt strukturert tydelig i for eksempel et diagram eller en tabell.
  2. Ustrukturert: Ustrukturerte store data er ikke organisert i det hele tatt. Den mangler en logisk presentasjon som ville være fornuftig for det vanlige mennesket. Ustrukturerte store data har ikke strukturen til for eksempel en tabell som angir en viss sammenheng mellom de forskjellige elementene i datasettet. Derfor er denne typen data ganske vanskelig å navigere og forstå. Mange datasett starter først som ustrukturerte store data.
  3. Halvstrukturerte: Halvstrukturerte store data, som du kanskje har gjettet, har kjennetegn på både strukturerte og ustrukturerte store data. Arten og representasjonen av denne typen data er ikke helt vilkårlig. Likevel er den ikke strukturert og organisert nok til å brukes til en meningsfull analyse heller. Et eksempel kan være en nettside som inneholder spesifikke metadatakoder (ekstra informasjon som ikke er direkte synlig i teksten), for eksempel fordi den inneholder visse søkeord. Disse kodene viser effektivt spesifikke informasjonsbiter, for eksempel forfatteren av en side eller øyeblikket den ble plassert på nettet. Selve teksten er i hovedsak ustrukturert, men søkeordene og andre metadata som den inneholder, er med på å gjøre den til et noe passende grunnlag for analyse.

Klassifisering basert på kilden til store data

En annen vanlig måte å skille mellom forskjellige typer store data er ved å se på kilden til dataene. Hvem eller hva har generert informasjonen? I likhet med den forrige divisjonen, består denne klassifiserings metoden også av 3 forskjellige kategorier.

  1. Personer: Denne kategorien gjelder store data generert av mennesker. Eksempler er bøker, bilder, videoer samt informasjon og (personlige) data på nettsteder og sosiale medier, for eksempel Facebook, Twitter, Instagram og så videre.
  2. Prosess registrering: Denne kategorien inkluderer den mer tradisjonelle typen store data, som er samlet og analysert av (store) selskaper for å forbedre visse prosesser i en virksomhet.
  3. Maskiner: Denne typen stordata stammer fra det stadig økende antallet sensorer som er plassert i maskiner. Et eksempel kan være varmesensoren som ofte er innebygd i datamaskinprosessorer. Dataene som genereres av maskiner kan ofte være svært komplekse, men i det minste er denne typen store data generelt godt strukturert og fullstendig.

Hva kan store data brukes til?

Facebook logoAlt som har blitt diskutert så langt kan fortsatt høres litt abstrakt ut. La oss gjøre ting litt mer konkrete og diskutere noen virkelige applikasjoner av store data. Tross alt er det mange, mange måter som selskaper og organisasjoner bruker store data på. En av de første tingene jeg tenker på er de enorme datamengdene som selskaper samler om oss. Facebook samler inn data om alle brukerne og analyserer dette for å bestemme hva du skal vise deg på tidslinjen din. Selvfølgelig gjøres dette for å imøtekomme dine personlige ønsker og interesser. Facebook håper dette vil få deg til å bli på nettstedet deres i lengre perioder. På sin side samler Amazon informasjon om sine kunder og produktene de kjøper. På den måten kan Amazon anbefale produkter de tror du vil være interessert i og øke inntjeningen på denne måten.

Imidlertid brukes store data også på helt andre måter enn de kommersielle strategiene beskrevet ovenfor. For eksempel kan kollektiv transportselskaper samle data om hvor travle visse ruter er. Etterpå kunne de analysere disse dataene for eksempel å bestemme hvilke ruter som krever ytterligere busser eller tog. Et annet velkjent tilfelle av effektiv bruk av store data angår den internasjonale leverings giganten UPS. UPS bruker spesiell programvare som ble utviklet etter analyse av store data. Denne programvaren hjelper UPS-drivere med å unngå venstresving, som er dyrere, mer sløsing og farligere enn høyresving. Angivelig har dette systemet allerede spart UPS millioner av liter drivstoff, alt takket være store data.

Et annet interessant eksempel på innsamling av store data er DNA -tester og nettsteder som MyHeritage DNA. Dette nettstedet hevder at det kan hjelpe deg med å «avdekke din etniske opprinnelse og finne nye slektninger» med en enkel DNA test. Unødvendig å si at denne prosessen innebærer mye datainnsamling og kryssreferanse, noe som gjør den til en annen stor aktør innen innsamling og bruk av store data. «Tradisjonelle», fysiske DNA tester involverer også en enorm mengde store data, siden selskaper som utfører disse testene vil få ekstremt store datasett om mange, mange mennesker. Selvfølgelig er det viktig å være oppmerksom på de mulige risikoene som følger med disse prosessene for innsamling av store data. Disse risikoene vil bli belyst i neste del av denne artikkelen.

Er store data farlig?

Som vist ovenfor kan store data i mange tilfeller være utrolig nyttige. Det gir oss tonnevis med informasjon vi kan bruke til å effektivisere prosesser og gjøre bedrifter mer effektive og lønnsomme. Dette betyr imidlertid ikke at innsamling og bruk av store data er helt risikofritt. Det er fem viktige risikoer som følger med store data. Vi vil diskutere alle fem her.

Hackere og tyver

Med alt vi gjør på nettet, er det en iboende risiko for at våre personlige data og informasjon om våre internett aktiviteter kan bli stjålet. Hver internettbruker må være oppmerksom på dette. Antall data lekkasjer og tyverier har økt drastisk de siste årene. Det er ofte historier i nyhetene om kriminelle som selger datasett som inneholder passord og annen informasjon på steder som det mørke nettet. Ofte blir disse datasettene stjålet fra offisielle nettsteder, selskaper og organisasjoner. Jo større disse datasettene er, desto mer interessant blir det for tyver å prøve å skaffe dem. Hvis de får tak i disse datasettene, kan de forårsake mange problemer. Unødvendig å si kan dette også svekke personvernet ditt sterkt.

Personvern

Praksisen med å samle inn personopplysninger blir mer og mer utbredt. Gjeldende personvern regelverk kan imidlertid ikke følge med den raske teknologiske utviklingen som gjør denne praksisen mulig. Dette gir plass til gråsoner og usikkerheter som ikke kan løses ved å se på loven. Viktige personvernhensyn som oppstår inkluderer: Hva slags data kan samles inn? Om hvem? Hvem skal ha tilgang til disse dataene?

Når du samler inn store mengder data, er sjansen for at sensitiv personlig informasjon er inkludert i disse datasettene stor. Dette er problematisk, selv når hackere og tyver ikke spiller. Tross alt kan personvernfølsomme data misbrukes av alle med dårlige intensjoner. Dette inkluderer (ondsinnede) selskaper og organisasjoner.

Dårlig data analyse

Mange selskaper og organisasjoner samler inn store data, fordi de kan bruke dem til interessante analyser. Dette kan gi dem viktig ny innsikt i det de undersøker (for eksempel forbrukervaner). På sin side kan disse innsiktene og konklusjonene oversette til endringer i selskapet som resulterer i høyere marginer og mer fortjeneste. Imidlertid, som med alle andre vanlige datasett, kan en feil analyse av store data få alvorlige konsekvenser. Tross alt kan en feil analyse lett føre til feil konklusjoner. Disse kan igjen føre til ineffektive eller til og med kontraproduktive tiltak som tas.

Samle inn «feil» data

Store data blir stadig mer populært, og organisasjoner er mer og mer villige til å samle inn alle slags data. Dette betyr at enorme mengder data blir samlet inn uten at det er en klar grunn til å analysere dem. Med andre ord, det skaper en enorm database med rå informasjon som er samlet inn for sikkerhets skyld. Bedrifter tror sannsynligvis at det er lett nok å samle alle dataene, så de kan like godt gjøre det. Unødvendig å si, dette er ikke bra for noens privatliv. Det kan til og med føre til at irrelevante eller «feil» data blir samlet inn og analysert. Hvis konklusjonene fra denne analysen brukes i ledelsen, kan det føre til de samme ineffektive tiltakene nevnt i forrige avsnitt.

Innsamling og lagring av store data med dårlige intensjoner

Innsamlingen av store data brukes oftere og oftere av selskaper, organisasjoner og myndigheter slik at de kan lage nøyaktige individuelle profiler på mennesker. Brukere eller innbyggere blir nesten aldri varslet om hvilke av deres personlige data som blir registrert, enn si hvorfor og hvordan. Unødvendig å si at dette har alvorlige konsekvenser for deres personvern på nettet. Alt de gjør på nettet, kan lagres og vises senere. Videre kan store data samlere enkelt påvirke og manipulere folks beslutnings taking ved å analysere og bruke de innsamlede dataene.

Store data og personvern

Smarttelefon med bilde av øretSom du sikkert vil forstå nå, kommer store data med mange ulemper og risiko. Likevel samler mange selskaper og organisasjoner fremdeles data i stor skala, hovedsakelig på grunn av hvordan det kan hjelpe dem å vokse og gå videre. Det er enklere enn noen gang å samle inn store data. Dette har store konsekvenser for personvernet vårt. Vi har allerede kort diskutert de mulige personvern farene ved ondsinnede parter som samler inn dårlige data. Siden personvernet vårt er så nært knyttet til masse samling av personopplysninger, ønsker vi å bruke denne delen til å diskutere de ulike personvern problemene som følger med store data.

Datainsamling i stor skala

Mange selskaper, inkludert Google, Facebook og Twitter, er sterkt avhengige av annonser for å opprettholde seg selv og tjene penger. For å gjøre disse annonsene så effektive som mulig, lager disse selskapene detaljerte profiler om brukerne sine, spesielt med tanke på deres liker og interesser. Dette er en form for store data. På samme måte er regjeringer og hemmelige tjenester også avhengige av store data. De bruker denne enorme mengden informasjon for å spore og etterforske mennesker de anser som mistenkelige. Selvfølgelig betyr dette også at det er mange store data for cyber kriminelle å få tak i og kanskje til og med manipulere og misbruke. Dette kan skape alle slags personvern- og identitetsrelaterte problemer. En du tenker på er identity theft.

Likevel er mulighetene som følger med samlingen i databaser mye bredere enn dette. I disse dager har teknologien blitt så avansert og «smart» at den kan kombinere datasett. Dette kan gjøres på en så smart og snedig måte at store selskaper og organisasjoner sannsynligvis vet mer om deg enn du gjør! Hvem du er, hvor du bor, hva hobbyene dine er, hvem vennene dine er: ingen av denne informasjonen vil være privat lenger. Ikke en veldig trøstende tanke, tenker du kanskje. Heldigvis er det noen måter å beskytte deg mot den store personvern krenkelsen som store data kan forårsake.

Lov om personvern

Cookies on screenPersonvern lover og forskrifter kan beskytte oss mot brudd på personvernet, men bare til en viss grad. For å gjøre saken mer komplisert varierer personvern lovene ofte sterkt mellom forskjellige land og regioner. For eksempel er det i Europa en relativt streng forbrukerlovgivning som heter General Data Protection Regulation (GDPR). Denne loven gjelder for alle EU land, selv om detaljene kan variere fra land til land. Mange internasjonale selskaper har besluttet å overholde all virksomheten til GDPR. Dette er grunnen til at Google for eksempel nå lar brukerne be om sletting av personlig informasjon. Personvern lovene i USA er imidlertid forskjellige fra stat til stat og beskytter ikke forbrukere så vel som EU. Dessverre er dette til og med sant for den tøffeste personvernloven i USA, California Consumer Privacy Act.

Kort sagt, det finnes ikke en sterk «global» personvernloven som gjelder for alle store datasamlere og beskytter alle brukere. Dette betyr at personvernet vårt ikke bare blir skadet av store datasamlere på ulovlig, men til og med på helt lovlige måter, så paradoksalt som dette kan høres ut. Heldigvis har store brudd på personvernet som ble avslørt av varslere som Edward Snowden og Chelsea Manning økt bevisstheten sterkt for risikoen ved store data. Selvfølgelig er dette bare et første skritt for å forbedre gjeldende personvernloven.

Mange internettbrukere er ikke villige til å vente på en forbedring av personvernlovene – og det er med rette. De ønsker heller å iverksette tiltak selv ved å gjøre alt de kan for å beskytte personvernet. Vil du unngå å bli en del av utallige store datasett også? Det er flere tips og triks for å hjelpe deg på vei.

Slik forhindrer du at dataene dine blir lagret i store datasett

Store datasett påvirker personvernet og sikkerheten din alvorlig. Disse datasettene kan inneholde all slags (personlig) informasjon, som kan misbrukes av store selskaper eller til og med cyber kriminelle. Derfor bør du alltid sørge for å legge igjen så lite spor som mulig på nettet. Følgende tips kan hjelpe deg med å oppnå dette:

  • Prøv å minimere bruken av din personlige informasjon når du oppretter passord eller generelt på nettet. For eksempel: unngå å bruke navn, adresse, telefonnummer, fødselsdato og så videre.
  • Husk alltid følgende: Alt du publiserer på internett, vil være der for alltid. Dette er kanskje ikke alltid helt sant, men dette forsiktighetsnivået bidrar til å ivareta personvernet ditt. Du håndterer automatisk dine private data med større forsiktighet når du er klar over dette.
  • Sørg for at internettforbindelsen din er sikker og anonymisert, for eksempel ved å bruke Tor-nettleseren eller VPN for eksempel.
  • Bruk en eller flere annonse blokkere i nettleseren din
  • Bruk på eller flere plug-ins for nettlesere som blokkerer sporene og informasjonskapsler.
  • Tøm bufferen regelmessig og slett nettleser loggen og informasjonskapslene.
  • Logg av nettsteder når du ikke bruker dem aktivt.

Å ta disse trinnene er en god start når det gjelder å ivareta personvernet og sikkerheten din på nettet. Husk imidlertid at store data samles inn på mange forskjellige måter – ikke bare online. Kort sagt, uansett hvor du er og hva du gjør, bør du alltid være årvåken og prøve å beskytte (personlige) dataene dine mot store data innsamlere.

International security coordinator
Marko has a Bachelor's degree in Computer and Information Sciences. He coordinates and manages VPNOverview.com's team of international VPN researchers and writers.