Gigantiske datasett som samles inn fra mobiltelefoner, nettlesere og kredittkort – «Big Data» – har gitt legene bedre muligheter for å behandle sykdommer, byplanleggere for å bygge bedre byer og ikke minst forskere til å finne nye svar.
Dataene er som regel anonymiserte, slik at navnene er byttet ut med et nummer. Men nå har forskere fra Massachusetts Institute of Technology (MIT) og Aarhus Universitet vist hvor lett det er å finne ut hvem de anonyme personene er i et sett med data om handler med kredittkort.
Studien er beskrevet i en artikkel i Science.
– Resultatene er overraskende, for vi hadde ikke forestilt oss at muligheten for å identifisere folk ville være så stor, sier Laura Radaelli. Hun arbeidet med studien på Aarhus Universitet; nå er postdoc på universitetet i Tel Aviv.
Privatlivets fred
Forskerne på MIT hadde allerede forskningsresultater som viste at det var lett å identifisere brukere i mobildatasett, selv om både navn og telefonnumre var fjernet.
Samtidig begynte flere og flere vitenskapelige tidsskrifter å kreve at når vitenskapelige artikler bygger på big data, så skal datasettet offentliggjøres, slik at andre forskere kunne gå resultatene etter i sømmene.
– Det er blitt lettere å samle inn big data, men det er ikke noe alle forskere har mulighet for. Ved å dele dem, åpner man muligheten for at mange forskjellige forskere kan finne mange forskjellige interessante resultater i datasettet. Men det er data om mennesker. For å kunne dele dem, er vi nødt til å være sikre på at det ikke utgjør noen risiko for folk, sier Laura Radaelli.
Identiteten avsløres
Derfor bestemte forskerne seg for å finne ut om anonymiseringen er god nok. De tok for seg et datasett med 1,1 million kredittkortkjøp i 10 000 butikker over tre måneder. Alle navn var erstattet med et anonymt brukernummer.
I datasettet var det i tillegg til brukernummeret også data om hvilken butikk handelen var gjort i, hvilken dato den var gjort, og hva prisen var.
– La oss anta at jeg vet at du besøkte fire bestemte butikker på fire bestemte dager. I 90 prosent av tilfellene ville du være den eneste som hadde gjort det, sier Radaelli.
Ni av ti personer kan altså identifiseres når man kjenner sted og dato for bare fire handler.
Lettest å identifisere kvinner
Hvis forskerne også hadde en cirkapris på det som var kjøpt, ble oppgaven enda enklere. Det vil man kunne gjette ved å se hva kjøperen kom ut av butikken med.
– Sannsynligheten for identifikasjon ble økt med 22 prosent i slike tilfeller, sier Radaelli. Forskerne konstaterte også at det var lettere å identifisere kvinner og folk med høye inntekter.
– Vi har ikke sett på årsakene til det. Det var bare en observasjon, sier Radaelli.
Kan avsløre deg selv
Sune Lehmann, som er førsteamanuensis ved Danmarks Tekniske Universitet (DTU), mener dette er en viktig debatt.
– Det er farlig å dele data, selv om man har anonymisert dem. Det kan være vanskelig å vite hva som skal til for å identifisere folk, sier Lehmann.
– Jeg kunne ha gått på Twitter og fortalt at jeg nettopp har kjøpt nye joggesko, eller på Amazon kunne jeg ha trykket på en knapp og delt at jeg har kjøpt nye joggebukser. Hvis man offentliggjør ting, er det mulig å forbinde noen punkter og finne folk i datasett, forklarer han.
Avslørt av filmvaner
Lehmann peker også på at Netflix for noen år siden offentliggjorde anonyme data om hvor mange stjerner brukerne hadde gitt til ulike filmer. Strømmetjenesten ville få laget en algoritme for å anbefale nye filmer til brukerne.
Men forskere fra University of Texas koblet dataene sammen med opplysninger fra hjemmesiden IMDB (Internet Movie Database). Dermed visste de hvordan brukerne hadde anmeldt film med politisk budskap, seksuelt innhold eller annet som de ikke hadde hatt lyst til å dele med andre.
– Selv om de bare hadde en bruker-ID og visste hvilke filmer som var anmeldt, så kunne de identifisere folk med data som var fritt tilgjengelige på internett. Det ville vært ubehagelig hvis disse kredittkortdataene var offentlige og jeg tweetet om de nye skoene mine, og folk plutselig visste alt om hva jeg har kjøpt det siste året, sier Sune Lehmann.
Lett å få opplysninger om folk
En opplagt løsning for å beskytte folks privatliv kunne være å bruke mindre presise data. Men dette ble også testet av forskerne. De erstattet kjøpsdag med en 15-dagersperiode og slo sammen butikker i grupper på 350.
Med kunnskap om fire kjøp kunne nå bare 15 prosent identifiseres. Med kunnskap om ti kjøp var det fortsatt mulig å identifisere mer enn 80 prosent.
– Jeg tror dette er opplysninger som det er ganske lett å få fatt i. I Danmark bruker folk kredittkort til å kjøpe nesten alt, sier Laura Radaelli.
Lovgivningen henger etter
Både Laura Radaelli og Sune Lehmann peker på at dette er utfordringer politikerne må forholde seg til.
– Jeg synes dette må diskuteres nøye. Det blir viktigere og viktigere å kontrollere disse dataene. Men det er en vanskelig debatt å ta, for det er vanskelig å komme med gode løsninger, sier Lehmann.
I USA kreves det bare at alt som kan identifisere en person, skal fjernes før offentliggjøring. Det vil si for eksempel navn, adresse og telefonnummer. – Det tar ikke høyde for hva som kan skje etter at dataene er offentliggjort, sier Laura Radaelli.
EU-lovgivningen, derimot, krever at mennesker ikke skal kunne identifiseres i offentliggjorte datasett.
– Det er umulig å oppnå: I morgen kan det komme nye opplysninger som gjør det mulig å identifisere folk. Lovgivningen er ekstremt streng, og det gjør at folk ikke deler noe som helst. Det er heller ikke bra, sier Radaelli.
Radaelli påpeker at slike datasett redder liv. Big dta spiller blant annet en nøkkelrolle i kampen mot malaria.
– Formålet er ikke å skremme noen. Vi vil at data skal kunne deles. Men det er viktig at folk er oppmerksomme på det de deler om seg selv, sier hun.
Referanse:
Yves-Alexandre de Montjoye, Laura Radaelli, Vivek Kumar Singh, Alex «Sandy» Pentland, Unique in the shopping mall: On the reidentifiability of credit card metadata, Science, doi: 10.1126/science.1256297
© Videnskab.dk. Oversatt av Lars Nygaard for forskning.no.
Leave a Reply