Sett at du har en datakyndig, nysgjerrig nabo som klarer å finne ut at du har livmorhalskreft, ved å identifisere deg blant pasienter i en forskningsstudie.
Pasientdata er generelt svært sikre og re-identifisering er ennå ikke en stor trussel, sier Giske Ursin, direktør i Kreftregisteret.
– Når forskere får tilgang til data, er dette i hovedsak data uten direkte personidentifiserbar informasjon, altså hvor ting som navn, adresse, fødselsnummer er fjernet. Likevel er det en teoretisk mulighet for at personer med onde hensikter skulle klare å gjenkjenne enkeltindivider i datasettet. Derfor må vi gjøre alt vi kan for å senke sannsynligheten for at sensitive data skal kunne tilbakeføres til konkrete personer, sier hun til forskning.no.
- Les også denne kronikken: For vanskelig å hente ut data fra helseregistrene
Kreftregisteret har derfor testet ut hvor stor risikoen for bakveis identifisering er og hvor godt standardmetoden som introduserer støy reduserer risikoen. Studien er publisert i tidsskriftet Cancer Epidemiology, Biomarkers & Prevention.
Sosiale medier utgjør tilleggsrisiko
Risikoen for at noen skal få tak i helseopplysninger og lete seg bakover til hvem dataene omhandler, er kanskje større nå enn før.
Dette henger sammen med at verktøyene for big data-analyser er blitt mer tilgjengelige, og vår egen bruk av sosiale medier.
- Les også dette blogginnlegget fra Stig A. Slørdahl: Bedre folkehelse når forskere får mer data
Mange poster på Facebook at de har deltatt på en helsescreening. Det kan gi en teoretisk mulighet til at de som kan kombinere datasett kan finne ut hvilken person som har en diagnose, dersom de for eksempel klarer å hacke postnumre og personnumre til deltakerne i en studie.
Derfor er det vesentlig at forskerne klarer å kamuflere opplysninger som postnumre, personnumre og undersøkelsesdatoer best mulig.
Avansert kryptering
Når forskere vil bruke pasientdata fra screeninger eller helseregistere, må de søke om godkjenning fra ulike etiske komiteer og Datatilsynet. Også Kreftregisteret skal gjøre en vurdering av om studien er etisk betenkelig.
Forskere ved Kreftregisteret fikk derfor ideen til å teste ut hvor godt det lar seg gjøre å kamuflere hvilke personer opplysningene omhandler, forklarer Ursin.
– Dette var et initiativ vi tok ut fra et føre-var-prinsipp, sier hun.
Utstyrte persondata med støy
Forskere ved Kreftregisteret tok utgangspunkt i et datasett uten personopplysninger, men med fem millioner pasientopplysninger fra den store livmorhalsscreeningen.
De brukte to metoder for å av-identifisere pasientopplysningene. Den ene kalles k-anonymisering, og er en velbrukt metode. Den andre er en ny metode som de kaller fuzz-faktor, eller støyfaktor.
De fant ut at risikoen for å re-identifisere pasienter ble drastisk redusert ved at forskerne endret dataene ved å bruke k-anonymisering.
Forskere må være bevisste
Så tilsatte de støyfaktoren, som endret fødselsmåneden på personene, screeningdatoen samt andre opplysninger. Dette gjorde det vanskeligere for mulige hackere å identifisere enkeltpersoner, sier Ursin.
Verdifulle opplysninger var allikevel i behold for selve forskningsformålet.
– Forskere bør være bevisste på hvilken informasjon de faktisk trenger for å få svar på det de vil forske på, og så kryptere bort detaljer de ikke trenger, sier Ursin.
Studien kan få betydning for mange ulike forskningsmiljøer.
Den har vagt såpass oppsikt at Kreftregisterets direktør Giske Ursin er blitt intervjuet av American Association for Cancer Research.
Referanse:
G. Ursin mf: Protecting Privacy in Large Datasets—First We Assess the Risk; Then We Fuzzy the Data. Sammendrag. Cancer Epidemiology, Biomarkers & Prevention. 28. juli 2017. DOI: 10.1158/1055-9965.EPI-17-0172
Leave a Reply