Ved analyse av data, er det ikke bare nødvendig å ha en stor nok mengde , men det er også viktig at kvaliteten av dataene er av høy standard . Data kan gjøres "dirty" på en rekke måter - feil under innsamling, gjort feil når integrere flere datasett og utilsiktet sletting er bare noen få slike måter. På grunn av dette , er det viktig at informasjonen blir renset før bruk. Manglende data
Automatiserte rutiner blir ofte brukt til å finne manglende data. Disse kan være SQL-spørringer i en database , eller statistiske analyser . Som en analytiker ser du etter mønstre i spredningen av manglende data. Du kan deretter ta avgjørelser om hva du skal gjøre, noe som kan komme til å stenge enkelte variabler helt, eller erstatte sine verdier med gjennomsnitt . Noen ganger mangler data kan tyde på feil ved å integrere flere datasett , og i verste fall hele prosessen må kanskje gjentas for å innhente alle data .
Outliers
< p> en avvikende er en dataverdi som er langt utenfor det generelle mønster av dataene. De kan identifiseres med diagrammer, for eksempel boksplottene , eller ved å se etter et visst antall verdier av standardavvik fra middelverdien . Når identifisert , må du bestemme om du vil fjerne dem eller ikke - som innebærer å avgjøre om de var feil i datainnsamlingen , eller sanne verdier . Noen ganger kan du velge å kjøre visse prosedyrer med og uten uteliggere , for å sammenligne resultatene.
Formatering feil
Mer dagligdagse feil i et datasett kan være feilstavelser eller andre lignende feil . Spørsmål kan brukes til å finne og erstatte åpenbare feil som feilstavinger av merkenavn eller steder , men de kan også brukes til å markere datapunkter som kanskje trenger rengjøring. For eksempel kan du kjøre et søk etter etternavn eller telefonnumre over og under en viss lengde , for å finne feil som oppstod sted langs datainnsamling og integrasjonsprosessen.
Datakoding
p Det er vanlig at data skal i utgangspunktet være i et format som er uegnet for analyse. For eksempel kan undersøkelsen svar må konverteres til en numerisk tilsvarende, for eksempel fra " Helt enig " til " 7 ", eller kategoriske variabler som kjønn kan trenge å bli konvertert til binære indikatorvariablene . Dette kalles koding eller omkoding , og det er god praksis å lage nye variabler med den nylig kodede data heller enn overskrive de gamle, slik at feil kan være back- merket .