Data Cleansing - ellers kjent som data rengjøring eller skrubbe - er prosessen med å oppdage og rette feil, uoverensstemmelser og mangler i data . Enorme mengder data er samlet inn og analysert av politikere, økonomer og forskere , men feil i data - som kan påvirke sin behandling og de konklusjoner som er trukket fra det - er vanlig og vil bli forventet . Det finnes flere metoder for data rensing , både tradisjonelle og automatisert . Statistiske metoder
Statistiske metoder kan brukes til å granske data og korrigere selv komplekse data feil . En statistiker kan analysere gjennomsnitt, standardavvik og utvalg av data verdier , og på den måten identifisere individuelle database poster ( tupler ) som er ugyldige . Disse postene kan slettes , eller erstattes av en gjennomsnittlig eller annen statistisk verdi . Statistiske metoder for data rensing kan også indikere manglende verdier , som kan fylles på med plausible verdier basert på resten av datasettet .
Data Cleansing Verktøy
data rensing verktøy har eksistert i en årrekke . Automatiserte data rensing verktøy typisk fokusere på en bestemt database domenenavn - som definerer de mulige verdier enn det som kan inngås hvert felt , eller egenskap - for eksempel navn og adresse data . De bruker vanligvis et sett med matchende regler fra et bibliotek , eller leveres interaktivt av brukeren, til å validere gatenavn , bynavn og postnummer og transformere de eksisterende data til individuelle, standard elementer . De bruker record matching for å finne ut om to poster representere data om samme emne og er i stand til å kombinere enkeltpersoner poster som har , si, samme adresse . Data rensing verktøy kan variere i grad av raffinement med hensyn til data revisjon, rensing og migrasjon.
ETL verktøy
ETL står for " Extract, Transform , Load " og det er mange kommersielle verktøy utviklet for å hjelpe ETL prosess med data rensing. De viktigste egenskapene til en effektiv ETL verktøy er dens evne til å lese kildedata direkte og å rense og transformere data , sammen med sin støtte for metadata . Metadata er dokumentasjon eller informasjon om en bestemt del av data , og kan hjelpe en bruker til å oppdage feil og selvmotsigelser i data som kanskje ikke , nødvendigvis , bli identifisert av ETL verktøyet selv . ETL verktøy gir vanligvis et bibliotek med funksjoner og skjemaer for å transformere - data type-konverteringer , aritmetiske funksjoner , streng funksjoner osv - og kan hente ut data fra friform- datakilder , med noen begrensninger , samt via standard ODBC ( " Open Database Connectivity " ) og EDA ( " Electronic Design Automation ") grensesnitt.