Datavarehus og data mining-verktøy gjør det enkelt å hente ut og analysere store mengder informasjon , men kvaliteten på analysen er bare så god som kvaliteten på dataene. Det første trinnet i enhver forskningsstudie eller datavarehus prosjektet må være en vurdering av kvaliteten på dataene som går inn i prosjektet . Tiltak for fullstendighet , gyldighet og konsistens alle faktor i denne vurderingen . Å utvikle datakvalitet beregninger, må du følge visse trinn. Instruksjoner
en
Utvikle et rammeverk for måling av datakvalitet. Lag plass i hver database hvor resultatene av kvalitetskontroller kan lagres. Utvikle rapporter eller oversikter fra disse dataene.
2
Mål data fullstendighet . Velg sentrale elementer i hver database og telle hvor mange prosent av nuller , tomme felt eller verdier som representerer utilgjengelige eller ukjente data .
3
Mål prosenter av tillatte verdier . Når et felt har en rekke forhåndsbestemte kodeverdier , måle fordelingen av disse verdier mot de antall feil og mangler verdier . Analysere disse distribusjonene å finne ut om visse koder vises for ofte . I så fall kan denne verdien må deles for å gi bedre beskrivelse . For eksempel, hvis svarene er svart, hvitt og farge og 98 % av svarene er farge, kan det være fornuftig å erstatte farge med rød , blå eller grønn .
4
Sjekk for fornuftige verdier . Numeriske målinger vanligvis vises i en tillatte området. For eksempel vil en daglig vær temperatur Fahrenheit måling vanligvis vises som en verdi fra ca -40 til 120 . Noen verdi utenfor dette området er sannsynligvis ikke gyldig .
5
sammenligne verdier i løpet av den samme posten for konsistens. Hvis temperaturen var 90 Fahrenheit og nedbøren verdien er snø , en av de to verdiene er trolig feil.
6
Sjekk konsistens mellom relaterte poster. Bruk lignende konsistens sjekker mellom poster i foreldre-barn- relasjoner og innen flere underordnede oppføringer . Forelder og barn-relasjoner er koblinger mellom database elementer . For eksempel i et antall tidsrelaterte elementer , hvis et sett med time- temperaturmålinger liste stadig økende temperaturer fra 50 til 70 grader i løpet av morgenen, men 10 leser er -20 , er denne verdien sannsynligvis en feil.
Side 7
Lag rapporter, instrumentbord eller varslinger basert på de innsamlede dataene . Oppsummer av organisatorisk gruppe , leverandør eller kunde type med evner til å bore ned til bestemte dataelementer . Analysere dataene for å finne ut hvor feilene oppstår og hva som kan gjøres for å forbedre datakvaliteten .
8
forbedre datakvaliteten . Revidere forretningsregler, reparasjon programvare for å avvise dårlige data , varsle kunder av data problemer og finne måter å belønne kvalitet initiativer. Overvåke disse målingene over tid .