Data kan bli skadet på en rekke måter , fra brukerundersøkelser feil til formatering inkonsekvenser . Duplikater er en av de vanligste dataproblemer i de fleste bedrifters databaser . Den beste måten å sikre data nøyaktighet er å hindre korrupsjon , men det er lurt å ha en plan for å håndtere data problemer skulle oppstå problemer . Duplisering
duplikater kan være en frustrerende ting å se som en data revisor. Ofte kan en front-end data skjermen ikke ta visse typer duplikater , for eksempel i en adresse tabellen , kan 123 Main Street og Storgata 123 ser ut til å være to separate adresser når de faktisk er samme adresse < . br > p Dette kan løses ved hjelp av én av to metoder : fjerning av data eller data korreksjon. Fjerning av data ville bety å slette alle unntatt én forekomst av et sett av duplikater, mens data korreksjon vil oppdatere alle forekomster av duplisering til en enkelt avtalt verdi. Programvarepakker er tilgjengelig som bruker en algoritme for å identifisere rammene basert på standardavviket , klynger eller andre kriterier , så uteliggere blir evaluert av et saksforhold ekspert som avgjør skjebnen til det uventede oppføring.
Extract , Transform , Load
Extract, Transform , laste, eller ETF , er en vanlig metode for å flytte og rydde data . Selv om ingen manuell rensing forekommer , er det automatiserte oppgaver i translate fasen . For eksempel , hvis kilden tabellen lagrer " M " og " F" og måltabellen lagrer "mannlig" og " kvinnelig" et skript kjøres til å oversette dataene til de nye verdiene .
Når dataene er rengjort og validert , kan det bli importert til måltabellen . Det kan også bli importert over de gamle data for å overskrive data . Dette fungerer godt når en hel kolonne med data i en tabell må endres .
Oppdatere Legacy Systems
Oppdatere en arv system vanligvis innebærer å flytte data til et mellomliggende sted, eller staging område , hvor det deretter undergår en automatisert og manuell rensing data runde . Dette gjøres for å unngå å gjøre noen irreversible feil til de eldre data før du importerer den inn i det nye systemet . Det bør bemerkes at de eldre data ikke bør oppdateres i henhold til informasjon - management.com , for å slippe å vedlikeholde to separate datasett. Det burde være pensjonert i stedet, og det nye systemet skal være den eneste i bruk fremover.