The prosessorkraft av datamaskiner gjør at forskere og bedrifter til å analysere data i mer komplekse måter enn noen gang før . Data mining er prosessen med å forsøke å finne nyttig informasjon i store datasett . Data mining er ETL prosess refererer til trinnene der data er registrert , kodet og skrives til en database for senere analyse . Definisjoner
Data mining er definert som prosessen med å analysere data og samle det inn informasjon som kan settes til et nyttig formål. De data mining prosessen innebærer å finne mønstre i datasett som gir kategoriske informasjon om hvordan datasettet er organisert. Data mining kan brukes til å analysere forholdet mellom nesten alle målbare variabler , noen reelle anvendelser av data mining omfatte analyse av markedsføring strategier , produksjonsprosesser og menneskelige atferdsmessige tendenser. Begrepet ETL er en forkortelse for ekstrakt , transformere og laste. Extract, Transform og laste refererer til de tre prosesser som en database system er opprettet for analyse.
Extraction
Det første trinnet i å skape et datavarehus som kan være minelagt for analysen er å trekke ut data fra den opprinnelige kilden . Ekstraksjonsprosedyrene varierer avhengig av hvilken type data som blir minelagt . Noen ganger utvinning innebærer å finne og hente en undergruppe av data fra en eller flere eksisterende databaser . I andre tilfeller krever utpakkingen original forskning som søker på nettet etter nettsteder som inneholder relevant informasjon.
Transform
Når aktuelle data ligger under utpakkingen da at data må manipuleres slik at den kan lagres i en database for senere analyse. Prosessen med å endre dataene fra sin opprinnelige form til en regularisert form kalles transformasjon . Transformasjon kan innebære en rekke endringer i dataene , inkludert relativt enkle funksjoner som å konvertere bokstaver til små og fjerne skilletegn fra tegnstrengene . Transformasjonsprosessen kan også omfatte mer komplekse prosedyrer som utfører aritmetiske funksjoner på kildeverdiene , sortering data og verifisere gyldigheten av kildedata . Målet med omleggingen fasen er å ta uraffinert utvinning data og slå den inn data som er nyttig for målene i data gruveprosjektet .
Load
gang dataene er transformert inn i riktig format, må den lagres i et datavarehus . Lasten fase refererer til en prosess der transformert data logges til en datamaskin database. Når informasjonen er lagret i databasen, kan det bli utsatt for kvalitativ og kvantitativ analyse for å søke etter mønstre av interesse.