Data mining er prosessen med å analysere og sammenfatte data fra ulike perspektiver . Den arbeider for å definere data mønstre og relasjoner over store dammer av informasjon ved hjelp av algoritmer --- sett med regler som løser et problem over en rekke konkrete tiltak ( tror det Euklidske algoritmen i algebra , som finner to tall ' største felles divisor ) . 2006 IEEE International Conference on Data Mining rangert de 10 beste algoritmene i feltet. Decision Trees
beslutning treet algoritmer som mål å organisere data på konkurrerende valg til filialer av innflytelse etter en innledende beslutning. Stammen på treet representerer den opprinnelige beslutningen , og den starter med et ja - eller nei- spørsmål, for eksempel om ikke å spise frokost. Å spise frokost og ikke spise frokost ville være de første to divergerende grenene på treet , og hvert valg deretter skulle ha sin egen divergerende grener som leder opp til et sluttpunkt .
K- Means Algoritmen
k- midler algoritmen er basert på cluster analyse. Formålet er å bryte de innsamlede dataene i separate " klynger " gruppert etter lignende egenskaper .
Support Vector Machines
Support vektor maskin algoritmer ta inn data og forutsi hvilken av to mulige kategorier som inkluderer inngangsdata . Et eksempel kan være å samle de postnumre i en pool av velgere og prøver å forutsi om en gi velgeren en demokrat eller republikaner.
Apriori Algoritmen
Apriori algoritme sporer vanligvis transaksjonsdata . For eksempel, i en klesbutikk , algoritmen spore hvilke skjorter kundene vanligvis kjøper sammen.
EM algoritmen
Denne algoritmen definerer parametere ved å analysere data og predikerer sannsynligheten for en fremtidig utfall eller tilfeldig hendelse innenfor rammen av dataene. For eksempel kan det EM algoritmen forsøke å forutsi tidspunktet for neste utbrudd av en geysir basert på den tiden data fra tidligere utbrudd .
PageRank-algoritmen
PageRank algoritme er en stiftelse algoritme for søkemotorer . Den rangerer og anslår relevansen av et enkelt stykke data innenfor et større sett av data , for eksempel en enkelt nettside i større sett av alle nettsteder på Internett.
AdaBoost algoritme
Adaboost algoritmen arbeider innenfor andre læring algoritmer som forventer atferd basert på observerte data for å gjøre dem mer følsomme for statistiske uteliggere . Selv om EM -algoritmen kan bli fordreid av en geysir har to utbrudd i mindre enn ett minutt når det vanligvis bryter ut en gang om dagen , ville Adaboost algoritme tweak EM algoritmen er utgang ved å analysere relevansen av avvikende .
K- Nærmeste nabo algoritme
Denne algoritmen gjenkjenner mønstre i data plassering og kollegaer at data med en større identifikator . For eksempel, hvis du ønsket å tildele et postkontor i alle hjem geografiske plassering og hadde data pool av alle hjem geografiske plassering , ville k- nærmeste nabo algoritmen tildele boliger til nærmeste postkontor basert på deres nærhet til hverandre .
Naive Baye
Naive Bayes algoritme spår en identitet utfall basert på data fra kjente observasjoner . For eksempel, hvis en person er g fot seks inches høy og bærer størrelse 14 sko , ville Naive Bayes algoritme forutsi med en viss sannsynlighet for at personen er en mann .
CART algoritme
" KJØP " står for " Klassifisering og Regressiv Tree" analyse. Som beslutningstre analyse , organiserer det data basert på konkurrerende alternativer , for eksempel om en person har overlevd et jordskjelv ? I motsetning til beslutning treet algoritmer , som bare kan klassifisere et utfall eller gi en regresjon - baserte numerisk resultat , kan CART algoritme bruke både til å forutsi sannsynligheten for en hendelse.