klynger er en maskin læring teknikk opererer ved å gruppere lignende data sammen. Clustering er en type uten tilsyn maskinlæring . Algoritmen trenger ikke å være " opplært" og kan gruppere data i sammenhengende grupper med ut en " forutinntatte " oppfatningen av hva som hører sammen. Dette skiller seg fra tilsyn maskinlæring systemer som må være "opplært " til å merke data på riktig måte . Clustering brukes hovedsakelig som en datamaskin mønstergjenkjenning mekanisme . Generative eller Sannsynlighet Basert Algoritmer
generativ eller sannsynlighet baserte clustering algoritmer forsøke å klassifisere datasett som en slags kjent distribusjon, en felles gruppering av numeriske data . Denne type algoritme kan bare brukes på numeriske data. Generative algoritmer kommer med flere begrensninger . Problemet kan være uløselige om data er tillates å variere altfor fritt. Generative algoritmer også anta at data bærer en kjent fordeling , som ikke alltid er sant. Disse typer algoritmer også tar ikke hensyn til "støy" i dataene.
K- betyr klynger
K- midler clustering var en av de første clustering metoder for å skal utvikles. Den er enkel å gjennomføre, men det har den ulempen av å være ekstremt følsom for utgangs -innganger . K- betyr clustering virker ved å dele dataene inn i en tilfeldig sett av klynger , og deretter ny beregning midtpunktene av hver terminalgruppe , og gjenta prosessen inntil det bare er en klynge . Dette er kjent som konvergens .
Fuzzy klynger
stedet for å identifisere data som tilhører bestemte grupper , fuzzy clustering forsøker å identifisere i hvilken grad en data punkt tilhører en gruppe . Algoritmene som benyttes for å gjøre fuzzy gruppering er kjent som « C -betyr algoritmer. " I det krusete clustering tilnærming kan et datapunkt tilhøre mer enn én gruppe. Denne typen clustering er nyttig når datapunkter må tilhøre mer enn én gruppe .
Agglomerative klynger
Agglomerative clustering var en av de første clustering algoritmer for å være utvikles. Det gjenstår i bruk , så det er også en av de enkleste algoritmer utviklet til dags dato . Agglomerative clustering fungerer ved å behandle hvert enkelt datapunkt som en klynge og gruppere den med mest lik datapunkt. Denne prosessen gjentas inntil data " konvergerer ", eller det er en stor klynge som inneholder alle dataene . Prosessen kan også utføres i omvendt rekkefølge til den samme virkning . Starter med en klynge , kan alle data være gjentatte ganger fordelt til hvert datapunkt er sin egen klynge .