Clustering er organisering av datapunkter i klynger, der datapunkter i en klynge ligner mer på hverandre enn datapunkter i andre klynger. Den generelle ideen bak klynging er at lignende dataelementer bør grupperes sammen. Dataclustering er uovervåket læring, noe som betyr at den ikke krever merkede data.
Clustering kan være fordelaktig for å forstå strukturen til et datasett, finne likheter mellom dataelementer, identifisere uteliggere og redusere dimensjonaliteten til data. Det er ofte brukt på forskjellige områder som maskinlæring, datautvinning, bioinformatikk og bildebehandling.
Trinn:
1. Dataklargjøring
2. Velge et avstandsmål
3. Velge antall klynger
4. Klynger
5. Evaluering av klyngingen