Kmeans和DBscan聚类算法比较·闲人指数·

Kmeans和DBscan聚类算法比较 导出word


关键词: Kmeans,密度聚类;






Kmeans聚类

算法:

1.确定需要聚成多少个簇,K

2.随机选取K个点,作为初始聚类中心

3.计算每个点到各聚类中心的距离,并将其划归为距离最近的簇

4.重新计算各簇的中心,重复至中心位置不再发生变化

优缺点

1.简单高效,空间、时间复杂度低

2.需要预设K个簇,对初始的聚类中心位置敏感;数据集较大时容易出现局部最优;对离群值敏感;不能解决非凸数据

 

基于密度的聚类(DBSCAN)

算法:

对数据集中任一个点P,如果给定半径eps内存在Minpts个点,则这个点作为这个簇的核心,继续对其他点判断是否由点P密度直达,如果是则合并为同一个簇

优缺点:

1.对噪声不敏感,可以聚类任何形状

2.由于是按照给定的参数计算,对于分布不均匀的样本,很容易破坏其自然形态,将稀疏的簇划分成多类,将稠密的簇合并成一类