Kmeans和DBscan聚类算法比较

Kmeans聚类

算法：

1.确定需要聚成多少个簇，K

2.随机选取K个点，作为初始聚类中心

3.计算每个点到各聚类中心的距离，并将其划归为距离最近的簇

4.重新计算各簇的中心，重复至中心位置不再发生变化

优缺点

1.简单高效，空间、时间复杂度低

2.需要预设K个簇，对初始的聚类中心位置敏感；数据集较大时容易出现局部最优；对离群值敏感；不能解决非凸数据

算法：

对数据集中任一个点P，如果给定半径eps内存在Minpts个点，则这个点作为这个簇的核心，继续对其他点判断是否由点P密度直达，如果是则合并为同一个簇

优缺点：

1.对噪声不敏感，可以聚类任何形状

2.由于是按照给定的参数计算，对于分布不均匀的样本，很容易破坏其自然形态，将稀疏的簇划分成多类，将稠密的簇合并成一类