kmeans#
- scipy.cluster.vq.kmeans(obs, k_or_guess, iter=20, thresh=1e-05, check_finite=True, *, rng=None)[源代码]#
对一组构成 k 个聚类的观测向量执行 k-均值算法。
k-均值算法调整观测值到聚类的分类,并更新聚类中心,直到中心的位置在连续迭代中稳定下来。在此算法的实现中,中心点的稳定性是通过比较观测值与其对应中心点之间的平均欧氏距离变化的绝对值与阈值来确定的。这将产生一个代码簿,将中心点映射到代码,反之亦然。
- 参数:
- obsndarray
M x N 数组的每一行都是一个观测向量。列是在每次观测期间看到的特征。这些特征必须首先使用
whiten
函数进行白化。- k_or_guessint 或 ndarray
要生成的中心点的数量。每个中心点都分配一个代码,该代码也是生成的 code_book 矩阵中中心点的行索引。
初始的 k 个中心点是通过从观测矩阵中随机选择观测值来选择的。或者,传递一个 k x N 的数组来指定初始的 k 个中心点。
- iterint, 可选
运行 k-均值的次数,返回失真度最低的代码簿。如果使用
k_or_guess
参数的数组指定了初始中心点,则忽略此参数。此参数不代表 k-均值算法的迭代次数。- threshfloat, 可选
如果自上次 k-均值迭代以来的失真变化小于或等于阈值,则终止 k-均值算法。
- check_finitebool, 可选
是否检查输入矩阵是否仅包含有限数字。禁用此选项可能会提高性能,但如果输入包含无穷大或 NaN,可能会导致问题(崩溃、无法终止)。默认值:True
- rng{None, int,
numpy.random.Generator
}, 可选 如果通过关键字传递 rng,则将
numpy.random.Generator
以外的类型传递给numpy.random.default_rng
以实例化一个Generator
。如果 rng 已经是Generator
实例,则使用提供的实例。指定 rng 以实现可重复的函数行为。如果此参数是通过位置传递的,或者 seed 是通过关键字传递的,则应用参数 seed 的旧行为
如果 seed 为 None(或
numpy.random
),则使用numpy.random.RandomState
单例。如果 seed 是一个 int,则使用一个新的
RandomState
实例,并使用 seed 作为种子。如果 seed 已经是
Generator
或RandomState
实例,则使用该实例。
在 1.15.0 版本中更改:作为从使用
numpy.random.RandomState
过渡到numpy.random.Generator
的 SPEC-007 转换的一部分,此关键字已从 seed 更改为 rng。在过渡期间,两个关键字都将继续工作,但一次只能指定一个。在过渡期之后,使用 seed 关键字的函数调用将发出警告。上面概述了 seed 和 rng 的行为,但在新代码中应仅使用 rng 关键字。
- 返回:
- codebookndarray
一个 k x N 的 k 个中心点数组。第 i 个中心点 codebook[i] 用代码 i 表示。生成的中心点和代码表示看到的最低失真,而不一定是全局最小失真。请注意,中心点的数量不一定与
k_or_guess
参数相同,因为在迭代期间会删除未分配给任何观测值的中心点。- distortionfloat
传递的观测值与生成的中心点之间的平均(非平方)欧氏距离。请注意与 k-均值算法上下文中失真标准定义的区别,后者是平方距离之和。
注释
要获得更多功能或最佳性能,可以使用 sklearn.cluster.KMeans。这是几个实现的基准测试结果。
示例
>>> import numpy as np >>> from scipy.cluster.vq import vq, kmeans, whiten >>> import matplotlib.pyplot as plt >>> features = np.array([[ 1.9,2.3], ... [ 1.5,2.5], ... [ 0.8,0.6], ... [ 0.4,1.8], ... [ 0.1,0.1], ... [ 0.2,1.8], ... [ 2.0,0.5], ... [ 0.3,1.5], ... [ 1.0,1.0]]) >>> whitened = whiten(features) >>> book = np.array((whitened[0],whitened[2])) >>> kmeans(whitened,book) (array([[ 2.3110306 , 2.86287398], # random [ 0.93218041, 1.24398691]]), 0.85684700941625547)
>>> codes = 3 >>> kmeans(whitened,codes) (array([[ 2.3110306 , 2.86287398], # random [ 1.32544402, 0.65607529], [ 0.40782893, 2.02786907]]), 0.5196582527686241)
>>> # Create 50 datapoints in two clusters a and b >>> pts = 50 >>> rng = np.random.default_rng() >>> a = rng.multivariate_normal([0, 0], [[4, 1], [1, 4]], size=pts) >>> b = rng.multivariate_normal([30, 10], ... [[10, 2], [2, 1]], ... size=pts) >>> features = np.concatenate((a, b)) >>> # Whiten data >>> whitened = whiten(features) >>> # Find 2 clusters in the data >>> codebook, distortion = kmeans(whitened, 2) >>> # Plot whitened data and cluster centers in red >>> plt.scatter(whitened[:, 0], whitened[:, 1]) >>> plt.scatter(codebook[:, 0], codebook[:, 1], c='r') >>> plt.show()