scipy.stats.

anderson_ksamp#

scipy.stats.anderson_ksamp(samples, midrank=True, *, method=None)[source]#

用于 k 个样本的 Anderson-Darling 检验。

k 样本 Anderson-Darling 检验是单样本 Anderson-Darling 检验的修改版。它检验 k 个样本是否来自同一总体的零假设，而无需指定该总体的分布函数。临界值取决于样本的数量。

参数:

samples一维类数组序列: 数组中的样本数据数组。
midrankbool, 可选: 计算的 Anderson-Darling 检验的类型。默认 (True) 是适用于连续和离散总体的 midrank 检验。如果为 False，则使用右侧经验分布。
methodPermutationMethod, 可选: 定义用于计算 p 值的算法。如果 method 是 PermutationMethod 的一个实例，则使用 scipy.stats.permutation_test 以及提供的配置选项和其他合适的设置来计算 p 值。否则，p 值将从列表值中插值得到。

返回:

resAnderson_ksampResult

一个包含以下属性的对象

statisticfloat: 标准化 k 样本 Anderson-Darling 检验统计量。
critical_valuesarray: 显著性水平为 25%、10%、5%、2.5%、1%、0.5%、0.1% 的临界值。
pvaluefloat: 检验的近似 p 值。如果未提供 method，则该值将向下取整/上限设置为 0.1%/25%。

引发:

ValueError: 如果提供的样本少于 2 个、样本为空或样本中没有不同的观测值。

参见

ks_2samp: 2 样本 Kolmogorov-Smirnov 检验
anderson: 1 样本 Anderson-Darling 检验

注释

[1] 定义了 k 样本 Anderson-Darling 检验的三个版本：一个用于连续分布，两个用于离散分布，其中样本之间可能发生关联。此例程的默认值是计算基于 midrank 经验分布函数的版本。此测试适用于连续和离散数据。如果 midrank 设置为 False，则右侧经验分布用于离散数据的测试。根据 [1]，如果未针对样本之间的关联进行调整的检验中由于舍入误差而发生一些冲突，则两个离散检验统计量仅略有不同。

与从 0.01 到 0.25 的显著性水平相对应的临界值取自 [1]。 p 值向下取整/上限设置为 0.1%/25%。由于临界值的范围可能会在未来的版本中扩展，因此建议不要测试 p == 0.25，而是 p >= 0.25 （下限类似）。

版本 0.14.0 中新增。

参考文献

[1] (1,2,3)

Scholz, F. W and Stephens, M. A. (1987), K-Sample Anderson-Darling Tests, Journal of the American Statistical Association, Vol. 82, pp. 918-924.

示例

>>> import numpy as np
>>> from scipy import stats
>>> rng = np.random.default_rng()
>>> res = stats.anderson_ksamp([rng.normal(size=50),
... rng.normal(loc=0.5, size=30)])
>>> res.statistic, res.pvalue
(1.974403288713695, 0.04991293614572478)
>>> res.critical_values
array([0.325, 1.226, 1.961, 2.718, 3.752, 4.592, 6.546])

可以以 5% 的水平拒绝两个随机样本来自同一分布的零假设，因为返回的检验值大于 5% 的临界值 (1.961)，但不能以 2.5% 的水平拒绝。插值给出的近似 p 值为 4.99%。

>>> samples = [rng.normal(size=50), rng.normal(size=30),
...            rng.normal(size=20)]
>>> res = stats.anderson_ksamp(samples)
>>> res.statistic, res.pvalue
(-0.29103725200789504, 0.25)
>>> res.critical_values
array([ 0.44925884,  1.3052767 ,  1.9434184 ,  2.57696569,  3.41634856,
  4.07210043, 5.56419101])

对于来自相同分布的三个样本，不能拒绝零假设。报告的 p 值 (25%) 已被限制，可能不是很准确（因为它对应于值 0.449，而统计量为 -0.291）。

在 p 值被限制或样本大小较小的情况下，置换检验可能更准确。

>>> method = stats.PermutationMethod(n_resamples=9999, random_state=rng)
>>> res = stats.anderson_ksamp(samples, method=method)
>>> res.pvalue
0.5254