scipy.stats.

ks_1samp#

scipy.stats.ks_1samp(x, cdf, args=(), alternative='two-sided', method='auto', *, axis=0, nan_policy='propagate', keepdims=False)[源代码]#

执行单样本 Kolmogorov-Smirnov 拟合优度检验。

此检验将样本的潜在分布 F(x) 与给定的连续分布 G(x) 进行比较。有关可用原假设和备择假设的描述，请参见注释。

参数:

xarray_like

iid 随机变量的 1-D 观测值数组。

cdfcallable

用于计算 cdf 的可调用对象。

argstuple, sequence, optional

分布参数，与 cdf 一起使用。

alternative{‘two-sided’, ‘less’, ‘greater’}, optional

定义原假设和备择假设。默认为“two-sided”。请参见下面的注释中的说明。

method{‘auto’, ‘exact’, ‘approx’, ‘asymp’}, optional

定义用于计算 p 值的分布。以下选项可用（默认为“auto”）

‘auto’：选择其他选项之一。

‘exact’：使用检验统计量的精确分布。

‘approx’：用单侧概率的两倍来近似双侧概率

‘asymp’：使用检验统计量的渐近分布

axisint 或 None，默认值：0

如果为 int，则为沿其计算统计量的输入的轴。输入的每个轴切片（例如，行）的统计量将显示在输出的相应元素中。如果为 None，则将在计算统计量之前将输入展平。

nan_policy{‘propagate’, ‘omit’, ‘raise’}

定义如何处理输入 NaN。

propagate: 如果存在 NaN 在统计计算轴切片（例如，行）中，输出中相对应的条目将会是 NaN。
omit：在执行计算时将省略 NaN。如果在计算统计量的轴切片中数据量不足，则输出中相对应的条目将会是 NaN。
raise: 如果存在 NaN，会抛出一个 ValueError 异常。

keepdimsbool，默认值：False

如果设置为 True，则减小的轴将保留在结果中，作为大小为 1 的维度。使用此选项，结果将正确地广播到输入数组。

返回值:

res：KstestResult

包含属性的对象

statisticfloat: KS 检验统计量，D+、D- 或 D（两者中的最大值）
pvaluefloat: 单尾或双尾 p 值。
statistic_locationfloat: 与 KS 统计量对应的 x 的值；即，经验分布函数和假设的累积分布函数之间的距离在此观测值处测量。
statistic_signint: 如果 KS 统计量是经验分布函数和假设的累积分布函数之间的最大正差 (D+)，则为 +1；如果 KS 统计量是最大负差 (D-)，则为 -1。

另请参见

ks_2samp, kstest

注释

可以使用 alternative 参数选择原假设和相应备择假设的三个选项。

two-sided：原假设是两个分布相同，对于所有 x，F(x)=G(x)；备择假设是它们不相同。
less：原假设是对于所有 x，F(x) >= G(x)；备择假设是对于至少一个 x，F(x) < G(x)。
greater：原假设是对于所有 x，F(x) <= G(x)；备择假设是对于至少一个 x，F(x) > G(x)。

请注意，备择假设描述了底层分布的 *CDF*，而不是观测值。例如，假设 x1 ~ F 且 x2 ~ G。如果对于所有 x，F(x) > G(x)，则 x1 中的值往往小于 x2 中的值。

从 SciPy 1.9 开始，在执行计算之前，np.matrix 输入（不建议用于新代码）将转换为 np.ndarray。在这种情况下，输出将是标量或具有适当形状的 np.ndarray，而不是 2D np.matrix。同样，虽然会忽略掩码数组的掩码元素，但输出将是标量或 np.ndarray，而不是 mask=False 的掩码数组。

示例

假设我们希望检验样本是否根据标准正态分布的零假设。我们选择 95% 的置信水平；也就是说，如果 p 值小于 0.05，我们将拒绝零假设，而支持备择假设。

在测试均匀分布的数据时，我们预计零假设会被拒绝。

>>> import numpy as np
>>> from scipy import stats
>>> rng = np.random.default_rng()
>>> stats.ks_1samp(stats.uniform.rvs(size=100, random_state=rng),
...                stats.norm.cdf)
KstestResult(statistic=0.5001899973268688,
             pvalue=1.1616392184763533e-23,
             statistic_location=0.00047625268963724654,
             statistic_sign=-1)

实际上，p 值低于我们的 0.05 阈值，因此我们拒绝零假设，而支持默认的“双侧”备择假设：数据 *不是* 根据标准正态分布的。

在测试来自标准正态分布的随机变量时，我们希望数据在大多数时间与零假设一致。

>>> x = stats.norm.rvs(size=100, random_state=rng)
>>> stats.ks_1samp(x, stats.norm.cdf)
KstestResult(statistic=0.05345882212970396,
             pvalue=0.9227159037744717,
             statistic_location=-1.2451343873745018,
             statistic_sign=1)

正如预期的那样，0.92 的 p 值不低于我们的 0.05 阈值，因此我们无法拒绝零假设。

但是，假设随机变量根据向较大值移动的正态分布分布。在这种情况下，底层分布的累积密度函数 (CDF) 往往 *小于* 标准正态分布的 CDF。因此，我们希望使用 alternative='less' 拒绝零假设

>>> x = stats.norm.rvs(size=100, loc=0.5, random_state=rng)
>>> stats.ks_1samp(x, stats.norm.cdf, alternative='less')
KstestResult(statistic=0.17482387821055168,
             pvalue=0.001913921057766743,
             statistic_location=0.3713830565352756,
             statistic_sign=-1)

事实上，p 值小于我们的阈值，我们拒绝零假设，而支持备择假设。