kstest#
- scipy.stats.kstest(rvs, cdf, args=(), N=20, alternative='two-sided', method='auto', *, axis=0, nan_policy='propagate', keepdims=False)[source]#
执行 (单样本或双样本) Kolmogorov-Smirnov 检验,以评估拟合优度。
单样本检验将样本的基础分布 F(x) 与给定的分布 G(x) 进行比较。双样本检验比较两个独立样本的基础分布。两种检验仅对连续分布有效。
- 参数:
- rvsstr, array_like 或 callable
如果是一个数组,它应该是一个随机变量的 1-D 观测数组。如果是一个可调用对象,它应该是一个生成随机变量的函数;它需要有一个关键字参数 size。如果是一个字符串,它应该是
scipy.stats
中一个分布的名称,它将被用来生成随机变量。- cdfstr, array_like 或 callable
如果 array_like,它应该是一个随机变量的 1-D 观测数组,并执行双样本检验(rvs 必须是 array_like)。 如果是一个可调用对象,该可调用对象用于计算 cdf。如果是一个字符串,它应该是
scipy.stats
中一个分布的名称,它将被用作 cdf 函数。- argstuple, sequence, 可选
分布参数,如果 rvs 或 cdf 是字符串或可调用对象,则使用。
- Nint, 可选
样本大小,如果 rvs 是字符串或可调用对象。默认为 20。
- alternative{‘two-sided’, ‘less’, ‘greater’}, 可选
定义零假设和备择假设。默认为 ‘two-sided’。请参见下面的注释中的解释。
- method{‘auto’, ‘exact’, ‘approx’, ‘asymp’}, 可选
定义用于计算 p 值的分布。以下选项可用(默认为 ‘auto’)
‘auto’:选择其他选项之一。
‘exact’:使用检验统计量的精确分布。
‘approx’:用单侧概率的两倍近似双侧概率
‘asymp’:使用检验统计量的渐近分布
- axisint 或 None, 默认: 0
如果为 int,则为计算统计信息的输入轴。输入的每个轴切片(例如,行)的统计信息将出现在输出的相应元素中。如果为
None
,则在计算统计信息之前将输入展平。- nan_policy{‘propagate’, ‘omit’, ‘raise’}
定义如何处理输入 NaN。
propagate
: 如果在计算统计信息的轴切片(例如,行)中存在 NaN,则输出的相应条目将为 NaN。omit
: 执行计算时将忽略 NaN。如果在计算统计信息的轴切片中剩余的数据不足,则输出的相应条目将为 NaN。raise
: 如果存在 NaN,将引发ValueError
。
- keepdimsbool, 默认: False
如果设置为 True,则缩减的轴将作为大小为 1 的维度保留在结果中。 使用此选项,结果将与输入数组正确广播。
- 返回:
- res: KstestResult
一个包含属性的对象
- statisticfloat
KS 检验统计量,D+、D- 或 D (两者的最大值)
- pvaluefloat
单尾或双尾 p 值。
- statistic_locationfloat
在单样本检验中,这是与 KS 统计量相对应的 rvs 的值;也就是说,经验分布函数和假设的累积分布函数之间的距离是在此观察值处测量的。
在双样本检验中,这是与 KS 统计量相对应的 rvs 或 cdf 的值;也就是说,经验分布函数之间的距离是在此观察值处测量的。
- statistic_signint
在单样本检验中,如果 KS 统计量是经验分布函数和假设的累积分布函数之间的最大正差 (D+),则为 +1;如果 KS 统计量是最大负差 (D-),则为 -1。
在双样本检验中,如果 rvs 的经验分布函数在 statistic_location 处超过 cdf 的经验分布函数,则为 +1,否则为 -1。
注释
可以使用 alternative 参数选择零假设和相应的备择假设的三个选项。
two-sided:零假设是两个分布是相同的,对于所有 x,F(x)=G(x);备择假设是它们不相同。
less:零假设是对于所有 x,F(x) >= G(x);备择假设是对于至少一个 x,F(x) < G(x)。
greater:零假设是对于所有 x,F(x) <= G(x);备择假设是对于至少一个 x,F(x) > G(x)。
请注意,备择假设描述了底层分布的 CDF,而不是观察到的值。 例如,假设 x1 ~ F 且 x2 ~ G。 如果对于所有 x,F(x) > G(x),则 x1 中的值往往小于 x2 中的值。
从 SciPy 1.9 开始,
np.matrix
输入 (不推荐用于新代码) 在执行计算之前转换为np.ndarray
。 在这种情况下,输出将是标量或具有适当形状的np.ndarray
,而不是 2Dnp.matrix
。 类似地,虽然会忽略掩码数组的掩码元素,但输出将是标量或np.ndarray
,而不是mask=False
的掩码数组。示例
假设我们希望检验一个样本是否根据标准正态分布的零假设。我们选择 95% 的置信水平;也就是说,如果 p 值小于 0.05,我们将拒绝零假设,而支持备择假设。
当检验均匀分布的数据时,我们预计零假设将被拒绝。
>>> import numpy as np >>> from scipy import stats >>> rng = np.random.default_rng() >>> stats.kstest(stats.uniform.rvs(size=100, random_state=rng), ... stats.norm.cdf) KstestResult(statistic=0.5001899973268688, pvalue=1.1616392184763533e-23, statistic_location=0.00047625268963724654, statistic_sign=-1)
事实上,p 值低于 0.05 的阈值,因此我们拒绝零假设,而支持默认的“双侧”备择假设:数据不是根据标准正态分布的。
当检验来自标准正态分布的随机变量时,我们预计数据在大多数情况下与零假设一致。
>>> x = stats.norm.rvs(size=100, random_state=rng) >>> stats.kstest(x, stats.norm.cdf) KstestResult(statistic=0.05345882212970396, pvalue=0.9227159037744717, statistic_location=-1.2451343873745018, statistic_sign=1)
正如预期的那样,0.92 的 p 值不低于 0.05 的阈值,因此我们不能拒绝零假设。
但是,假设随机变量根据向较大值移动的正态分布分布。在这种情况下,底层分布的累积密度函数 (CDF) 倾向于小于标准正态的 CDF。因此,我们预计零假设将被
alternative='less'
拒绝>>> x = stats.norm.rvs(size=100, loc=0.5, random_state=rng) >>> stats.kstest(x, stats.norm.cdf, alternative='less') KstestResult(statistic=0.17482387821055168, pvalue=0.001913921057766743, statistic_location=0.3713830565352756, statistic_sign=-1)
实际上,由于 p 值小于我们的阈值,我们拒绝零假设,而支持备择假设。
为方便起见,可以使用分布的名称作为第二个参数来执行先前的检验。
>>> stats.kstest(x, "norm", alternative='less') KstestResult(statistic=0.17482387821055168, pvalue=0.001913921057766743, statistic_location=0.3713830565352756, statistic_sign=-1)
上面的示例都是与
ks_1samp
执行的相同的单样本检验。请注意,kstest
还可以执行与ks_2samp
执行的相同的双样本检验。例如,当从同一分布中抽取两个样本时,我们预计数据在大多数情况下与零假设一致。>>> sample1 = stats.laplace.rvs(size=105, random_state=rng) >>> sample2 = stats.laplace.rvs(size=95, random_state=rng) >>> stats.kstest(sample1, sample2) KstestResult(statistic=0.11779448621553884, pvalue=0.4494256912629795, statistic_location=0.6138814275424155, statistic_sign=1)
正如预期的那样,0.45 的 p 值不低于 0.05 的阈值,因此我们不能拒绝零假设。