chisquare#
- scipy.stats.chisquare(f_obs, f_exp=None, ddof=0, axis=0, *, sum_check=True, nan_policy='propagate', keepdims=False)[源代码]#
执行皮尔逊卡方检验。
皮尔逊卡方检验 [1] 是一种用于具有给定概率的多项分布的拟合优度检验;也就是说,它评估了零假设:观察到的频率(计数)是通过从具有给定期望频率的分类分布中独立采样N个观测值获得的。
- 参数:
- f_obsarray_like
每个类别的观察到的频率。
- f_exparray_like, 可选
每个类别的期望频率。默认情况下,假定类别是等可能的。
- ddofint, 可选
“Delta 自由度”:对 p 值的自由度的调整。p 值是使用自由度为
k - 1 - ddof
的卡方分布计算的,其中k
是类别的数量。ddof 的默认值为 0。- axisint 或 None,默认值:0
如果为 int,则为沿其计算统计量的输入的轴。输入的每个轴切片(例如,行)的统计量将出现在输出的相应元素中。如果为
None
,则在计算统计量之前,输入将被展平。- sum_checkbool,可选
是否执行检查
sum(f_obs) - sum(f_exp) == 0
。如果为 True(默认值),则当相对差异超过数据类型精度的平方根时引发错误。有关基本原理和可能的例外情况,请参见“注释”。- nan_policy{‘propagate’, ‘omit’, ‘raise’}
定义如何处理输入 NaN。
propagate
:如果存在 NaN 沿着计算统计量的轴切片(例如,行),则输出的相应条目将为 NaN。omit
:执行计算时将省略 NaN。如果沿着计算统计量的轴切片中剩余的数据不足,则输出的相应条目将为 NaN。raise
:如果存在 NaN,将引发ValueError
。
- keepdimsbool,默认值:False
如果将其设置为 True,则缩减的轴将保留在结果中,作为大小为 1 的维度。使用此选项,结果将正确地广播到输入数组中。
- 返回:
- res: Power_divergenceResult
一个包含属性的对象
- statisticfloat 或 ndarray
卡方检验统计量。如果 axis 为 None 或 f_obs 和 f_exp 为 1-D,则该值为 float。
- pvaluefloat 或 ndarray
检验的 p 值。如果 ddof 和结果属性 statistic 为标量,则该值为 float。
参见
scipy.stats.power_divergence
scipy.stats.fisher_exact
在 2x2 列联表上进行费舍尔精确检验。
scipy.stats.barnard_exact
无条件精确检验。小样本量的卡方检验的替代方法。
- 卡方检验
扩展示例
注释
当每个类别中的观察到的或期望的频率太小时,此检验无效。一个典型的规则是,所有观察到的和期望的频率都应至少为 5。根据 [2],建议观测值的总数大于 13,否则应使用精确检验(例如巴纳德精确检验),因为它们不会过度拒绝。
默认自由度 k-1 适用于未估计分布参数的情况。如果通过有效的最大似然估计了 p 个参数,则正确的自由度为 k-1-p。如果以不同的方式估计参数,则自由度可以在 k-1-p 和 k-1 之间。但是,渐近分布也可能不是卡方分布,在这种情况下,此检验不适用。
对于皮尔逊卡方检验,观察到的总计数和期望的总计数必须匹配,p 值才能准确反映在零假设下观察到如此极端的统计量值的概率。此函数可用于执行其他不需要总计数相等的统计检验。例如,要检验零假设:
f_obs[i]
是泊松分布,期望值为f_exp[i]
,请设置ddof=-1
和sum_check=False
。此检验源于以下事实:均值和方差为f_exp[i]
的泊松随机变量近似于具有相同均值和方差的正态分布;卡方统计量标准化、平方和求和观测值;并且n
个平方标准正态变量之和遵循自由度为n
的卡方分布。从 SciPy 1.9 开始,
np.matrix
输入(不建议用于新代码)在执行计算之前会转换为np.ndarray
。在这种情况下,输出将是标量或具有适当形状的np.ndarray
,而不是 2Dnp.matrix
。同样,虽然会忽略屏蔽数组的屏蔽元素,但输出将是标量或np.ndarray
,而不是具有mask=False
的屏蔽数组。chisquare
除了 NumPy 之外,还对 Python 数组 API 标准兼容后端提供实验性支持。请考虑通过设置环境变量SCIPY_ARRAY_API=1
并提供 CuPy、PyTorch、JAX 或 Dask 数组作为数组参数来测试这些功能。支持以下后端和设备(或其他功能)的组合。库
CPU
GPU
NumPy
✅
不适用
CuPy
不适用
✅
PyTorch
✅
✅
JAX
⚠️ 没有 JIT
⚠️ 没有 JIT
Dask
⚠️ 计算图
不适用
有关更多信息,请参见对数组 API 标准的支持。
参考文献
[1]“皮尔逊卡方检验”。维基百科。 https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test
[2]Pearson, Karl. “关于在相关变量系统中,给定的与概率偏差的系统可以合理地认为是由随机抽样引起的标准”, Philosophical Magazine. Series 5. 50 (1900), pp. 157-175.
示例
当仅给出强制性的 f_obs 参数时,假定期望的频率是均匀的,并且由观察到的频率的平均值给出
>>> import numpy as np >>> from scipy.stats import chisquare >>> chisquare([16, 18, 16, 14, 12, 12]) Power_divergenceResult(statistic=2.0, pvalue=0.84914503608460956)
可选的 f_exp 参数给出期望的频率。
>>> chisquare([16, 18, 16, 14, 12, 12], f_exp=[16, 16, 16, 16, 16, 8]) Power_divergenceResult(statistic=3.5, pvalue=0.62338762774958223)
当 f_obs 为 2-D 时,默认情况下,检验应用于每一列。
>>> obs = np.array([[16, 18, 16, 14, 12, 12], [32, 24, 16, 28, 20, 24]]).T >>> obs.shape (6, 2) >>> chisquare(obs) Power_divergenceResult(statistic=array([2. , 6.66666667]), pvalue=array([0.84914504, 0.24663415]))
通过设置
axis=None
,检验将应用于数组中的所有数据,这等效于将检验应用于展平的数组。>>> chisquare(obs, axis=None) Power_divergenceResult(statistic=23.31034482758621, pvalue=0.015975692534127565) >>> chisquare(obs.ravel()) Power_divergenceResult(statistic=23.310344827586206, pvalue=0.01597569253412758)
ddof 是对默认自由度所做的更改。
>>> chisquare([16, 18, 16, 14, 12, 12], ddof=1) Power_divergenceResult(statistic=2.0, pvalue=0.7357588823428847)
p 值的计算是通过将卡方统计量与 ddof 广播来完成的。
>>> chisquare([16, 18, 16, 14, 12, 12], ddof=[0, 1, 2]) Power_divergenceResult(statistic=2.0, pvalue=array([0.84914504, 0.73575888, 0.5724067 ]))
f_obs 和 f_exp 也会被广播。在以下示例中,f_obs 的形状为 (6,),f_exp 的形状为 (2, 6),因此广播 f_obs 和 f_exp 的结果的形状为 (2, 6)。为了计算所需的卡方统计量,我们使用
axis=1
>>> chisquare([16, 18, 16, 14, 12, 12], ... f_exp=[[16, 16, 16, 16, 16, 8], [8, 20, 20, 16, 12, 12]], ... axis=1) Power_divergenceResult(statistic=array([3.5 , 9.25]), pvalue=array([0.62338763, 0.09949846]))
有关更详细的示例,请参见卡方检验。