scipy.stats.mstats.

chisquare#

scipy.stats.mstats.chisquare(f_obs, f_exp=None, ddof=0, axis=0, *, sum_check=True, nan_policy='propagate', keepdims=False)[source]#

执行皮尔逊卡方检验。

皮尔逊卡方检验[1]是具有给定概率的多项分布的拟合优度检验；也就是说，它评估了零假设，即观察到的频率（计数）是通过从具有给定预期频率的分类分布中独立抽样N个观测值获得的。

参数:

f_obsarray_like

每个类别中观察到的频率。

f_exparray_like, optional

每个类别中预期的频率。默认情况下，假定这些类别具有相同的可能性。

ddofint, optional

“自由度增量”：对 p 值的自由度的调整。p 值是使用自由度为 k - 1 - ddof 的卡方分布计算的，其中 k 是类别的数量。 ddof 的默认值为 0。

axisint or None, default: 0

如果为 int，则为计算统计量的输入轴。输入的每个轴切片（例如，行）的统计量将显示在输出的相应元素中。如果为 None，则输入将在计算统计量之前被展平。

sum_checkbool, optional

是否执行检查，即 sum(f_obs) - sum(f_exp) == 0。如果为 True（默认），则当相对差异超过数据类型精度的平方根时引发错误。有关基本原理和可能的例外情况，请参见注释。

nan_policy{‘propagate’, ‘omit’, ‘raise’}

定义如何处理输入 NaN。

propagate：如果轴切片（例如，行）中存在 NaN，则将沿该轴计算统计量，则输出的相应条目将为 NaN。
omit：执行计算时将省略 NaN。如果在沿其计算统计量的轴切片中剩余的数据不足，则输出的相应条目将为 NaN。
raise：如果存在 NaN，则将引发 ValueError。

keepdimsbool, default: False

如果将其设置为 True，则会将减少的轴保留在结果中，作为大小为 1 的维度。使用此选项，结果将针对输入数组正确广播。

返回值:

res: Power_divergenceResult

一个包含属性的对象

statisticfloat 或 ndarray: 卡方检验统计量。如果 axis 为 None 或 f_obs 和 f_exp 为 1-D，则该值为 float。
pvaluefloat 或 ndarray: 检验的 p 值。如果 ddof 和结果属性 statistic 是标量，则该值为 float。

参见

scipy.stats.power_divergence
scipy.stats.fisher_exact: 对 2x2 列联表进行 Fisher 精确检验。
scipy.stats.barnard_exact: 无条件精确检验。小样本量的卡方检验的替代方法。
卡方检验: 扩展示例

注释

当每个类别中观察到的或预期的频率太小时，此检验无效。一个典型的规则是，所有观察到的和预期的频率都应至少为 5。根据[2]，建议观测总数大于 13，否则应使用精确检验（如 Barnard 的精确检验），因为它们不会过度拒绝。

默认自由度 k-1 适用于不估计分布的任何参数的情况。如果通过有效的最大似然估计估计 p 个参数，则正确的自由度为 k-1-p。如果以不同的方式估计参数，则自由度可以在 k-1-p 和 k-1 之间。但是，渐近分布也可能不是卡方分布，在这种情况下，此检验不适用。

对于皮尔逊卡方检验，观察到的总数和预期计数必须匹配，p 值才能准确反映在零假设下观察到如此极端统计量值的概率。此函数可用于执行其他统计检验，这些检验不需要总计数相等。例如，要检验 f_obs[i] 是泊松分布且期望值为 f_exp[i] 的零假设，请设置 ddof=-1 和 sum_check=False。此检验源于以下事实：均值和方差为 f_exp[i] 的泊松随机变量近似于具有相同均值和方差的正态分布；卡方统计量对观测值进行标准化、平方和求和；并且 n 个平方标准正态变量之和遵循自由度为 n 的卡方分布。

从 SciPy 1.9 开始，np.matrix 输入（不建议用于新代码）在执行计算之前会转换为 np.ndarray。在这种情况下，输出将是标量或具有适当形状的 np.ndarray，而不是 2D np.matrix。同样，虽然掩码数组的掩码元素会被忽略，但输出将是标量或 np.ndarray，而不是 mask=False 的掩码数组。

chisquare 除了 NumPy 之外，还对 Python Array API Standard 兼容后端具有实验性支持。请考虑通过设置环境变量 SCIPY_ARRAY_API=1 并提供 CuPy、PyTorch、JAX 或 Dask 数组作为数组参数来测试这些功能。支持以下后端和设备（或其他功能）的组合。

库	CPU	GPU
NumPy	✅	n/a
CuPy	n/a	✅
PyTorch	✅	✅
JAX	⚠️ 无 JIT	⚠️ 无 JIT
Dask	⚠️ 计算图	n/a

有关更多信息，请参见对数组 API 标准的支持。

参考

[1]

“皮尔逊卡方检验”。维基百科。https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test

[2]

Pearson, Karl. “论相关变量系统中，给定系统与概率偏差的标准是，可以合理地认为它是由随机抽样引起的”，Philosophical Magazine。第 5 辑。50 (1900), pp. 157-175。

示例

仅给出强制性 f_obs 参数时，假定预期频率是一致的，并由观察到的频率的平均值给出

>>> import numpy as np
>>> from scipy.stats import chisquare
>>> chisquare([16, 18, 16, 14, 12, 12])
Power_divergenceResult(statistic=2.0, pvalue=0.84914503608460956)

可选的 f_exp 参数给出预期频率。

>>> chisquare([16, 18, 16, 14, 12, 12], f_exp=[16, 16, 16, 16, 16, 8])
Power_divergenceResult(statistic=3.5, pvalue=0.62338762774958223)

当 f_obs 为 2-D 时，默认情况下，检验应用于每列。

>>> obs = np.array([[16, 18, 16, 14, 12, 12], [32, 24, 16, 28, 20, 24]]).T
>>> obs.shape
(6, 2)
>>> chisquare(obs)
Power_divergenceResult(statistic=array([2.        , 6.66666667]), pvalue=array([0.84914504, 0.24663415]))

通过设置 axis=None，检验应用于数组中的所有数据，这相当于将检验应用于展平的数组。

>>> chisquare(obs, axis=None)
Power_divergenceResult(statistic=23.31034482758621, pvalue=0.015975692534127565)
>>> chisquare(obs.ravel())
Power_divergenceResult(statistic=23.310344827586206, pvalue=0.01597569253412758)

ddof 是对默认自由度进行的更改。

>>> chisquare([16, 18, 16, 14, 12, 12], ddof=1)
Power_divergenceResult(statistic=2.0, pvalue=0.7357588823428847)

p 值的计算是通过将卡方统计量与 ddof 广播完成的。

>>> chisquare([16, 18, 16, 14, 12, 12], ddof=[0, 1, 2])
Power_divergenceResult(statistic=2.0, pvalue=array([0.84914504, 0.73575888, 0.5724067 ]))

f_obs 和 f_exp 也会被广播。在以下示例中，f_obs 的形状为 (6,)，f_exp 的形状为 (2, 6)，因此广播 f_obs 和 f_exp 的结果的形状为 (2, 6)。为了计算所需的卡方统计量，我们使用 axis=1

>>> chisquare([16, 18, 16, 14, 12, 12],
...           f_exp=[[16, 16, 16, 16, 16, 8], [8, 20, 20, 16, 12, 12]],
...           axis=1)
Power_divergenceResult(statistic=array([3.5 , 9.25]), pvalue=array([0.62338763, 0.09949846]))

有关更详细的示例，请参见卡方检验。