power_divergence#
- scipy.stats.power_divergence(f_obs, f_exp=None, ddof=0, axis=0, lambda_=None, *, nan_policy='propagate', keepdims=False)[source]#
Cressie-Read 幂散度统计量和拟合优度检验。
此函数使用 Cressie-Read 幂散度统计量检验分类数据是否具有给定频率的零假设。
- 参数:
- f_obsarray_like
每个类别中的观测频率。
- f_exparray_like, optional
每个类别中的预期频率。默认情况下,假定各个类别具有相同的可能性。
- ddofint, optional
“Delta 自由度”:对 p 值的自由度进行调整。p 值是使用卡方分布计算的,自由度为
k - 1 - ddof
,其中 k 是观测频率的数量。ddof 的默认值为 0。- axisint 或 None,默认值:0
如果为 int,则为计算统计量的输入轴。输入的每个轴切片(例如行)的统计量将显示在输出的相应元素中。如果为
None
,则将在计算统计量之前将输入展平。- lambda_float 或 str,optional
Cressie-Read 幂散度统计量中的幂。默认值为 1。为了方便起见,可以将 lambda_ 分配给以下字符串之一,在这种情况下,将使用相应的数值
- nan_policy{‘propagate’, ‘omit’, ‘raise’}
定义如何处理输入 NaN。
propagate
:如果计算统计量的轴切片(例如行)中存在 NaN,则输出的相应条目将为 NaN。omit
:执行计算时将忽略 NaN。如果计算统计量的轴切片中剩余的数据不足,则输出的相应条目将为 NaN。raise
:如果存在 NaN,将引发ValueError
。
- keepdimsbool,默认值:False
如果将其设置为 True,则减少的轴将保留在结果中,作为大小为 1 的维度。使用此选项,结果将针对输入数组正确广播。
- 返回:
- res: Power_divergenceResult
包含属性的对象
- statisticfloat 或 ndarray
Cressie-Read 幂散度检验统计量。如果 axis 为 None 或者 ` f_obs 和 f_exp 为 1-D,则该值为 float。
- pvaluefloat 或 ndarray
检验的 p 值。如果 ddof 和返回值
stat
为标量,则该值为 float。
另请参阅
注释
当每个类别中的观测频率或预期频率太小时,此检验无效。一个典型的规则是,所有观测频率和预期频率应至少为 5。
此外,观测频率和预期频率之和必须相同,检验才能有效;如果总和在
eps**0.5
的相对容差范围内不一致,则power_divergence
会引发错误,其中eps
是输入 dtype 的精度。当 lambda_ 小于零时,统计量的公式涉及除以 f_obs,因此如果 f_obs 中的任何值为 0,则可能会生成警告或错误。
同样,如果 lambda_ >= 0 时 f_exp 中的任何值为零,则可能会生成警告或错误。
默认的自由度 k-1 用于不估计分布的任何参数的情况。如果通过有效的最大似然估计 p 个参数,则正确的自由度为 k-1-p。如果以不同的方式估计参数,则自由度可以在 k-1-p 和 k-1 之间。但是,渐近分布也可能不是卡方分布,在这种情况下,此检验不适用。
从 SciPy 1.9 开始,在执行计算之前,
np.matrix
输入(不建议用于新代码)将转换为np.ndarray
。在这种情况下,输出将是标量或具有适当形状的np.ndarray
,而不是 2Dnp.matrix
。同样,虽然会忽略掩码数组的掩码元素,但输出将是标量或np.ndarray
,而不是mask=False
的掩码数组。除了 NumPy 之外,
power_divergence
还实验性地支持 Python Array API Standard 兼容后端。请考虑通过设置环境变量SCIPY_ARRAY_API=1
并提供 CuPy、PyTorch、JAX 或 Dask 数组作为数组参数来测试这些功能。支持以下后端和设备(或其他功能)的组合。库
CPU
GPU
NumPy
✅
n/a
CuPy
n/a
✅
PyTorch
✅
✅
JAX
⚠️ 没有 JIT
⚠️ 没有 JIT
Dask
⚠️ 计算图
n/a
有关更多信息,请参阅 对数组 API 标准的支持。
参考文献
[1]Lowry, Richard. “Concepts and Applications of Inferential Statistics”. Chapter 8. https://web.archive.org/web/20171015035606/http://faculty.vassar.edu/lowry/ch8pt1.html
[2]“Chi-squared test”, https://en.wikipedia.org/wiki/Chi-squared_test
[3]“G-test”, https://en.wikipedia.org/wiki/G-test
[4]Sokal, R. R. and Rohlf, F. J. “Biometry: the principles and practice of statistics in biological research”, New York: Freeman (1981)
[5]Cressie, N. and Read, T. R. C., “Multinomial Goodness-of-Fit Tests”, J. Royal Stat. Soc. Series B, Vol. 46, No. 3 (1984), pp. 440-464.
示例
(有关更多示例,请参阅
chisquare
。)当仅给出 f_obs 时,假定预期频率是均匀的,并由观测频率的平均值给出。这里我们执行 G 检验(即使用对数似然比统计量)
>>> import numpy as np >>> from scipy.stats import power_divergence >>> power_divergence([16, 18, 16, 14, 12, 12], lambda_='log-likelihood') (2.006573162632538, 0.84823476779463769)
可以使用 f_exp 参数给出预期频率
>>> power_divergence([16, 18, 16, 14, 12, 12], ... f_exp=[16, 16, 16, 16, 16, 8], ... lambda_='log-likelihood') (3.3281031458963746, 0.6495419288047497)
当 f_obs 是 2-D 时,默认情况下,检验应用于每一列。
>>> obs = np.array([[16, 18, 16, 14, 12, 12], [32, 24, 16, 28, 20, 24]]).T >>> obs.shape (6, 2) >>> power_divergence(obs, lambda_="log-likelihood") (array([ 2.00657316, 6.77634498]), array([ 0.84823477, 0.23781225]))
通过设置
axis=None
,检验应用于数组中的所有数据,这等效于将检验应用于展平的数组。>>> power_divergence(obs, axis=None) (23.31034482758621, 0.015975692534127565) >>> power_divergence(obs.ravel()) (23.31034482758621, 0.015975692534127565)
ddof 是对默认自由度所做的更改。
>>> power_divergence([16, 18, 16, 14, 12, 12], ddof=1) (2.0, 0.73575888234288467)
p 值的计算是通过将检验统计量与 ddof 进行广播来完成的。
>>> power_divergence([16, 18, 16, 14, 12, 12], ddof=[0,1,2]) (2.0, array([ 0.84914504, 0.73575888, 0.5724067 ]))
f_obs 和 f_exp 也会被广播。在以下示例中,f_obs 的形状为 (6,),f_exp 的形状为 (2, 6),因此广播 f_obs 和 f_exp 的结果形状为 (2, 6)。要计算所需的卡方统计量,我们必须使用
axis=1
>>> power_divergence([16, 18, 16, 14, 12, 12], ... f_exp=[[16, 16, 16, 16, 16, 8], ... [8, 20, 20, 16, 12, 12]], ... axis=1) (array([ 3.5 , 9.25]), array([ 0.62338763, 0.09949846]))