f_oneway#
- scipy.stats.f_oneway(*samples, axis=0, nan_policy='propagate', keepdims=False)[source]#
执行单项方差分析。
单项方差分析检验两个或多个组具有相同总体均值的原假设。该检验应用于来自两个或多个组的样本,组的规模可能不同。
- 参数:
- sample1, sample2, …array_like
每个组的样本测量值。至少需要两个参数。如果数组是多维的,那么该数组的所有维度都必须相同,axis 除外。
- axisint 或 None,默认值:0
如果为 int,则沿其计算统计量的输入轴。输入的每个轴分片(例如行)的统计量将出现在输出的相应元素中。如果
None
,则在计算统计量之前,输入将被拉平。- nan_policy{‘propagate’, ‘omit’, ‘raise’}
定义如何处理输入 NaN。
propagate
:如果在计算统计值时,某个轴分片(例如一行)中存在 NaN,相应的输出项将为 NaN。omit
:在计算时,将省略 NaN。如果在计算统计值时轴分片中留存的数据不足,相应的输出项将为 NaN。raise
:如果存在 NaN,将引发ValueError
。
- keepdimsbool,默认值:False
如果将此项设为 True,则进行约减后的轴将作为维度留存在结果中,其大小为 1。利用此选项,结果将针对输入数组正确地进行广播。
- 返回:
- statisticfloat
测试的计算后的 F 统计量。
- pvaluefloat
F 分布中的关联 p 值。
- 警告:
ConstantInputWarning
如果每个输入数组中的所有值均相同,则会触发此警告。在这种情况下,F 统计量要么为无穷大,要么未定义,因此将返回
np.inf
或np.nan
。- RuntimeWarning
如果任何输入数组的长度为 0,或如果所有输入数组的长度均为 1,则会触发此警告。在这些情况下,F 统计量和 p 值将返回
np.nan
。
注意事项
ANOVA 检验具有重要假设,必须满足这些假设,关联 p 值才能有效。
样本相互独立。
每个样本来自正态分布的总体。
各个组的总体标准差均相等。此特性称为方差齐性。
如果这些假设不符合给定的数据集,仍可使用
scipy.stats.kruskal
的 Kruskal-Wallis H 检验(或scipy.stats.alexandergovern
的 Alexander-Govern 检验),不过功效可能会稍低。每个组的长度至少为 1,并且至少有一个组的长度大于 1。如果不满足这些条件,则会生成警告,并返回 (
np.nan
,np.nan
)。如果每组中的所有值都相同,并且至少有组值不同,则该函数会生成一个警告并返回 (
np.inf
, 0)。如果所有组中的所有值都相同,则该函数会生成一个警告并返回 (
np.nan
,np.nan
)。该算法来自 Heiman [2],第 394-7 页。
从 SciPy 1.9 开始,
np.matrix
输入(不推荐用于新代码)将在执行计算之前转换为np.ndarray
。在这种情况下,输出将是标量或形状适当的np.ndarray
,而不是二维np.matrix
。同样,虽然会忽略掩码数组中被掩码的元素,但输出将是标量或np.ndarray
,而不是具有mask=False
的掩码数组。参考资料
[1]R. Lowry,“统计推理概念和应用”,第 14 章,2014 年,http://vassarstats.net/textbook/
[2]G.W. Heiman,“理解研究方法和统计:心理学综合入门”,Houghton、Mifflin and Company,2001 年。
[3]G.H. McDonald, “生物统计手册”,单向方差分析。http://www.biostathandbook.com/onewayanova.html
示例
>>> import numpy as np >>> from scipy.stats import f_oneway
以下是有关贻贝 Mytilus trossulus 从五个地点(俄勒冈州蒂拉穆克、俄勒冈州纽波特、阿拉斯加州彼得斯堡、俄罗斯马加丹和芬兰特瓦尔明内)采集的壳测量数据(按长度标准化后前部内收肌瘢痕长度):这些数据取自 McDonald 等人在 1991 年使用的一个更大的数据集。
>>> tillamook = [0.0571, 0.0813, 0.0831, 0.0976, 0.0817, 0.0859, 0.0735, ... 0.0659, 0.0923, 0.0836] >>> newport = [0.0873, 0.0662, 0.0672, 0.0819, 0.0749, 0.0649, 0.0835, ... 0.0725] >>> petersburg = [0.0974, 0.1352, 0.0817, 0.1016, 0.0968, 0.1064, 0.105] >>> magadan = [0.1033, 0.0915, 0.0781, 0.0685, 0.0677, 0.0697, 0.0764, ... 0.0689] >>> tvarminne = [0.0703, 0.1026, 0.0956, 0.0973, 0.1039, 0.1045] >>> f_oneway(tillamook, newport, petersburg, magadan, tvarminne) F_onewayResult(statistic=7.121019471642447, pvalue=0.0002812242314534544)
f_oneway
接受多维输入数组。输入为多维且未给出 axis 时,将沿输入数组的第一轴执行检验。针对以下数据,执行三次检验,即针对每一列执行一次。>>> a = np.array([[9.87, 9.03, 6.81], ... [7.18, 8.35, 7.00], ... [8.39, 7.58, 7.68], ... [7.45, 6.33, 9.35], ... [6.41, 7.10, 9.33], ... [8.00, 8.24, 8.44]]) >>> b = np.array([[6.35, 7.30, 7.16], ... [6.65, 6.68, 7.63], ... [5.72, 7.73, 6.72], ... [7.01, 9.19, 7.41], ... [7.75, 7.87, 8.30], ... [6.90, 7.97, 6.97]]) >>> c = np.array([[3.31, 8.77, 1.01], ... [8.25, 3.24, 3.62], ... [6.32, 8.81, 5.19], ... [7.48, 8.83, 8.91], ... [8.59, 6.01, 6.07], ... [3.07, 9.72, 7.48]]) >>> F, p = f_oneway(a, b, c) >>> F array([1.75676344, 0.03701228, 3.76439349]) >>> p array([0.20630784, 0.96375203, 0.04733157])