ttest_ind#
- scipy.stats.ttest_ind(a, b, *, axis=0, equal_var=True, nan_policy='propagate', alternative='two-sided', trim=0, method=None, keepdims=False)[source]#
计算两个独立样本分数的 T 检验。
这是一个用于检验零假设的测试,即 2 个独立样本具有相同的平均(期望)值。此测试默认假设总体具有相同的方差。
- 参数:
- a, barray_like
这些数组必须具有相同的形状,除了对应于 axis 的维度(默认为第一个)。
- axisint 或 None, 默认: 0
如果为 int,则为输入沿其计算统计量的轴。输入的每个轴切片(例如,行)的统计量将出现在输出的相应元素中。如果为
None,则在计算统计量之前将输入展平。- equal_varbool, optional
如果为 True (默认),则执行一个标准独立 2 样本检验,该检验假设总体方差相等 [1]。如果为 False,则执行 Welch t 检验,该检验不假设总体方差相等 [2]。
版本 0.11.0 中新增。
- nan_policy{‘propagate’, ‘omit’, ‘raise’}
定义如何处理输入 NaN。
propagate:如果计算统计量的轴切片(例如,行)中存在 NaN,则输出的相应条目将为 NaN。omit:在执行计算时将忽略 NaN。如果计算统计量的轴切片中剩余数据不足,则输出的相应条目将为 NaN。raise:如果存在 NaN,将引发ValueError。
- alternative{‘two-sided’, ‘less’, ‘greater’}, 可选
定义备择假设。以下选项可用(默认为 'two-sided')
'two-sided':样本所依据的分布均值不相等。
'less':第一个样本所依据的分布均值小于第二个样本所依据的分布均值。
'greater':第一个样本所依据的分布均值大于第二个样本所依据的分布均值。
- trimfloat, optional
如果非零,执行修剪(Yuen's)t 检验。定义从输入样本两端修剪的元素比例。如果为 0 (默认),则不从任何一端修剪元素。每个尾部修剪的元素数量是修剪比例乘以元素数量的向下取整。有效范围为 [0, .5)。
- methodResamplingMethod, optional
定义用于计算 p 值的方法。如果 method 是
PermutationMethod/MonteCarloMethod的实例,则 p 值使用scipy.stats.permutation_test/scipy.stats.monte_carlo_test计算,并使用提供的配置选项和其他适当设置。否则,p 值通过将检验统计量与理论 t 分布进行比较来计算。版本 1.15.0 中新增。
- keepdimsbool, 默认: False
如果设置为 True,则减少的轴将保留在结果中,作为大小为一的维度。使用此选项,结果将与输入数组正确广播。
- 返回:
- result
TtestResult 一个具有以下属性的对象
- statisticfloat 或 ndarray
t 统计量。
- pvaluefloat 或 ndarray
与给定备择假设相关的 p 值。
- dffloat 或 ndarray
用于计算 t 统计量的自由度数。
1.11.0 版新增。
该对象还具有以下方法
- confidence_interval(confidence_level=0.95)
计算给定置信水平下总体均值差异的置信区间。置信区间以
namedtuple形式返回,字段为low和high。1.11.0 版新增。
- result
附注
假设我们观察到两个独立样本,例如花瓣长度,并且我们正在考虑这两个样本是从同一总体(例如同一种花或两种具有相似花瓣特征的物种)还是从两个不同总体中抽取的。
t 检验量化了两个样本算术平均值之间的差异。p 值量化了在零假设(即样本来自具有相同总体均值的总体)成立的情况下观察到极端值或更极端值的概率。p 值大于选定阈值(例如 5% 或 1%)表示我们的观察结果不太可能偶然发生。因此,我们不拒绝总体均值相等的零假设。如果 p 值小于我们的阈值,那么我们就有证据反对总体均值相等的零假设。
默认情况下,p 值是通过将观测数据的 t 统计量与理论 t 分布进行比较来确定的。
也可以通过传入
method=scipy.stats.PermutationMethod(n_resamples=permutations)来计算检验统计量,其中permutations是用于形成零分布的“置换”所需数量。当1 < permutations < binom(n, k)时,其中k是 a 中的观测值数量,n是 a 和 b 中的观测值总数,并且binom(n, k)是二项式系数(n选k),
数据被合并(连接),随机分配到组 a 或 b,并计算 t 统计量。这个过程重复进行 (
permutations次),生成零假设下的 t 统计量分布,并将观测数据的 t 统计量与该分布进行比较以确定 p 值。具体来说,报告的 p 值是 [3] 中定义的“已达到的显著性水平”(ASL)。请注意,还有其他使用随机置换检验估计 p 值的方法;对于其他选项,请参阅更通用的permutation_test。当
permutations >= binom(n, k)时,执行精确检验:数据以每种不同的方式在组之间精确地划分一次。置换检验可能计算量大,不一定比分析检验更准确,但它对底层分布的形状不作强假设。
修剪的使用通常被称为修剪 t 检验。有时被称为 Yuen t 检验,它是 Welch t 检验的扩展,区别在于计算方差时使用 winsorized 均值,计算统计量时使用修剪后的样本大小。如果底层分布是长尾或包含异常值,建议进行修剪 [4]。
统计量计算为
(np.mean(a) - np.mean(b))/se,其中se是标准误差。因此,当 a 的样本均值大于 b 的样本均值时,统计量为正;当 a 的样本均值小于 b 的样本均值时,统计量为负。从 SciPy 1.9 开始,
np.matrix输入(不推荐用于新代码)在执行计算之前转换为np.ndarray。在这种情况下,输出将是标量或适当形状的np.ndarray,而不是 2Dnp.matrix。类似地,虽然被掩码数组的被掩码元素被忽略,但输出将是标量或np.ndarray,而不是带有mask=False的被掩码数组。数组 API 标准支持
ttest_ind除了 NumPy 之外,还实验性支持 Python 数组 API 标准兼容后端。请考虑通过设置环境变量SCIPY_ARRAY_API=1并提供 CuPy、PyTorch、JAX 或 Dask 数组作为数组参数来测试这些功能。支持以下后端和设备(或其他功能)组合。库
CPU
GPU
NumPy
✅
不适用
CuPy
不适用
✅
PyTorch
✅
⛔
JAX
✅
✅
Dask
✅
不适用
有关更多信息,请参阅 对数组 API 标准的支持。
参考文献
[1][3]Efron 和 T. Hastie. 计算机时代的统计推断. (2016)。
[4]Yuen, Karen K.“不等总体方差的两样本修剪 t 检验”。Biometrika,第 61 卷,第 1 期,1974 年,第 165-170 页。JSTOR,www.jstor.org/stable/2334299。2021 年 3 月 30 日访问。
[5]Yuen, Karen K. 和 W. J. Dixon.“两样本修剪 t 检验的近似行为和性能”。Biometrika,第 60 卷,第 2 期,1973 年,第 369-374 页。JSTOR,www.jstor.org/stable/2334550。2021 年 3 月 30 日访问。
示例
>>> import numpy as np >>> from scipy import stats >>> rng = np.random.default_rng()
对具有相同均值的样本进行测试
>>> rvs1 = stats.norm.rvs(loc=5, scale=10, size=500, random_state=rng) >>> rvs2 = stats.norm.rvs(loc=5, scale=10, size=500, random_state=rng) >>> stats.ttest_ind(rvs1, rvs2) TtestResult(statistic=-0.4390847099199348, pvalue=0.6606952038870015, df=998.0) >>> stats.ttest_ind(rvs1, rvs2, equal_var=False) TtestResult(statistic=-0.4390847099199348, pvalue=0.6606952553131064, df=997.4602304121448)
ttest_ind低估了不等方差的 p 值>>> rvs3 = stats.norm.rvs(loc=5, scale=20, size=500, random_state=rng) >>> stats.ttest_ind(rvs1, rvs3) TtestResult(statistic=-1.6370984482905417, pvalue=0.1019251574705033, df=998.0) >>> stats.ttest_ind(rvs1, rvs3, equal_var=False) TtestResult(statistic=-1.637098448290542, pvalue=0.10202110497954867, df=765.1098655246868)
当
n1 != n2时,等方差 t 统计量不再等于不等方差 t 统计量>>> rvs4 = stats.norm.rvs(loc=5, scale=20, size=100, random_state=rng) >>> stats.ttest_ind(rvs1, rvs4) TtestResult(statistic=-1.9481646859513422, pvalue=0.05186270935842703, df=598.0) >>> stats.ttest_ind(rvs1, rvs4, equal_var=False) TtestResult(statistic=-1.3146566100751664, pvalue=0.1913495266513811, df=110.41349083985212)
不同均值、方差和 n 的 T 检验
>>> rvs5 = stats.norm.rvs(loc=8, scale=20, size=100, random_state=rng) >>> stats.ttest_ind(rvs1, rvs5) TtestResult(statistic=-2.8415950600298774, pvalue=0.0046418707568707885, df=598.0) >>> stats.ttest_ind(rvs1, rvs5, equal_var=False) TtestResult(statistic=-1.8686598649188084, pvalue=0.06434714193919686, df=109.32167496550137)
取这两个样本,其中一个具有极端尾部。
>>> a = (56, 128.6, 12, 123.8, 64.34, 78, 763.3) >>> b = (1.1, 2.9, 4.2)
使用 trim 关键字执行修剪(Yuen)t 检验。例如,使用 20% 修剪,
trim=.2,测试将减少样本 a 的每个尾部的一个(np.floor(trim*len(a)))元素的影响。它对样本 b 没有影响,因为np.floor(trim*len(b))为 0。>>> stats.ttest_ind(a, b, trim=.2) TtestResult(statistic=3.4463884028073513, pvalue=0.01369338726499547, df=6.0)