scipy.stats.

ttest_ind#

scipy.stats.ttest_ind(a, b, *, axis=0, equal_var=True, nan_policy='propagate', permutations=None, random_state=None, alternative='two-sided', trim=0, method=None, keepdims=False)[source]#

计算两组独立样本均值的 T 检验。

此检验用于检验2个独立样本具有相同平均值(期望)值的零假设。 默认情况下,此检验假设总体具有相同的方差。

自 1.17.0 版本弃用: 按位置使用参数 {'method', 'trim', 'nan_policy', 'axis', 'equal_var', 'keepdims', 'alternative'} 已弃用;从 SciPy 1.17.0 开始,这些将仅是关键字参数。 参数 {'permutations', 'random_state'} 已弃用,无论按位置还是关键字传递;它们将在 SciPy 1.17.0 中删除。 使用 method 执行置换检验。

参数:
a, barray_like

除了对应于 axis 的维度(默认情况下为第一个)外,数组必须具有相同的形状。

axisint 或 None, 默认值: 0

如果为 int,则为计算统计信息的输入轴。 输入的每个轴切片(例如,行)的统计信息将显示在输出的相应元素中。 如果 None,则在计算统计信息之前将对输入进行扁平化处理。

equal_varbool, 可选

如果为 True(默认值),则执行标准独立 2 样本检验,该检验假设总体方差相等 [1]。 如果为 False,则执行 Welch 的 t 检验,该检验不假设总体方差相等 [2]

0.11.0 版本中新增。

nan_policy{‘propagate’, ‘omit’, ‘raise’}

定义如何处理输入 NaN。

  • propagate: 如果在计算统计信息的轴切片(例如,行)中存在 NaN,则输出的相应条目将为 NaN。

  • omit: 在执行计算时将省略 NaN。 如果在计算统计信息的轴切片中剩余的数据不足,则输出的相应条目将为 NaN。

  • raise: 如果存在 NaN,则将引发 ValueError

permutations非负 int、np.inf 或 None (默认值), 可选

如果为 0 或 None(默认值),则使用 t 分布计算 p 值。 否则,permutations 是将用于使用置换检验估计 p 值的随机置换的数量。 如果 permutations 等于或超过合并数据的不同分区的数量,则会执行精确检验(即,每个不同的分区都只使用一次)。 有关详细信息,请参见注释。

自 1.17.0 版本弃用: permutations 已弃用,将在 SciPy 1.7.0 中删除。 使用 PermutationMethodn_resamples 参数,并将实例作为 method 参数传递。

random_state{None, int, numpy.random.Generator,

如果 seed 为 None(或 np.random),则使用 numpy.random.RandomState 单例。 如果 seed 为 int,则使用一个新的 RandomState 实例,并使用 seed 作为种子。 如果 seed 已经是 GeneratorRandomState 实例,则使用该实例。

用于生成置换的伪随机数生成器状态(仅当 permutations 不为 None 时使用)。

自 1.17.0 版本弃用: random_state 已弃用,将在 SciPy 1.7.0 中删除。 使用 PermutationMethodrng 参数,并将实例作为 method 参数传递。

alternative{‘two-sided’, ‘less’, ‘greater’}, 可选

定义备择假设。 以下选项可用(默认值为 ‘two-sided’)

  • ‘two-sided’:样本的基础分布的均值不相等。

  • ‘less’:第一个样本的基础分布的均值小于第二个样本的基础分布的均值。

  • ‘greater’:第一个样本的基础分布的均值大于第二个样本的基础分布的均值。

trimfloat, 可选

如果非零,则执行修剪(Yuen 的)t 检验。 定义要从输入样本的每一端修剪的元素的分数。 如果为 0(默认值),则不会从任何一侧修剪元素。 从每个尾部修剪的元素数为 trim 乘以元素数的下限。 有效范围是 [0, .5)。

methodResamplingMethod, 可选

定义用于计算 p 值的方法。 如果 methodPermutationMethod/MonteCarloMethod 的实例,则 p 值是使用 scipy.stats.permutation_test/scipy.stats.monte_carlo_test 计算的,并提供配置选项和其他适当的设置。 否则,p 值是通过将检验统计量与理论 t 分布进行比较来计算的。

1.15.0 版本中新增。

keepdimsbool, 默认值: False

如果将其设置为 True,则缩减的轴将保留在结果中,作为大小为 1 的维度。 使用此选项,结果将正确地广播到输入数组。

返回:
resultTtestResult

具有以下属性的对象

statisticfloat 或 ndarray

t 统计量。

pvaluefloat 或 ndarray

与给定备择假设关联的 p 值。

dffloat 或 ndarray

用于计算 t 统计量的自由度数。 对于置换 t 检验,这始终为 NaN。

1.11.0 版本中新增。

该对象还具有以下方法

confidence_interval(confidence_level=0.95)

计算给定置信水平下总体均值差异的置信区间。 置信区间以带有字段 lowhighnamedtuple 形式返回。 执行置换 t 检验时,不计算置信区间,并且字段 lowhigh 包含 NaN。

1.11.0 版本中新增。

注释

假设我们观察到两个独立的样本,例如,花瓣长度,并且我们正在考虑这两个样本是否是从同一总体(例如,同一物种的花或具有相似花瓣特征的两个物种)或两个不同的总体中抽取的。

t 检验量化了两个样本的算术平均值之间的差异。 p 值量化了在假设零假设(即样本是从具有相同总体均值的总体中抽取的)为真的情况下,观察到像或更极端值的概率。 大于所选阈值(例如 5% 或 1%)的 p 值表明我们的观察结果并非如此不可能偶然发生。 因此,我们不拒绝总体均值相等的零假设。 如果 p 值小于我们的阈值,则我们有证据反对总体均值相等的零假设。

默认情况下,p 值是通过将观察数据的 t 统计量与理论 t 分布进行比较来确定的。

(在下文中,请注意,参数 permutations 本身已弃用,但几乎相同的检验可以通过创建 scipy.stats.PermutationMethod 的实例,并使用 n_resamples=permutuations 并将其作为 method 参数传递来执行。) 当 1 < permutations < binom(n, k) 时,其中

  • ka 中的观察次数,

  • nab 中的观察总数,并且

  • binom(n, k) 是二项式系数(n 选择 k),

数据被合并(连接),随机分配到组 ab,并计算 t 统计量。 此过程重复执行(permutation 次),生成零假设下的 t 统计量的分布,并将观察数据的 t 统计量与此分布进行比较以确定 p 值。 具体来说,报告的 p 值是 [3] 的 4.4 中定义的“实现的显著性水平”(ASL)。 请注意,还有其他使用随机置换检验估计 p 值的方法;有关其他选项,请参见更通用的 permutation_test

permutations >= binom(n, k) 时,执行精确检验:数据在每个不同的方式中恰好被分组一次。

置换检验可能在计算上很昂贵,并且不一定比分析检验更准确,但它不会对基础分布的形状做出强烈的假设。

修剪的使用通常称为修剪后的 t 检验。 有时称为 Yuen 的 t 检验,它是 Welch 的 t 检验的扩展,不同之处在于在方差计算中使用 Winsorized 均值,并在统计量计算中使用修剪后的样本大小。 如果基础分布是长尾的或被异常值污染,建议进行修剪 [4]

统计量计算为 (np.mean(a) - np.mean(b))/se,其中 se 是标准误差。 因此,当 a 的样本均值大于 b 的样本均值时,统计量将为正,而当 a 的样本均值小于 b 的样本均值时,统计量将为负。

从 SciPy 1.9 开始,在执行计算之前,np.matrix 输入(不建议用于新代码)会转换为 np.ndarray。 在这种情况下,输出将是标量或具有适当形状的 np.ndarray,而不是 2D np.matrix。 同样,虽然会忽略掩码数组的掩码元素,但输出将是标量或 np.ndarray,而不是具有 mask=False 的掩码数组。

ttest_ind 除了 NumPy 之外,还对 Python 数组 API 标准兼容的后端具有实验性支持。 请考虑通过设置环境变量 SCIPY_ARRAY_API=1 并提供 CuPy、PyTorch、JAX 或 Dask 数组作为数组参数来测试这些功能。 支持以下后端和设备(或其他功能)的组合。

CPU

GPU

NumPy

不适用

CuPy

不适用

PyTorch

JAX

Dask

不适用

有关更多信息,请参见 对数组 API 标准的支持

参考

[3]
  1. Efron 和 T. Hastie。 计算机时代统计推断。(2016)。

[4]

Yuen, Karen K. “不等总体方差的两样本修剪 t”。 Biometrika, vol. 61, no. 1, 1974, pp. 165-170. JSTOR, www.jstor.org/stable/2334299. 访问时间 2021 年 3 月 30 日。

[5]

Yuen, Karen K., 和 W. J. Dixon。 “两样本修剪 t 的近似行为和性能”。 Biometrika, vol. 60, no. 2, 1973, pp. 369-374. JSTOR, www.jstor.org/stable/2334550. 访问时间 2021 年 3 月 30 日。

示例

>>> import numpy as np
>>> from scipy import stats
>>> rng = np.random.default_rng()

使用具有相同均值的样本进行检验

>>> rvs1 = stats.norm.rvs(loc=5, scale=10, size=500, random_state=rng)
>>> rvs2 = stats.norm.rvs(loc=5, scale=10, size=500, random_state=rng)
>>> stats.ttest_ind(rvs1, rvs2)
TtestResult(statistic=-0.4390847099199348,
            pvalue=0.6606952038870015,
            df=998.0)
>>> stats.ttest_ind(rvs1, rvs2, equal_var=False)
TtestResult(statistic=-0.4390847099199348,
            pvalue=0.6606952553131064,
            df=997.4602304121448)

ttest_ind 低估了不等方差的 p 值

>>> rvs3 = stats.norm.rvs(loc=5, scale=20, size=500, random_state=rng)
>>> stats.ttest_ind(rvs1, rvs3)
TtestResult(statistic=-1.6370984482905417,
            pvalue=0.1019251574705033,
            df=998.0)
>>> stats.ttest_ind(rvs1, rvs3, equal_var=False)
TtestResult(statistic=-1.637098448290542,
            pvalue=0.10202110497954867,
            df=765.1098655246868)

n1 != n2 时,等方差 t 统计量不再等于不等方差 t 统计量

>>> rvs4 = stats.norm.rvs(loc=5, scale=20, size=100, random_state=rng)
>>> stats.ttest_ind(rvs1, rvs4)
TtestResult(statistic=-1.9481646859513422,
            pvalue=0.05186270935842703,
            df=598.0)
>>> stats.ttest_ind(rvs1, rvs4, equal_var=False)
TtestResult(statistic=-1.3146566100751664,
            pvalue=0.1913495266513811,
            df=110.41349083985212)

具有不同均值、方差和 n 的 T 检验

>>> rvs5 = stats.norm.rvs(loc=8, scale=20, size=100, random_state=rng)
>>> stats.ttest_ind(rvs1, rvs5)
TtestResult(statistic=-2.8415950600298774,
            pvalue=0.0046418707568707885,
            df=598.0)
>>> stats.ttest_ind(rvs1, rvs5, equal_var=False)
TtestResult(statistic=-1.8686598649188084,
            pvalue=0.06434714193919686,
            df=109.32167496550137)

获取这两个样本,其中一个具有极端尾部。

>>> a = (56, 128.6, 12, 123.8, 64.34, 78, 763.3)
>>> b = (1.1, 2.9, 4.2)

使用 trim 关键字执行修剪(Yuen)t 检验。 例如,使用 20% 的修剪,trim=.2,该检验将减少来自样本 a 的每个尾部的一个元素(np.floor(trim*len(a)))的影响。 它对样本 b 没有影响,因为 np.floor(trim*len(b)) 为 0。

>>> stats.ttest_ind(a, b, trim=.2)
TtestResult(statistic=3.4463884028073513,
            pvalue=0.01369338726499547,
            df=6.0)