scipy.stats.

ttest_ind#

scipy.stats.ttest_ind(a, b, *, axis=0, equal_var=True, nan_policy='propagate', permutations=None, random_state=None, alternative='two-sided', trim=0, method=None, keepdims=False)[source]#

计算两组独立样本均值的 T 检验。

此检验用于检验2个独立样本具有相同平均值（期望）值的零假设。默认情况下，此检验假设总体具有相同的方差。

自 1.17.0 版本弃用: 按位置使用参数 {'method', 'trim', 'nan_policy', 'axis', 'equal_var', 'keepdims', 'alternative'} 已弃用；从 SciPy 1.17.0 开始，这些将仅是关键字参数。参数 {'permutations', 'random_state'} 已弃用，无论按位置还是关键字传递；它们将在 SciPy 1.17.0 中删除。使用 method 执行置换检验。

参数:

a, barray_like

除了对应于 axis 的维度（默认情况下为第一个）外，数组必须具有相同的形状。

axisint 或 None, 默认值: 0

如果为 int，则为计算统计信息的输入轴。输入的每个轴切片（例如，行）的统计信息将显示在输出的相应元素中。如果 None，则在计算统计信息之前将对输入进行扁平化处理。

equal_varbool, 可选

如果为 True（默认值），则执行标准独立 2 样本检验，该检验假设总体方差相等 [1]。如果为 False，则执行 Welch 的 t 检验，该检验不假设总体方差相等 [2]。

0.11.0 版本中新增。

nan_policy{‘propagate’, ‘omit’, ‘raise’}

定义如何处理输入 NaN。

propagate: 如果在计算统计信息的轴切片（例如，行）中存在 NaN，则输出的相应条目将为 NaN。
omit: 在执行计算时将省略 NaN。如果在计算统计信息的轴切片中剩余的数据不足，则输出的相应条目将为 NaN。
raise: 如果存在 NaN，则将引发 ValueError。

permutations非负 int、np.inf 或 None (默认值), 可选

如果为 0 或 None（默认值），则使用 t 分布计算 p 值。否则，permutations 是将用于使用置换检验估计 p 值的随机置换的数量。如果 permutations 等于或超过合并数据的不同分区的数量，则会执行精确检验（即，每个不同的分区都只使用一次）。有关详细信息，请参见注释。

自 1.17.0 版本弃用: permutations 已弃用，将在 SciPy 1.7.0 中删除。使用 PermutationMethod 的 n_resamples 参数，并将实例作为 method 参数传递。

random_state{None, int, numpy.random.Generator,

numpy.random.RandomState}, 可选

如果 seed 为 None（或 np.random），则使用 numpy.random.RandomState 单例。如果 seed 为 int，则使用一个新的 RandomState 实例，并使用 seed 作为种子。如果 seed 已经是 Generator 或 RandomState 实例，则使用该实例。

用于生成置换的伪随机数生成器状态（仅当 permutations 不为 None 时使用）。

自 1.17.0 版本弃用: random_state 已弃用，将在 SciPy 1.7.0 中删除。使用 PermutationMethod 的 rng 参数，并将实例作为 method 参数传递。

alternative{‘two-sided’, ‘less’, ‘greater’}, 可选

定义备择假设。以下选项可用（默认值为 ‘two-sided’）

‘two-sided’：样本的基础分布的均值不相等。
‘less’：第一个样本的基础分布的均值小于第二个样本的基础分布的均值。
‘greater’：第一个样本的基础分布的均值大于第二个样本的基础分布的均值。

trimfloat, 可选

如果非零，则执行修剪（Yuen 的）t 检验。定义要从输入样本的每一端修剪的元素的分数。如果为 0（默认值），则不会从任何一侧修剪元素。从每个尾部修剪的元素数为 trim 乘以元素数的下限。有效范围是 [0, .5)。

methodResamplingMethod, 可选

定义用于计算 p 值的方法。如果 method 是 PermutationMethod/MonteCarloMethod 的实例，则 p 值是使用 scipy.stats.permutation_test/scipy.stats.monte_carlo_test 计算的，并提供配置选项和其他适当的设置。否则，p 值是通过将检验统计量与理论 t 分布进行比较来计算的。

1.15.0 版本中新增。

keepdimsbool, 默认值: False

如果将其设置为 True，则缩减的轴将保留在结果中，作为大小为 1 的维度。使用此选项，结果将正确地广播到输入数组。

返回:

resultTtestResult

具有以下属性的对象

statisticfloat 或 ndarray: t 统计量。
pvaluefloat 或 ndarray: 与给定备择假设关联的 p 值。
dffloat 或 ndarray: 用于计算 t 统计量的自由度数。对于置换 t 检验，这始终为 NaN。

1.11.0 版本中新增。

该对象还具有以下方法

confidence_interval(confidence_level=0.95): 计算给定置信水平下总体均值差异的置信区间。置信区间以带有字段 low 和 high 的 namedtuple 形式返回。执行置换 t 检验时，不计算置信区间，并且字段 low 和 high 包含 NaN。

1.11.0 版本中新增。

注释

假设我们观察到两个独立的样本，例如，花瓣长度，并且我们正在考虑这两个样本是否是从同一总体（例如，同一物种的花或具有相似花瓣特征的两个物种）或两个不同的总体中抽取的。

t 检验量化了两个样本的算术平均值之间的差异。 p 值量化了在假设零假设（即样本是从具有相同总体均值的总体中抽取的）为真的情况下，观察到像或更极端值的概率。大于所选阈值（例如 5% 或 1%）的 p 值表明我们的观察结果并非如此不可能偶然发生。因此，我们不拒绝总体均值相等的零假设。如果 p 值小于我们的阈值，则我们有证据反对总体均值相等的零假设。

默认情况下，p 值是通过将观察数据的 t 统计量与理论 t 分布进行比较来确定的。

（在下文中，请注意，参数 permutations 本身已弃用，但几乎相同的检验可以通过创建 scipy.stats.PermutationMethod 的实例，并使用 n_resamples=permutuations 并将其作为 method 参数传递来执行。）当 1 < permutations < binom(n, k) 时，其中

k 是 a 中的观察次数，
n 是 a 和 b 中的观察总数，并且
binom(n, k) 是二项式系数（n 选择 k），

数据被合并（连接），随机分配到组 a 或 b，并计算 t 统计量。此过程重复执行（permutation 次），生成零假设下的 t 统计量的分布，并将观察数据的 t 统计量与此分布进行比较以确定 p 值。具体来说，报告的 p 值是 [3] 的 4.4 中定义的“实现的显著性水平”(ASL)。请注意，还有其他使用随机置换检验估计 p 值的方法；有关其他选项，请参见更通用的 permutation_test。

当 permutations >= binom(n, k) 时，执行精确检验：数据在每个不同的方式中恰好被分组一次。

置换检验可能在计算上很昂贵，并且不一定比分析检验更准确，但它不会对基础分布的形状做出强烈的假设。

修剪的使用通常称为修剪后的 t 检验。有时称为 Yuen 的 t 检验，它是 Welch 的 t 检验的扩展，不同之处在于在方差计算中使用 Winsorized 均值，并在统计量计算中使用修剪后的样本大小。如果基础分布是长尾的或被异常值污染，建议进行修剪 [4]。

统计量计算为 (np.mean(a) - np.mean(b))/se，其中 se 是标准误差。因此，当 a 的样本均值大于 b 的样本均值时，统计量将为正，而当 a 的样本均值小于 b 的样本均值时，统计量将为负。

从 SciPy 1.9 开始，在执行计算之前，np.matrix 输入（不建议用于新代码）会转换为 np.ndarray。在这种情况下，输出将是标量或具有适当形状的 np.ndarray，而不是 2D np.matrix。同样，虽然会忽略掩码数组的掩码元素，但输出将是标量或 np.ndarray，而不是具有 mask=False 的掩码数组。

ttest_ind 除了 NumPy 之外，还对 Python 数组 API 标准兼容的后端具有实验性支持。请考虑通过设置环境变量 SCIPY_ARRAY_API=1 并提供 CuPy、PyTorch、JAX 或 Dask 数组作为数组参数来测试这些功能。支持以下后端和设备（或其他功能）的组合。

库	CPU	GPU
NumPy	✅	不适用
CuPy	不适用	✅
PyTorch	✅	⛔
JAX	✅	✅
Dask	✅	不适用

有关更多信息，请参见对数组 API 标准的支持。

参考

[1]

https://en.wikipedia.org/wiki/T-test#Independent_two-sample_t-test

[2]

https://en.wikipedia.org/wiki/Welch%27s_t-test

[3]

Efron 和 T. Hastie。计算机时代统计推断。(2016)。

[4]

Yuen, Karen K. “不等总体方差的两样本修剪 t”。 Biometrika, vol. 61, no. 1, 1974, pp. 165-170. JSTOR, www.jstor.org/stable/2334299. 访问时间 2021 年 3 月 30 日。

[5]

Yuen, Karen K., 和 W. J. Dixon。 “两样本修剪 t 的近似行为和性能”。 Biometrika, vol. 60, no. 2, 1973, pp. 369-374. JSTOR, www.jstor.org/stable/2334550. 访问时间 2021 年 3 月 30 日。

示例

>>> import numpy as np
>>> from scipy import stats
>>> rng = np.random.default_rng()

使用具有相同均值的样本进行检验

>>> rvs1 = stats.norm.rvs(loc=5, scale=10, size=500, random_state=rng)
>>> rvs2 = stats.norm.rvs(loc=5, scale=10, size=500, random_state=rng)
>>> stats.ttest_ind(rvs1, rvs2)
TtestResult(statistic=-0.4390847099199348,
            pvalue=0.6606952038870015,
            df=998.0)
>>> stats.ttest_ind(rvs1, rvs2, equal_var=False)
TtestResult(statistic=-0.4390847099199348,
            pvalue=0.6606952553131064,
            df=997.4602304121448)

ttest_ind 低估了不等方差的 p 值

>>> rvs3 = stats.norm.rvs(loc=5, scale=20, size=500, random_state=rng)
>>> stats.ttest_ind(rvs1, rvs3)
TtestResult(statistic=-1.6370984482905417,
            pvalue=0.1019251574705033,
            df=998.0)
>>> stats.ttest_ind(rvs1, rvs3, equal_var=False)
TtestResult(statistic=-1.637098448290542,
            pvalue=0.10202110497954867,
            df=765.1098655246868)

当 n1 != n2 时，等方差 t 统计量不再等于不等方差 t 统计量

>>> rvs4 = stats.norm.rvs(loc=5, scale=20, size=100, random_state=rng)
>>> stats.ttest_ind(rvs1, rvs4)
TtestResult(statistic=-1.9481646859513422,
            pvalue=0.05186270935842703,
            df=598.0)
>>> stats.ttest_ind(rvs1, rvs4, equal_var=False)
TtestResult(statistic=-1.3146566100751664,
            pvalue=0.1913495266513811,
            df=110.41349083985212)

具有不同均值、方差和 n 的 T 检验

>>> rvs5 = stats.norm.rvs(loc=8, scale=20, size=100, random_state=rng)
>>> stats.ttest_ind(rvs1, rvs5)
TtestResult(statistic=-2.8415950600298774,
            pvalue=0.0046418707568707885,
            df=598.0)
>>> stats.ttest_ind(rvs1, rvs5, equal_var=False)
TtestResult(statistic=-1.8686598649188084,
            pvalue=0.06434714193919686,
            df=109.32167496550137)

获取这两个样本，其中一个具有极端尾部。

>>> a = (56, 128.6, 12, 123.8, 64.34, 78, 763.3)
>>> b = (1.1, 2.9, 4.2)

使用 trim 关键字执行修剪（Yuen）t 检验。例如，使用 20% 的修剪，trim=.2，该检验将减少来自样本 a 的每个尾部的一个元素（np.floor(trim*len(a))）的影响。它对样本 b 没有影响，因为 np.floor(trim*len(b)) 为 0。

>>> stats.ttest_ind(a, b, trim=.2)
TtestResult(statistic=3.4463884028073513,
            pvalue=0.01369338726499547,
            df=6.0)