scipy.stats.

ttest_ind#

scipy.stats.ttest_ind(a, b, axis=0, equal_var=True, nan_policy='propagate', permutations=None, random_state=None, alternative='two-sided', trim=0, *, keepdims=False)[source]#

计算 两个独立 分数样本均值的 T 检验。

这是用于零假设的检验,即 2 个独立样本具有相同的平均(预期)值。默认情况下,此检验假设总体具有相同的方差。

参数:
a, b类数组

数组必须具有相同的形状,除对应于(默认情况下为第一个轴)的维度外。

axisint 或 None,默认值:0

如果为 int,则为沿其计算统计信息的输入轴。输入的每个轴切片(例如行)的统计信息都将显示在输出的对应元素中。如果为 None,则在计算统计信息之前将平铺输入。

equal_varbool,可选

如果为 True(默认值),则执行标准的独立 2 样本检验,假设总体方差相等 [1]。如果为 False,则执行不假设总体方差相等的 Welc t 检验 [2]

于 0.11.0 版中添加。

nan_policy{“propagate”、”omit”、”raise”}

定义如何处理输入 NaN。

  • propagate:如果在计算统计信息的轴切片(例如行)中存在 NaN,则该输出的对应项将为 NaN。

  • omit:在执行计算时将忽略 NaN。如果在计算统计信息的轴切片中剩余的数据不足,则该输出的对应项将为 NaN。

  • raise:如果存在 NaN,则将引发 ValueError

permutations非负 int、np.inf 或 None(默认值),可选

如果为 0 或 None(默认值),则使用 t 分布计算 p 值。否则,permutations 是使用排列检验估算 p 值的随机排列数。如果 permutations 等于或超过合并数据各个不同划分的数量,则改用精确检验(即每个不同划分仅使用一次)。有关详细信息,请参阅备注。

于 1.7.0 版中添加。

random_state{None、int、numpy.random.Generator,

如果 seed 为 None(或 np.random),则使用 numpy.random.RandomState 单例。如果 seed 为整数,则使用新的 RandomState 实例,对其设置 seed 作为种子。如果 seed 已是 GeneratorRandomState 实例,则使用该实例。

用于生成置换的伪随机数生成器状态(仅在 permutations 为 None 时使用)。

于 1.7.0 版中添加。

alternative{‘two-sided’, ‘less’, ‘greater’},可选

定义备择假设。有以下选项可用(默认值为 ‘two-sided’)

  • ‘two-sided’:样本背后的分布均值不相等。

  • ‘less’:第一个样本背后的分布均值小于第二个样本背后的分布均值。

  • ‘greater’:第一个样本背后的分布均值大于第二个样本背后的分布均值。

1.6.0 版添加。

trim浮点数,可选

如果非零,则执行裁剪(袁氏)t 检验。定义要从每个输入样本的每端裁剪的元素比例。如果为 0(默认值),则不会从任一侧裁剪元素。从每条尾部裁剪的元素数量是 trim 乘以元素数量的向下取整。有效范围为 [0, .5)。

1.7 版添加。

keepdims布尔值,默认值:False

如果将其设置为 True,则缩减的轴将以大小为 1 的维度形式保留在结果中。使用此选项时,结果将针对输入阵列正确广播。

返回:
resultTtestResult

一个具有以下属性的对象

statistic浮点数或 ndarrays

t 统计量。

pvalue浮点数或 ndarrays

与给定备择假设相关的 p 值。

df浮点数或 ndarrays

t 统计量计算中使用的自由度数。对于置换 t 检验,这始终为 NaN。

1.11.0 版添加。

对象还具有以下方法

confidence_interval(confidence_level=0.95)

计算给定置信水平的人口均值差异的置信区间。置信区间返回带 namedtuple 字段 lowhigh 的名称元组。执行置换 t 检验时,将不计算置信区间,且字段 lowhigh 包含 NaN。

1.11.0 版添加。

注意

假设我们观察到两个独立样本,例如花瓣长度,并思考这两个样本是出自同一总体(例如同一花种或两个花瓣特征类似的花种)还是两个不同的总体。

t 检验量化了两个样本的算术平均数之间的差异。p 值量化了观察到更极端的值以及假设零假设为真(即样本出自具有相同总体均值的总体)的概率。大于所选阈值(例如 5% 或 1%)的 p 值表明我们的观察不太可能是由碰巧发生的。因此,我们不拒绝总体均值相等的零假设。如果 p 值小于我们的阈值,则我们有证据反对总体均值相等的零假设。

默认情况下,p 值通过比较观测数据的 t 统计量和理论 t 分布来确定。当 1 < permutations < binom(n, k) 时,其中

  • ka 中的观察次数,

  • nab 中的观测总数,

  • binom(n, k) 是二项式系数(自 n 中选取 k),

数据合并(串联),然后随机分配到组 ab 中,并计算 t 统计量。重复进行此过程(置换 次数),生成零假设下的 t 统计量分布,并根据该分布判断观察数据的 t 统计量的 p 值。具体来说,报告的 p 值是第 4.4 节中定义的“达到的显著性水平”(ASL),请参阅 [3]。请注意,还有其他方法可以使用随机置换检验来估算 p 值;有关其他选项,请参阅更通用的 permutation_test

permutations >= binom(n, k) 时,将执行精确检验:数据在各个不同分组中仅唯一划分一次。

置换检验在计算上可能很昂贵,并且不一定比分析检验更准确,但它不会对基础分布的形状做出严格的假设。

修剪的使用通常称为修剪 t 检验。有时称为 Yuen t 检验,这是 Welch t 检验的扩展,不同之处在于在计算方差时使用 Winsor 化均值,在计算统计量时使用修剪样本量。如果底层分布是长尾的或被异常值污染,则建议进行修剪 [4]

该统计量计算为 (np.mean(a) - np.mean(b))/se,其中 se 是标准误差。因此,当 a 的样本均值大于 b 的样本均值时,该统计量为正值;当 a 的样本均值小于 b 的样本均值时,该统计量为负值。

从 SciPy 1.9 开始,在执行计算之前,np.matrix 输入(不建议用于新代码)会转换为 np.ndarray。在这种情况下,输出将是标量或形状合适的 np.ndarray,而不是二维 np.matrix。类似地,虽然掩模数组的掩模元素会被忽略,但输出将是标量或 np.ndarray,而不是具有 mask=False 的掩模数组。

参考

[3]
  1. Efron 和 T. Hastie。计算机时代统计推断。(2016 年)。

[4]

袁,凯伦·卡。 “针对总体方差不等的二样本修剪 t。”Biometrika,第 61 卷,第 1 期,1974 年,第 165-170 页。JSTOR,www.jstor.org/stable/2334299。访问时间:2021 年 3 月 30 日。

[5]

袁,凯伦·卡,和 W. J. 迪克森。 “二样本修剪 t 的近似行为和性能。”Biometrika,第 60 卷,第 2 期,1973 年,第 369-374 页。JSTOR,www.jstor.org/stable/2334550。访问时间:2021 年 3 月 30 日。

示例

>>> import numpy as np
>>> from scipy import stats
>>> rng = np.random.default_rng()

使用具有相同均值的样本进行测试

>>> rvs1 = stats.norm.rvs(loc=5, scale=10, size=500, random_state=rng)
>>> rvs2 = stats.norm.rvs(loc=5, scale=10, size=500, random_state=rng)
>>> stats.ttest_ind(rvs1, rvs2)
TtestResult(statistic=-0.4390847099199348,
            pvalue=0.6606952038870015,
            df=998.0)
>>> stats.ttest_ind(rvs1, rvs2, equal_var=False)
TtestResult(statistic=-0.4390847099199348,
            pvalue=0.6606952553131064,
            df=997.4602304121448)

ttest_ind 低估了方差不等的情况下的 p 值

>>> rvs3 = stats.norm.rvs(loc=5, scale=20, size=500, random_state=rng)
>>> stats.ttest_ind(rvs1, rvs3)
TtestResult(statistic=-1.6370984482905417,
            pvalue=0.1019251574705033,
            df=998.0)
>>> stats.ttest_ind(rvs1, rvs3, equal_var=False)
TtestResult(statistic=-1.637098448290542,
            pvalue=0.10202110497954867,
            df=765.1098655246868)

n1 != n2 时,相等方差的 t 统计量不再等于不等方差的 t 统计量

>>> rvs4 = stats.norm.rvs(loc=5, scale=20, size=100, random_state=rng)
>>> stats.ttest_ind(rvs1, rvs4)
TtestResult(statistic=-1.9481646859513422,
            pvalue=0.05186270935842703,
            df=598.0)
>>> stats.ttest_ind(rvs1, rvs4, equal_var=False)
TtestResult(statistic=-1.3146566100751664,
            pvalue=0.1913495266513811,
            df=110.41349083985212)

均值、方差和 n 不同的 t 检验

>>> rvs5 = stats.norm.rvs(loc=8, scale=20, size=100, random_state=rng)
>>> stats.ttest_ind(rvs1, rvs5)
TtestResult(statistic=-2.8415950600298774,
            pvalue=0.0046418707568707885,
            df=598.0)
>>> stats.ttest_ind(rvs1, rvs5, equal_var=False)
TtestResult(statistic=-1.8686598649188084,
            pvalue=0.06434714193919686,
            df=109.32167496550137)

执行置换检验时,更多的置换通常会产生更准确的结果。使用 np.random.Generator 来确保可重复性

>>> stats.ttest_ind(rvs1, rvs5, permutations=10000,
...                 random_state=rng)
TtestResult(statistic=-2.8415950600298774,
            pvalue=0.0052994700529947,
            df=nan)

采用这两个样本,其中一个样本具有极端的尾部。

>>> a = (56, 128.6, 12, 123.8, 64.34, 78, 763.3)
>>> b = (1.1, 2.9, 4.2)

使用 trim 关键字来执行修剪的(袁)t 检验。例如,在使用 20% 修剪时,trim=.2,该检验会减少样本 a 的每个尾部的一个 (np.floor(trim*len(a))) 元素。它将不会对样本 b 产生影响,因为 np.floor(trim*len(b)) 是 0。

>>> stats.ttest_ind(a, b, trim=.2)
TtestResult(statistic=3.4463884028073513,
            pvalue=0.01369338726499547,
            df=6.0)