scipy.stats.

ttest_rel#

scipy.stats.ttest_rel(a, b, axis=0, nan_policy='propagate', alternative='two-sided', *, keepdims=False)[源代码]#

计算两个相关样本(a 和 b)得分的 t 检验。

这是一个用于检验两个相关或重复样本是否具有相同平均(期望)值的零假设的检验。

参数:
a, barray_like

数组必须具有相同的形状。

axisint 或 None,默认值: 0

如果为 int,则为计算统计量的输入轴。输入的每个轴切片(例如,行)的统计量将出现在输出的相应元素中。如果为 None,则在计算统计量之前将展平输入。

nan_policy{‘propagate’, ‘omit’, ‘raise’}

定义如何处理输入的 NaN。

  • propagate:如果在计算统计量的轴切片(例如,行)中存在 NaN,则输出的相应条目将为 NaN。

  • omit:执行计算时将省略 NaN。如果在计算统计量的轴切片中剩余的数据不足,则输出的相应条目将为 NaN。

  • raise:如果存在 NaN,将引发 ValueError

alternative{‘two-sided’, ‘less’, ‘greater’}, optional

定义备择假设。以下选项可用(默认为 ‘two-sided’)

  • ‘two-sided’:样本的基础分布的均值不相等。

  • ‘less’:第一个样本的基础分布的均值小于第二个样本的基础分布的均值。

  • ‘greater’:第一个样本的基础分布的均值大于第二个样本的基础分布的均值。

在 1.6.0 版本中添加。

keepdimsbool,默认值:False

如果将其设置为 True,则缩减的轴将保留在结果中,作为大小为 1 的维度。使用此选项,结果将针对输入数组正确广播。

返回:
resultTtestResult

具有以下属性的对象

statisticfloat 或 array

t 统计量。

pvaluefloat 或 array

与给定备择假设相关的 p 值。

dffloat 或 array

用于计算 t 统计量的自由度数;这比样本大小(a.shape[axis])小 1。

在 1.10.0 版本中添加。

该对象还具有以下方法

confidence_interval(confidence_level=0.95)

计算给定置信水平下总体均值差异的置信区间。置信区间以 namedtuple 返回,其中包含字段 lowhigh

在 1.10.0 版本中添加。

说明

使用示例是同一组学生在不同考试中的得分,或从相同单元的重复抽样。该测试衡量跨样本(例如考试)的平均得分是否存在显着差异。如果我们观察到较大的 p 值,例如大于 0.05 或 0.1,则我们不能拒绝平均得分相同的零假设。如果 p 值小于阈值,例如 1%、5% 或 10%,则我们拒绝平均值相等的零假设。较小的 p 值与较大的 t 统计量相关。

t 统计量的计算公式为 np.mean(a - b)/se,其中 se 是标准误差。因此,当 a - b 的样本均值大于零时,t 统计量将为正,而当 a - b 的样本均值小于零时,t 统计量将为负。

从 SciPy 1.9 开始,在执行计算之前,np.matrix 输入(不建议用于新代码)将转换为 np.ndarray。在这种情况下,输出将是标量或具有适当形状的 np.ndarray,而不是 2D np.matrix。类似地,虽然会忽略掩码数组的掩码元素,但输出将是标量或 np.ndarray,而不是 mask=False 的掩码数组。

参考

https://en.wikipedia.org/wiki/T-test#Dependent_t-test_for_paired_samples

示例

>>> import numpy as np
>>> from scipy import stats
>>> rng = np.random.default_rng()
>>> rvs1 = stats.norm.rvs(loc=5, scale=10, size=500, random_state=rng)
>>> rvs2 = (stats.norm.rvs(loc=5, scale=10, size=500, random_state=rng)
...         + stats.norm.rvs(scale=0.2, size=500, random_state=rng))
>>> stats.ttest_rel(rvs1, rvs2)
TtestResult(statistic=-0.4549717054410304, pvalue=0.6493274702088672, df=499)
>>> rvs3 = (stats.norm.rvs(loc=8, scale=10, size=500, random_state=rng)
...         + stats.norm.rvs(scale=0.2, size=500, random_state=rng))
>>> stats.ttest_rel(rvs1, rvs3)
TtestResult(statistic=-5.879467544540889, pvalue=7.540777129099917e-09, df=499)