ttest_1samp#
- scipy.stats.ttest_1samp(a, popmean, axis=0, nan_policy='propagate', alternative='two-sided', *, keepdims=False)[源代码]#
计算一个样本组的均值的 T 检验。
这是一个检验零假设的测试,即独立观测样本 a 的期望值(均值)等于给定的总体均值 popmean。
- 参数:
- aarray_like
样本观测值。
- popmeanfloat 或 array_like
零假设中的期望值。如果为 array_like,则其沿 axis 的长度必须等于 1,并且它必须可以与 a 进行广播。
- axisint 或 None,默认值:0
如果为 int,则为计算统计信息的输入轴。输入的每个轴切片(例如,行)的统计信息将显示在输出的相应元素中。如果为
None
,则会在计算统计信息之前将输入展平。- nan_policy{‘propagate’, ‘omit’, ‘raise’}
定义如何处理输入 NaN。
propagate
: 如果在计算统计信息的轴切片(例如,行)中存在 NaN,则输出的相应条目将为 NaN。omit
: 执行计算时将省略 NaN。如果计算统计信息的轴切片中剩余的数据不足,则输出的相应条目将为 NaN。raise
: 如果存在 NaN,将引发ValueError
。
- alternative{‘two-sided’, ‘less’, ‘greater’}, 可选
定义备择假设。以下选项可用(默认值为 ‘two-sided’)
‘two-sided’:样本的潜在分布的均值与给定的总体均值 (popmean) 不同
‘less’:样本的潜在分布的均值小于给定的总体均值 (popmean)
‘greater’:样本的潜在分布的均值大于给定的总体均值 (popmean)
- keepdimsbool,默认值:False
如果设置为 True,则缩减的轴将保留在结果中,作为大小为 1 的维度。使用此选项,结果将正确地与输入数组进行广播。
- 返回:
- result
TtestResult
具有以下属性的对象
- statisticfloat 或 array
t 统计量。
- pvaluefloat 或 array
与给定备择假设相关的 p 值。
- dffloat 或 array
用于计算 t 统计量的自由度数;这比样本大小 (
a.shape[axis]
) 小 1。在版本 1.10.0 中添加。
该对象还具有以下方法
- confidence_interval(confidence_level=0.95)
计算给定置信水平下总体均值周围的置信区间。置信区间以
namedtuple
的形式返回,其中包含字段 low 和 high。在版本 1.10.0 中添加。
- result
说明
统计量计算为
(np.mean(a) - popmean)/se
,其中se
是标准误差。因此,当样本均值大于总体均值时,统计量将为正,而当样本均值小于总体均值时,统计量将为负。从 SciPy 1.9 开始,在执行计算之前,
np.matrix
输入(不建议用于新代码)将转换为np.ndarray
。在这种情况下,输出将是标量或适当形状的np.ndarray
,而不是 2Dnp.matrix
。类似地,虽然会忽略掩码数组的掩码元素,但输出将是标量或np.ndarray
,而不是mask=False
的掩码数组。示例
假设我们希望检验一个总体的均值等于 0.5 的零假设。我们选择 99% 的置信水平;也就是说,如果 p 值小于 0.01,我们将拒绝零假设,支持备择假设。
当测试来自标准均匀分布的随机变量时,该分布的均值为 0.5,我们预计数据在大多数情况下与零假设一致。
>>> import numpy as np >>> from scipy import stats >>> rng = np.random.default_rng() >>> rvs = stats.uniform.rvs(size=50, random_state=rng) >>> stats.ttest_1samp(rvs, popmean=0.5) TtestResult(statistic=2.456308468440, pvalue=0.017628209047638, df=49)
如预期,p 值 0.017 不低于我们的阈值 0.01,因此我们不能拒绝零假设。
当测试来自标准正态分布的数据时,该分布的均值为 0,我们预计零假设将被拒绝。
>>> rvs = stats.norm.rvs(size=50, random_state=rng) >>> stats.ttest_1samp(rvs, popmean=0.5) TtestResult(statistic=-7.433605518875, pvalue=1.416760157221e-09, df=49)
实际上,p 值低于我们的阈值 0.01,因此我们拒绝零假设,支持默认的“双侧”备择假设:总体的均值不等于 0.5。
但是,假设我们要针对总体均值大于 0.5 的单侧备择假设检验零假设。由于标准正态的均值小于 0.5,因此我们不希望拒绝零假设。
>>> stats.ttest_1samp(rvs, popmean=0.5, alternative='greater') TtestResult(statistic=-7.433605518875, pvalue=0.99999999929, df=49)
毫不奇怪,p 值大于我们的阈值,因此我们不会拒绝零假设。
请注意,当使用 99% 的置信水平时,一个真实的零假设将在大约 1% 的时间内被拒绝。
>>> rvs = stats.uniform.rvs(size=(100, 50), random_state=rng) >>> res = stats.ttest_1samp(rvs, popmean=0.5, axis=1) >>> np.sum(res.pvalue < 0.01) 1
实际上,即使上面所有 100 个样本都是从标准均匀分布中抽取的,该分布确实具有 0.5 的总体均值,我们也会错误地拒绝其中一个样本的零假设。
ttest_1samp
还可以计算总体均值周围的置信区间。>>> rvs = stats.norm.rvs(size=50, random_state=rng) >>> res = stats.ttest_1samp(rvs, popmean=0) >>> ci = res.confidence_interval(confidence_level=0.95) >>> ci ConfidenceInterval(low=-0.3193887540880017, high=0.2898583388980972)
95% 置信区间的边界是参数 popmean 的最小值和最大值,对于这些值,检验的 p 值将为 0.05。
>>> res = stats.ttest_1samp(rvs, popmean=ci.low) >>> np.testing.assert_allclose(res.pvalue, 0.05) >>> res = stats.ttest_1samp(rvs, popmean=ci.high) >>> np.testing.assert_allclose(res.pvalue, 0.05)
在对抽取样本的总体进行某些假设的情况下,置信水平为 95% 的置信区间预计在 95% 的样本重复中包含真实的总体均值。
>>> rvs = stats.norm.rvs(size=(50, 1000), loc=1, random_state=rng) >>> res = stats.ttest_1samp(rvs, popmean=0) >>> ci = res.confidence_interval() >>> contains_pop_mean = (ci.low < 1) & (ci.high > 1) >>> contains_pop_mean.sum() 953