scipy.stats.

pearsonr#

scipy.stats.pearsonr(x, y, *, alternative='two-sided', method=None, axis=0)[源码]#

Pearson 相关系数和用于检验非相关的 p 值。

Pearson 相关系数 [1] 衡量两个数据集之间的线性关系。与其他相关系数一样，它的范围在 -1 和 +1 之间，0 表示没有相关性。-1 或 +1 的相关性表示存在精确的线性关系。正相关表示当 x 增加时，y 也增加。负相关表示当 x 增加时，y 减少。

此函数还执行一个零假设检验，即样本的基础分布是不相关的且呈正态分布。（有关输入非正态性对相关系数分布的影响的讨论，请参见 Kowalski [3]。）p 值大致指示一个不相关的系统产生数据集的可能性，这些数据集的 Pearson 相关性至少与从这些数据集计算出的相关性一样极端。

参数:

xarray_like

输入数组。

yarray_like

输入数组。

axisint 或 None，默认

执行计算的轴。默认为 0。如果为 None，则在执行计算之前展平两个数组。

1.14.0 版本中新增。

alternative{‘two-sided’, ‘greater’, ‘less’}, 可选

定义备择假设。默认为“two-sided”。以下选项可用

“two-sided”：相关性非零
“less”：相关性为负（小于零）
“greater”：相关性为正（大于零）

1.9.0 版本中新增。

methodResamplingMethod, 可选

定义用于计算 p 值的方法。如果 method 是 PermutationMethod/MonteCarloMethod 的实例，则 p 值使用 scipy.stats.permutation_test/scipy.stats.monte_carlo_test 以及提供的配置选项和其他适当设置来计算。否则，p 值的计算方式如注释中所述。

1.11.0 版本中新增。

返回:

resultPearsonRResult

具有以下属性的对象

statisticfloat: Pearson 积矩相关系数。
pvaluefloat: 与所选替代方案关联的 p 值。

该对象具有以下方法

confidence_interval(confidence_level, method): 这将计算给定置信水平的相关系数 statistic 的置信区间。置信区间在具有字段 low 和 high 的 namedtuple 中返回。如果未提供 method，则使用 Fisher 变换 [1] 计算置信区间。如果 method 是 BootstrapMethod 的实例，则使用 scipy.stats.bootstrap 以及提供的配置选项和其他适当设置来计算置信区间。在某些情况下，由于退化的重采样，置信限可能为 NaN，这对于非常小的样本（约 6 个观测值）来说是典型的。

引发:

ValueError: 如果 x 和 y 的长度不小于 2。

警告:

ConstantInputWarning: 如果输入是常量数组，则引发。在这种情况下未定义相关系数，因此返回 np.nan。
NearConstantInputWarning: 如果输入“几乎”是常量，则引发。如果 norm(x - mean(x)) < 1e-13 * abs(mean(x))，则数组 x 被认为几乎是常量。在这种情况下，计算 x - mean(x) 中的数值错误可能导致 r 的不准确计算。

另请参阅

spearmanr: Spearman 等级相关系数。
kendalltau: Kendall 的 tau，一种用于顺序数据的相关性度量。
Pearson 相关性: 扩展示例

注释

相关系数的计算如下

\[r = \frac{\sum (x - m_x) (y - m_y)} {\sqrt{\sum (x - m_x)^2 \sum (y - m_y)^2}}\]

其中 \(m_x\) 是向量 x 的均值，\(m_y\) 是向量 y 的均值。

假设 x 和 y 来自独立的正态分布（因此总体相关系数为 0），则样本相关系数 r 的概率密度函数为 ([1], [2])

\[f(r) = \frac{{(1-r^2)}^{n/2-2}}{\mathrm{B}(\frac{1}{2},\frac{n}{2}-1)}\]

其中 n 是样本数，B 是 beta 函数。这有时被称为 r 的精确分布。这是在 pearsonr 中用于计算 p 值时的分布，当 method 参数保留其默认值 (None) 时。该分布是区间 [-1, 1] 上的 beta 分布，具有相等的形状参数 a = b = n/2 - 1。就 SciPy 的 beta 分布实现而言，r 的分布是

dist = scipy.stats.beta(n/2 - 1, n/2 - 1, loc=-1, scale=2)

pearsonr 返回的默认 p 值为双尾 p 值。对于具有相关系数 r 的给定样本，p 值为来自具有零相关性的总体的随机样本 x' 和 y' 的 abs(r') 大于或等于 abs(r) 的概率。就上面显示的 dist 对象而言，给定 r 和长度 n 的 p 值可以计算为

p = 2*dist.cdf(-abs(r))

当 n 为 2 时，上述连续分布未明确定义。可以将 beta 分布的极限解释为当形状参数 a 和 b 接近 a = b = 0 时，在 r = 1 和 r = -1 处具有相等概率质量的离散分布。更直接地说，可以观察到，给定数据 x = [x1, x2] 和 y = [y1, y2]，并假设 x1 != x2 且 y1 != y2，则 r 的唯一可能值为 1 和 -1。由于长度为 2 的任何样本 x' 和 y' 的 abs(r') 都将为 1，因此长度为 2 的样本的双尾 p 值始终为 1。

为了向后兼容，返回的对象也像一个长度为 2 的元组，其中包含统计量和 p 值。

pearsonr 除了 NumPy 之外，还实验性地支持 Python Array API 标准兼容后端。请考虑通过设置环境变量 SCIPY_ARRAY_API=1 并提供 CuPy、PyTorch、JAX 或 Dask 数组作为数组参数来测试这些功能。支持以下后端和设备（或其他功能）的组合。

库	CPU	GPU
NumPy	✅	不适用
CuPy	不适用	✅
PyTorch	✅	⛔
JAX	⚠️ 没有 JIT	⛔
Dask	⚠️ 计算图	不适用

有关更多信息，请参见对数组 API 标准的支持。

参考

[1] (1,2,3)

“Pearson 相关系数”，维基百科，https://en.wikipedia.org/wiki/Pearson_correlation_coefficient

[2]

Student，“相关系数的可能误差”，Biometrika，第 6 卷，第 2-3 期，1908 年 9 月 1 日，第 302-310 页。

[3]

C. J. Kowalski，“非正态性对样本积矩相关系数分布的影响”皇家统计学会杂志。C 系列（应用统计），第 21 卷，第 1 期（1972 年），第 1-12 页。

示例

>>> import numpy as np
>>> from scipy import stats
>>> x, y = [1, 2, 3, 4, 5, 6, 7], [10, 9, 2.5, 6, 4, 3, 2]
>>> res = stats.pearsonr(x, y)
>>> res
PearsonRResult(statistic=-0.828503883588428, pvalue=0.021280260007523286)

要执行测试的精确置换版本

>>> rng = np.random.default_rng()
>>> method = stats.PermutationMethod(n_resamples=np.inf, random_state=rng)
>>> stats.pearsonr(x, y, method=method)
PearsonRResult(statistic=-0.828503883588428, pvalue=0.028174603174603175)

要在数据来自均匀分布的零假设下执行测试

>>> method = stats.MonteCarloMethod(rvs=(rng.uniform, rng.uniform))
>>> stats.pearsonr(x, y, method=method)
PearsonRResult(statistic=-0.828503883588428, pvalue=0.0188)

要生成渐近 90% 置信区间

>>> res.confidence_interval(confidence_level=0.9)
ConfidenceInterval(low=-0.9644331982722841, high=-0.3460237473272273)

对于 bootstrap 置信区间

>>> method = stats.BootstrapMethod(method='BCa', rng=rng)
>>> res.confidence_interval(confidence_level=0.9, method=method)
ConfidenceInterval(low=-0.9983163756488651, high=-0.22771001702132443)  # may vary

如果提供 N 维数组，则根据与大多数 scipy.stats 函数相同的约定，在单个调用中执行多个测试

>>> rng = np.random.default_rng()
>>> x = rng.standard_normal((8, 15))
>>> y = rng.standard_normal((8, 15))
>>> stats.pearsonr(x, y, axis=0).statistic.shape  # between corresponding columns
(15,)
>>> stats.pearsonr(x, y, axis=1).statistic.shape  # between corresponding rows
(8,)

要执行数组切片之间的所有成对比较，请使用标准 NumPy 广播技术。例如，要计算所有行对之间的相关性

>>> stats.pearsonr(x[:, np.newaxis, :], y, axis=-1).statistic.shape
(8, 8)

如果 y = a + b*x + e，其中 a,b 是常数，e 是一个随机误差项，假设与 x 无关，则 x 和 y 之间存在线性相关性。为简单起见，假设 x 是标准正态分布，a=0，b=1，并让 e 服从均值为零且标准差为 s>0 的正态分布。

>>> rng = np.random.default_rng()
>>> s = 0.5
>>> x = stats.norm.rvs(size=500, random_state=rng)
>>> e = stats.norm.rvs(scale=s, size=500, random_state=rng)
>>> y = x + e
>>> stats.pearsonr(x, y).statistic
0.9001942438244763

这应该接近于给定的精确值

>>> 1/np.sqrt(1 + s**2)
0.8944271909999159

对于 s=0.5，我们观察到高水平的相关性。通常，噪声的较大方差会降低相关性，而当误差的方差变为零时，相关性接近于 1。

重要的是要记住，除非 (x, y) 是联合正态分布，否则没有相关性并不意味着独立性。当存在非常简单的依赖结构时，相关性甚至可以为零：如果 X 服从标准正态分布，则令 y = abs(x)。请注意，x 和 y 之间的相关性为零。实际上，由于 x 的期望值为零，cov(x, y) = E[x*y]。根据定义，这等于 E[x*abs(x)]，它通过对称性为零。以下代码行说明了此观察结果

>>> y = np.abs(x)
>>> stats.pearsonr(x, y)
PearsonRResult(statistic=-0.05444919272687482, pvalue=0.22422294836207743)

非零相关系数可能具有误导性。例如，如果 X 具有标准正态分布，则当 x < 0 时定义 y = x，否则定义 y = 0。一个简单的计算表明 corr(x, y) = sqrt(2/Pi) = 0.797…，这意味着高水平的相关性

>>> y = np.where(x < 0, x, 0)
>>> stats.pearsonr(x, y)
PearsonRResult(statistic=0.861985781588, pvalue=4.813432002751103e-149)

这是不直观的，因为如果 x 大于零，则 x 和 y 之间没有依赖关系，如果我们对 x 和 y 进行采样，则大约有一半的情况下会发生这种情况。

有关更详细的示例，请参见 Pearson 相关性。