scipy.stats.

wasserstein_distance#

scipy.stats.wasserstein_distance(u_values, v_values, u_weights=None, v_weights=None)[source]#

计算两个 1D 离散分布之间的 Wasserstein-1 距离。

Wasserstein 距离，也称为 Earth mover’s distance（推土机距离）或最佳传输距离，是两个概率分布之间的相似性度量 [1]。在离散情况下，Wasserstein 距离可以理解为将一个分布转换为另一个分布的最佳传输方案的成本。成本计算为移动的概率质量的数量与移动距离的乘积。可以在 [2] 中找到简短而直观的介绍。

1.0.0 版本新增。

参数:

u_values1d array_like: 来自概率分布的样本或概率分布的支持（所有可能值的集合）。每个元素都是一个观察值或可能的值。
v_values1d array_like: 来自第二个分布的样本或支持。
u_weights, v_weights1d array_like, optional: 与样本相对应的权重或计数，或与支持值相对应的概率质量。元素的总和必须是正数和有限的。如果未指定，则每个值都被分配相同的权重。

返回:

distancefloat: 分布之间计算出的距离。

参见

wasserstein_distance_nd: 计算两个 N-D 离散分布之间的 Wasserstein-1 距离。

注释

给定两个 1D 概率质量函数 \(u\) 和 \(v\)，分布之间的第一个 Wasserstein 距离是

\[l_1 (u, v) = \inf_{\pi \in \Gamma (u, v)} \int_{\mathbb{R} \times \mathbb{R}} |x-y| \mathrm{d} \pi (x, y)\]

其中 \(\Gamma (u, v)\) 是 \(\mathbb{R} \times \mathbb{R}\) 上的（概率）分布集合，其边缘分别是第一个和第二个因子上的 \(u\) 和 \(v\)。对于给定的值 \(x\)，\(u(x)\) 给出 \(u\) 在位置 \(x\) 处的概率，\(v(x)\) 也是如此。

如果 \(U\) 和 \(V\) 分别是 \(u\) 和 \(v\) 的 CDF，则此距离也等于

\[l_1(u, v) = \int_{-\infty}^{+\infty} |U-V|\]

有关这两个定义等价性的证明，请参见 [3]。

输入分布可以是经验性的，因此来自其值实际上是函数输入的样本，或者它们可以被视为广义函数，在这种情况下，它们是位于指定值的狄拉克 delta 函数的加权和。

参考

[1]

“Wasserstein metric”, https://en.wikipedia.org/wiki/Wasserstein_metric

[2]

Lili Weng, “What is Wasserstein distance?”, Lil’log, https://lilianweng.github.io/posts/2017-08-20-gan/#what-is-wasserstein-distance.

[3]

Ramdas, Garcia, Cuturi “On Wasserstein Two Sample Testing and Related Families of Nonparametric Tests” (2015). arXiv:1509.02237.

示例

>>> from scipy.stats import wasserstein_distance
>>> wasserstein_distance([0, 1, 3], [5, 6, 8])
5.0
>>> wasserstein_distance([0, 1], [0, 1], [3, 1], [2, 2])
0.25
>>> wasserstein_distance([3.4, 3.9, 7.5, 7.8], [4.5, 1.4],
...                      [1.4, 0.9, 3.1, 7.2], [3.2, 3.5])
4.0781331438047861