scipy.stats.

differential_entropy#

scipy.stats.differential_entropy(values, *, window_length=None, base=None, axis=0, method='auto', nan_policy='propagate', keepdims=False)[source]#

给定一个分布样本,估计微分熵。

使用 method 参数可以使用几种估计方法。默认情况下,根据样本大小选择方法。

参数::
values序列

来自连续分布的样本。

window_lengthint,可选

用于计算 Vasicek 估计的窗口长度。必须是介于 1 和样本大小一半之间的整数。如果为 None(默认值),它使用启发式值

\[\left \lfloor \sqrt{n} + 0.5 \right \rfloor\]

其中 \(n\) 是样本大小。这种启发式方法最初是在 [2] 中提出的,并且在文献中已变得很常见。

basefloat,可选

要使用的对数基,默认为 e(自然对数)。

axisint 或 None,默认值:0

如果为整数,则为输入沿其计算统计量的轴。输入的每个轴切片(例如行)的统计量将出现在输出的相应元素中。如果为 None,则输入将在计算统计量之前被展开。

method{‘vasicek’, ‘van es’, ‘ebrahimi’, ‘correa’, ‘auto’},可选

用于从样本估计微分熵的方法。默认值为 'auto'。有关更多信息,请参见说明。

nan_policy{‘propagate’, ‘omit’, ‘raise’}

定义如何处理输入 NaN。

  • propagate:如果在沿其计算统计量的轴切片(例如行)中存在 NaN,则输出的相应条目将为 NaN。

  • omit:执行计算时,将忽略 NaN。如果沿其计算统计量的轴切片中剩余的数据不足,则输出的相应条目将为 NaN。

  • raise:如果存在 NaN,则会引发 ValueError

keepdimsbool,默认值:False

如果将此设置为 True,则减少的轴将作为大小为一的维度保留在结果中。使用此选项,结果将针对输入数组正确广播。

返回值::
entropyfloat

计算的微分熵。

说明

此函数将在极限情况下收敛到真实的微分熵

\[n \to \infty, \quad m \to \infty, \quad \frac{m}{n} \to 0\]

给定样本大小,window_length 的最佳选择取决于(未知)分布。通常,分布的密度越平滑,window_length 的最佳值越大 [1]

以下选项可用于 method 参数。

  • 'vasicek' 使用在 [1] 中介绍的估计器。这是最早也是最具影响力的微分熵估计器之一。

  • 'van es' 使用在 [3] 中介绍的偏差校正估计器,它不仅是一致的,而且在某些条件下,渐近正态。

  • 'ebrahimi' 使用在 [4] 中介绍的估计器,在模拟中证明了它比 Vasicek 估计器具有更小的偏差和均方误差。

  • 'correa' 使用在 [5] 中介绍的基于局部线性回归的估计器。在模拟研究中,它始终比 Vasiceck 估计器具有更小的均方误差,但计算成本更高。

  • 'auto' 自动选择方法(默认)。目前,它会为非常小的样本(<10)选择 'van es',为中等样本大小(11-1000)选择 'ebrahimi',为更大的样本选择 'vasicek',但这种行为可能会在将来的版本中发生变化。

所有估计器均按 [6] 中所述实现。

从 SciPy 1.9 开始,np.matrix 输入(不推荐用于新代码)在执行计算之前转换为 np.ndarray。在这种情况下,输出将是标量或 np.ndarray,而不是 2D np.matrix。类似地,虽然掩盖数组的掩盖元素被忽略,但输出将是标量或 np.ndarray,而不是掩盖数组,其中 mask=False

参考

[1] (1,2)

Vasicek, O. (1976). 基于样本熵的正态性检验。皇家统计学会杂志:B 系列(方法论),38(1), 54-59。

[2]

Crzcgorzewski, P., & Wirczorkowski, R. (1999). 基于熵的指数性拟合优度检验。统计通讯-理论与方法,28(5), 1183-1202。

[3]

Van Es, B. (1992). 通过一类基于间距的统计量来估计与密度相关的泛函。斯堪的纳维亚统计杂志,61-72。

[4]

Ebrahimi, N., Pflughoeft, K., & Soofi, E. S. (1994). 两种样本熵度量。统计与概率快报,20(3), 225-234。

[5]

Correa, J. C. (1995). 熵的新估计器。统计通讯-理论与方法,24(10), 2439-2449。

[6]

Noughabi, H. A. (2015). 使用数值方法进行熵估计。数据科学年鉴,2(2), 231-241. https://link.springer.com/article/10.1007/s40745-015-0045-9

示例

>>> import numpy as np
>>> from scipy.stats import differential_entropy, norm

标准正态分布的熵

>>> rng = np.random.default_rng()
>>> values = rng.standard_normal(100)
>>> differential_entropy(values)
1.3407817436640392

与真实熵进行比较

>>> float(norm.entropy())
1.4189385332046727

对于 5 到 1000 之间的几个样本大小,比较 'vasicek''van es''ebrahimi' 方法的准确性。具体来说,比较估计值与分布的真实微分熵之间的均方根误差(在 1000 次试验中)。

>>> from scipy import stats
>>> import matplotlib.pyplot as plt
>>>
>>>
>>> def rmse(res, expected):
...     '''Root mean squared error'''
...     return np.sqrt(np.mean((res - expected)**2))
>>>
>>>
>>> a, b = np.log10(5), np.log10(1000)
>>> ns = np.round(np.logspace(a, b, 10)).astype(int)
>>> reps = 1000  # number of repetitions for each sample size
>>> expected = stats.expon.entropy()
>>>
>>> method_errors = {'vasicek': [], 'van es': [], 'ebrahimi': []}
>>> for method in method_errors:
...     for n in ns:
...        rvs = stats.expon.rvs(size=(reps, n), random_state=rng)
...        res = stats.differential_entropy(rvs, method=method, axis=-1)
...        error = rmse(res, expected)
...        method_errors[method].append(error)
>>>
>>> for method, errors in method_errors.items():
...     plt.loglog(ns, errors, label=method)
>>>
>>> plt.legend()
>>> plt.xlabel('sample size')
>>> plt.ylabel('RMSE (1000 trials)')
>>> plt.title('Entropy Estimator Error (Exponential Distribution)')
../../_images/scipy-stats-differential_entropy-1.png