differential_entropy#
- scipy.stats.differential_entropy(values, *, window_length=None, base=None, axis=0, method='auto', nan_policy='propagate', keepdims=False)[源代码]#
给定分布的样本,估计微分熵。
使用 method 参数可提供多种估计方法。默认情况下,方法是根据样本大小选择的。
- 参数:
- valuessequence
连续分布的样本。
- window_lengthint, optional
计算 Vasicek 估计值的窗口长度。必须是介于 1 和样本大小一半之间的整数。如果为
None(默认值),则使用启发式值\[\left \lfloor \sqrt{n} + 0.5 \right \rfloor\]其中 \(n\) 是样本大小。此启发式方法最初在 [2] 中提出,并已成为文献中的常见方法。
- basefloat, optional
使用的对数底,默认为
e(自然对数)。- axisint 或 None, 默认: 0
如果为 int,则为输入沿其计算统计量的轴。输入的每个轴切片(例如,行)的统计量将出现在输出的相应元素中。如果为
None,则在计算统计量之前将输入展平。- method{‘vasicek’, ‘van es’, ‘ebrahimi’, ‘correa’, ‘auto’}, optional
用于从样本估计微分熵的方法。默认为
'auto'。有关更多信息,请参阅“说明”。- nan_policy{‘propagate’, ‘omit’, ‘raise’}
定义如何处理输入 NaN。
propagate:如果计算统计量的轴切片(例如,行)中存在 NaN,则输出的相应条目将为 NaN。omit:在执行计算时将忽略 NaN。如果计算统计量的轴切片中剩余数据不足,则输出的相应条目将为 NaN。raise:如果存在 NaN,将引发ValueError。
- keepdimsbool, 默认: False
如果设置为 True,则减少的轴将保留在结果中,作为大小为一的维度。使用此选项,结果将与输入数组正确广播。
- 返回:
- entropyfloat
计算出的微分熵。
附注
该函数将在以下极限情况下收敛到真正的微分熵:
\[n \to \infty, \quad m \to \infty, \quad \frac{m}{n} \to 0\]对于给定的样本大小,
window_length的最佳选择取决于 (未知的) 分布。通常,分布密度越平滑,window_length的最佳值越大 [1]。以下选项可用于 method 参数。
'vasicek'使用 [1] 中提出的估计器。这是最早也是最有影响力的微分熵估计器之一。'van es'使用 [3] 中提出的偏差校正估计器,该估计器不仅是一致的,而且在某些条件下是渐近正态的。'ebrahimi'使用 [4] 中提出的估计器,该估计器在模拟中显示出比 Vasicek 估计器更小的偏差和均方误差。'correa'使用 [5] 中提出的基于局部线性回归的估计器。在模拟研究中,其均方误差持续小于 Vasicek 估计器,但计算成本更高。'auto'自动选择方法 (默认)。目前,这对于非常小的样本 (<10) 选择'van es',对于中等样本量 (11-1000) 选择'ebrahimi',对于较大的样本选择'vasicek',但这在未来版本中可能会有变化。
所有估计器均按照 [6] 中的描述实现。
从 SciPy 1.9 开始,
np.matrix输入(不推荐用于新代码)在执行计算之前转换为np.ndarray。在这种情况下,输出将是标量或适当形状的np.ndarray,而不是 2Dnp.matrix。类似地,虽然被掩码数组的被掩码元素被忽略,但输出将是标量或np.ndarray,而不是带有mask=False的被掩码数组。数组 API 标准支持
differential_entropy除了 NumPy 之外,还对符合 Python Array API Standard 的后端提供了实验性支持。请通过设置环境变量SCIPY_ARRAY_API=1并提供 CuPy、PyTorch、JAX 或 Dask 数组作为数组参数来测试这些功能。支持以下后端和设备 (或其他功能) 的组合。库
CPU
GPU
NumPy
✅
不适用
CuPy
不适用
✅
PyTorch
✅
✅
JAX
✅
✅
Dask
✅
不适用
有关更多信息,请参阅 对数组 API 标准的支持。
参考文献
[1] (1,2)Vasicek, O. (1976). A test for normality based on sample entropy. Journal of the Royal Statistical Society: Series B (Methodological), 38(1), 54-59.
[2]Crzcgorzewski, P., & Wirczorkowski, R. (1999). Entropy-based goodness-of-fit test for exponentiality. Communications in Statistics-Theory and Methods, 28(5), 1183-1202.
[3]Van Es, B. (1992). Estimating functionals related to a density by a class of statistics based on spacings. Scandinavian Journal of Statistics, 61-72.
[4]Ebrahimi, N., Pflughoeft, K., & Soofi, E. S. (1994). Two measures of sample entropy. Statistics & Probability Letters, 20(3), 225-234.
[5]Correa, J. C. (1995). A new estimator of entropy. Communications in Statistics-Theory and Methods, 24(10), 2439-2449.
[6]Noughabi, H. A. (2015). Entropy Estimation Using Numerical Methods. Annals of Data Science, 2(2), 231-241. https://link.springer.com/article/10.1007/s40745-015-0045-9
示例
>>> import numpy as np >>> from scipy.stats import differential_entropy, norm
标准正态分布的熵
>>> rng = np.random.default_rng() >>> values = rng.standard_normal(100) >>> differential_entropy(values) 1.3407817436640392
与真实熵进行比较
>>> float(norm.entropy()) 1.4189385332046727
对于 5 到 1000 之间的几个样本大小,比较
'vasicek'、'van es'和'ebrahimi'方法的准确性。具体来说,比较估计值与分布的真实微分熵之间的均方根误差 (经过 1000 次试验)。>>> from scipy import stats >>> import matplotlib.pyplot as plt >>> >>> >>> def rmse(res, expected): ... '''Root mean squared error''' ... return np.sqrt(np.mean((res - expected)**2)) >>> >>> >>> a, b = np.log10(5), np.log10(1000) >>> ns = np.round(np.logspace(a, b, 10)).astype(int) >>> reps = 1000 # number of repetitions for each sample size >>> expected = stats.expon.entropy() >>> >>> method_errors = {'vasicek': [], 'van es': [], 'ebrahimi': []} >>> for method in method_errors: ... for n in ns: ... rvs = stats.expon.rvs(size=(reps, n), random_state=rng) ... res = stats.differential_entropy(rvs, method=method, axis=-1) ... error = rmse(res, expected) ... method_errors[method].append(error) >>> >>> for method, errors in method_errors.items(): ... plt.loglog(ns, errors, label=method) >>> >>> plt.legend() >>> plt.xlabel('sample size') >>> plt.ylabel('RMSE (1000 trials)') >>> plt.title('Entropy Estimator Error (Exponential Distribution)')