KStwobign 分布#

这是从 \(n\) 个样本或观测值计算出的经验分布函数与比较(或目标)累积分布函数之间的归一化最大绝对差值的极限分布。(ksone 是未归一化的正差值的分布,\(D_n^+\)。)

\(D_n = \sup_t \left|F_{empirical,n}(t) - F_{target}(t)\right|\),归一化因子是 \(\sqrt{n}\)kstwobign\(\sqrt{n} D_n\) 值在 \(n\rightarrow\infty\) 时 的极限分布。

注意 \(D_n=\max(D_n^+, D_n^-)\),但 \(D_n^+\)\(D_n^-\) 不是独立的。

kstwobign 也可以用于两个经验分布函数之间的差值,对于具有 \(m\)\(n\) 个样本的观测值集,其中 \(m\)\(n\) 是“大的”。写 \(D_{m,n} = \sup_t \left|F_{1,m}(t)-F_{2,n}(t)\right|\),其中 \(F_{1,m}\)\(F_{2,n}\) 是两个经验分布函数,那么 kstwobign 也是 \(\sqrt{\frac{mn}{m+n}}D_{m,n}\) 值的极限分布,作为 \(m,n\rightarrow\infty\)\(m/n\rightarrow a \ne 0, \infty\)

没有形状参数,支持是 \(x\in\left[0,\infty\right)\)

\begin{eqnarray*} F\left(x\right) & = & 1 - 2 \sum_{k=1}^{\infty} (-1)^{k-1} e^{-2k^2 x^2}\\ & = & \frac{\sqrt{2\pi}}{x} \sum_{k=1}^{\infty} e^{-(2k-1)^2 \pi^2/(8x^2)}\\ & = & 1 - \textrm{scipy.special.kolmogorov}(n, x) \\ f\left(x\right) & = & 8x \sum_{k=1}^{\infty} (-1)^{k-1} k^2 e^{-2k^2 x^2} \end{eqnarray*}

参考文献#

  • “Kolmogorov-Smirnov 检验”,维基百科 https://en.wikipedia.org/wiki/Kolmogorov-Smirnov_test

  • Kolmogoroff, A. “未知分布函数的置信限。”” Ann. Math. Statist. 12 (1941), no. 4, 461–463。

  • Smirnov, N. “关于估计两个独立样本的经验分布曲线之间差异的估计” Bull. Math. Univ. Moscou., 2 (1039), 2-26。

  • Feller, W. “关于经验分布的 Kolmogorov-Smirnov 极限定理。” Ann. Math. Statist. 19 (1948), no. 2, 177–189。以及“勘误” Ann. Math. Statist. 21 (1950), no. 2, 301–302。

实现:scipy.stats.kstwobign