连续统计分布#

概述#

所有分布都将具有位置（L）和尺度（S）参数以及所需的任何形状参数，形状参数的名称会有所不同。当 \(L=0.0\) 和 \(S=1.0\) 时，将给出分布的标准形式。非标准形式可以通过各种函数获得（注意 \(U\) 是标准均匀随机变量）。

函数名称	标准函数	变换
累积分布函数 (CDF)	\(F\left(x\right)\)	\(F\left(x;L,S\right)=F\left(\frac{\left(x-L\right)}{S}\right)\)
概率密度函数 (PDF)	\(f\left(x\right)=F^{\prime}\left(x\right)\)	\(f\left(x;L,S\right)=\frac{1}{S}f\left(\frac{\left(x-L\right)}{S}\right)\)
百分点函数 (PPF)	\(G\left(q\right)=F^{-1}\left(q\right)\)	\(G\left(q;L,S\right)=L+SG\left(q\right)\)
概率稀疏函数 (PSF)	\(g\left(q\right)=G^{\prime}\left(q\right)\)	\(g\left(q;L,S\right)=Sg\left(q\right)\)
风险函数 (HF)	\(h_{a}\left(x\right)=\frac{f\left(x\right)}{1-F\left(x\right)}\)	\(h_{a}\left(x;L,S\right)=\frac{1}{S}h_{a}\left(\frac{\left(x-L\right)}{S}\right)\)
累积风险函数 (CHF)	\(H_{a}\left(x\right)=\) \(\log\frac{1}{1-F\left(x\right)}\)	\(H_{a}\left(x;L,S\right)=H_{a}\left(\frac{\left(x-L\right)}{S}\right)\)
生存函数 (SF)	\(S\left(x\right)=1-F\left(x\right)\)	\(S\left(x;L,S\right)=S\left(\frac{\left(x-L\right)}{S}\right)\)
逆生存函数 (ISF)	\(Z\left(\alpha\right)=S^{-1}\left(\alpha\right)=G\left(1-\alpha\right)\)	\(Z\left(\alpha;L,S\right)=L+SZ\left(\alpha\right)\)
矩生成函数 (MGF)	\(M_{Y}\left(t\right)=E\left[e^{Yt}\right]\)	\(M_{X}\left(t\right)=e^{Lt}M_{Y}\left(St\right)\)
随机变量	\(Y=G\left(U\right)\)	\(X=L+SY\)
（微分）熵	\(h\left[Y\right]=-\int f\left(y\right)\log f\left(y\right)dy\)	\(h\left[X\right]=h\left[Y\right]+\log S\)
（非中心）矩	\(\mu_{n}^{\prime}=E\left[Y^{n}\right]\)	\(E\left[X^{n}\right]=L^{n}\sum_{k=0}^{N}\left(\begin{array}{c} n\\ k\end{array}\right)\left(\frac{S}{L}\right)^{k}\mu_{k}^{\prime}\)
中心矩	\(\mu_{n}=E\left[\left(Y-\mu\right)^{n}\right]\)	\(E\left[\left(X-\mu_{X}\right)^{n}\right]=S^{n}\mu_{n}\)
均值（众数，中位数），方差	\(\mu,\,\mu_{2}\)	\(L+S\mu,\, S^{2}\mu_{2}\)
偏度	\(\gamma_{1}=\frac{\mu_{3}}{\left(\mu_{2}\right)^{3/2}}\)	\(\gamma_{1}\)
峰度	\(\gamma_{2}=\frac{\mu_{4}}{\left(\mu_{2}\right)^{2}}-3\)	\(\gamma_{2}\)

矩#

非中心矩使用 PDF 定义

\[\mu_{n}^{\prime}=\int_{-\infty}^{\infty}x^{n}f\left(x\right)dx.\]

请注意，这些总是可以使用 PPF 计算。将 \(x=G\left(q\right)\) 代入上述方程，得到

\[\mu_{n}^{\prime}=\int_{0}^{1}G^{n}\left(q\right)dq\]

这可能更容易进行数值计算。请注意 \(q=F\left(x\right)\)，因此 \(dq=f\left(x\right)dx.\) 中心矩的计算方式类似 \(\mu=\mu_{1}^{\prime}\)

\begin{eqnarray*} \mu_{n} & = & \int_{-\infty}^{\infty}\left(x-\mu\right)^{n}f\left(x\right)dx\\ & = & \int_{0}^{1}\left(G\left(q\right)-\mu\right)^{n}dq\\ & = & \sum_{k=0}^{n}\left(\begin{array}{c} n\\ k\end{array}\right)\left(-\mu\right)^{k}\mu_{n-k}^{\prime}\end{eqnarray*}

特别是

\begin{eqnarray*} \mu_{3} & = & \mu_{3}^{\prime}-3\mu\mu_{2}^{\prime}+2\mu^{3}\\ & = & \mu_{3}^{\prime}-3\mu\mu_{2}-\mu^{3}\\ \mu_{4} & = & \mu_{4}^{\prime}-4\mu\mu_{3}^{\prime}+6\mu^{2}\mu_{2}^{\prime}-3\mu^{4}\\ & = & \mu_{4}^{\prime}-4\mu\mu_{3}-6\mu^{2}\mu_{2}-\mu^{4}\end{eqnarray*}

偏度定义为

\[\gamma_{1}=\sqrt{\beta_{1}}=\frac{\mu_{3}}{\mu_{2}^{3/2}}\]

而（费希尔）峰度为

\[\gamma_{2}=\frac{\mu_{4}}{\mu_{2}^{2}}-3,\]

因此正态分布的峰度为零。

中位数和众数#

中位数 \(m_{n}\) 定义为密度一半在其一侧，一半在其另一侧的点。换句话说，\(F\left(m_{n}\right)=\frac{1}{2}\)，因此

\[m_{n}=G\left(\frac{1}{2}\right).\]

此外，众数 \(m_{d}\) 定义为概率密度函数达到其峰值的值

\[m_{d}=\arg\max_{x}f\left(x\right).\]

数据拟合#

为了将数据拟合到分布，最大化似然函数是常见的做法。或者，一些分布具有众所周知的最小方差无偏估计量。这些将是默认选择，但似然函数始终可用于最小化。

如果 \(f\left(x;\boldsymbol{\theta}\right)\) 是随机变量的 PDF，其中 \(\boldsymbol{\theta}\) 是参数向量（例如 \(L\) 和 \(S\)），那么对于从该分布中抽取的 \(N\) 个独立样本，随机向量 \(\mathbf{x}\) 的联合分布为

\[f\left(\mathbf{x};\boldsymbol{\theta}\right)=\prod_{i=1}^{N}f\left(x_{i};\boldsymbol{\theta}\right).\]

参数 \(\boldsymbol{\theta}\) 的最大似然估计是使此函数最大化的参数，其中 \(\mathbf{x}\) 固定并由数据给出

\begin{eqnarray*} \boldsymbol{\theta}_{es} & = & \arg\max_{\boldsymbol{\theta}}f\left(\mathbf{x};\boldsymbol{\theta}\right)\\ & = & \arg\min_{\boldsymbol{\theta}}l_{\mathbf{x}}\left(\boldsymbol{\theta}\right).\end{eqnarray*}

其中

\begin{eqnarray*} l_{\mathbf{x}}\left(\boldsymbol{\theta}\right) & = & -\sum_{i=1}^{N}\log f\left(x_{i};\boldsymbol{\theta}\right)\\ & = & -N\overline{\log f\left(x_{i};\boldsymbol{\theta}\right)}\end{eqnarray*}

请注意，如果 \(\boldsymbol{\theta}\) 只包含形状参数，则可以通过在对数似然函数中将 \(x_{i}\) 替换为 \(\left(x_{i}-L\right)/S\)，并加上 \(N\log S\) 后进行最小化来拟合位置和尺度参数，因此

\begin{eqnarray*} l_{\mathbf{x}}\left(L,S;\boldsymbol{\theta}\right) & = & N\log S-\sum_{i=1}^{N}\log f\left(\frac{x_{i}-L}{S};\boldsymbol{\theta}\right)\\ & = & N\log S+l_{\frac{\mathbf{x}-S}{L}}\left(\boldsymbol{\theta}\right)\end{eqnarray*}

如果需要，\(L\) 和 \(S\) 的样本估计（不一定是最大似然估计）可以根据均值和方差的样本估计获得，使用

\begin{eqnarray*} \hat{S} & = & \sqrt{\frac{\hat{\mu}_{2}}{\mu_{2}}}\\ \hat{L} & = & \hat{\mu}-\hat{S}\mu\end{eqnarray*}

其中 \(\mu\) 和 \(\mu_{2}\) 被认为是未变换分布（当 \(L=0\) 和 \(S=1\) 时）的均值和方差，并且

\begin{eqnarray*} \hat{\mu} & = & \frac{1}{N}\sum_{i=1}^{N}x_{i}=\bar{\mathbf{x}}\\ \hat{\mu}_{2} & = & \frac{1}{N-1}\sum_{i=1}^{N}\left(x_{i}-\hat{\mu}\right)^{2}=\frac{N}{N-1}\overline{\left(\mathbf{x}-\bar{\mathbf{x}}\right)^{2}}\end{eqnarray*}

均值的标准记法#

我们将使用

\[\overline{y\left(\mathbf{x}\right)}=\frac{1}{N}\sum_{i=1}^{N}y\left(x_{i}\right)\]

其中 \(N\) 应从上下文中明确为样本数 \(x_{i}\)

参考文献#

ranlib, rv2, cdflib 文档
埃里克·韦斯坦的数学世界 https://mathworld.net.cn/, https://mathworld.net.cn/topics/StatisticalDistributions.html
Regress+ 文档，作者 Michael McLaughlin，工程与统计手册 (NIST)，https://www.itl.nist.gov/div898/handbook/
NIST 的 DATAPLOT 文档，https://www.itl.nist.gov/div898/software/dataplot/distribu.htm
Norman Johnson, Samuel Kotz, and N. Balakrishnan，《连续单变量分布》，第二版，第一卷和第二卷，Wiley & Sons，1994。

在教程中，一些特殊函数反复出现，并在此列出。

符号	描述	定义
\(\gamma\left(s, x\right)\)	下不完全伽马函数	\(\int_0^x t^{s-1} e^{-t} dt\)
\(\Gamma\left(s, x\right)\)	上不完全伽马函数	\(\int_x^\infty t^{s-1} e^{-t} dt\)
\(B\left(x;a,b\right)\)	不完全贝塔函数	\(\int_{0}^{x} t^{a-1}\left(1-t\right)^{b-1} dt\)
\(I\left(x;a,b\right)\)	正则化不完全贝塔函数	\(\frac{\Gamma\left(a+b\right)}{\Gamma\left(a\right)\Gamma\left(b\right)} \int_{0}^{x} t^{a-1}\left(1-t\right)^{b-1} dt\)
\(\phi\left(x\right)\)	正态分布的 PDF	\(\frac{1}{\sqrt{2\pi}}e^{-x^{2}/2}\)
\(\Phi\left(x\right)\)	正态分布的 CDF	\(\int_{-\infty}^{x}\phi\left(t\right) dt = \frac{1}{2}+\frac{1}{2}\mathrm{erf}\left(\frac{x}{\sqrt{2}}\right)\)
\(\psi\left(z\right)\)	双伽马函数	\(\frac{d}{dz} \log\left(\Gamma\left(z\right)\right)\)
\(\psi_{n}\left(z\right)\)	多伽马函数	\(\frac{d^{n+1}}{dz^{n+1}}\log\left(\Gamma\left(z\right)\right)\)
\(I_{\nu}\left(y\right)\)	第一类修正贝塞尔函数
\(\mathrm{Ei}(\mathrm{z})\)	指数积分	\(-\int_{-x}^\infty \frac{e^{-t}}{t} dt\)
\(\zeta\left(n\right)\)	黎曼 zeta 函数	\(\sum_{k=1}^{\infty} \frac{1}{k^{n}}\)
\(\zeta\left(n,z\right)\)	赫尔维茨 zeta 函数	\(\sum_{k=0}^{\infty} \frac{1}{\left(k+z\right)^{n}}\)
\(\,{}_{p}F_{q}(a_{1},\ldots,a_{p};b_{1},\ldots,b_{q};z)\)	超几何函数	\(\sum_{n=0}^{\infty} {\frac{(a_{1})_{n}\cdots(a_{p})_{n}}{(b_{1})_{n}\cdots(b_{q})_{n}}} \,{\frac{z^{n}}{n!}}\)

连续统计分布#

概述#

矩#

中位数和众数#

数据拟合#

均值的标准记法#

参考文献#

中的连续分布 scipy.stats#

中的连续分布 `scipy.stats`#