连续统计分布#
概述#
所有分布都将具有位置 (L) 和尺度 (S) 参数,以及所需的任何形状参数,形状参数的名称将有所不同。分布的标准形式将给出,其中 \(L=0.0\) 和 \(S=1.0.\) 可以使用以下方法通过各种函数获得非标准形式(请注意,\(U\) 是标准的均匀随机变量)。
函数名称 |
标准函数 |
变换 |
|---|---|---|
累积分布函数 (CDF) |
\(F\left(x\right)\) |
\(F\left(x;L,S\right)=F\left(\frac{\left(x-L\right)}{S}\right)\) |
概率密度函数 (PDF) |
\(f\left(x\right)=F^{\prime}\left(x\right)\) |
\(f\left(x;L,S\right)=\frac{1}{S}f\left(\frac{\left(x-L\right)}{S}\right)\) |
百分点函数 (PPF) |
\(G\left(q\right)=F^{-1}\left(q\right)\) |
\(G\left(q;L,S\right)=L+SG\left(q\right)\) |
概率稀疏函数 (PSF) |
\(g\left(q\right)=G^{\prime}\left(q\right)\) |
\(g\left(q;L,S\right)=Sg\left(q\right)\) |
风险函数 (HF) |
\(h_{a}\left(x\right)=\frac{f\left(x\right)}{1-F\left(x\right)}\) |
\(h_{a}\left(x;L,S\right)=\frac{1}{S}h_{a}\left(\frac{\left(x-L\right)}{S}\right)\) |
累积风险函数 (CHF) |
\(H_{a}\left(x\right)=\) \(\log\frac{1}{1-F\left(x\right)}\) |
\(H_{a}\left(x;L,S\right)=H_{a}\left(\frac{\left(x-L\right)}{S}\right)\) |
生存函数 (SF) |
\(S\left(x\right)=1-F\left(x\right)\) |
\(S\left(x;L,S\right)=S\left(\frac{\left(x-L\right)}{S}\right)\) |
逆生存函数 (ISF) |
\(Z\left(\alpha\right)=S^{-1}\left(\alpha\right)=G\left(1-\alpha\right)\) |
\(Z\left(\alpha;L,S\right)=L+SZ\left(\alpha\right)\) |
矩母函数 (MGF) |
\(M_{Y}\left(t\right)=E\left[e^{Yt}\right]\) |
\(M_{X}\left(t\right)=e^{Lt}M_{Y}\left(St\right)\) |
随机变量 |
\(Y=G\left(U\right)\) |
\(X=L+SY\) |
(微分)熵 |
\(h\left[Y\right]=-\int f\left(y\right)\log f\left(y\right)dy\) |
\(h\left[X\right]=h\left[Y\right]+\log S\) |
(非中心)矩 |
\(\mu_{n}^{\prime}=E\left[Y^{n}\right]\) |
\(E\left[X^{n}\right]=L^{n}\sum_{k=0}^{N}\left(\begin{array}{c} n\\ k\end{array}\right)\left(\frac{S}{L}\right)^{k}\mu_{k}^{\prime}\) |
中心矩 |
\(\mu_{n}=E\left[\left(Y-\mu\right)^{n}\right]\) |
\(E\left[\left(X-\mu_{X}\right)^{n}\right]=S^{n}\mu_{n}\) |
均值(众数、中位数)、方差 |
\(\mu,\,\mu_{2}\) |
\(L+S\mu,\, S^{2}\mu_{2}\) |
skewness(偏度) |
\(\gamma_{1}=\frac{\mu_{3}}{\left(\mu_{2}\right)^{3/2}}\) |
\(\gamma_{1}\) |
kurtosis |
\(\gamma_{2}=\frac{\mu_{4}}{\left(\mu_{2}\right)^{2}}-3\) |
\(\gamma_{2}\) |
矩#
非中心矩可以使用 PDF 计算
请注意,这些始终可以使用 PPF 计算。将 \(x=G\left(q\right)\) 代入上述方程,得到
这在数值计算上可能更容易。请注意,\(q=F\left(x\right)\),因此 \(dq=f\left(x\right)dx.\) 中心矩以类似方式计算 \(\mu=\mu_{1}^{\prime}\)
特别是
偏度定义为
而(费舍尔)峰度为
因此正态分布的峰度为零。
中位数和众数#
中位数 \(m_{n}\) 定义为密度的一半在其一侧,另一半在其另一侧的点。换句话说,\(F\left(m_{n}\right)=\frac{1}{2}\),所以
此外,众数 \(m_{d}\) 定义为概率密度函数达到其峰值时的值
拟合数据#
为了拟合数据到分布,最大化似然函数是很常见的。或者,一些分布具有众所周知的最小方差无偏估计量。这些将默认选择,但似然函数始终可用于最小化。
如果 \(f\left(x;\boldsymbol{\theta}\right)\) 是随机变量的 PDF,其中 \(\boldsymbol{\theta}\) 是参数向量(例如,\(L\) 和 \(S\)),那么对于来自该分布的 \(N\) 个独立样本的集合,随机向量 \(\mathbf{x}\) 的联合分布为
参数 \(\boldsymbol{\theta}\) 的最大似然估计是使该函数最大化的参数,其中 \(\mathbf{x}\) 是固定的且由数据给出
其中
请注意,如果 \(\boldsymbol{\theta}\) 仅包含形状参数,则可以通过将对数似然函数中的 \(x_{i}\) 替换为 \(\left(x_{i}-L\right)/S\) 并加上 \(N\log S\) 并最小化来拟合位置和尺度参数,因此
如果需要,可以使用样本均值和方差的估计量(不一定是最大似然估计量)来获得 \(L\) 和 \(S\) 的样本估计量
其中 \(\mu\) 和 \(\mu_{2}\) 被假定为已知,它们是**未转换**分布(当 \(L=0\) 和 \(S=1\) 时)的均值和方差,并且
均值标准表示法#
我们将使用
其中 \(N\) 应从上下文中清楚地理解为样本 \(x_{i}\) 的数量
参考文献#
ranlib、rv2、cdflib 文档
Eric Weisstein 的数学世界 https://mathworld.net.cn/, https://mathworld.net.cn/topics/StatisticalDistributions.html
Michael McLaughlin 的 Regress+ 文档,工程与统计手册 (NIST),https://www.itl.nist.gov/div898/handbook/
NIST 的 DATAPLOT 文档,https://www.itl.nist.gov/div898/software/dataplot/distribu.htm
Norman Johnson, Samuel Kotz, and N. Balakrishnan Continuous Univariate Distributions, second edition, Volumes I and II, Wiley & Sons, 1994.
在教程中,几个特殊函数反复出现,并在此列出。
符号 |
描述 |
定义 |
|---|---|---|
\(\gamma\left(s, x\right)\) |
下不完全 Gamma 函数 |
\(\int_0^x t^{s-1} e^{-t} dt\) |
\(\Gamma\left(s, x\right)\) |
上不完全 Gamma 函数 |
\(\int_x^\infty t^{s-1} e^{-t} dt\) |
\(B\left(x;a,b\right)\) |
不完全 Beta 函数 |
\(\int_{0}^{x} t^{a-1}\left(1-t\right)^{b-1} dt\) |
\(I\left(x;a,b\right)\) |
正则化不完全 Beta 函数 |
\(\frac{\Gamma\left(a+b\right)}{\Gamma\left(a\right)\Gamma\left(b\right)} \int_{0}^{x} t^{a-1}\left(1-t\right)^{b-1} dt\) |
\(\phi\left(x\right)\) |
正态分布的 PDF |
\(\frac{1}{\sqrt{2\pi}}e^{-x^{2}/2}\) |
\(\Phi\left(x\right)\) |
正态分布的 CDF |
\(\int_{-\infty}^{x}\phi\left(t\right) dt = \frac{1}{2}+\frac{1}{2}\mathrm{erf}\left(\frac{x}{\sqrt{2}}\right)\) |
\(\psi\left(z\right)\) |
Digamma 函数 |
\(\frac{d}{dz} \log\left(\Gamma\left(z\right)\right)\) |
\(\psi_{n}\left(z\right)\) |
Polygamma 函数 |
\(\frac{d^{n+1}}{dz^{n+1}}\log\left(\Gamma\left(z\right)\right)\) |
\(I_{\nu}\left(y\right)\) |
第一类修正贝塞尔函数 |
|
\(\mathrm{Ei}(\mathrm{z})\) |
指数积分 |
\(-\int_{-x}^\infty \frac{e^{-t}}{t} dt\) |
\(\zeta\left(n\right)\) |
黎曼 zeta 函数 |
\(\sum_{k=1}^{\infty} \frac{1}{k^{n}}\) |
\(\zeta\left(n,z\right)\) |
Hurwitz zeta 函数 |
\(\sum_{k=0}^{\infty} \frac{1}{\left(k+z\right)^{n}}\) |
\(\,{}_{p}F_{q}(a_{1},\ldots,a_{p};b_{1},\ldots,b_{q};z)\) |
超几何函数 |
\(\sum_{n=0}^{\infty} {\frac{(a_{1})_{n}\cdots(a_{p})_{n}}{(b_{1})_{n}\cdots(b_{q})_{n}}} \,{\frac{z^{n}}{n!}}\) |
scipy.stats 中的连续分布scipy.stats#
- Alpha 分布
- Anglit 分布
- 反正弦分布
- Beta 分布
- Beta Prime 分布
- Bradford 分布
- Burr 分布
- Burr12 分布
- Cauchy 分布
- Skewed Cauchy 分布
- Chi 分布
- Chi-squared 分布
- Cosine 分布
- Double Gamma 分布
- Double Pareto Lognormal 分布
- Double Weibull 分布
- Erlang 分布
- Exponential 分布
- Exponentiated Weibull 分布
- Exponential Power 分布
- Fatigue Life (Birnbaum-Saunders) 分布
- Fisk (Log Logistic) 分布
- Folded Cauchy 分布
- Folded Normal 分布
- Fratio (or F) 分布
- Gamma 分布
- Generalized Logistic 分布
- Generalized Pareto 分布
- Generalized Exponential 分布
- Generalized Extreme Value 分布
- Generalized Gamma 分布
- Generalized Half-Logistic 分布
- Generalized Hyperbolic 分布
- Generalized Inverse Gaussian 分布
- Generalized Normal 分布
- Gibrat 分布
- Gompertz (Truncated Gumbel) 分布
- Gumbel (LogWeibull, Fisher-Tippetts, Type I Extreme Value) 分布
- Gumbel Left-skewed (for minimum order statistic) 分布
- HalfCauchy 分布
- HalfNormal 分布
- Half-Logistic 分布
- Hyperbolic Secant 分布
- Gauss Hypergeometric 分布
- Inverted Gamma 分布
- Inverse Normal (Inverse Gaussian) 分布
- Inverted Weibull 分布
- Jones and Faddy Skew-T 分布
- Johnson SB 分布
- Johnson SU 分布
- KSone 分布
- KStwo 分布
- KStwobign 分布
- Landau 分布
- Laplace (Double Exponential, Bilateral Exponential) 分布
- Asymmetric Laplace 分布
- Left-skewed Lévy 分布
- Lévy 分布
- Logistic (Sech-squared) 分布
- Log Double Exponential (Log-Laplace) 分布
- Log Gamma 分布
- Log Normal (Cobb-Douglass) 分布
- Log-Uniform 分布
- Maxwell 分布
- Mielke’s Beta-Kappa 分布
- Nakagami 分布
- Noncentral chi-squared 分布
- Noncentral F 分布
- Noncentral t 分布
- Normal 分布
- Normal Inverse Gaussian 分布
- Pareto 分布
- Pareto Second Kind (Lomax) 分布
- Power Log Normal 分布
- Power Normal 分布
- Power-function 分布
- R-distribution 分布
- Rayleigh 分布
- Rice 分布
- Reciprocal Inverse Gaussian 分布
- Relativistic Breit-Wigner 分布
- Semicircular 分布
- Studentized Range 分布
- Student t 分布
- Trapezoidal 分布
- Triangular 分布
- Truncated Exponential 分布
- Truncated Normal 分布
- Truncated Pareto 分布
- Truncated Weibull Minimum Extreme Value 分布
- Tukey-Lambda 分布
- Uniform 分布
- Von Mises 分布
- Wald 分布
- Weibull Maximum Extreme Value 分布
- Weibull Minimum Extreme Value 分布
- Wrapped Cauchy 分布