连续统计分布#
概述#
所有分布将具有位置 (L) 和尺度 (S) 参数以及任何所需的形状参数,形状参数的名称会因具体情况而异。分布的标准形式将给出 \(L=0.0\) 且 \(S=1.0.\) 的情况。对于各种函数可以使用非标准形式(注意 \(U\) 是标准均匀随机变量)。
函数名称 |
标准函数 |
变换 |
---|---|---|
累积分布函数 (CDF) |
\(F\left(x\right)\) |
\(F\left(x;L,S\right)=F\left(\frac{\left(x-L\right)}{S}\right)\) |
概率密度函数 (PDF) |
\(f\left(x\right)=F^{\prime}\left(x\right)\) |
\(f\left(x;L,S\right)=\frac{1}{S}f\left(\frac{\left(x-L\right)}{S}\right)\) |
百分位数函数 (PPF) |
\(G\left(q\right)=F^{-1}\left(q\right)\) |
\(G\left(q;L,S\right)=L+SG\left(q\right)\) |
概率稀疏函数 (PSF) |
\(g\left(q\right)=G^{\prime}\left(q\right)\) |
\(g\left(q;L,S\right)=Sg\left(q\right)\) |
风险函数 (HF) |
\(h_{a}\left(x\right)=\frac{f\left(x\right)}{1-F\left(x\right)}\) |
\(h_{a}\left(x;L,S\right)=\frac{1}{S}h_{a}\left(\frac{\left(x-L\right)}{S}\right)\) |
累积风险函数 (CHF) |
\(H_{a}\left(x\right)=\) \(\log\frac{1}{1-F\left(x\right)}\) |
\(H_{a}\left(x;L,S\right)=H_{a}\left(\frac{\left(x-L\right)}{S}\right)\) |
生存函数 (SF) |
\(S\left(x\right)=1-F\left(x\right)\) |
\(S\left(x;L,S\right)=S\left(\frac{\left(x-L\right)}{S}\right)\) |
逆生存函数 (ISF) |
\(Z\left(\alpha\right)=S^{-1}\left(\alpha\right)=G\left(1-\alpha\right)\) |
\(Z\left(\alpha;L,S\right)=L+SZ\left(\alpha\right)\) |
矩生成函数 (MGF) |
\(M_{Y}\left(t\right)=E\left[e^{Yt}\right]\) |
\(M_{X}\left(t\right)=e^{Lt}M_{Y}\left(St\right)\) |
随机变量 |
\(Y=G\left(U\right)\) |
\(X=L+SY\) |
(微分) 熵 |
\(h\left[Y\right]=-\int f\left(y\right)\log f\left(y\right)dy\) |
\(h\left[X\right]=h\left[Y\right]+\log S\) |
(非中心) 矩 |
\(\mu_{n}^{\prime}=E\left[Y^{n}\right]\) |
\(E\left[X^{n}\right]=L^{n}\sum_{k=0}^{N}\left(\begin{array}{c} n\\ k\end{array}\right)\left(\frac{S}{L}\right)^{k}\mu_{k}^{\prime}\) |
中心矩 |
\(\mu_{n}=E\left[\left(Y-\mu\right)^{n}\right]\) |
\(E\left[\left(X-\mu_{X}\right)^{n}\right]=S^{n}\mu_{n}\) |
均值(众数、中位数),方差 |
\(\mu,\,\mu_{2}\) |
\(L+S\mu,\, S^{2}\mu_{2}\) |
偏度 |
\(\gamma_{1}=\frac{\mu_{3}}{\left(\mu_{2}\right)^{3/2}}\) |
\(\gamma_{1}\) |
峰度 |
\(\gamma_{2}=\frac{\mu_{4}}{\left(\mu_{2}\right)^{2}}-3\) |
\(\gamma_{2}\) |
矩#
非中心矩使用 PDF 定义
注意,这些始终可以使用 PPF 计算。在上面等式中替换 \(x=G\left(q\right)\),得到
这在数值上可能更容易计算。注意 \(q=F\left(x\right)\),因此 \(dq=f\left(x\right)dx.\) 中心矩以类似方式计算 \(\mu=\mu_{1}^{\prime}\)
具体来说
偏度定义为
而 (Fisher) 峰度为
因此,正态分布的峰度为零。
中位数和众数#
中位数,\(m_{n}\)被定义为密度的任意一侧各为一半的点。换句话说,\(F\left(m_{n}\right)=\frac{1}{2}\)因此
此外,众数,\(m_{d}\),被定义为概率密度函数达到峰值的数值
拟合数据#
要将数据拟合到某个分布,常见的方法是最大化似然函数。或者,一些分布有一些众所周知的最小方差无偏估计量。默认情况下会选择这些估计量,但始终可以使用似然函数进行最小化。
如果\(f\left(x;\boldsymbol{\theta}\right)\)是随机变量的 PDF,\(\boldsymbol{\theta}\)是参数向量(例如 \(L\)和\(S\)),那么对于从该分布中独立采样的 \(N\) 个样本的集合,随机向量\(\mathbf{x}\) 的联合分布为
参数\(\boldsymbol{\theta}\)的最大似然估计是在\(\mathbf{x}\)固定的情况下使该函数最大化的参数,且由数据给出
其中
请注意,如果\(\boldsymbol{\theta}\)仅包含形状参数,则可以通过在对数似然函数中将\(x_{i}\)替换为\(\left(x_{i}-L\right)/S\)并在最小化后添加\(N\log S\)来拟合位置参数和比例参数,因此
如果需要,可以使用均值和方差的样本估计通过以下方法获得\(L\)和\(S\)的样本估计(不一定是最大似然估计):
其中 \(\mu\) 和 \(\mu_{2}\) 被假定为(在 \(L=0\) 且 \(S=1\) 时)未变换分布的均值和方差,
均值的标准符号表示#
我们将使用
其中 \(N\) 应当从作为样本数量 \(x_{i}\) 的上下文中明显存在
参考#
ranlib、rv2、cdflib 的文档
Eric Weisstein 的数学世界 http://mathworld.wolfram.com/,http://mathworld.wolfram.com/topics/StatisticalDistributions.html
Michael McLaughlin 的 Regress+ 文档、工程和统计手册(NIST),https://www.itl.nist.gov/div898/handbook/
NIST 的 DATAPLOT 文档,https://www.itl.nist.gov/div898/software/dataplot/distribu.htm
诺曼·约翰逊、萨缪尔·科茨和 N·巴拉基里希南连续单变量分布,第二版,第一卷和第二卷,威利与儿子公司,1994 年。
在教程中,几个特殊函数反复出现,并在此列出。
符号 |
描述 |
定义 |
---|---|---|
\(\gamma\left(s, x\right)\) |
lower incomplete Gamma 函数 |
\(\int_0^x t^{s-1} e^{-t} dt\) |
\(\Gamma\left(s, x\right)\) |
upper incomplete Gamma 函数 |
\(\int_x^\infty t^{s-1} e^{-t} dt\) |
\(B\left(x;a,b\right)\) |
incomplete Beta 函数 |
\(\int_{0}^{x} t^{a-1}\left(1-t\right)^{b-1} dt\) |
\(I\left(x;a,b\right)\) |
regularized incomplete Beta 函数 |
\(\frac{\Gamma\left(a+b\right)}{\Gamma\left(a\right)\Gamma\left(b\right)} \int_{0}^{x} t^{a-1}\left(1-t\right)^{b-1} dt\) |
\(\phi\left(x\right)\) |
正态分布的 PDF |
\(\frac{1}{\sqrt{2\pi}}e^{-x^{2}/2}\) |
\(\Phi\left(x\right)\) |
正态分布的 CDF |
\(\int_{-\infty}^{x}\phi\left(t\right) dt = \frac{1}{2}+\frac{1}{2}\mathrm{erf}\left(\frac{x}{\sqrt{2}}\right)\) |
\(\psi\left(z\right)\) |
digamma 函数 |
\(\frac{d}{dz} \log\left(\Gamma\left(z\right)\right)\) |
\(\psi_{n}\left(z\right)\) |
polygamma 函数 |
\(\frac{d^{n+1}}{dz^{n+1}}\log\left(\Gamma\left(z\right)\right)\) |
\(I_{\nu}\left(y\right)\) |
第一类修正贝塞尔函数 |
|
\(\mathrm{Ei}(\mathrm{z})\) |
exponential integral |
\(-\int_{-x}^\infty \frac{e^{-t}}{t} dt\) |
\(\zeta\left(n\right)\) |
Riemann zeta 函数 |
\(\sum_{k=1}^{\infty} \frac{1}{k^{n}}\) |
\(\zeta\left(n,z\right)\) |
Hurwitz zeta 函数 |
\(\sum_{k=0}^{\infty} \frac{1}{\left(k+z\right)^{n}}\) |
\(\,{}_{p}F_{q}(a_{1},\ldots,a_{p};b_{1},\ldots,b_{q};z)\) |
超几何函数 |
\(\sum_{n=0}^{\infty} {\frac{(a_{1})_{n}\cdots(a_{p})_{n}}{(b_{1})_{n}\cdots(b_{q})_{n}}} \,{\frac{z^{n}}{n!}}\) |
scipy.stats
中的连续分布#
- 阿尔法分布
- 安格利特分布
- 反正弦分布
- 贝塔分布
- 贝塔素分布
- 布拉德福德分布
- 巴尔分布
- 巴尔 12 分布
- 柯西分布
- 偏态柯西分布
- 卡方分布
- 卡方分布
- 余弦分布
- 双伽玛分布
- 双威布尔分布
- 厄朗分布
- 指数分布
- 指数威布尔分布
- 指数功率分布
- 疲劳寿命(伯恩鲍姆-桑德斯)分布
- 菲斯克(对数逻辑)分布
- 折叠柯西分布
- 折叠正态分布
- 比率(或 F)分布
- 伽马分布
- 广义逻辑分布
- 广义帕累托分布
- 广义指数分布
- 广义极值分布
- 广义伽马分布
- 广义半逻辑分布
- 广义双曲线分布
- 广义逆高斯分布
- 广义正态分布
- 吉布拉特分布
- Gompertz(截断 Gumbel)分布
- Gumbel(LogWeibull、Fisher-Tippetts、I 型极值)分布
- Gumbel 左偏(最小阶统计)分布
- 半柯西分布
- 半正态分布
- 半逻辑分布
- 双曲线正割分布
- 高斯超几何分布
- 逆伽马分布
- 逆正态(逆高斯)分布
- 逆威布尔分布
- 琼斯和法迪偏度 T 分布
- Johnson SB 分布
- Johnson SU 分布
- KSone 分布
- KStwo 分布
- KStwobign 分布
- 拉普拉斯(双指数、双边指数)分布
- 不对称拉普拉斯分布
- 左偏李维分布
- 李维分布
- 逻辑(sech 平方)分布
- 对数双指数(对数-拉普拉斯)分布
- 对数伽马分布
- 对数正态(科布-道格拉斯)分布
- 对数均匀分布
- 麦克斯韦分布
- 米尔克的贝塔-卡帕分布
- 中香分布
- 非中心卡方分布
- 非中心 F 分布
- 非中心 t 分布
- 正态分布
- 正态逆高斯分布
- 帕累托分布
- 帕累托第二类(洛马克斯)分布
- 幂对数正态分布
- 幂正态分布
- 幂函数分布
- R 分布分布
- 瑞利分布
- 大米分布
- 倒数反高斯分布
- 相对论布莱特-维格纳分布
- 半圆分布
- 学生化范围分布
- 学生 t 分布
- 梯形分布
- 三角形分布
- 截尾指数分布
- 截尾正态分布
- 截尾帕累托分布
- 截尾威布尔最小极值分布
- Tukey-Lambda 分布
- 均匀分布
- 冯·米塞斯分布
- Wald 分布
- 威布尔最大极值分布
- 威布尔最小极值分布
- 包裹柯西分布