离散统计分布#

概述#

离散随机变量只能取可数个值。SciPy 中包含了常用分布，本文档对此进行了描述。每个离散分布都可以接受一个额外的整数参数：\(L.\) 一般分布 \(p\) 与标准分布 \(p_{0}\) 之间的关系是

\[p\left(x\right) = p_{0}\left(x-L\right)\]

这允许对输入进行平移。当初始化分布生成器时，离散分布可以指定起始和结束（整数）值 \(a\) 和 \(b\)，它们必须满足

\[p_{0}\left(x\right) = 0\quad x < a \textrm{ or } x > b\]

在这种情况下，假设 pdf 函数定义在整数 \(a+mk\leq b\) 上，其中 \(k\) 是一个非负整数 ( \(0,1,2,\ldots\) ) 且 \(m\) 是一个正整数乘数。或者，可以直接提供两个列表 \(x_{k}\) 和 \(p\left(x_{k}\right)\)，在这种情况下，内部会设置一个字典来评估概率并生成随机变量。

概率质量函数 (PMF)#

随机变量X的概率质量函数定义为随机变量取某个特定值的概率。

\[p\left(x_{k}\right)=P\left[X=x_{k}\right]\]

这有时也称为概率密度函数，尽管从技术上讲

\[f\left(x\right)=\sum_{k}p\left(x_{k}\right)\delta\left(x-x_{k}\right)\]

是离散分布的概率密度函数 [1] 。

累积分布函数 (CDF)#

累积分布函数是

\[F\left(x\right)=P\left[X\leq x\right]=\sum_{x_{k}\leq x}p\left(x_{k}\right)\]

并且计算它也很有用。请注意

\[F\left(x_{k}\right)-F\left(x_{k-1}\right)=p\left(x_{k}\right)\]

生存函数#

生存函数就是

\[S\left(x\right)=1-F\left(x\right)=P\left[X>k\right]\]

随机变量严格大于 \(k\) 的概率。

百分点函数 (逆CDF)#

百分点函数是累积分布函数的逆，它就是

\[G\left(q\right)=F^{-1}\left(q\right)\]

对于离散分布，当不存在 \(x_{k}\) 使得 \(F\left(x_{k}\right)=q\) 时，必须修改此定义。在这些情况下，我们选择 \(G\left(q\right)\) 为满足 \(F\left(x_{k}\right)\geq q\) 的最小 \(x_{k}=G\left(q\right)\) 值。如果 \(q=0\)，则我们定义 \(G\left(0\right)=a-1\)。此定义允许通过对均匀分布使用逆 CDF 来生成随机变量，从而以与连续随机变量相同的方式定义随机变量。

逆生存函数#

逆生存函数是生存函数的逆

\[Z\left(\alpha\right)=S^{-1}\left(\alpha\right)=G\left(1-\alpha\right)\]

因此是满足 \(F\left(k\right)\geq1-\alpha\) 的最小非负整数 \(k\)，或是满足 \(S\left(k\right)\leq\alpha\) 的最小非负整数 \(k\)。

风险函数#

如果需要，风险函数和累积风险函数可以定义为

\[h\left(x_{k}\right)=\frac{p\left(x_{k}\right)}{1-F\left(x_{k}\right)}\]

和

\[H\left(x\right)=\sum_{x_{k}\leq x}h\left(x_{k}\right)=\sum_{x_{k}\leq x}\frac{F\left(x_{k}\right)-F\left(x_{k-1}\right)}{1-F\left(x_{k}\right)}.\]

矩#

非中心矩使用PDF定义

\[\mu_{m}^{\prime}=E\left[X^{m}\right]=\sum_{k}x_{k}^{m}p\left(x_{k}\right).\]

中心矩的计算方式类似 \(\mu=\mu_{1}^{\prime}\)

\begin{eqnarray*} \mu_{m}=E\left[\left(X-\mu\right)^{m}\right] & = & \sum_{k}\left(x_{k}-\mu\right)^{m}p\left(x_{k}\right)\\ & = & \sum_{k=0}^{m}\left(-1\right)^{m-k}\left(\begin{array}{c} m\\ k\end{array}\right)\mu^{m-k}\mu_{k}^{\prime}\end{eqnarray*}

均值是第一矩

\[\mu=\mu_{1}^{\prime}=E\left[X\right]=\sum_{k}x_{k}p\left(x_{k}\right)\]

方差是第二中心矩

\[\mu_{2}=E\left[\left(X-\mu\right)^{2}\right]=\sum_{x_{k}}x_{k}^{2}p\left(x_{k}\right)-\mu^{2}.\]

偏度定义为

\[\gamma_{1}=\frac{\mu_{3}}{\mu_{2}^{3/2}}\]

而 (费雪) 峰度是

\[\gamma_{2}=\frac{\mu_{4}}{\mu_{2}^{2}}-3,\]

因此正态分布的峰度为零。

矩生成函数#

矩生成函数定义为

\[M_{X}\left(t\right)=E\left[e^{Xt}\right]=\sum_{x_{k}}e^{x_{k}t}p\left(x_{k}\right)\]

矩是矩生成函数在 \(0.\) 处求导得到的值。

数据拟合#

为了将数据拟合到某个分布，最大化似然函数是一种常用方法。或者，某些分布具有众所周知的最小方差无偏估计量。这些将是默认选择，但似然函数将始终可用于最小化。

如果 \(f_{i}\left(k;\boldsymbol{\theta}\right)\) 是随机变量的 PDF，其中 \(\boldsymbol{\theta}\) 是一个参数向量（例如 e.g. \(L\) 和 \(S\)），那么对于从该分布中抽取的 \(N\) 个独立样本集合，随机向量 \(\mathbf{k}\) 的联合分布是

\[f\left(\mathbf{k};\boldsymbol{\theta}\right)=\prod_{i=1}^{N}f_{i}\left(k_{i};\boldsymbol{\theta}\right).\]

参数 \(\boldsymbol{\theta}\) 的最大似然估计是使此函数最大化的参数，其中 \(\mathbf{x}\) 固定并由数据给出

\begin{eqnarray*} \hat{\boldsymbol{\theta}} & = & \arg\max_{\boldsymbol{\theta}}f\left(\mathbf{k};\boldsymbol{\theta}\right)\\ & = & \arg\min_{\boldsymbol{\theta}}l_{\mathbf{k}}\left(\boldsymbol{\theta}\right).\end{eqnarray*}

其中

\begin{eqnarray*} l_{\mathbf{k}}\left(\boldsymbol{\theta}\right) & = & -\sum_{i=1}^{N}\log f\left(k_{i};\boldsymbol{\theta}\right)\\ & = & -N\overline{\log f\left(k_{i};\boldsymbol{\theta}\right)}\end{eqnarray*}

均值的标准表示法#

我们将使用

\[\overline{y\left(\mathbf{x}\right)}=\frac{1}{N}\sum_{i=1}^{N}y\left(x_{i}\right)\]

其中 \(N\) 应该从上下文中明确。

组合#

请注意

\[k!=k\cdot\left(k-1\right)\cdot\left(k-2\right)\cdot\cdots\cdot1=\Gamma\left(k+1\right)\]

并且有特殊情况

\begin{eqnarray*} 0! & \equiv & 1\\ k! & \equiv & 0\quad k<0\end{eqnarray*}

和

\[\begin{split}\left(\begin{array}{c} n\\ k\end{array}\right)=\frac{n!}{\left(n-k\right)!k!}.\end{split}\]

如果 \(n<0\) 或 \(k<0\) 或 \(k>n\)，我们定义 \(\left(\begin{array}{c} n\\ k\end{array}\right)=0\)