统计函数 (scipy.stats)#
此模块包含大量的概率分布、摘要和频率统计、相关函数和统计检验、掩码统计、核密度估计、拟蒙特卡罗功能等。
统计学是一个非常庞大的领域,有些主题超出了 SciPy 的范围,由其他软件包涵盖。其中一些最主要的是
statsmodels:回归、线性模型、时间序列分析,以及对
scipy.stats所涵盖主题的扩展。Pandas:表格数据、时间序列功能、与其他统计语言的接口。
PyMC:贝叶斯统计建模、概率机器学习。
scikit-learn:分类、回归、模型选择。
Seaborn:统计数据可视化。
rpy2:Python 到 R 的桥梁。
概率分布#
每个单变量分布都是 rv_continuous 的子类实例(离散分布为 rv_discrete)
|
通用的连续随机变量类,旨在用于子类化。 |
|
通用的离散随机变量类,旨在用于子类化。 |
|
生成由直方图给出的分布。 |
连续分布#
Alpha 连续随机变量。 |
|
Anglit 连续随机变量。 |
|
反正弦 (Arcsine) 连续随机变量。 |
|
Argus 分布 |
|
Beta 连续随机变量。 |
|
Beta Prime 连续随机变量。 |
|
Bradford 连续随机变量。 |
|
Burr (Type III) 连续随机变量。 |
|
Burr (Type XII) 连续随机变量。 |
|
柯西 (Cauchy) 连续随机变量。 |
|
Chi 连续随机变量。 |
|
卡方 (Chi-squared) 连续随机变量。 |
|
余弦连续随机变量。 |
|
Crystalball 分布 |
|
双伽马 (Double gamma) 连续随机变量。 |
|
双帕累托对数正态 (Double Pareto lognormal) 连续随机变量。 |
|
双 Weibull 连续随机变量。 |
|
Erlang 连续随机变量。 |
|
指数 (Exponential) 连续随机变量。 |
|
指数修正正态 (Exponentially modified Normal) 连续随机变量。 |
|
指数化 Weibull 连续随机变量。 |
|
指数幂 (Exponential power) 连续随机变量。 |
|
F 连续随机变量。 |
|
疲劳寿命 (Birnbaum-Saunders) 连续随机变量。 |
|
Fisk 连续随机变量。 |
|
折叠柯西 (Folded Cauchy) 连续随机变量。 |
|
折叠正态 (Folded normal) 连续随机变量。 |
|
广义逻辑 (Generalized logistic) 连续随机变量。 |
|
广义正态 (Generalized normal) 连续随机变量。 |
|
广义帕累托 (Generalized Pareto) 连续随机变量。 |
|
广义指数连续随机变量。 |
|
广义极值连续随机变量。 |
|
高斯超几何 (Gauss hypergeometric) 连续随机变量。 |
|
伽马 (Gamma) 连续随机变量。 |
|
广义伽马连续随机变量。 |
|
广义半逻辑 (Generalized half-logistic) 连续随机变量。 |
|
广义双曲 (Generalized hyperbolic) 连续随机变量。 |
|
广义逆高斯 (Generalized Inverse Gaussian) 连续随机变量。 |
|
Gibrat 连续随机变量。 |
|
Gompertz(或截断 Gumbel)连续随机变量。 |
|
右偏 Gumbel 连续随机变量。 |
|
左偏 Gumbel 连续随机变量。 |
|
半柯西 (Half-Cauchy) 连续随机变量。 |
|
半逻辑 (Half-logistic) 连续随机变量。 |
|
半正态 (Half-normal) 连续随机变量。 |
|
广义正态连续随机变量的上半部分。 |
|
双曲正割 (Hyperbolic secant) 连续随机变量。 |
|
逆伽马 (Inverted gamma) 连续随机变量。 |
|
逆高斯 (Inverse Gaussian) 连续随机变量。 |
|
逆 Weibull 连续随机变量。 |
|
Irwin-Hall (均匀和) 连续随机变量。 |
|
Jones 和 Faddy 偏 t 分布。 |
|
Johnson SB 连续随机变量。 |
|
Johnson SU 连续随机变量。 |
|
Kappa 4 参数分布。 |
|
Kappa 3 参数分布。 |
|
柯尔莫哥洛夫-斯米尔诺夫 (Kolmogorov-Smirnov) 单侧检验统计量分布。 |
|
柯尔莫哥洛夫-斯米尔诺夫 (Kolmogorov-Smirnov) 双侧检验统计量分布。 |
|
缩放的柯尔莫哥洛夫-斯米尔诺夫双侧检验统计量的极限分布。 |
|
Landau 连续随机变量。 |
|
拉普拉斯 (Laplace) 连续随机变量。 |
|
非对称拉普拉斯连续随机变量。 |
|
Levy 连续随机变量。 |
|
左偏 Levy 连续随机变量。 |
|
Levy 稳定连续随机变量。 |
|
逻辑(或 Sech 平方)连续随机变量。 |
|
对数伽马 (Log gamma) 连续随机变量。 |
|
对数拉普拉斯 (Log-Laplace) 连续随机变量。 |
|
对数正态 (Lognormal) 连续随机变量。 |
|
对数均匀或倒数 (Reciprocal) 连续随机变量。 |
|
Lomax(第二类帕累托)连续随机变量。 |
|
麦克斯韦 (Maxwell) 连续随机变量。 |
|
Mielke Beta-Kappa / Dagum 连续随机变量。 |
|
Moyal 连续随机变量。 |
|
Nakagami 连续随机变量。 |
|
非中心卡方 (Non-central chi-squared) 连续随机变量。 |
|
非中心 F 分布连续随机变量。 |
|
非中心学生 t 连续随机变量。 |
|
正态 (Normal) 连续随机变量。 |
|
正态逆高斯 (Normal Inverse Gaussian) 连续随机变量。 |
|
帕累托 (Pareto) 连续随机变量。 |
|
皮尔逊 III 型 (Pearson type III) 连续随机变量。 |
|
幂函数 (Power-function) 连续随机变量。 |
|
幂对数正态 (Power log-normal) 连续随机变量。 |
|
幂正态 (Power normal) 连续随机变量。 |
|
R 分布(对称 beta)连续随机变量。 |
|
瑞利 (Rayleigh) 连续随机变量。 |
|
相对论 Breit-Wigner 随机变量。 |
|
莱斯 (Rice) 连续随机变量。 |
|
倒数逆高斯 (Reciprocal inverse Gaussian) 连续随机变量。 |
|
半圆 (Semicircular) 连续随机变量。 |
|
偏柯西 (Skewed Cauchy) 随机变量。 |
|
偏正态 (Skew-normal) 随机变量。 |
|
学生化全距 (Studentized range) 连续随机变量。 |
|
学生 t 连续随机变量。 |
|
梯形 (Trapezoidal) 连续随机变量。 |
|
三角形 (Triangular) 连续随机变量。 |
|
截断指数 (Truncated exponential) 连续随机变量。 |
|
截断正态 (Truncated normal) 连续随机变量。 |
|
上截断帕累托 (Upper truncated Pareto) 连续随机变量。 |
|
双截断 Weibull 最小值连续随机变量。 |
|
Tukey-Lamdba 连续随机变量。 |
|
均匀 (Uniform) 连续随机变量。 |
|
Von Mises 连续随机变量。 |
|
Von Mises 连续随机变量。 |
|
Wald 连续随机变量。 |
|
Weibull 最小值连续随机变量。 |
|
Weibull 最大值连续随机变量。 |
|
卷曲柯西 (Wrapped Cauchy) 连续随机变量。 |
单变量连续分布的 fit 方法使用极大似然估计将分布拟合到数据集。fit 方法可以接受常规数据或删失数据 (censored data)。删失数据由 CensoredData 类的实例表示。
|
此类的实例表示删失数据。 |
多元分布#
多元正态随机变量。 |
|
矩阵正态随机变量。 |
|
狄利克雷 (Dirichlet) 随机变量。 |
|
狄利克雷多项 (Dirichlet multinomial) 随机变量。 |
|
Wishart 随机变量。 |
|
逆 Wishart 随机变量。 |
|
多项 (Multinomial) 随机变量。 |
|
特殊正交矩阵 (SO(N)) 随机变量。 |
|
正交矩阵 (O(N)) 随机变量。 |
|
矩阵值 U(N) 随机变量。 |
|
随机相关矩阵。 |
|
多元 t 分布随机变量。 |
|
多元超几何随机变量。 |
|
正态-逆伽马分布。 |
|
来自具有固定边际和的独立样本的列联表。 |
|
向量值均匀方向。 |
|
Von Mises-Fisher 变量。 |
|
矩阵 t 随机变量。 |
scipy.stats.multivariate_normal 的方法接受以下类的实例来表示协方差。
协方差矩阵的表示 |
离散分布#
伯努利 (Bernoulli) 离散随机变量。 |
|
Beta-二项离散随机变量。 |
|
Beta-负二项离散随机变量。 |
|
二项 (Binomial) 离散随机变量。 |
|
玻尔兹曼(截断离散指数)随机变量。 |
|
拉普拉斯离散随机变量。 |
|
几何 (Geometric) 离散随机变量。 |
|
超几何 (Hypergeometric) 离散随机变量。 |
|
对数级数 (Logarithmic, Log-Series) 离散随机变量。 |
|
负二项 (Negative binomial) 离散随机变量。 |
|
费舍尔 (Fisher) 非中心超几何离散随机变量。 |
|
瓦伦纽斯 (Wallenius) 非中心超几何离散随机变量。 |
|
负超几何离散随机变量。 |
|
普朗克 (Planck) 离散指数随机变量。 |
|
泊松 (Poisson) 离散随机变量。 |
|
泊松二项离散随机变量。 |
|
均匀离散随机变量。 |
|
Skellam 离散随机变量。 |
|
Yule-Simon 离散随机变量。 |
|
Zipf (Zeta) 离散随机变量。 |
|
Zipfian 离散随机变量。 |
下面给出了统计函数的概述。这些函数中的许多在 scipy.stats.mstats 中都有一个类似的版本,适用于掩码数组。
摘要统计#
|
计算所传递数组的多个描述性统计量。 |
|
沿指定轴计算加权几何平均值。 |
|
沿指定轴计算加权调和平均值。 |
|
沿指定轴计算加权幂平均值。 |
|
计算数据集的峰度 (Fisher 或 Pearson)。 |
|
返回所传递数组中众数(最常见值)的数组。 |
|
计算样本关于平均值的第 n 阶矩。 |
|
计算连续分布样本的 L-矩 |
|
在指定水平下计算期待分位数 (expectile)。 |
|
计算数据集的样本偏度。 |
|
返回第 n 个 k-统计量(目前 |
|
返回 k-统计量方差的无偏估计量。 |
|
计算修整平均值 (trimmed mean)。 |
|
计算修整方差。 |
|
计算修整最小值。 |
|
计算修整最大值。 |
|
计算修整样本标准差。 |
|
计算修整均值标准误差。 |
|
计算变异系数。 |
|
为数据分配排名,并妥善处理并列情况。 |
|
用于 Mann-Whitney U 检验和 Kruskal-Wallis H 检验的并列修正因子。 |
|
在修整指定比例的极端值后返回数组的平均值 |
|
计算数组的几何标准差。 |
|
计算数据沿指定轴的四分位距 (IQR)。 |
|
计算均值标准误差。 |
|
均值、方差和标准差的贝叶斯置信区间。 |
|
数据均值、方差和标准差的“冻结”分布。 |
|
计算给定分布的香农熵/相对熵。 |
|
给定分布的样本,估计微分熵。 |
|
计算数据沿给定轴的中位数绝对偏差 (MAD)。 |
频率统计#
|
使用直方图函数返回累积频率直方图。 |
|
计算数据沿指定轴的第 p 个分位数。 |
|
计算得分相对于得分列表的百分位排名。 |
|
计算输入序列中给定百分位数处的得分。 |
|
使用直方图函数返回相对频率直方图。 |
|
为一组或多组数据计算分箱统计量 (binned statistic)。 |
|
为一组或多组数据计算二维分箱统计量。 |
|
为一组数据计算多维分箱统计量。 |
随机变量#
|
从兼容对象生成 UnivariateDistribution 类 |
|
具有指定均值和标准差的正态分布。 |
|
标准逻辑分布。 |
|
均匀分布。 |
|
具有指定成功概率和试验次数的二项分布 |
|
混合分布的表示。 |
|
次序统计量的概率分布 |
|
截断随机变量的支撑集 (support)。 |
|
随机变量的绝对值 |
|
随机变量的自然指数 |
|
非负随机变量的自然对数 |
拟蒙特卡罗#
列联表#
掩码统计函数#
- 掩码数组的统计函数 (
scipy.stats.mstats)- 摘要统计
- 频率统计
- 相关函数
- 统计检验
- 转换 (Transformations)
- 其他
其他统计功能#
转换#
|
返回经 Box-Cox 幂转换后的数据集。 |
|
为输入数据计算最佳 Box-Cox 转换参数。 |
|
Box-Cox 对数似然函数。 |
|
返回经 Yeo-Johnson 幂转换后的数据集。 |
|
计算最佳 Yeo-Johnson 转换参数。 |
|
Yeo-Johnson 对数似然函数。 |
|
对输入数据(任意数量的数组)计算 O'Brien 转换。 |
|
对数组元素执行迭代 Sigma 裁剪 (sigma-clipping)。 |
|
从数组的两端切除一定比例的项目。 |
|
从传递的数组分布的其中一端切除一定比例。 |
|
计算相对 Z 分数。 |
|
计算 Z 分数。 |
|
计算几何标准分数。 |
统计距离#
|
计算两个一维离散分布之间的 Wasserstein-1 距离。 |
|
计算两个多维离散分布之间的 Wasserstein-1 距离。 |
|
计算两个一维分布之间的能量距离。 |
抽样 (Sampling)#
拟合 / 生存分析#
方向统计函数#
|
计算方向数据的样本统计量。 |
|
计算角度观测值样本的循环平均值 (circular mean)。 |
|
计算角度观测值样本的循环方差。 |
|
计算角度观测值样本的循环标准差。 |
敏感性分析#
|
Sobol' 全局敏感性指数。 |
图检验 (Plot-tests)#
|
计算使 PPCC 最大化的形状参数。 |
|
计算并可选地绘制概率图相关系数。 |
|
计算概率图的分位数,并可选地显示图形。 |
|
计算 Box-Cox 正态图的参数,并可选地显示图形。 |
|
计算 Yeo-Johnson 正态性检验图的参数,并可选择性地显示该图。 |
单变量和多变量核密度估计#
|
使用高斯核进行的核密度估计表示。 |
scipy.stats 中使用的警告 / 错误#
|
当数据出现退化且结果可能不可靠时发出警告。 |
|
当数据中的所有值都完全相等时发出警告。 |
|
当数据中的所有值都几乎相等时发出警告。 |
|
表示将分布拟合到数据时出现的错误情况。 |
scipy.stats 中使用的结果类#
警告
这些类是私有的,但包含在此处是因为其他统计函数会返回它们的实例。不支持用户导入和实例化。