统计函数 (scipy.stats
)#
该模块包含大量的概率分布、汇总和频率统计、相关函数和统计检验、掩码统计、核密度估计、准蒙特卡罗功能等等。
统计是一个非常大的领域,有些主题超出了 SciPy 的范围,由其他软件包涵盖。其中一些最重要的有
statsmodels: 回归、线性模型、时间序列分析,以及对
scipy.stats
也涵盖的主题的扩展。Pandas:表格数据、时间序列功能、与其他统计语言的接口。
PyMC:贝叶斯统计建模、概率机器学习。
scikit-learn:分类、回归、模型选择。
Seaborn:统计数据可视化。
rpy2:Python 到 R 的桥梁。
概率分布#
每个单变量分布都是 rv_continuous
的子类的实例(对于离散分布,则是 rv_discrete
)
|
一个用于子类化的通用连续随机变量类。 |
|
一个用于子类化的通用离散随机变量类。 |
|
生成由直方图给出的分布。 |
连续分布#
一个 alpha 连续随机变量。 |
|
一个 anglit 连续随机变量。 |
|
一个 arcsine 连续随机变量。 |
|
Argus 分布 |
|
一个 beta 连续随机变量。 |
|
一个 beta prime 连续随机变量。 |
|
一个 Bradford 连续随机变量。 |
|
一个 Burr (Type III) 连续随机变量。 |
|
一个 Burr (Type XII) 连续随机变量。 |
|
一个 Cauchy 连续随机变量。 |
|
一个 chi 连续随机变量。 |
|
一个卡方连续随机变量。 |
|
一个余弦连续随机变量。 |
|
Crystalball 分布 |
|
一个双伽玛连续随机变量。 |
|
一个双 Pareto 对数正态连续随机变量。 |
|
一个双 Weibull 连续随机变量。 |
|
一个 Erlang 连续随机变量。 |
|
一个指数连续随机变量。 |
|
一个指数修改的正态连续随机变量。 |
|
一个指数化的 Weibull 连续随机变量。 |
|
一个指数幂连续随机变量。 |
|
一个 F 连续随机变量。 |
|
一个疲劳寿命(Birnbaum-Saunders)连续随机变量。 |
|
一个 Fisk 连续随机变量。 |
|
一个折叠的 Cauchy 连续随机变量。 |
|
一个折叠的正态连续随机变量。 |
|
一个广义 Logistic 连续随机变量。 |
|
一个广义正态连续随机变量。 |
|
一个广义 Pareto 连续随机变量。 |
|
一个广义指数连续随机变量。 |
|
一个广义极值连续随机变量。 |
|
一个高斯超几何连续随机变量。 |
|
一个伽玛连续随机变量。 |
|
一个广义伽玛连续随机变量。 |
|
一个广义半 Logistic 连续随机变量。 |
|
一个广义双曲连续随机变量。 |
|
一个广义逆高斯连续随机变量。 |
|
一个 Gibrat 连续随机变量。 |
|
一个 Gompertz(或截断的 Gumbel)连续随机变量。 |
|
一个右偏的 Gumbel 连续随机变量。 |
|
一个左偏的 Gumbel 连续随机变量。 |
|
一个半 Cauchy 连续随机变量。 |
|
一个半 Logistic 连续随机变量。 |
|
一个半正态连续随机变量。 |
|
一个广义正态连续随机变量的上半部分。 |
|
一个双曲正割连续随机变量。 |
|
一个反伽玛连续随机变量。 |
|
一个逆高斯连续随机变量。 |
|
一个反 Weibull 连续随机变量。 |
|
一个 Irwin-Hall(均匀和)连续随机变量。 |
|
Jones 和 Faddy 偏 t 分布。 |
|
一个 Johnson SB 连续随机变量。 |
|
一个 Johnson SU 连续随机变量。 |
|
Kappa 4 参数分布。 |
|
Kappa 3 参数分布。 |
|
柯尔莫哥洛夫-斯米尔诺夫单边检验统计量分布。 |
|
柯尔莫哥洛夫-斯米尔诺夫双边检验统计量分布。 |
|
缩放的柯尔莫哥洛夫-斯米尔诺夫双边检验统计量的极限分布。 |
|
一个 Landau 连续随机变量。 |
|
一个拉普拉斯连续随机变量。 |
|
一个不对称的拉普拉斯连续随机变量。 |
|
一个 Levy 连续随机变量。 |
|
一个左偏的 Levy 连续随机变量。 |
|
一个 Levy-stable 连续随机变量。 |
|
一个 Logistic(或 Sech 平方)连续随机变量。 |
|
一个对数伽玛连续随机变量。 |
|
一个对数拉普拉斯连续随机变量。 |
|
一个对数正态连续随机变量。 |
|
一个对数均匀或倒数连续随机变量。 |
|
一个 Lomax(第二类 Pareto)连续随机变量。 |
|
一个麦克斯韦连续随机变量。 |
|
一个 Mielke Beta-Kappa / Dagum 连续随机变量。 |
|
一个 Moyal 连续随机变量。 |
|
一个 Nakagami 连续随机变量。 |
|
一个非中心卡方连续随机变量。 |
|
一个非中心 F 分布连续随机变量。 |
|
一个非中心 Student's t 连续随机变量。 |
|
一个正态连续随机变量。 |
|
一个正态逆高斯连续随机变量。 |
|
一个 Pareto 连续随机变量。 |
|
一个 Pearson III 型连续随机变量。 |
|
一个幂函数连续随机变量。 |
|
一个幂对数正态连续随机变量。 |
|
一个幂正态连续随机变量。 |
|
一个 R 分布(对称 beta)连续随机变量。 |
|
一个瑞利连续随机变量。 |
|
一个相对论布赖特-维格纳随机变量。 |
|
一个 Rice 连续随机变量。 |
|
一个倒数逆高斯连续随机变量。 |
|
一个半圆形连续随机变量。 |
|
一个偏斜柯西随机变量。 |
|
一个偏态正态随机变量。 |
|
一个学生化范围连续随机变量。 |
|
一个 Student's t 连续随机变量。 |
|
一个梯形连续随机变量。 |
|
一个三角形连续随机变量。 |
|
一个截断的指数连续随机变量。 |
|
一个截断的正态连续随机变量。 |
|
一个上截断的 Pareto 连续随机变量。 |
|
一个双重截断的 Weibull 最小值连续随机变量。 |
|
一个 Tukey-Lamdba 连续随机变量。 |
|
一个均匀连续随机变量。 |
|
一个冯·米塞斯连续随机变量。 |
|
一个冯·米塞斯连续随机变量。 |
|
一个 Wald 连续随机变量。 |
|
Weibull 最小值连续随机变量。 |
|
Weibull 最大值连续随机变量。 |
|
一个包裹的柯西连续随机变量。 |
单变量连续分布的 fit
方法使用最大似然估计将分布拟合到数据集。 fit
方法可以接受常规数据或删失数据。删失数据用 CensoredData
类的实例表示。
|
此类的实例表示删失数据。 |
多元分布#
多元正态随机变量。 |
|
矩阵正态随机变量。 |
|
狄利克雷随机变量。 |
|
狄利克雷多项式随机变量。 |
|
Wishart 随机变量。 |
|
逆 Wishart 随机变量。 |
|
多项式随机变量。 |
|
特殊正交矩阵 (SO(N)) 随机变量。 |
|
正交矩阵 (O(N)) 随机变量。 |
|
矩阵值的 U(N) 随机变量。 |
|
随机相关矩阵。 |
|
多元 t 分布随机变量。 |
|
多元超几何随机变量。 |
|
正态逆伽马分布。 |
|
来自具有固定边际和的独立样本的列联表。 |
|
向量值均匀方向。 |
|
冯·米塞斯-费舍尔变量。 |
scipy.stats.multivariate_normal
方法接受以下类的实例来表示协方差。
|
协方差矩阵的表示 |
离散分布#
伯努利离散随机变量。 |
|
贝塔二项式离散随机变量。 |
|
贝塔负二项式离散随机变量。 |
|
二项式离散随机变量。 |
|
玻尔兹曼(截断离散指数)随机变量。 |
|
拉普拉斯离散随机变量。 |
|
几何离散随机变量。 |
|
超几何离散随机变量。 |
|
对数(对数级数,级数)离散随机变量。 |
|
负二项式离散随机变量。 |
|
费舍尔非中心超几何离散随机变量。 |
|
瓦勒纽斯非中心超几何离散随机变量。 |
|
负超几何离散随机变量。 |
|
普朗克离散指数随机变量。 |
|
泊松离散随机变量。 |
|
泊松二项式离散随机变量。 |
|
均匀离散随机变量。 |
|
斯凯拉姆离散随机变量。 |
|
尤尔-西蒙离散随机变量。 |
|
齐普夫(Zeta)离散随机变量。 |
|
齐普夫离散随机变量。 |
下面概述了统计函数。这些函数中的许多函数在 scipy.stats.mstats
中都有类似的对应版本,这些版本适用于掩码数组。
汇总统计#
|
计算传入数组的几个描述性统计量。 |
|
计算指定轴上的加权几何平均值。 |
|
计算指定轴上的加权调和平均值。 |
|
计算指定轴上的加权幂平均值。 |
|
计算数据集的峰度(费舍尔或皮尔逊)。 |
|
返回传入数组中模态(最常见)值的数组。 |
|
计算样本均值的 n 阶矩。 |
|
计算来自连续分布的样本的 L 阶矩 |
|
计算指定级别的期望值。 |
|
计算数据集的样本偏度。 |
|
返回第 n 个 k 统计量(目前 |
|
返回 k 统计量方差的无偏估计量。 |
|
计算修剪平均值。 |
|
计算修剪方差。 |
|
计算修剪最小值。 |
|
计算修剪最大值。 |
|
计算修剪的样本标准差。 |
|
计算修剪均值的标准误差。 |
|
计算变异系数。 |
|
查找重复项和重复计数。 |
|
为数据分配秩,并适当地处理平局。 |
|
用于 Mann-Whitney U 和 Kruskal-Wallis H 检验的平局校正因子。 |
|
返回修剪掉指定比例的极端值后的数组的平均值 |
|
计算数组的几何标准差。 |
|
计算指定轴上的数据的四分位距。 |
|
计算均值的标准误差。 |
|
均值、方差和标准差的贝叶斯置信区间。 |
|
数据的均值、方差和标准差的“冻结”分布。 |
|
计算给定分布的香农熵/相对熵。 |
|
给定一个分布的样本,估计微分熵。 |
|
计算给定轴上数据的中位数绝对偏差。 |
频率统计#
|
使用直方图函数返回累积频率直方图。 |
|
计算相对于分数列表的分数的百分位排名。 |
|
计算输入序列中给定百分位的分数。 |
|
使用直方图函数返回相对频率直方图。 |
|
计算一个或多个数据集的分箱统计量。 |
|
计算一个或多个数据集的双向分箱统计量。 |
|
计算一组数据的多维分箱统计量。 |
随机变量#
|
从 |
|
具有指定均值和标准差的正态分布。 |
|
均匀分布。 |
|
混合分布的表示。 |
|
顺序统计量的概率分布 |
|
截断随机变量的支持范围。 |
|
随机变量的绝对值 |
|
随机变量的自然指数 |
|
非负随机变量的自然对数 |
拟蒙特卡罗#
列联表#
掩码统计函数#
- 掩码数组的统计函数 (
scipy.stats.mstats
)- 汇总统计
- 频率统计
- 相关函数
- 统计检验
- 转换
- 其他
其他统计功能#
转换#
|
返回由 Box-Cox 幂变换转换的数据集。 |
|
计算输入数据的最佳 Box-Cox 变换参数。 |
|
boxcox 对数似然函数。 |
|
返回由 Yeo-Johnson 幂变换转换的数据集。 |
|
计算最佳 Yeo-Johnson 变换参数。 |
|
yeojohnson 对数似然函数。 |
|
计算输入数据的 O'Brien 变换(任意数量的数组)。 |
|
执行数组元素的迭代西格玛剪切。 |
|
从数组的两端切掉一部分项目。 |
|
从传递的数组分布的一端切掉一部分。 |
|
计算相对 z 分数。 |
|
计算 z 分数。 |
|
计算几何标准分数。 |
统计距离#
|
计算两个一维离散分布之间的 Wasserstein-1 距离。 |
|
计算两个 N 维离散分布之间的 Wasserstein-1 距离。 |
|
计算两个一维分布之间的能量距离。 |
抽样#
拟合/生存分析#
|
将离散或连续分布拟合到数据 |
|
样本的经验累积分布函数。 |
|
通过对数秩检验比较两个样本的生存分布。 |
定向统计函数#
|
计算方向数据的样本统计量。 |
|
计算角度观测样本的圆均值。 |
|
计算角度观测样本的圆方差。 |
|
计算角度观测样本的圆标准差。 |
敏感性分析#
|
Sobol' 全局敏感性指标。 |
绘图测试#
|
计算使 PPCC 最大化的形状参数。 |
|
计算并可选绘制概率图相关系数。 |
|
计算概率图的分位数,并可选择显示该图。 |
|
计算 Box-Cox 正态图的参数,可选择显示该图。 |
|
计算 Yeo-Johnson 正态图的参数,可选择显示该图。 |
单变量和多变量核密度估计#
|
使用高斯核表示核密度估计。 |
scipy.stats
中使用的警告/错误#
|
当数据退化且结果可能不可靠时发出警告。 |
|
当数据中的所有值完全相等时发出警告。 |
|
当数据中的所有值几乎相等时发出警告。 |
|
表示将分布拟合到数据时发生的错误情况。 |
scipy.stats
中使用的结果类#
警告
这些类是私有的,但由于它们的实例由其他统计函数返回,因此此处包含它们。不支持用户导入和实例化。