kurtosis#
- scipy.stats.kurtosis(a, axis=0, fisher=True, bias=True, nan_policy='propagate', *, keepdims=False)[source]#
计算数据集的峰度(Fisher 或 Pearson)。
峰度是四阶中心矩除以方差的平方。如果采用 Fisher 的定义,那么将从结果中减去 3.0,使正态分布的结果为 0.0。
如果 bias 为 False,则使用 k 统计量计算峰度以消除来自偏差矩估计器的偏差
使用
kurtosistest
查看结果是否足够接近正态分布。- 参数:
- aarray
计算峰度的数据。
- axisint 或 None,默认值:0
如果为 int,则计算统计数据的输入轴。输入的每个轴切片(例如,行)的统计数据将出现在输出的相应元素中。如果
None
,则在计算统计数据前会对输入进行展开。- fisherbool,可选
如果为 True,则使用 Fisher 定义(正态 ==> 0.0)。如果为 False,则使用 Pearson 定义(正态 ==> 3.0)。
- biasbool,可选
如果为 False,则根据统计偏差纠正计算结果。
- nan_policy{‘propagate’, ‘omit’, ‘raise’}
定义如何处理输入的 NaN。
propagate
:如果计算统计数据的轴切片(例如行)中存在 NaN,则输出的相应条目将为 NaN。omit
:在执行计算时会忽略 NaN。如果计算统计数据的轴切片中没有足够的数据,则输出的相应条目将为 NaN。raise
:如果存在 NaN,则引发ValueError
。
- keepdimsbool,默认值:False
如果将其设置为 True,则被降维的轴将作为大小为 1 的维度保存在结果中。使用此选项后,结果将与输入数组正确广播。
- 返回:
- kurtosisarray
沿轴的值的峰度,返回所有值相等时的 NaN。
说明
从 SciPy 1.9 开始,
np.matrix
输入(不建议用于新代码)在执行计算前会转换为np.ndarray
。在这种情况下,输出将为标量或形状合适的np.ndarray
,而不是二维np.matrix
。类似地,虽然会忽略屏蔽数组的屏蔽元素,但输出将为标量或np.ndarray
,而不是带有mask=False
的屏蔽数组。参考
[1]兹威林格,D. 和科科斯卡,S. (2000)。CRC 标准概率和统计表与公式。查普曼和霍尔:纽约。2000。
范例
在 Fisher 定义中,正态分布的峰度为零。在下例中,峰度接近于零,因为它是由数据集计算得出的,而不是由连续分布计算得出的。
>>> import numpy as np >>> from scipy.stats import norm, kurtosis >>> data = norm.rvs(size=1000, random_state=3) >>> kurtosis(data) -0.06928694200380558
峰度较高的分布 دارای دم سنگینتر است. 正态分布在 Fisher 定义中为零的峰度可作为参考点。
>>> import matplotlib.pyplot as plt >>> import scipy.stats as stats >>> from scipy.stats import kurtosis
>>> x = np.linspace(-5, 5, 100) >>> ax = plt.subplot() >>> distnames = ['laplace', 'norm', 'uniform']
>>> for distname in distnames: ... if distname == 'uniform': ... dist = getattr(stats, distname)(loc=-2, scale=4) ... else: ... dist = getattr(stats, distname) ... data = dist.rvs(size=1000) ... kur = kurtosis(data, fisher=True) ... y = dist.pdf(x) ... ax.plot(x, y, label="{}, {}".format(distname, round(kur, 3))) ... ax.legend()
拉普拉斯分布比正态分布具有更重的尾部。均匀分布(具有负峰度)具有最薄的尾部。