scipy.stats.

偏度#

scipy.stats.偏度(a, axis=0, 偏差=, nan_policy='propagate', *, keepdims=)[源代码]#

计算数据集的样本偏度。

对于正态分布的数据,偏度应约为零。对于单峰连续分布,偏度值大于零意味着分布的右尾有更多权重。函数 skewtest 可用于确定偏度值是否足够接近于零(从统计学上来说)。

参数:
andarray

输入数组。

axisint 或 None,默认值:0

如果为 int,则沿着要计算统计信息的输入中轴。输入的每个轴切片(例如行)的统计信息将出现在输出的相应元素中。如果为 None,则在计算统计信息之前,输入将被展平。

biasbool,可选

如果为 False,则计算将校正统计偏差。

nan_policy{‘propagate’, ‘omit’, ‘raise’}

定义如何处理输入 NaN。

  • propagate:如果在计算统计信息的轴切片(例如行)中存在 NaN,则输出的相应条目将为 NaN。

  • omit:在执行计算时将忽略 NaN。如果在计算统计信息的轴切片中没有足够的数据,则输出的相应条目将为 NaN。

  • raise:如果存在 NaN,则会引发 ValueError

keepdimsbool,默认值:False

如果将此设置为 True,则缩减的轴将作为尺寸为 1 的维度保留在结果中。使用此选项,结果将针对输入数组正确广播。

返回:
skewnessndarray

沿轴的值得偏度,在所有值相等时返回 NaN。

备注

样本偏度是按费希尔-皮尔逊偏度系数计算的,即

\[g_1=\frac{m_3}{m_2^{3/2}}\]

其中

\[m_i=\frac{1}{N}\sum_{n=1}^N(x[n]-\bar{x})^i\]

是有偏差的样本 \(i\texttt{th}\) 中心矩,\(\bar{x}\) 是样本均值。如果 bias 为 False,则计算会得到偏差校正,计算出的值是调整后的费希尔-皮尔逊标准化矩系数,即

\[G_1=\frac{k_3}{k_2^{3/2}}= \frac{\sqrt{N(N-1)}}{N-2}\frac{m_3}{m_2^{3/2}}.\]

从 SciPy 1.9 开始,np.matrix 输入(不建议用于新代码)在执行计算之前会转换为 np.ndarray。在这种情况下,输出将是标量或形状适当的 np.ndarray,而不是二维 np.matrix。同样,虽然会忽略蒙版数组的蒙版元素,但输出将是标量或 np.ndarray,而不是形如 mask=False 的蒙版数组。

参考

[1]

Zwillinger, D. 和 Kokoska, S. (2000)。CRC Standard Probability and Statistics Tables and Formulae。Chapman & Hall:New York。2000 年。2.2.24.1 节

示例

>>> from scipy.stats import skew
>>> skew([1, 2, 3, 4, 5])
0.0
>>> skew([2, 8, 0, 4, 1, 9, 9, 0])
0.2650554122698573