scipy.stats.

skew#

scipy.stats.skew(a, axis=0, bias=True, nan_policy='propagate', *, keepdims=False)[source]#

计算数据集的样本偏度。

对于正态分布的数据,偏度应该接近于零。对于单峰连续分布,大于零的偏度值意味着分布的右尾有更多的权重。函数 skewtest 可以用于确定偏度值是否在统计意义上足够接近于零。

参数:
andarray

输入数组。

axisint 或 None,默认值:0

如果是一个 int,则为沿其计算统计量的输入的轴。输入的每个轴切片(例如,行)的统计量将出现在输出的相应元素中。如果 None,则在计算统计量之前,输入将被展平。

biasbool,可选

如果为 False,则计算结果会针对统计偏差进行校正。

nan_policy{‘propagate’,‘omit’,‘raise’}

定义如何处理输入 NaN。

  • propagate:如果沿其计算统计量的轴切片(例如,行)中存在 NaN,则输出的相应条目将为 NaN。

  • omit:执行计算时将省略 NaN。如果沿其计算统计量的轴切片中剩余的数据不足,则输出的相应条目将为 NaN。

  • raise:如果存在 NaN,则将引发 ValueError

keepdimsbool,默认值:False

如果设置为 True,则减少的轴将保留在结果中,作为大小为 1 的维度。使用此选项,结果将正确地广播到输入数组。

返回:
skewnessndarray

沿轴的值的偏度,如果所有值都相等,则返回 NaN。

注释

样本偏度计算为 Fisher-Pearson 偏度系数,即:

\[g_1=\frac{m_3}{m_2^{3/2}}\]

其中

\[m_i=\frac{1}{N}\sum_{n=1}^N(x[n]-\bar{x})^i\]

是偏差的样本 \(i\texttt{th}\) 中心矩,而 \(\bar{x}\) 是样本均值。 如果 bias 为 False,则计算结果会针对偏差进行校正,并且计算的值是调整后的 Fisher-Pearson 标准化矩系数,即:

\[G_1=\frac{k_3}{k_2^{3/2}}= \frac{\sqrt{N(N-1)}}{N-2}\frac{m_3}{m_2^{3/2}}.\]

从 SciPy 1.9 开始,np.matrix 输入(不建议用于新代码)在执行计算之前会转换为 np.ndarray。在这种情况下,输出将是一个标量或适当形状的 np.ndarray,而不是 2D np.matrix。同样,虽然会忽略掩码数组的掩码元素,但输出将是一个标量或 np.ndarray,而不是具有 mask=False 的掩码数组。

skew 除了 NumPy 之外,还对 Python Array API Standard 兼容后端提供实验性支持。 请考虑通过设置环境变量 SCIPY_ARRAY_API=1 并提供 CuPy、PyTorch、JAX 或 Dask 数组作为数组参数来测试这些功能。 支持以下后端和设备(或其他功能)的组合。

CPU

GPU

NumPy

n/a

CuPy

n/a

PyTorch

JAX

⚠️ 无 JIT

⚠️ 无 JIT

Dask

⚠️ 计算图

n/a

有关更多信息,请参见 对数组 API 标准的支持

参考文献

[1]

Zwillinger, D. and Kokoska, S. (2000). CRC Standard Probability and Statistics Tables and Formulae. Chapman & Hall: New York. 2000. Section 2.2.24.1

示例

>>> from scipy.stats import skew
>>> skew([1, 2, 3, 4, 5])
0.0
>>> skew([2, 8, 0, 4, 1, 9, 9, 0])
0.2650554122698573