scipy.stats.

skew#

scipy.stats.skew(a, axis=0, bias=True, nan_policy='propagate', *, keepdims=False)[source]#

计算数据集的样本偏度。

对于正态分布的数据，偏度应该接近于零。对于单峰连续分布，大于零的偏度值意味着分布的右尾有更多的权重。函数 skewtest 可以用于确定偏度值是否在统计意义上足够接近于零。

参数:

andarray

输入数组。

axisint 或 None，默认值：0

如果是一个 int，则为沿其计算统计量的输入的轴。输入的每个轴切片（例如，行）的统计量将出现在输出的相应元素中。如果 None，则在计算统计量之前，输入将被展平。

biasbool，可选

如果为 False，则计算结果会针对统计偏差进行校正。

nan_policy{‘propagate’，‘omit’，‘raise’}

定义如何处理输入 NaN。

propagate：如果沿其计算统计量的轴切片（例如，行）中存在 NaN，则输出的相应条目将为 NaN。
omit：执行计算时将省略 NaN。如果沿其计算统计量的轴切片中剩余的数据不足，则输出的相应条目将为 NaN。
raise：如果存在 NaN，则将引发 ValueError。

keepdimsbool，默认值：False

如果设置为 True，则减少的轴将保留在结果中，作为大小为 1 的维度。使用此选项，结果将正确地广播到输入数组。

返回:

skewnessndarray: 沿轴的值的偏度，如果所有值都相等，则返回 NaN。

注释

样本偏度计算为 Fisher-Pearson 偏度系数，即：

\[g_1=\frac{m_3}{m_2^{3/2}}\]

其中

\[m_i=\frac{1}{N}\sum_{n=1}^N(x[n]-\bar{x})^i\]

是偏差的样本 \(i\texttt{th}\) 中心矩，而 \(\bar{x}\) 是样本均值。如果 bias 为 False，则计算结果会针对偏差进行校正，并且计算的值是调整后的 Fisher-Pearson 标准化矩系数，即：

\[G_1=\frac{k_3}{k_2^{3/2}}= \frac{\sqrt{N(N-1)}}{N-2}\frac{m_3}{m_2^{3/2}}.\]

从 SciPy 1.9 开始，np.matrix 输入（不建议用于新代码）在执行计算之前会转换为 np.ndarray。在这种情况下，输出将是一个标量或适当形状的 np.ndarray，而不是 2D np.matrix。同样，虽然会忽略掩码数组的掩码元素，但输出将是一个标量或 np.ndarray，而不是具有 mask=False 的掩码数组。

skew 除了 NumPy 之外，还对 Python Array API Standard 兼容后端提供实验性支持。请考虑通过设置环境变量 SCIPY_ARRAY_API=1 并提供 CuPy、PyTorch、JAX 或 Dask 数组作为数组参数来测试这些功能。支持以下后端和设备（或其他功能）的组合。

库	CPU	GPU
NumPy	✅	n/a
CuPy	n/a	✅
PyTorch	✅	✅
JAX	⚠️ 无 JIT	⚠️ 无 JIT
Dask	⚠️ 计算图	n/a

有关更多信息，请参见对数组 API 标准的支持。

参考文献

[1]

Zwillinger, D. and Kokoska, S. (2000). CRC Standard Probability and Statistics Tables and Formulae. Chapman & Hall: New York. 2000. Section 2.2.24.1

示例

>>> from scipy.stats import skew
>>> skew([1, 2, 3, 4, 5])
0.0
>>> skew([2, 8, 0, 4, 1, 9, 9, 0])
0.2650554122698573