关于 `nan_policy` 的设计规范#

在 scipy.stats 中，许多函数都有一个名为 nan_policy 的参数，用于确定函数如何处理包含 nan 的数据。在本节中，我们为 SciPy 开发者提供了关于如何使用 nan_policy 的指南，以确保在将此参数添加到新函数时，我们保持一致的 API。

基本 API#

参数 nan_policy 接受三个可能的字符串：'omit'、'raise' 和 'propagate'。含义如下：

nan_policy='omit'：忽略输入中的 nan。如果输入包含 nan，则不生成警告（除非删除 nan 值后的等效输入会生成警告）。例如，对于接受单个数组并返回标量的简单函数（暂时忽略 axis 的可能用法）
```
func([1.0, 3.0, np.nan, 5.0], nan_policy='omit')
```
应该与以下行为相同：
```
func([1.0, 3.0, 5.0])
```
更一般地，对于返回标量的函数，func(a, nan_policy='omit') 应该与 func(a[~np.isnan(a)]) 行为相同。

对于将向量转换为相同大小的新向量的函数，并且输出数组中的每个条目不仅取决于输入数组中的对应值[1]（例如，scipy.stats.zscore、scipy.stats.boxcox 当 lmbda 为 None 时），
```
y = func(a, nan_policy='omit')
```
应该与以下行为相同：
```
nan_mask = np.isnan(a)
y = np.empty(a.shape, dtype=np.float64)
y[~nan_mask] = func(a[~nan_mask])
y[nan_mask] = np.nan
```
（一般来说，y 的数据类型可能取决于 a 以及 func 的预期行为）。换句话说，输入中的 nan 在输出中对应一个 nan，但该 nan 的存在不会影响非 nan 值的计算。

此属性的单元测试应该用于测试处理 nan_policy 的函数。

对于返回标量并接受两个或多个参数但其值不相关的函数（例如，scipy.stats.ansari、scipy.stats.f_oneway），相同的想法适用于每个输入数组。所以
```
func(a, b, nan_policy='omit')
```
应该与以下行为相同：
```
func(a[~np.isnan(a)], b[~np.isnan(b)])
```
对于具有相关或配对值的输入（例如，scipy.stats.pearsonr、scipy.stats.ttest_rel），建议的行为是省略所有相关值为 nan 的值。对于具有两个相关数组输入的函数，这意味着
```
y = func(a, b, nan_policy='omit')
```
应该与以下行为相同：
```
hasnan = np.isnan(a) | np.isnan(b)  # Union of the isnan masks.
y = func(a[~hasnan], b[~hasnan])
```
此类函数的文档字符串应该清楚地说明此行为。
nan_policy='raise': 抛出 ValueError 异常。
nan_policy='propagate': 将 nan 值传播到输出。通常，这意味着在不检查 nan 的情况下执行函数，但请参见

scipy/scipy#7818

了解这可能会导致意外输出的示例。

`nan_policy` 与 `axis` 参数结合使用#

这里没有什么令人惊讶的 - 上述原则仍然适用于函数具有 axis 参数的情况。例如，假设 func 将一维数组缩减为标量，并将 n 维数组视为一维数组的集合，其中 axis 参数指定要应用缩减的轴。如果，比如说

func([1, 3, 4])     -> 10.0
func([2, -3, 8, 2]) ->  4.2
func([7, 8])        ->  9.5
func([])            -> -inf

那么

func([[  1, nan,   3,   4],
      [  2,  -3,   8,   2],
      [nan,   7, nan,   8],
      [nan, nan, nan, nan]], nan_policy='omit', axis=-1)

必须给出结果

np.array([10.0, 4.2, 9.5, -inf])

边缘情况#

实现 nan_policy 参数的函数应该优雅地处理输入数组中所有值都为 nan 的情况。上述基本原则仍然适用

func([nan, nan, nan], nan_policy='omit')

应该与以下行为相同：

func([])

在实践中，当将 nan_policy 添加到现有函数时，通常会发现该函数尚未以明确定义的方式处理这种情况，可能需要进行一些思考和设计以确保其正常工作。正确行为（无论是返回 nan、返回其他值、引发异常还是其他操作）将根据具体情况确定。

为什么 `nan_policy` 不也适用于 `inf`？#

虽然我们在小学里学过“无穷大不是一个数字”，但浮点数的值 nan 和 inf 在质量上是不同的。值 inf 和 -inf 比 nan 更像普通的浮点数。

可以将 inf 与其他浮点数进行比较，它会按预期工作，例如 3 < inf 为 True。
在大多数情况下，算术运算对 inf “按预期” 工作，例如 inf + inf = inf，-2*inf = -inf，1/inf = 0 等等。
许多现有的函数对 inf “按预期” 工作：np.log(inf) = inf，np.exp(-inf) = 0，np.array([1.0, -1.0, np.inf]).min() = -1.0 等等。

因此，虽然 nan 几乎总是意味着“出现错误”或“缺少某些东西”，但 inf 在许多情况下可以被视为一个有用的浮点数。

它也与 NumPy 的 nan 函数一致，不忽略 inf。

>>> np.nanmax([1, 2, 3, np.inf, np.nan])
inf
>>> np.nansum([1, 2, 3, np.inf, np.nan])
inf
>>> np.nanmean([8, -np.inf, 9, 1, np.nan])
-inf

如何不实现 `nan_policy`#

在过去（可能现在也是），一些 stats 函数通过使用掩码数组来掩盖 nan 值来处理 nan_policy，然后使用 mstats 子包中的函数计算结果。这种方法的问题是，掩码数组代码可能会将 inf 转换为掩码值，我们不想这样做（见上文）。这也意味着，如果不小心，返回值将是一个掩码数组，如果用户传入的是普通数组，这很可能会让他们感到意外。

脚注

关于 nan_policy 的设计规范#

基本 API#

nan_policy 与 axis 参数结合使用#

边缘情况#

为什么 nan_policy 不也适用于 inf？#

如何不实现 nan_policy#

关于 `nan_policy` 的设计规范#

`nan_policy` 与 `axis` 参数结合使用#

为什么 `nan_policy` 不也适用于 `inf`？#

如何不实现 `nan_policy`#