scipy.optimize.

least_squares#

scipy.optimize.least_squares(fun, x0, jac='2-point', bounds=(-inf, inf), method='trf', ftol=1e-08, xtol=1e-08, gtol=1e-08, x_scale=None, loss='linear', f_scale=1.0, diff_step=None, tr_solver=None, tr_options=None, jac_sparsity=None, max_nfev=None, verbose=0, args=(), kwargs=None, callback=None, workers=None)[source]#

解决带有变量边界的非线性最小二乘问题。

给定残差 f(x)（一个 m 维实数函数，具有 n 个实数变量）和损失函数 rho(s)（一个标量函数），least_squares 会找到成本函数 F(x) 的局部最小值

minimize F(x) = 0.5 * sum(rho(f_i(x)**2), i = 0, ..., m - 1)
subject to lb <= x <= ub

损失函数 rho(s) 的目的是减少异常值对解的影响。

参数:

funcallable

计算残差向量的函数，其签名是 fun(x, *args, **kwargs)，即最小化是根据其第一个参数进行的。传递给此函数的参数 x 是形状为 (n,) 的 ndarray（即使 n=1 也绝不是标量）。它必须分配并返回形状为 (m,) 的一维 array_like 或标量。如果参数 x 是复数或函数 fun 返回复数残差，则必须将其包装在一个接受实数参数的实数函数中，如示例部分末尾所示。

x0形状为 (n,) 的 array_like 或 float

自变量的初始猜测。如果为 float，则将被视为只有一个元素的一维数组。当 method 为 'trf' 时，初始猜测可能会略微调整以使其充分位于给定 bounds 内。

jac{'2-point', '3-point', 'cs', callable}，可选

计算雅可比矩阵的方法（m 行 n 列矩阵，其中元素 (i, j) 是 f[i] 对 x[j] 的偏导数）。关键字选择用于数值估计的有限差分方案。'3-point' 方案更准确，但需要的操作是 '2-point'（默认）的两倍。'cs' 方案使用复数步长，虽然可能是最准确的，但仅适用于 fun 正确处理复数输入并可以解析地扩展到复平面时。如果为可调用对象，则用作 jac(x, *args, **kwargs) 并应返回雅可比的良好近似值（或精确值）作为 array_like（应用 np.atleast_2d）、稀疏数组（为性能优选 csr_array）或 scipy.sparse.linalg.LinearOperator。

1.16.0 版中更改: 支持 'lm' 方法使用 '3-point'、'cs' 关键字。此前 'lm' 仅限于 '2-point' 和可调用对象。

bounds2-tuple of array_like 或 Bounds，可选

有两种指定边界的方式

Bounds 类的实例
自变量的下限和上限。默认为无边界。每个数组必须与 x0 的大小匹配或为标量，在后一种情况下，所有变量的边界将相同。使用具有适当符号的 np.inf 可以禁用所有或某些变量的边界。

method{'trf', 'dogbox', 'lm'}，可选

执行最小化的算法。

'trf' : 信赖域反射算法，特别适用于带有边界的大型稀疏问题。通常是稳健的方法。
'dogbox' : 带有矩形信赖域的 dogleg 算法，典型用例是带有边界的小问题。不推荐用于雅可比秩亏损的问题。
'lm' : MINPACK 中实现的 Levenberg-Marquardt 算法。不处理边界和稀疏雅可比。通常是小型无约束问题最有效的方法。

默认是 'trf'。有关更多信息，请参阅注释。

ftolfloat 或 None，可选

由成本函数变化引起的终止容差。默认值为 1e-8。当 dF < ftol * F 并且在最后一步中局部二次模型与真实模型之间有足够的一致性时，优化过程停止。

如果为 None 且 'method' 不是 'lm'，则此条件下的终止将被禁用。如果 'method' 是 'lm'，则此容差必须高于机器 epsilon。

xtolfloat 或 None，可选

由自变量变化引起的终止容差。默认值为 1e-8。确切的条件取决于所使用的 method

对于 'trf' 和 'dogbox' : norm(dx) < xtol * (xtol + norm(x))。
对于 'lm' : Delta < xtol * norm(xs)，其中 Delta 是信赖域半径，xs 是根据 x_scale 参数（参见下文）缩放的 x 值。

如果为 None 且 'method' 不是 'lm'，则此条件下的终止将被禁用。如果 'method' 是 'lm'，则此容差必须高于机器 epsilon。

gtolfloat 或 None，可选

由梯度范数引起的终止容差。默认值为 1e-8。确切的条件取决于所使用的 method

对于 'trf' : norm(g_scaled, ord=np.inf) < gtol，其中 g_scaled 是为考虑边界存在而缩放的梯度值 [STIR]。
对于 'dogbox' : norm(g_free, ord=np.inf) < gtol，其中 g_free 是相对于不在边界上的最优状态变量的梯度。
对于 'lm' : 雅可比列与残差向量之间夹角的余弦最大绝对值小于 gtol，或者残差向量为零。

如果为 None 且 'method' 不是 'lm'，则此条件下的终止将被禁用。如果 'method' 是 'lm'，则此容差必须高于机器 epsilon。

x_scale{None, array_like, 'jac'}，可选

每个变量的特征尺度。设置 x_scale 等效于用缩放变量 xs = x / x_scale 重构问题。另一种观点是，沿第 j 维的信赖域大小与 x_scale[j] 成比例。通过设置 x_scale 使沿任何缩放变量给定大小的步长对成本函数产生类似影响，可以实现更好的收敛。如果设置为 'jac'，则使用雅可比矩阵列的逆范数迭代更新尺度（如 [JJMore] 中所述）。每种方法的默认尺度（即如果 x_scale is None）如下

对于 'trf' : x_scale == 1
对于 'dogbox' : x_scale == 1
对于 'jac' : x_scale == 'jac'

1.16.0 版中更改: 默认关键字值从 1 更改为 None，以表示使用默认的缩放方法。对于 'lm' 方法，默认缩放从 1 更改为 'jac'。这被发现能提供更好的性能，并且与 leastsq 执行的缩放相同。

lossstr 或 callable，可选

确定损失函数。允许以下关键字值

'linear'（默认） : rho(z) = z。给出标准的最小二乘问题。
'soft_l1' : rho(z) = 2 * ((1 + z)**0.5 - 1)。l1（绝对值）损失的平滑近似。通常是鲁棒最小二乘的良好选择。
'huber' : rho(z) = z if z <= 1 else 2*z**0.5 - 1。与 'soft_l1' 类似。
'cauchy' : rho(z) = ln(1 + z)。严重削弱异常值的影响，但可能导致优化过程中的困难。
'arctan' : rho(z) = arctan(z)。限制单个残差的最大损失，具有与 'cauchy' 相似的特性。

如果为可调用对象，它必须接受一维 ndarray z=f**2 并返回形状为 (3, m) 的 array_like，其中第 0 行包含函数值，第 1 行包含一阶导数，第 2 行包含二阶导数。'lm' 方法仅支持 'linear' 损失。

f_scalefloat，可选

内点和异常值残差之间软边距的值，默认为 1.0。损失函数计算如下 rho_(f**2) = C**2 * rho(f**2 / C**2)，其中 C 是 f_scale，rho 由 loss 参数确定。此参数对 loss='linear' 没有影响，但对于其他 loss 值则至关重要。

max_nfevNone 或 int，可选

对于所有方法，此参数控制每种方法使用的最大函数评估次数，不包括用于雅可比数值近似的评估。如果为 None（默认），则该值自动选择为 100 * n。

1.16.0 版中更改: 'lm' 方法的默认值更改为 100 * n，无论雅可比是可调用还是数值估计。此前，当使用估计雅可比时，默认值为 100 * n * (n + 1)，因为该方法包含了估计中使用的评估。

diff_stepNone 或 array_like，可选

确定雅可比有限差分近似的相对步长。实际步长计算为 x * diff_step。如果为 None（默认），则 diff_step 被视为所用有限差分方案的机器 epsilon 的常规“最优”幂 [NR]。

tr_solver{None, 'exact', 'lsmr'}，可选

用于解决信赖域子问题的方法，仅与 'trf' 和 'dogbox' 方法相关。

'exact' 适用于雅可比矩阵稠密且问题规模不大的情况。每次迭代的计算复杂度与雅可比矩阵的奇异值分解相当。
'lsmr' 适用于雅可比矩阵稀疏且规模大的问题。它使用迭代过程 scipy.sparse.linalg.lsmr 来寻找线性最小二乘问题的解，并且只需要矩阵-向量乘积评估。

如果为 None（默认），则根据第一次迭代返回的雅可比类型选择求解器。

tr_optionsdict，可选

传递给信赖域求解器的关键字选项。

tr_solver='exact': tr_options 被忽略。
tr_solver='lsmr': scipy.sparse.linalg.lsmr 的选项。此外，method='trf' 支持 'regularize' 选项（布尔值，默认为 True），它向正规方程添加正则化项，如果雅可比秩亏损，则可改善收敛性 [Byrd]（式 3.4）。

jac_sparsity{None, array_like, sparse array}，可选

定义用于有限差分估计的雅可比矩阵的稀疏结构，其形状必须是 (m, n)。如果雅可比的每行中只有少数非零元素，提供稀疏结构将大大加快计算速度 [Curtis]。零条目表示雅可比中的相应元素恒为零。如果提供，则强制使用 'lsmr' 信赖域求解器。如果为 None（默认），则将使用稠密差分。对 'lm' 方法无效。

verbose{0, 1, 2}，可选

算法的详细程度

0（默认）: 静默工作。
1 : 显示终止报告。
2 : 迭代过程中显示进度（'lm' 方法不支持）。

args, kwargstuple 和 dict，可选

传递给 fun 和 jac 的附加参数。两者默认均为空。调用签名是 fun(x, *args, **kwargs)，jac 也是如此。

callbackNone 或 callable，可选

算法在每次迭代时调用的回调函数。这可用于在每个步骤打印或绘制优化结果，并根据用户定义的条件停止优化算法。仅为 trf 和 dogbox 方法实现。

签名是 callback(intermediate_result: OptimizeResult)

intermediate_result 是一个 `scipy.optimize.OptimizeResult 对象，其中包含当前迭代的优化中间结果。

回调也支持类似 callback(x) 的签名

使用自省来确定调用哪个签名。

如果 callback 函数引发 StopIteration，优化算法将停止并返回状态码 -2。

在 1.16.0 版本中新增。

workersmap-like callable，可选

一个 map-like 可调用对象，例如 multiprocessing.Pool.map，用于并行评估任何数值微分。此评估以 workers(fun, iterable) 的形式执行。

在 1.16.0 版本中新增。

返回:

resultOptimizeResult

OptimizeResult，包含以下字段

xndarray，形状 (n,)

找到的解。

costfloat

解处的成本函数值。

funndarray，形状 (m,)

解处的残差向量。

jacndarray, sparse array 或 LinearOperator, 形状 (m, n)

解处的修改雅可比矩阵，J^T J 是成本函数 Hessian 的 Gauss-Newton 近似。类型与算法使用的类型相同。

gradndarray，形状 (m,)

解处的成本函数梯度。

optimalityfloat

一阶最优性度量。在无约束问题中，它始终是梯度的均匀范数。在受约束问题中，它是迭代过程中与 gtol 进行比较的量。

active_maskint 类型的 ndarray，形状 (n,)

每个分量显示相应的约束是否处于活跃状态（即变量是否处于边界上）

0 : 约束不活跃。
-1 : 下限活跃。
1 : 上限活跃。

对于 'trf' 方法可能有些随意，因为它生成一系列严格可行的迭代，并且 active_mask 是在容差阈值内确定的。

nfevint

已执行的函数评估次数。此数字不包括用于数值雅可比近似的函数调用。

1.16.0 版中更改: 对于 'lm' 方法，不再包含用于数值雅可比近似的函数调用次数。这样做是为了使所有方法保持一致。

njevint 或 None

已执行的雅可比评估次数。如果在 'lm' 方法中使用了数值雅可比近似，则将其设置为 None。

statusint

算法终止的原因

-2 : 因回调函数引发 StopIteration 而终止。
-1 : 从 MINPACK 返回的输入参数状态不正确。
0 : 超出最大函数评估次数。
1 : gtol 终止条件满足。
2 : ftol 终止条件满足。
3 : xtol 终止条件满足。
4 : ftol 和 xtol 终止条件均满足。

messagestr

终止原因的文字描述。

successbool

如果满足其中一个收敛准则（status > 0），则为 True。

另请参阅

leastsq: MINPACK 实现 Levenberg-Marquadt 算法的传统包装器。
curve_fit: 应用于曲线拟合问题的最小二乘最小化。

注释

'lm'（Levenberg-Marquardt）方法调用 MINPACK（lmder）中实现的最小二乘算法的包装器。它运行形如信赖域算法的 Levenberg-Marquardt 算法。该实现基于论文 [JJMore]，它非常稳健高效，并包含许多巧妙的技巧。它应该是无约束问题的首选。请注意，它不支持边界。此外，当 m < n 时它不起作用。

'trf'（信赖域反射）方法的灵感来源于求解方程组的过程，这些方程组构成了 [STIR] 中提出的有界约束最小化问题的一阶最优性条件。该算法迭代地求解信赖域子问题，子问题由一个特殊的对角二次项增强，并且信赖域的形状由距边界的距离和梯度的方向决定。这些增强有助于避免直接进入边界并有效地探索变量的整个空间。为了进一步改善收敛性，算法考虑了从边界反射的搜索方向。为了遵守理论要求，算法保持迭代严格可行。对于稠密雅可比，信赖域子问题通过一种非常类似于 [JJMore] 中描述的方法（并在 MINPACK 中实现）的精确方法求解。与 MINPACK 实现的区别在于，雅可比矩阵的奇异值分解在每次迭代中只进行一次，而不是 QR 分解和一系列 Givens 旋转消除。对于大型稀疏雅可比，采用二维子空间方法解决信赖域子问题 [STIR]、[Byrd]。该子空间由缩放梯度和 scipy.sparse.linalg.lsmr 提供的近似高斯-牛顿解张成。当没有施加约束时，该算法与 MINPACK 非常相似，并且通常具有可比的性能。该算法在无界和有界问题中都能稳健工作，因此被选为默认算法。

'dogbox' 方法在信赖域框架中运行，但考虑矩形信赖域而非传统的椭球体 [Voglis]。当前信赖域与初始边界的交集仍然是矩形，因此在每次迭代中，受边界约束的二次最小化问题通过 Powell 的 dogleg 方法近似求解 [NumOpt]。所需的 Gauss-Newton 步长可以为稠密雅可比精确计算，或者通过 scipy.sparse.linalg.lsmr 为大型稀疏雅可比近似计算。当雅可比的秩小于变量数量时，该算法可能表现出缓慢收敛。该算法通常在具有少量变量的有界问题中优于 'trf'。

鲁棒损失函数按照 [BA] 中的描述实现。其思想是在每次迭代中修改残差向量和雅可比矩阵，使得计算出的梯度和 Gauss-Newton Hessian 近似与成本函数的真实梯度和 Hessian 近似相匹配。然后算法以正常方式进行，即，鲁棒损失函数作为标准最小二乘算法的简单包装器实现。

在 0.17.0 版本中新增。

参考文献

[STIR] (1,2,3)

M. A. Branch, T. F. Coleman, and Y. Li, “A Subspace, Interior, and Conjugate Gradient Method for Large-Scale Bound-Constrained Minimization Problems,” SIAM Journal on Scientific Computing, Vol. 21, Number 1, pp 1-23, 1999。

[NR]

William H. Press et. al., “Numerical Recipes. The Art of Scientific Computing. 3rd edition”, Sec. 5.7。

[Byrd] (1,2)

R. H. Byrd, R. B. Schnabel and G. A. Shultz, “Approximate solution of the trust region problem by minimization over two-dimensional subspaces”, Math. Programming, 40, pp. 247-263, 1988。

[Curtis]

A. Curtis, M. J. D. Powell, and J. Reid, “On the estimation of sparse Jacobian matrices”, Journal of the Institute of Mathematics and its Applications, 13, pp. 117-120, 1974。

[JJMore] (1,2,3)

J. J. More, “The Levenberg-Marquardt Algorithm: Implementation and Theory,” Numerical Analysis, ed. G. A. Watson, Lecture Notes in Mathematics 630, Springer Verlag, pp. 105-116, 1977。

[Voglis]

C. Voglis and I. E. Lagaris, “A Rectangular Trust Region Dogleg Approach for Unconstrained and Bound Constrained Nonlinear Optimization”, WSEAS International Conference on Applied Mathematics, Corfu, Greece, 2004。

[NumOpt]

J. Nocedal and S. J. Wright, “Numerical optimization, 2nd edition”, Chapter 4。

[BA]

B. Triggs et. al., “Bundle Adjustment - A Modern Synthesis”, Proceedings of the International Workshop on Vision Algorithms: Theory and Practice, pp. 298-372, 1999。

示例

在此示例中，我们寻找 Rosenbrock 函数的最小值，且独立变量无边界。

>>> import numpy as np
>>> def fun_rosenbrock(x):
...     return np.array([10 * (x[1] - x[0]**2), (1 - x[0])])

请注意，我们只提供了残差向量。算法将成本函数构建为残差平方和，这正是 Rosenbrock 函数。精确最小值在 x = [1.0, 1.0]。

>>> from scipy.optimize import least_squares
>>> x0_rosenbrock = np.array([2, 2])
>>> res_1 = least_squares(fun_rosenbrock, x0_rosenbrock)
>>> res_1.x
array([ 1.,  1.])
>>> res_1.cost
9.8669242910846867e-30
>>> res_1.optimality
8.8928864934219529e-14

现在我们约束变量，使得先前的解变得不可行。具体来说，我们要求 x[1] >= 1.5，而 x[0] 不受约束。为此，我们以 bounds=([-np.inf, 1.5], np.inf) 的形式为 least_squares 指定 bounds 参数。

我们还提供了解析雅可比。

>>> def jac_rosenbrock(x):
...     return np.array([
...         [-20 * x[0], 10],
...         [-1, 0]])

综合来看，我们看到新解位于边界上。

>>> res_2 = least_squares(fun_rosenbrock, x0_rosenbrock, jac_rosenbrock,
...                       bounds=([-np.inf, 1.5], np.inf))
>>> res_2.x
array([ 1.22437075,  1.5       ])
>>> res_2.cost
0.025213093946805685
>>> res_2.optimality
1.5885401433157753e-07

现在我们为 100000 个变量的 Broyden 三对角向量值函数求解一个方程组（即，在最小值处成本函数应为零）

>>> def fun_broyden(x):
...     f = (3 - x) * x + 1
...     f[1:] -= x[:-1]
...     f[:-1] -= 2 * x[1:]
...     return f

相应的雅可比矩阵是稀疏的。我们让算法通过有限差分来估计它，并提供雅可比的稀疏结构以显著加快此过程。

>>> from scipy.sparse import lil_array
>>> def sparsity_broyden(n):
...     sparsity = lil_array((n, n), dtype=int)
...     i = np.arange(n)
...     sparsity[i, i] = 1
...     i = np.arange(1, n)
...     sparsity[i, i - 1] = 1
...     i = np.arange(n - 1)
...     sparsity[i, i + 1] = 1
...     return sparsity
...
>>> n = 100000
>>> x0_broyden = -np.ones(n)
...
>>> res_3 = least_squares(fun_broyden, x0_broyden,
...                       jac_sparsity=sparsity_broyden(n))
>>> res_3.cost
4.5687069299604613e-23
>>> res_3.optimality
1.1650454296851518e-11

我们还将使用鲁棒损失函数来解决曲线拟合问题，以处理数据中的异常值。将模型函数定义为 y = a + b * exp(c * t)，其中 t 是预测变量，y 是观测值，a、b、c 是要估计的参数。

首先，定义生成带有噪声和异常值的数据的函数，定义模型参数，并生成数据。

>>> from numpy.random import default_rng
>>> rng = default_rng()
>>> def gen_data(t, a, b, c, noise=0., n_outliers=0, seed=None):
...     rng = default_rng(seed)
...
...     y = a + b * np.exp(t * c)
...
...     error = noise * rng.standard_normal(t.size)
...     outliers = rng.integers(0, t.size, n_outliers)
...     error[outliers] *= 10
...
...     return y + error
...
>>> a = 0.5
>>> b = 2.0
>>> c = -1
>>> t_min = 0
>>> t_max = 10
>>> n_points = 15
...
>>> t_train = np.linspace(t_min, t_max, n_points)
>>> y_train = gen_data(t_train, a, b, c, noise=0.1, n_outliers=3)

定义用于计算残差和参数初始估计的函数。

>>> def fun(x, t, y):
...     return x[0] + x[1] * np.exp(x[2] * t) - y
...
>>> x0 = np.array([1.0, 1.0, 0.0])

计算标准最小二乘解

>>> res_lsq = least_squares(fun, x0, args=(t_train, y_train))

现在用两种不同的鲁棒损失函数计算两个解。f_scale 参数设置为 0.1，这意味着内点残差不应显著超过 0.1（使用的噪声水平）。

>>> res_soft_l1 = least_squares(fun, x0, loss='soft_l1', f_scale=0.1,
...                             args=(t_train, y_train))
>>> res_log = least_squares(fun, x0, loss='cauchy', f_scale=0.1,
...                         args=(t_train, y_train))

最后，绘制所有曲线。我们看到，通过选择适当的 loss，即使在存在强异常值的情况下，我们也可以获得接近最优的估计。但请记住，通常建议首先尝试 'soft_l1' 或 'huber' 损失（如果确实有必要），因为其他两个选项可能会在优化过程中造成困难。

>>> t_test = np.linspace(t_min, t_max, n_points * 10)
>>> y_true = gen_data(t_test, a, b, c)
>>> y_lsq = gen_data(t_test, *res_lsq.x)
>>> y_soft_l1 = gen_data(t_test, *res_soft_l1.x)
>>> y_log = gen_data(t_test, *res_log.x)
...
>>> import matplotlib.pyplot as plt
>>> plt.plot(t_train, y_train, 'o')
>>> plt.plot(t_test, y_true, 'k', linewidth=2, label='true')
>>> plt.plot(t_test, y_lsq, label='linear loss')
>>> plt.plot(t_test, y_soft_l1, label='soft_l1 loss')
>>> plt.plot(t_test, y_log, label='cauchy loss')
>>> plt.xlabel("t")
>>> plt.ylabel("y")
>>> plt.legend()
>>> plt.show()

../../_images/scipy-optimize-least_squares-1_00_00.png

在下一个示例中，我们展示如何使用 least_squares() 优化复数变量的复数值残差函数。考虑以下函数

>>> def f(z):
...     return z - (0.5 + 0.5j)

我们将其包装成一个实数变量的函数，通过简单地将实部和虚部作为独立变量来返回实数残差。

>>> def f_wrap(x):
...     fx = f(x[0] + 1j*x[1])
...     return np.array([fx.real, fx.imag])

因此，我们不再优化一个 n 个复数变量的 m 维复数函数，而是优化一个 2n 个实数变量的 2m 维实数函数。

>>> from scipy.optimize import least_squares
>>> res_wrapped = least_squares(f_wrap, (0.1, 0.1), bounds=([0, 0], [1, 1]))
>>> z = res_wrapped.x[0] + res_wrapped.x[1]*1j
>>> z
(0.49999999999925893+0.49999999999925893j)