scipy.optimize.

curve_fit#

scipy.optimize.curve_fit(f, xdata, ydata, p0=None, sigma=None, absolute_sigma=False, check_finite=None, bounds=(-inf, inf), method=None, jac=None, *, full_output=False, nan_policy=None, **kwargs)[源代码]#

使用非线性最小二乘法拟合函数 f 到数据。

假定 ydata = f(xdata, *params) + eps

参数:
f可调用对象

模型函数 f(x, …)。它必须将自变量作为第一个参数,并将要拟合的参数作为单独的剩余参数。

xdataarray_like

测量数据的自变量。对于具有 k 个预测变量的函数,它通常应该是 M 长度的序列或 (k,M) 形状的数组,如果它是类数组对象,则每个元素都应可转换为浮点数。

ydataarray_like

因变量数据,长度为 M 的数组 - 名义上为 f(xdata, ...)

p0array_like, optional

参数的初始猜测值(长度为 N)。如果为 None,则初始值将全部为 1(如果可以使用内省确定函数的参数数量,否则会引发 ValueError)。

sigmaNone 或标量或 M 长度序列或 MxM 数组, optional

确定 ydata 中的不确定性。如果我们定义残差为 r = ydata - f(xdata, *popt),则 sigma 的解释取决于其维数

  • 标量或一维 sigma 应包含 ydata 中误差的标准差值。在这种情况下,优化函数为 chisq = sum((r / sigma) ** 2)

  • 二维 sigma 应包含 ydata 中误差的协方差矩阵。在这种情况下,优化函数为 chisq = r.T @ inv(sigma) @ r

    版本 0.19 中添加。

None(默认)等同于填充了 1 的一维 sigma

absolute_sigmabool, optional

如果为 True,则 sigma 按绝对值使用,并且估计的参数协方差 pcov 反映了这些绝对值。

如果为 False(默认),则只有 sigma 值的相对大小很重要。返回的参数协方差矩阵 pcov 基于用一个常数因子缩放 sigma。该常数通过要求使用缩放sigma 时,最佳参数 popt 的约化 chisq 等于 1 来确定。换句话说,sigma 被缩放以匹配拟合后残差的样本方差。默认值为 False。数学上,pcov(absolute_sigma=False) = pcov(absolute_sigma=True) * chisq(popt)/(M-N)

check_finitebool, optional

如果为 True,则检查输入数组不包含 nan 或 inf,并在包含时引发 ValueError。将此参数设置为 False 可能会在输入数组包含 nan 时默默地产生无意义的结果。如果未显式指定 nan_policy,则默认为 True,否则默认为 False。

bounds类数组的 2 元组或 Bounds, 可选

参数的下界和上界。默认为无界。有两种指定界限的方法

  • Bounds 类的实例。

  • 2 元组的类数组:元组的每个元素必须是长度等于参数数量的数组,或者是一个标量(在这种情况下,界限对所有参数都相同)。使用具有适当符号的 np.inf 来禁用所有或部分参数的界限。

method{‘lm’, ‘trf’, ‘dogbox’}, optional

要用于优化的方法。有关更多详细信息,请参阅 least_squares。无约束问题的默认值为 ‘lm’,如果提供了 bounds,则为 ‘trf’。当观测数量少于变量数量时,方法 ‘lm’ 将不起作用,在这种情况下请使用 ‘trf’ 或 ‘dogbox’。

版本 0.17 中添加。

jaccallable, string 或 None, optional

签名 jac(x, ...) 的函数,它将模型函数相对于参数的雅可比矩阵计算为密集类数组结构。它将根据提供的 sigma 进行缩放。如果为 None(默认),则雅可比矩阵将通过数值估计。对于 ‘trf’ 和 ‘dogbox’ 方法,可以使用字符串关键字选择有限差分方案,请参阅 least_squares

版本 0.18 中添加。

full_outputboolean, optional

如果为 True,则此函数返回额外信息:infodictmesgier

添加于版本 1.9。

nan_policy{‘raise’, ‘omit’, None}, optional

定义如何处理输入包含 nan 的情况。以下选项可用(默认值为 None)

  • ‘raise’:引发错误

  • ‘omit’:执行计算时忽略 nan 值

  • None:不执行对 NaNs 的特殊处理(除了 check_finite 所做的);当存在 NaNs 时的行为取决于实现,并且可能会发生变化。

请注意,如果显式指定了此值(不为 None),则 check_finite 将设置为 False。

版本 1.11 中添加。

**kwargs

传递给 method='lm'leastsq 或否则传递给 least_squares 的关键字参数。

返回:
poptarray

参数的最优值,使得 f(xdata, *popt) - ydata 的平方残差之和最小。

pcov2-D array

popt 的估计近似协方差。对角线提供了参数估计的方差。要计算参数的一个标准差误差,请使用 perr = np.sqrt(np.diag(pcov))。请注意,cov 与参数误差估计之间的关系是基于最优值附近的模型函数的线性近似推导出来的 [1]。当这种近似变得不准确时,cov 可能无法准确衡量不确定性。

sigma 参数如何影响估计的协方差取决于 absolute_sigma 参数,如上所述。

如果解处的雅可比矩阵不是满秩的,则 ‘lm’ 方法返回一个充满 np.inf 的矩阵;另一方面,‘trf’ 和 ‘dogbox’ 方法使用 Moore-Penrose 伪逆来计算协方差矩阵。条件数很大的协方差矩阵(例如,使用 numpy.linalg.cond 计算)可能表明结果不可靠。

infodictdict (仅当 full_output 为 True 时返回)

一个包含可选输出的字典,其键为

nfev

函数调用的次数。与 ‘lm’ 方法不同,‘trf’ 和 ‘dogbox’ 方法不计算数值雅可比矩阵近似的函数调用。

fvec

在解处评估的残差值,对于一维 sigma,它是 (f(x, *popt) - ydata)/sigma

fjac

QR 分解的最终近似雅可比矩阵的 R 矩阵的置换,按列存储。与 ipvt 一起,可以近似估计的协方差。仅 ‘lm’ 方法提供此信息。

ipvt

一个长度为 N 的整数数组,它定义了一个置换矩阵 p,使得 fjac*p = q*r,其中 r 是对角线元素非递增的零上三角矩阵。p 的第 j 列是单位矩阵的第 ipvt(j) 列。仅 ‘lm’ 方法提供此信息。

qtf

向量 (transpose(q) * fvec)。仅 ‘lm’ 方法提供此信息。

添加于版本 1.9。

mesgstr (仅当 full_output 为 True 时返回)

一条消息,提供有关解的信息。

添加于版本 1.9。

ierint (仅当 full_output 为 True 时返回)

一个整数标志。如果它等于 1、2、3 或 4,则找到了解。否则,未找到解。无论哪种情况,可选输出变量 mesg 都提供了更多信息。

添加于版本 1.9。

引发:
ValueError

如果 ydataxdata 包含 NaNs,或者使用了不兼容的选项。

RuntimeError

如果最小二乘法最小化失败。

OptimizeWarning

如果参数的协方差无法估计。

另请参阅

least_squares

最小化非线性函数的平方和。

scipy.stats.linregress

计算两组测量值的线性最小二乘回归。

附注

用户应确保输入 xdataydataf 的输出是 float64,否则优化可能会返回不正确的结果。

使用 method='lm' 时,该算法通过 leastsq 使用 Levenberg-Marquardt 算法。请注意,此算法只能处理无约束问题。

盒约束可以通过 ‘trf’ 和 ‘dogbox’ 方法处理。有关更多信息,请参阅 least_squares 的文档字符串。

要拟合的参数必须具有相似的尺度。多个数量级的差异可能导致不正确的结果。对于 ‘trf’ 和 ‘dogbox’ 方法,可以使用 x_scale 关键字参数来缩放参数。

curve_fit 用于局部优化参数以最小化残差的平方和。有关全局优化、其他目标函数选择和其他高级功能,请考虑使用 SciPy 的 全局优化 工具或 LMFIT 包。

参考文献

[1]

K. Vugrin et al. Confidence region estimation techniques for nonlinear regression in groundwater flow: Three case studies. Water Resources Research, Vol. 43, W03423, DOI:10.1029/2005WR004804

示例

>>> import numpy as np
>>> import matplotlib.pyplot as plt
>>> from scipy.optimize import curve_fit
>>> def func(x, a, b, c):
...     return a * np.exp(-b * x) + c

定义带有噪声的数据以进行拟合

>>> xdata = np.linspace(0, 4, 50)
>>> y = func(xdata, 2.5, 1.3, 0.5)
>>> rng = np.random.default_rng()
>>> y_noise = 0.2 * rng.normal(size=xdata.size)
>>> ydata = y + y_noise
>>> plt.plot(xdata, ydata, 'b-', label='data')

拟合函数 func 的参数 a、b、c

>>> popt, pcov = curve_fit(func, xdata, ydata)
>>> popt
array([2.56274217, 1.37268521, 0.47427475])
>>> plt.plot(xdata, func(xdata, *popt), 'r-',
...          label='fit: a=%5.3f, b=%5.3f, c=%5.3f' % tuple(popt))

将优化限制在 0 <= a <= 30 <= b <= 10 <= c <= 0.5 的区域

>>> popt, pcov = curve_fit(func, xdata, ydata, bounds=(0, [3., 1., 0.5]))
>>> popt
array([2.43736712, 1.        , 0.34463856])
>>> plt.plot(xdata, func(xdata, *popt), 'g--',
...          label='fit: a=%5.3f, b=%5.3f, c=%5.3f' % tuple(popt))
>>> plt.xlabel('x')
>>> plt.ylabel('y')
>>> plt.legend()
>>> plt.show()
../../_images/scipy-optimize-curve_fit-1_00_00.png

为了获得可靠的结果,模型 func 不应过度参数化;冗余参数可能导致不可靠的协方差矩阵,在某些情况下,还会导致拟合质量下降。作为检查模型是否可能过度参数化的快速方法,计算协方差矩阵的条件数

>>> np.linalg.cond(pcov)
34.571092161547405  # may vary

该值很小,因此不引起太多担忧。然而,如果我们向 func 添加第四个参数 d,其效果与 a 相同

>>> def func2(x, a, b, c, d):
...     return a * d * np.exp(-b * x) + c  # a and d are redundant
>>> popt, pcov = curve_fit(func2, xdata, ydata)
>>> np.linalg.cond(pcov)
1.13250718925596e+32  # may vary

如此大的值令人担忧。协方差矩阵的对角线元素(与拟合的不确定性相关)提供了更多信息

>>> np.diag(pcov)
array([1.48814742e+29, 3.78596560e-02, 5.39253738e-03, 2.76417220e+28])  # may vary

请注意,第一项和最后一项比其他元素大得多,这表明这些参数的最优值是模棱两可的,并且模型中只需要其中一个参数。

如果 f 的最优参数相差多个数量级,则拟合结果可能不准确。有时,curve_fit 可能无法找到任何结果

>>> ydata = func(xdata, 500000, 0.01, 15)
>>> try:
...     popt, pcov = curve_fit(func, xdata, ydata, method = 'trf')
... except RuntimeError as e:
...     print(e)
Optimal parameters not found: The maximum number of function evaluations is
exceeded.

如果参数的尺度大致已知,可以在 x_scale 参数中指定

>>> popt, pcov = curve_fit(func, xdata, ydata, method = 'trf',
...                        x_scale = [1000, 1, 1])
>>> popt
array([5.00000000e+05, 1.00000000e-02, 1.49999999e+01])