curve_fit#
- scipy.optimize.curve_fit(f, xdata, ydata, p0=None, sigma=None, absolute_sigma=False, check_finite=None, bounds=(-inf, inf), method=None, jac=None, *, full_output=False, nan_policy=None, **kwargs)[源代码]#
使用非线性最小二乘法将函数 f 拟合到数据。
假设
ydata = f(xdata, *params) + eps
。- 参数:
- f可调用对象
模型函数,f(x, …)。它必须将自变量作为第一个参数,将要拟合的参数作为单独的剩余参数。
- xdataarray_like
测量数据的自变量。对于具有 k 个预测变量的函数,通常应为长度为 M 的序列或 (k, M) 形状的数组,并且如果它是类似数组的对象,则每个元素都应该是可转换为浮点数的。
- ydataarray_like
因变量数据,长度为 M 的数组 - 通常为
f(xdata, ...)
。- p0array_like, 可选
参数的初始猜测值(长度为 N)。如果为 None,则初始值都将为 1(如果可以使用内省确定函数的参数数量,否则会引发 ValueError)。
- sigmaNone 或标量或长度为 M 的序列或 MxM 数组, 可选
确定 ydata 中的不确定性。 如果我们将残差定义为
r = ydata - f(xdata, *popt)
,则 sigma 的解释取决于其维度数标量或 1-D sigma 应包含 ydata 中误差的标准偏差值。在这种情况下,优化的函数是
chisq = sum((r / sigma) ** 2)
。2-D sigma 应包含 ydata 中误差的协方差矩阵。在这种情况下,优化的函数是
chisq = r.T @ inv(sigma) @ r
。在版本 0.19 中添加。
None (默认) 等效于填充 1 的 1-D sigma。
- absolute_sigmabool, 可选
如果为 True,则 sigma 将以绝对意义使用,并且估计的参数协方差 pcov 反映这些绝对值。
如果为 False(默认),则只有 sigma 值的相对大小才重要。返回的参数协方差矩阵 pcov 基于将 sigma 缩放一个常数因子。此常数通过要求使用缩放 sigma 时,最优参数 popt 的减少的 chisq 等于 1 来设置。换句话说,缩放 sigma 以匹配拟合后残差的样本方差。默认为 False。在数学上,
pcov(absolute_sigma=False) = pcov(absolute_sigma=True) * chisq(popt)/(M-N)
- check_finitebool, 可选
如果为 True,则检查输入数组是否不包含 nans 或 infs,如果包含则引发 ValueError。如果输入数组确实包含 nans,则将此参数设置为 False 可能会以静默方式产生无意义的结果。如果未明确指定 nan_policy,则默认为 True,否则为 False。
- boundsarray_like 的 2 元组或
Bounds
, 可选 参数的下限和上限。默认为无界。有两种方法可以指定边界
Bounds
类的实例。array_like 的 2 元组:元组的每个元素必须是长度等于参数数量的数组,或标量(在这种情况下,所有参数都采用相同的边界)。使用带有适当符号的
np.inf
来禁用所有或某些参数的边界。
- method{‘lm’, ‘trf’, ‘dogbox’}, 可选
用于优化的方法。有关更多详细信息,请参见
least_squares
。 对于无约束问题,默认值为“lm”,如果提供了 bounds,则默认值为“trf”。当观察次数小于变量数时,方法“lm”将不起作用,在这种情况下,请使用“trf”或“dogbox”。在版本 0.17 中添加。
- jac可调用对象,字符串或 None, 可选
签名
jac(x, ...)
的函数,该函数计算模型函数相对于参数的雅可比矩阵作为密集的类似数组的结构。它将根据提供的 sigma 进行缩放。如果为 None(默认),则将以数值方式估计雅可比矩阵。对于“trf”和“dogbox”方法,可以使用字符串关键字来选择有限差分方案,请参见least_squares
。在版本 0.18 中添加。
- full_output布尔值,可选
如果为 True,此函数将返回其他信息:infodict, mesg, 和 ier。
在版本 1.9 中添加。
- nan_policy{‘raise’, ‘omit’, None}, 可选
定义当输入包含 nan 时如何处理。以下选项可用(默认为 None)
‘raise’:抛出错误
‘omit’:执行计算时忽略 nan 值
None:不执行 NaN 的特殊处理(除了 check_finite 所做的事情);存在 NaN 时的行为取决于实现,并且可能会更改。
请注意,如果明确指定此值(不是 None),则 check_finite 将设置为 False。
在版本 1.11 中添加。
- **kwargs
传递给
leastsq
的关键字参数 (用于method='lm'
) 或传递给least_squares
(否则)。
- 返回:
- poptarray
参数的最佳值,以便
f(xdata, *popt) - ydata
的平方残差之和最小化。- pcov2-D array
popt 的估计近似协方差。对角线提供了参数估计的方差。要计算参数的一个标准差误差,请使用
perr = np.sqrt(np.diag(pcov))
。请注意,cov 与参数误差估计之间的关系是基于模型函数在最优值附近的线性近似得出的 [1]。当此近似变得不准确时,cov 可能无法提供准确的不确定性度量。sigma 参数如何影响估计的协方差取决于 absolute_sigma 参数,如上所述。
如果解处的雅可比矩阵不是满秩的,则 'lm' 方法返回一个填充
np.inf
的矩阵,另一方面,'trf' 和 'dogbox' 方法使用 Moore-Penrose 伪逆来计算协方差矩阵。具有较大条件数的协方差矩阵(例如,使用numpy.linalg.cond
计算的)可能表明结果不可靠。- infodict字典(仅当 full_output 为 True 时返回)
一个包含可选输出的字典,键为:
nfev
函数调用次数。“trf”和“dogbox”方法不计算数值雅可比近似的函数调用次数,与“lm”方法相反。
fvec
在解处评估的残差值,对于 1-D 的 sigma,它是
(f(x, *popt) - ydata)/sigma
。fjac
最终近似雅可比矩阵的 QR 分解的 R 矩阵的排列,按列存储。与 ipvt 一起,可以近似估计协方差。方法 'lm' 仅提供此信息。
ipvt
一个长度为 N 的整数数组,它定义了一个置换矩阵 p,使得 fjac*p = q*r,其中 r 是对角线元素大小不递增的上三角矩阵。p 的第 j 列是单位矩阵的第 ipvt(j) 列。方法 'lm' 仅提供此信息。
qtf
向量 (transpose(q) * fvec)。方法 'lm' 仅提供此信息。
在版本 1.9 中添加。
- mesgstr(仅当 full_output 为 True 时返回)
提供有关解的信息的字符串消息。
在版本 1.9 中添加。
- ierint(仅当 full_output 为 True 时返回)
一个整数标志。如果它等于 1、2、3 或 4,则表示找到了解。否则,未找到解。在任何一种情况下,可选的输出变量 mesg 都会提供更多信息。
在版本 1.9 中添加。
- 引发:
- ValueError
如果 ydata 或 xdata 包含 NaN,或者使用了不兼容的选项。
- RuntimeError
如果最小二乘最小化失败。
- OptimizeWarning
如果无法估计参数的协方差。
另请参见
least_squares
最小化非线性函数的平方和。
scipy.stats.linregress
计算两组测量值的线性最小二乘回归。
注释
用户应确保输入 xdata、ydata 和 f 的输出为
float64
,否则优化可能会返回不正确的结果。使用
method='lm'
时,该算法通过leastsq
使用 Levenberg-Marquardt 算法。请注意,此算法只能处理无约束问题。方法 'trf' 和 'dogbox' 可以处理边界约束。有关更多信息,请参阅
least_squares
的文档字符串。要拟合的参数必须具有相似的尺度。多个数量级的差异可能导致不正确的结果。对于“trf”和“dogbox”方法,可以使用 x_scale 关键字参数来缩放参数。
参考文献
[1]K. Vugrin 等人。地下水流中非线性回归的置信区域估计技术:三个案例研究。水资源研究,第 43 卷,W03423,DOI:10.1029/2005WR004804
示例
>>> import numpy as np >>> import matplotlib.pyplot as plt >>> from scipy.optimize import curve_fit
>>> def func(x, a, b, c): ... return a * np.exp(-b * x) + c
定义要拟合的带有一些噪声的数据
>>> xdata = np.linspace(0, 4, 50) >>> y = func(xdata, 2.5, 1.3, 0.5) >>> rng = np.random.default_rng() >>> y_noise = 0.2 * rng.normal(size=xdata.size) >>> ydata = y + y_noise >>> plt.plot(xdata, ydata, 'b-', label='data')
拟合函数 func 的参数 a、b、c
>>> popt, pcov = curve_fit(func, xdata, ydata) >>> popt array([2.56274217, 1.37268521, 0.47427475]) >>> plt.plot(xdata, func(xdata, *popt), 'r-', ... label='fit: a=%5.3f, b=%5.3f, c=%5.3f' % tuple(popt))
将优化约束到
0 <= a <= 3
、0 <= b <= 1
和0 <= c <= 0.5
的区域>>> popt, pcov = curve_fit(func, xdata, ydata, bounds=(0, [3., 1., 0.5])) >>> popt array([2.43736712, 1. , 0.34463856]) >>> plt.plot(xdata, func(xdata, *popt), 'g--', ... label='fit: a=%5.3f, b=%5.3f, c=%5.3f' % tuple(popt))
>>> plt.xlabel('x') >>> plt.ylabel('y') >>> plt.legend() >>> plt.show()
为了获得可靠的结果,模型 func 不应过度参数化;冗余参数可能导致不可靠的协方差矩阵,在某些情况下,拟合质量较差。作为快速检查模型是否可能过度参数化的方法,计算协方差矩阵的条件数
>>> np.linalg.cond(pcov) 34.571092161547405 # may vary
该值很小,因此无需过多担心。但是,如果要向 func 添加第四个参数
d
,其效果与a
相同>>> def func2(x, a, b, c, d): ... return a * d * np.exp(-b * x) + c # a and d are redundant >>> popt, pcov = curve_fit(func2, xdata, ydata) >>> np.linalg.cond(pcov) 1.13250718925596e+32 # may vary
如此大的值令人担忧。协方差矩阵的对角线元素(与拟合的不确定性相关)提供了更多信息
>>> np.diag(pcov) array([1.48814742e+29, 3.78596560e-02, 5.39253738e-03, 2.76417220e+28]) # may vary
请注意,第一项和最后一项远大于其他元素,这表明这些参数的最优值不明确,并且模型中只需要这些参数中的一个。
如果 f 的最优参数相差多个数量级,则最终的拟合结果可能不准确。有时,
curve_fit
可能无法找到任何结果>>> ydata = func(xdata, 500000, 0.01, 15) >>> try: ... popt, pcov = curve_fit(func, xdata, ydata, method = 'trf') ... except RuntimeError as e: ... print(e) Optimal parameters not found: The maximum number of function evaluations is exceeded.
如果预先大致知道参数的尺度,则可以在 x_scale 参数中定义它
>>> popt, pcov = curve_fit(func, xdata, ydata, method = 'trf', ... x_scale = [1000, 1, 1]) >>> popt array([5.00000000e+05, 1.00000000e-02, 1.49999999e+01])