scipy.stats.

boxcox#

scipy.stats.boxcox(x, lmbda=None, alpha=None, optimizer=None)[源代码]#

返回经过 Box-Cox 幂变换转换后的数据集。

参数:
xndarray

要转换的输入数组。

如果 lmbda 不为 None,则这是 scipy.special.boxcox 的别名。如果 x < 0,则返回 nan;如果 x == 0 and lmbda < 0,则返回 -inf。

如果 lmbda 为 None,则数组必须为正数、一维且非常量。

lmbda标量,可选

如果 lmbda 为 None(默认),则找到最大化对数似然函数的 lmbda 值,并将其作为第二个输出参数返回。

如果 lmbda 不为 None,则对该值进行转换。

alpha浮点数,可选

如果 lmbda 为 None 且 alpha 不为 None(默认),则将 100 * (1-alpha)%lmbda 置信区间作为第三个输出参数返回。必须介于 0.0 和 1.0 之间。

如果 lmbda 不为 None,则忽略 alpha

optimizer可调用对象,可选

如果 lmbda 为 None,则 optimizer 是用于查找最小化负对数似然函数的 lmbda 值的标量优化器。optimizer 是一个可调用对象,它接受一个参数

fun可调用对象

目标函数,它在提供的 lmbda 值处计算负对数似然函数

并返回一个对象,例如 scipy.optimize.OptimizeResult 的实例,该实例在其属性 x 中保存 lmbda 的最优值。

有关更多信息,请参见 boxcox_normmax 中的示例或 scipy.optimize.minimize_scalar 的文档。

如果 lmbda 不为 None,则忽略 optimizer

返回值:
boxcoxndarray

Box-Cox 幂变换后的数组。

maxlog浮点数,可选

如果 lmbda 参数为 None,则返回的第二个参数是最大化对数似然函数的 lmbda

(min_ci, max_ci)浮点数元组,可选

如果 lmbda 参数为 None 且 alpha 不为 None,则返回的浮点数元组表示给定 alpha 的最小和最大置信限。

注释

Box-Cox 变换的公式为

y = (x**lmbda - 1) / lmbda,  for lmbda != 0
    log(x),                  for lmbda = 0

boxcox 要求输入数据为正数。有时,Box-Cox 变换会提供一个偏移参数来实现这一点;boxcox 不会这样做。这样的偏移参数等效于在调用 boxcox 之前向 x 添加一个正常数。

当提供 alpha 时返回的置信限给出了以下区间的范围

\[llf(\hat{\lambda}) - llf(\lambda) < \frac{1}{2}\chi^2(1 - \alpha, 1),\]

其中 llf 是对数似然函数,\(\chi^2\) 是卡方函数。

参考文献

G.E.P. Box 和 D.R. Cox,“变换分析”,皇家统计学会会刊 B,26,211-252(1964 年)。

示例

>>> from scipy import stats
>>> import matplotlib.pyplot as plt

我们从非正态分布中生成一些随机变量,并为其绘制概率图,以显示其尾部是非正态的

>>> fig = plt.figure()
>>> ax1 = fig.add_subplot(211)
>>> x = stats.loggamma.rvs(5, size=500) + 5
>>> prob = stats.probplot(x, dist=stats.norm, plot=ax1)
>>> ax1.set_xlabel('')
>>> ax1.set_title('Probplot against normal distribution')

现在,我们使用 boxcox 变换数据,使其最接近正态

>>> ax2 = fig.add_subplot(212)
>>> xt, _ = stats.boxcox(x)
>>> prob = stats.probplot(xt, dist=stats.norm, plot=ax2)
>>> ax2.set_title('Probplot after Box-Cox transformation')
>>> plt.show()
../../_images/scipy-stats-boxcox-1.png