scipy.stats.
yeojohnson#
- scipy.stats.yeojohnson(x, lmbda=None)[源代码]#
使用 Yeo-Johnson 幂转换返回转换后的数据集。
- 参数:
- xndarray
输入数组。应为一维。
- lmbdafloat,可选
如果
lmbda
为None
,则找到使对数似然函数最大化的 lambda,并将其作为第二个输出参数返回。否则,将根据给定值完成转换。
- 返回值:
- yeojohnson: ndarray
Yeo-Johnson 幂变换数组。
- maxlogfloat,可选
如果 lmbda 参数为 None,则返回的第二个参数为使对数似然函数最大化的 lambda。
备注
Yeo-Johnson 变换的公式如下所示
y = ((x + 1)**lmbda - 1) / lmbda, for x >= 0, lmbda != 0 log(x + 1), for x >= 0, lmbda = 0 -((-x + 1)**(2 - lmbda) - 1) / (2 - lmbda), for x < 0, lmbda != 2 -log(-x + 1), for x < 0, lmbda = 2
与
boxcox
不同,yeojohnson
不要求输入数据必须为正。在版本 1.2.0 中添加。
参考文献
I. Yeo 和 R.A. Johnson,“用于提高正态性或对称性的一系列新的幂变换”,Biometrika 87.4 (2000)
示例
>>> from scipy import stats >>> import matplotlib.pyplot as plt
我们从一个非正态分布中生成一些随机变量,并为其绘制一个概率图,以显示其在尾部为非正态
>>> fig = plt.figure() >>> ax1 = fig.add_subplot(211) >>> x = stats.loggamma.rvs(5, size=500) + 5 >>> prob = stats.probplot(x, dist=stats.norm, plot=ax1) >>> ax1.set_xlabel('') >>> ax1.set_title('Probplot against normal distribution')
我们现在使用
yeojohnson
转换数据,使其最接近正态>>> ax2 = fig.add_subplot(212) >>> xt, lmbda = stats.yeojohnson(x) >>> prob = stats.probplot(xt, dist=stats.norm, plot=ax2) >>> ax2.set_title('Probplot after Yeo-Johnson transformation')
>>> plt.show()