scipy.stats.contingency.

crosstab#

scipy.stats.contingency.crosstab(*args, levels=None, sparse=False)[源代码]#

返回 *args 中每个可能的唯一组合的计数表。

len(args) > 1 时,此函数计算的数组通常称为不确定性表 [1]

参数必须是具有相同长度的序列。第二个返回值 count 是一个整数数组,具有 len(args) 维度。如果 levels 为 None,则 count 的形状为 (n0, n1, ...),其中 nkargs[k] 中唯一元素的数量。

参数:
*args序列

一个序列的序列,可计入其唯一对齐元素。args 中的序列必须具有相同的长度。

levels序列,可选

如果给出了levels,它必须是与args长度相同的序列。levels中每个元素是序列或None。如果它是序列,它给出args中相应序列的要被计算的值。如果args中序列中的某个值在levels中相应序列中没有出现,该值将被忽略且不会计算在返回的数组count中。默认情况下levels的值为args[i]np.unique(args[i])

sparse布尔值,可选

如果为True,返回稀疏矩阵。矩阵是scipy.sparse.coo_matrix类的实例。由于SciPy的稀疏矩阵必须是2维的,如果sparse为True,仅允许两个输入序列。默认情况下为False。

返回值:
resCrosstabResult

包含以下属性的对象

elementsnumpy.ndarrays元组。

长度为 len(args)的元组,包含count中计算的元素的数组。可以将它们解释为count对应维度的标签。如果给出了levels,那么如果levels[i]不是None,elements[i]将包含levels[i]中给出的值。

countnumpy.ndarray或scipy.sparse.coo_matrix

zip(*args)中的唯一元素计数,存储在数组中。当len(args) > 1时,也称为列联表

另请参见

numpy.unique

注意

已在版本1.7.0中添加。

参考

示例

>>> from scipy.stats.contingency import crosstab

给出列表ax,创建一个列联表,统计对应对的频率。

>>> a = ['A', 'B', 'A', 'A', 'B', 'B', 'A', 'A', 'B', 'B']
>>> x = ['X', 'X', 'X', 'Y', 'Z', 'Z', 'Y', 'Y', 'Z', 'Z']
>>> res = crosstab(a, x)
>>> avals, xvals = res.elements
>>> avals
array(['A', 'B'], dtype='<U1')
>>> xvals
array(['X', 'Y', 'Z'], dtype='<U1')
>>> res.count
array([[2, 3, 0],
       [1, 0, 4]])

因此(‘A’, ‘X’)出现了两次,(‘A’, ‘Y’)出现了三次,等等。

可以创建更高维度的列联表。

>>> p = [0, 0, 0, 0, 1, 1, 1, 0, 0, 1]
>>> res = crosstab(a, x, p)
>>> res.count
array([[[2, 0],
        [2, 1],
        [0, 0]],
       [[1, 0],
        [0, 0],
        [1, 3]]])
>>> res.count.shape
(2, 3, 2)

可以利用 levels 参数设置要计数的值。它允许指定每个输入序列中感兴趣的元素,而不是在序列中查找唯一元素。

例如,假设其中一个参数是一个数组,包含一份调查问卷的答案,其中包含的整数值为 1 到 4。即使数据中没有出现值 1,我们也希望在表格中为此值创建一个条目。

>>> q1 = [2, 3, 3, 2, 4, 4, 2, 3, 4, 4, 4, 3, 3, 3, 4]  # 1 does not occur.
>>> q2 = [4, 4, 2, 2, 2, 4, 1, 1, 2, 2, 4, 2, 2, 2, 4]  # 3 does not occur.
>>> options = [1, 2, 3, 4]
>>> res = crosstab(q1, q2, levels=(options, options))
>>> res.count
array([[0, 0, 0, 0],
       [1, 1, 0, 1],
       [1, 4, 0, 1],
       [0, 3, 0, 3]])

如果给定了 levels,但 levels 的一个元素为 None,则会使用相应参数的唯一值。例如,

>>> res = crosstab(q1, q2, levels=(None, options))
>>> res.elements
[array([2, 3, 4]), [1, 2, 3, 4]]
>>> res.count
array([[1, 1, 0, 1],
       [1, 4, 0, 1],
       [0, 3, 0, 3]])

如果我们希望忽略在 q2 中出现 4 的对,我们可以向 levels 指定值 [1, 2],而将会忽略 4

>>> res = crosstab(q1, q2, levels=(None, [1, 2]))
>>> res.elements
[array([2, 3, 4]), [1, 2]]
>>> res.count
array([[1, 1],
       [1, 4],
       [0, 3]])

最后,让我们重复第一个示例,但返回一个稀疏矩阵

>>> res = crosstab(a, x, sparse=True)
>>> res.count
<COOrdinate sparse matrix of dtype 'int64'
    with 4 stored elements and shape (2, 3)>
>>> res.count.toarray()
array([[2, 3, 0],
       [1, 0, 4]])