稀疏数组 (scipy.sparse
)#
简介#
scipy.sparse
及其子模块提供了用于处理稀疏数组的工具。稀疏数组是指数组中只有少数位置有数据,而大多数位置都被认为是“空”的数组。稀疏数组很有用,因为它们允许使用更简单、更快和/或更少内存的线性代数算法 (scipy.sparse.linalg
) 或基于图的计算 (scipy.sparse.csgraph
),但它们通常对于诸如切片、重塑或赋值等操作的灵活性较低。本指南将介绍 scipy.sparse
中稀疏数组的基础知识,解释稀疏数据结构的独特之处,并参考用户指南的其他部分,这些部分解释了稀疏线性代数和图方法。
稀疏数组入门#
稀疏数组是一种特殊的数组,其中只有少数位置有数据。这允许使用数据的压缩表示形式,其中仅记录存在数据的位置。存在许多不同的稀疏数组格式,每种格式都在压缩和功能之间进行不同的权衡。首先,让我们构建一个非常简单的稀疏数组,坐标 (COO) 数组 (coo_array
) 并将其与密集数组进行比较。
>>> import scipy as sp
>>> import numpy as np
>>> dense = np.array([[1, 0, 0, 2], [0, 4, 1, 0], [0, 0, 5, 0]])
>>> sparse = sp.sparse.coo_array(dense)
>>> dense
array([[1, 0, 0, 2],
[0, 4, 1, 0],
[0, 0, 5, 0]])
>>> sparse
<COOrdinate sparse array of dtype 'int64'
with 5 stored elements and shape (3, 4)>
请注意,在我们的密集数组中,我们有五个非零值。例如,2
位于位置 0,3
,而 4
位于位置 1,1
。所有其他值均为零。稀疏数组显式地记录这五个值(请参阅 5 stored elements and shape (3, 4)
),然后将所有其余的零表示为隐式值。
大多数稀疏数组方法的工作方式与密集数组方法类似
>>> sparse.max()
5
>>> dense.max()
5
>>> sparse.argmax()
10
>>> dense.argmax()
10
>>> sparse.mean()
1.0833333333333333
>>> dense.mean()
1.0833333333333333
一些“额外”属性,例如返回存储值的数量的 .nnz
,也存在于稀疏数组中
>>> sparse.nnz
5
大多数缩减操作,例如 .mean()
、.sum()
或 .max()
,在应用于稀疏数组的轴时将返回一个 numpy 数组
>>> sparse.mean(axis=1)
array([0.75, 1.25, 1.25])
这是因为稀疏数组上的缩减通常是密集的。
了解稀疏数组格式#
不同类型的稀疏数组具有不同的功能。例如,COO 数组不能被下标或切片
>>> dense[2, 2]
5
>>> sparse[2, 2]
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: 'coo_array' object is not subscriptable
但是,其他格式(例如压缩稀疏行 (CSR) csr_array
)支持切片和元素索引
>>> sparse.tocsr()[2, 2]
5
有时,scipy.sparse
将返回与输入稀疏矩阵格式不同的稀疏矩阵格式。例如,COO 格式的两个稀疏数组的点积将是一个 CSR 格式数组
>>> sparse @ sparse.T
<Compressed Sparse Row sparse array of dtype 'int64'
with 5 stored elements and shape (3, 3)>
发生此更改是因为 scipy.sparse
将更改输入稀疏数组的格式,以便使用最有效的计算方法。
scipy.sparse
模块包含以下格式,每种格式都有其独特的优点和缺点
块稀疏行 (BSR) 数组
scipy.sparse.bsr_array
,当数组中具有数据的部分以连续块出现时最合适。坐标 (COO) 数组
scipy.sparse.coo_array
,它提供了一种构建稀疏数组并就地修改它们的简单方法。COO 也可以快速转换为其他格式,例如 CSR、CSC 或 BSR。压缩稀疏行 (CSR) 数组
scipy.sparse.csr_array
,它最适用于快速算术、向量积和按行切片。压缩稀疏列 (CSC) 数组
scipy.sparse.csc_array
,它最适用于快速算术、向量积和按列切片。对角线 (DIA) 数组
scipy.sparse.dia_array
,只要数据主要沿数组的对角线出现,它就适用于高效存储和快速算术。键字典 (DOK) 数组
scipy.sparse.dok_array
,它适用于快速构造和单元素访问。列表列表 (LIL) 数组
scipy.sparse.lil_array
,它适用于快速构造和修改稀疏数组。
有关每种稀疏数组格式的优缺点的更多信息,请参阅其文档。
scipy.sparse
数组的所有格式都可以直接从 numpy.ndarray
构建。但是,某些稀疏格式也可以用不同的方式构建。每种稀疏数组格式都有不同的优势,这些优势在每个类中都有说明。例如,构造稀疏数组的最常用方法之一是从各个 row
、column
和 data
值构建稀疏数组。对于我们之前的数组
>>> dense
array([[1, 0, 0, 2],
[0, 4, 1, 0],
[0, 0, 5, 0]])
row
、column
和 data
数组描述了我们的稀疏数组具有条目的行、列和值
>>> row = [0,0,1,1,2]
>>> col = [0,3,1,2,2]
>>> data = [1,2,4,1,5]
使用这些,我们现在可以在不首先构建密集数组的情况下定义一个稀疏数组
>>> csr = sp.sparse.csr_array((data, (row, col)))
>>> csr
<Compressed Sparse Row sparse array of dtype 'int64'
with 5 stored elements and shape (3, 4)>
不同的类有不同的构造函数,但 scipy.sparse.csr_array
、scipy.sparse.csc_array
和 scipy.sparse.coo_array
允许使用这种构造方式。
稀疏数组、隐式零和重复项#
稀疏数组之所以有用,是因为它们隐式地表示了它们的大部分值,而无需存储实际的占位符值。在 scipy.sparse
中,用于表示“无数据”的值是隐式零。当需要显式零时,这可能会令人困惑。例如,在 来自 scipy.sparse.csgraph
的图方法中,我们通常需要能够区分 (A) 连接节点 i
和 j
的权重为零的链接和 (B) i
和 j
之间没有链接。只要我们记住显式和隐式零,稀疏矩阵就可以做到这一点。
例如,在我们之前的 csr
数组中,我们可以通过将其包含在 data
列表中来显式地包含零。让我们将数组底行和最后一列的最后一个条目视为一个显式零。
>>> row = [0,0,1,1,2,2]
>>> col = [0,3,1,2,2,3]
>>> data = [1,2,4,1,5,0]
那么,我们的稀疏数组将有六个存储的元素,而不是五个。
>>> csr = sp.sparse.csr_array((data, (row, col)))
>>> csr
<Compressed Sparse Row sparse array of dtype 'int64'
with 6 stored elements and shape (3, 4)>
“额外”的元素是我们的显式零。当转换回密集数组时,这两个数组仍然相同,因为密集数组显式地表示所有内容。
>>> csr.todense()
array([[1, 0, 0, 2],
[0, 4, 1, 0],
[0, 0, 5, 0]])
>>> dense
array([[1, 0, 0, 2],
[0, 4, 1, 0],
[0, 0, 5, 0]])
但是,对于稀疏算术、线性代数和图方法,2,3
位置的值将被视为显式零。要删除这个显式零,我们可以使用 csr.eliminate_zeros()
方法。这个方法在稀疏数组原地操作,并删除任何零值的存储元素。
>>> csr
<Compressed Sparse Row sparse array of dtype 'int64'
with 6 stored elements and shape (3, 4)>
>>> csr.eliminate_zeros()
>>> csr
<Compressed Sparse Row sparse array of dtype 'int64'
with 5 stored elements and shape (3, 4)>
在 csr.eliminate_zeros()
之前,有六个存储的元素。之后,只有五个存储的元素。
另一个复杂的问题源于在构造稀疏数组时如何处理重复项。当我们在构造稀疏数组时,在 row,col
位置有两个或多个条目时,就会发生重复项。这通常在使用 data
、row
和 col
向量构建稀疏数组时发生。例如,我们可以用在 1,1
位置的重复值来表示我们之前的数组。
>>> row = [0,0,1,1,1,2]
>>> col = [0,3,1,1,2,2]
>>> data = [1,2,1,3,1,5]
在这种情况下,我们可以看到有两个 data
值对应于最终数组中的 1,1
位置。scipy.sparse
将分别存储这些值。
>>> dupes = sp.sparse.coo_array((data, (row, col)))
>>> dupes
<COOrdinate sparse array of dtype 'int64'
with 6 stored elements and shape (3, 4)>
请注意,这个稀疏数组中有六个存储的元素,尽管只有五个唯一的数据出现位置。当这些数组转换回密集数组时,重复的值会被求和。因此,在 1,1
位置,密集数组将包含重复存储条目的总和,即 1 + 3
。
>>> dupes.todense()
array([[1, 0, 0, 2],
[0, 4, 1, 0],
[0, 0, 5, 0]])
为了删除稀疏数组本身的重复值,从而减少存储元素的数量,我们可以使用 .sum_duplicates()
方法。
>>> dupes.sum_duplicates()
>>> dupes
<COOrdinate sparse array of dtype 'int64'
with 5 stored elements and shape (3, 4)>
现在我们的稀疏数组中只有五个存储的元素,它与我们在本指南中一直使用的数组相同。
>>> dupes.todense()
array([[1, 0, 0, 2],
[0, 4, 1, 0],
[0, 0, 5, 0]])
规范格式#
几种稀疏数组格式具有“规范格式”,以便进行更高效的操作。通常,这些格式包含额外的限制,例如:
任何值都没有重复的条目
排序的索引
具有规范形式的类包括:coo_array
、csr_array
、csc_array
和 bsr_array
。有关每个规范表示的详细信息,请参阅这些类的文档字符串。
要检查这些类的实例是否为规范形式,请使用 .has_canonical_format
属性。
>>> coo = sp.sparse.coo_array(([1, 1, 1], ([0, 2, 1], [0, 1, 2])))
>>> coo.has_canonical_format
False
要将实例转换为规范形式,请使用 .sum_duplicates()
方法。
>>> coo.sum_duplicates()
>>> coo.has_canonical_format
True