数据集 (scipy.datasets)#

数据集方法#

ascent()

获取一个 8 位灰度位深、512 x 512 的衍生图像,方便在演示中使用。

face([gray])

获取一个 1024 x 768 的浣熊脸部彩色图像。

electrocardiogram()

加载心电图作为一维信号示例。

实用程序方法#

download_all([path])

用于下载 scipy.datasets 模块所有数据集文件的实用程序方法。

clear_cache([datasets])

清理 scipy 数据集缓存目录。

数据集的使用#

SciPy 数据集方法可以简单地按如下方式调用:'<dataset-name>()',这将在网络上下载一次数据集文件,并保存缓存,然后返回一个表示数据集的 numpy.ndarray 对象。

请注意,不同的数据集方法的返回数据结构和数据类型可能不同。有关更详细的使用示例,请查看上面特定数据集方法的文档。

数据集检索和存储的工作原理#

SciPy 数据集文件存储在 SciPy GitHub 组织下的各个 github 存储库中,遵循命名约定 'dataset-<name>',例如 scipy.datasets.face 文件位于 scipy/dataset-facescipy.datasets 子模块使用并依赖于 Pooch,这是一个用于简化数据文件获取的 Python 包。Pooch 使用这些存储库在调用数据集函数时检索相应的数据集文件。

所有数据集的注册表(本质上是文件名与其 SHA256 哈希值和存储库 URL 的映射)被维护,Pooch 使用它来处理和验证函数调用时的下载。在下载一次数据集之后,这些文件将保存在系统缓存目录下的 'scipy-data' 目录中。

数据集缓存位置可能在不同的平台上有所不同。

对于 macOS

'~/Library/Caches/scipy-data'

对于 Linux 和其他类 Unix 平台

'~/.cache/scipy-data'  # or the value of the XDG_CACHE_HOME env var, if defined

对于 Windows

'C:\Users\<user>\AppData\Local\<AppAuthor>\scipy-data\Cache'

在网络连接受限的环境中,出于各种安全原因,或者在没有持续互联网连接的系统上,可以手动加载数据集缓存,方法是将数据集存储库的内容放在上述缓存目录中,以避免在没有互联网连接的情况下出现数据集获取错误。