数据集 (scipy.datasets)#

数据集方法#

ascent()

获取一个8位灰度位深度的512 x 512派生图像,方便在演示中使用。

face([gray])

获取一张1024 x 768的彩色浣熊脸部图像。

electrocardiogram()

加载一个心电图作为1D信号的示例。

实用方法#

download_all([path])

用于下载scipy.datasets模块所有数据集文件的实用方法。

clear_cache([datasets])

清除scipy数据集缓存目录。

数据集使用#

SciPy数据集方法可以简单地按如下方式调用:'<dataset-name>()'。这会通过网络下载数据集文件一次,并保存缓存,然后返回一个表示数据集的numpy.ndarray对象。

请注意,不同的数据集方法返回的数据结构和数据类型可能不同。有关更详细的使用示例,请查阅上方特定的数据集方法文档。

数据集的检索和存储原理#

SciPy数据集文件存储在SciPy GitHub组织下的各个GitHub仓库中,遵循`'dataset-<name>'的命名约定,例如scipy.datasets.face文件位于scipy/dataset-facescipy.datasets子模块利用并依赖Pooch,这是一个为简化数据文件获取而构建的Python包。Pooch在调用数据集函数时使用这些仓库来检索相应的数据集文件。

维护着所有数据集的注册表,本质上是文件名与其SHA256哈希值和仓库URL的映射,Pooch在函数调用时使用它来处理和验证下载。数据集下载一次后,文件将保存在系统缓存目录下的'scipy-data'中。

数据集缓存位置可能因平台而异。

对于 macOS

'~/Library/Caches/scipy-data'

对于 Linux 和其他类 Unix 平台

'~/.cache/scipy-data'  # or the value of the XDG_CACHE_HOME env var, if defined

对于 Windows

'C:\Users\<user>\AppData\Local\<AppAuthor>\scipy-data\Cache'

在由于各种安全原因导致网络连接受限的环境中,或在没有持续互联网连接的系统上,可以通过将数据集仓库的内容放置在上述缓存目录中,手动加载数据集的缓存,以避免在没有互联网连接时出现数据集获取错误。