数据集 (scipy.datasets)#
数据集方法#
实用方法#
|
实用方法,用于下载 |
|
清除 SciPy 数据集缓存目录。 |
数据集的使用方法#
SciPy 数据集方法可以简单地像这样调用:'<dataset-name>()' 这将通过网络下载数据集文件一次,并保存缓存,然后返回一个 numpy.ndarray 对象,表示数据集。
请注意,不同的数据集方法返回的数据结构和数据类型可能不同。有关更详细的使用示例,请查看上面的特定数据集方法的文档。
数据集检索和存储的工作原理#
SciPy 数据集文件存储在 SciPy GitHub 组织下的单独 GitHub 仓库中,遵循命名约定 'dataset-<name>',例如 scipy.datasets.face 文件位于 scipy/dataset-face。 scipy.datasets 子模块利用并依赖于 Pooch,一个用于简化数据文件获取的 Python 包。Pooch 使用这些仓库来检索各自的数据集文件,并在调用数据集函数时。
所有数据集的注册表,本质上是文件名与其 SHA256 哈希和仓库 URL 的映射,都得到了维护,Pooch 在函数调用时使用它来处理和验证下载。下载数据集一次后,文件将保存在系统缓存目录下的 'scipy-data' 中。
数据集缓存位置可能因不同平台而异。
对于 macOS
'~/Library/Caches/scipy-data'
对于 Linux 和其他类 Unix 平台
'~/.cache/scipy-data' # or the value of the XDG_CACHE_HOME env var, if defined
对于 Windows
'C:\Users\<user>\AppData\Local\<AppAuthor>\scipy-data\Cache'
在网络连接受各种安全原因限制或在没有持续互联网连接的系统上,可以通过将数据集仓库的内容放置在上述缓存目录中来手动加载数据集的缓存,以避免在没有互联网连接的情况下出现数据集获取错误。