在一个合格模型的诞生过程中,繁杂的数据收集与处理工作往往占到了工程师的大部分时间和精力。因此,如果能够更好地解决数据收集的痛点,将会大大提高工程师的工作效率。
这篇文章旨在对比市面上主要的开源数据集平台,我会从数据集数量、搜索的广度和深度、用户体验等几个维护,给出尽量客观、公正的评价,供大家参考。
Kaggle
Slogan: The Home of Data Science
发布时间: 2010年4月
Web地址: kaggle.com
Github: https://github.com/Kaggle
数据集数量: 63314
特色数据集: Financial Tweets|Face Detection in Images|Star Trek Scripts|Avocado Prices
搜索: ★★★☆☆
用户体验: ★★★★☆
Kaggle是一个数据建模和数据分析竞赛平台。企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。
2017年3月8日谷歌官方博客宣布收购Kaggle。


Kaggle目前支持对数据集名称和描述进行文本搜索。用户还可以根据数据集大小、文件类型、License、标签对搜索结果进行二次过滤。
综合来看搜索功能比较齐全,能够满足大部分使用场景。页面UI简洁,屏幕信息量较多。
Data World
Slogan: The Cloud-Native Data Catalog
发布时间: 2018年3月6日
Web地址: data.world
Github: https://github.com/datadotworld
数据集数量: 未知
特色数据集: Finance|Environment|Twitter|Crime
搜索: ★★★★☆
用户体验: ★★★★☆
data.world是用于构建数据项目的在线工具。作为数据项目的一部分,有数据托管。data.world上托管的某些数据是公共的。立足于比数据本身更高的级别。在data.world上,可以创建一个包含数据,文档,查询等的数据项目。并能与他人协作并共享这些项目。
data.world拥有完善的搜索功能,可以对数据集名称、描述、标签、文件名、Owner等字段进行搜索。
当搜索条件不同,侧边栏的过滤条件也会非常人性化的发生改变。

data.world还提供了语义丰富的Search Syntax,和Github类似,非常符合工程师的使用习惯。
下面是一个Search Syntax的案例。

关于Search Syntax的详细介绍,可以参考data.world的官方文档。
Scale
Slogan: High quality training and validation data for AI applications
发布时间: 2016年
Web地址: scale
Github: https://github.com/scaleapi
数据集数量: 未知
特色数据集: CADC|Lyft Level5|Pandset|nuScenes
搜索: ★★★☆☆
用户体验: ★★★★☆
Scale AI由时年19岁的Alexandr Wang在2016年创立,先后服务于Waymo、Toyota、Lyft等公司,为客户公司提供用于机器学习的数据标记服务。
比较遗憾的是,Scale的数据集搜索功能比较简单,目前仅支持对名称进行搜索。虽然提供了基于数据类型、发布时间、注解等条件的过滤,但是难以满足复杂的搜索场景。

Google Dataset Search
发布时间: 2018年9月5日
Web地址: https://datasetsearch.research.google.com/
Github: 未知
数据集数量: 未知
特色数据集: 未知
搜索: ★★★★☆
用户体验: ★★★★☆
不同于上面几个平台,Google Dataset Search是一个开放的数据集搜索引擎,用户只需搜索关键字,就能在网络上发现托管在数千个存储区中的数据集。
数据集供应商可以通过向google注册元数据的方式将自己的数据集添加到搜索引擎中。
Google数据集搜索是对Google Scholar的补充,目前该服务还处于测试阶段。
从理论上来说,Google Dataset Search的搜索范围并不局限于数据集名称、描述等字段。能否被检索到取决于用户在元数据中绑定了多少关键字。
另外,用户还可以根据上次更新时间、下载格式、使用权限、学科对搜索结果进行二次筛选。

Open Data on AWS
发布时间: 2018年9月5日
Web地址: https://registry.opendata.aws/
Github: https://github.com/awslabs/open-data-registry/
数据集数量: 203
特色数据集: 未知
搜索: ★★☆☆☆
用户体验: ★★☆☆☆
在AWS上共享数据后,任何人都可以使用包括Amazon EC2,Amazon Athena,AWS Lambda和Amazon EMR在内的各种计算和数据分析产品对其进行分析并在其之上构建服务。在云中共享数据使数据用户可以将更多时间花在数据分析而不是数据获取上。
用户可以通过向指定github repo提交yaml文件的方式,将自己的数据集添加到ASW平台上供其他用户检索。


目前AWS支持对数据集名称和描述进行搜索,搜索功能比较单一。
Azure Open Datasets
Slogan: Curated open data made easily accessible on Azure
发布时间: 2018年9月5日
Web地址: https://azure.microsoft.com/en-us/services/open-datasets/
数据集数量: 203
特色数据集: Weather|Satellite imagery|Socioeconomic data
搜索: ★★☆☆☆
用户体验: ★☆☆☆☆
Azure的特色数据集主要集中在天气、卫星影像、社会经济数据、城市安全等领域。
目前搜索功能还比较单一,仅支持数据集名称和描述的搜索,并且没有任何过滤条件。

网站响应慢是一个特色。
搜索功能汇总展示
| 普通文本搜索 | 数据标签搜索 | |||
|---|---|---|---|---|
| 搜索字段 | 其他过滤字段 | 搜索条件 | 呈现维度 | |
| Kaggle | Name(like), Description(like) | File Size(between), File Type(in), License(in), Tags(in) | in | 数据集 |
| Data World | Name, Description, Summary, Insights, User Name, Org Name, (like) | Owner(in), Tag(in) | like, eq, in | 数据集 |
| Scale | Name(like) | Data Provided(in), Diversity(in), Annotation(in), Year(between) | × | × |
| Google Dataset Search | Name(like), Description(like) | Last Updated(in), Download Format(in), Usage Rights(in), Topic(in), Free(bool) | × | × |
| AWS Open Data | Name(like), Description(like) | × | × | × |
| Azure Open Datasets | Name(like), Overview(in) | × | × | × |