查看: 4017|回复: 0
打印 上一主题 下一主题

[机器学习] 【干货】机器学习模型开发必读:开源数据库最全盘点

[复制链接]

3795

主题

2

听众

5万

积分

版主

Rank: 7Rank: 7Rank: 7

纳金币
53202
精华
32

活跃会员 优秀版主 推广达人 突出贡献 荣誉管理 论坛元老

跳转到指定楼层
楼主
发表于 2017-8-31 21:55:28 |只看该作者 |倒序浏览
看文章前,问2个问题:


你认为机器学习人工智能那个环节最难?


你认为,中国不缺数据,但从业者从人工智能这里“捞肉吃”最大的困难在哪里?


58b007eb2db13.jpg
开发 AI 和机器学习系统从来没有像现在这样方便。类似于 TensorFlow、Torch 和 Spark 这样的开源工具,在 AI 开发者群体中已是无处不在。再加上亚马逊 AWS、Google Cloud 等云服务带来的海量计算能力,将来使用笔记本电脑来训练 ML 模型或许不再难以想象。
公众对 AI 的遐想,总忽视了数据的角色。但海量被标记、注解过的数据,是当下 AI 革命当之无愧的主要推手之一。业内研究团队和公司机构,均明白“数据民主化”的意义——使任何开发者都能获取高质量的数据来训练、测试模型,是加速 AI 技术发展的必要措施。
但就雷锋网(公众号:雷锋网)所知,大多数涉及机器学习和 AI 的产品依赖于专有数据库( proprietary datasets)。它们大多是不被公开的,以保护知识产权以及防范安全风险。
即便你幸运地找到了相关公共数据库,判断后者的价值和可靠程度,又是一项让很多开发者头痛的问题。对于概念论证是如此;对于潜在的产品或者特性验证同样如此——在收集你的专有数据之前,决定该验证需要何种数据集。
有经验的开发者都知道,机器学习系统在样本数据集上展示出的优异性能,并不能保证其实际效果。许多 AI 从业人员似乎已经忘记了,数据采集和标记才是开发 AI 解决方案最难的一环。标准的数据集,可被用作验证集,或作为开发更偏向私人订制方案的起始点。
本周,Vai Technologies 的创始人、前斯坦福 SLAC 实验室 CNN 算法架构师 Luke de Oliveira,和其他几名机器学习专家谈到了这个问题。雷锋网了解到,他们最后决定做一张表单,把 AI 领域含金量最高的开源数据库罗列出来,与大家分享。
计算机视觉
58b003727e596.jpg
MNIST
标签:学术基准 经典 较旧
合理性测试(sanity check)最常用的数据库。规格为 25x25、中心的、B&W 手写数字。用 MNIST 测试非常容易,但不要因为你的模型在 MNIST 运行良好,就认为它事实上可用。
CIFAR 10 & CIFAR 100
标签:经典 较旧
32x32 彩色图像。虽然用得人比以前少了很多,但仍然能用它做有趣的合理性测试。
ImageNet
标签:实用 学术基准 经典
这个用不着介绍,新算法的首选图像数据集。Luke de Oliveira 表示,许多图像 API 公司从 REST 交互界面搞来的标记,与 ImageNet 1000 目录中的 WordNet 层级很接近,让人怀疑。
LSUN
标签:无
场景理解,许多其它附加任务(比如房间布局预估,显着性预测 “saliency prediction”),以及与之关联的竞赛。
PASCAL VOC
标签:学术基准
一般性的图像分割和分类。对于创建现实世界中的图像注解并不是十分有用,但作为基准很不错。
SVHN
标签:学术基准
谷歌街景视图中的住宅号。可以把它当做野生的递归( recurrent) MNIST。
MS COCO
标签:无
一般性的图像理解/说明,有相关竞赛。
Visual Genome
标签:实用
非常细致的视觉知识库,对超过十万张图像有深度注解。
Labeled Faces in the Wild
标签:实用 学术基准 经典 较旧
修剪过的面部区域(使用 Viola-Jones),用一个 name identifier 做过标记。其中每一个展示的人在数据集中有两个图像,这是作为他的子集。开发者经常用它来训练面部匹配系统。
自然语言
58b0037494350.jpg
Text Classification Datasets
标签:实用 学术基准
来自论文 Zhang et al., 2015。这是有八个文字分类数据集组成的大型数据库。对于新的文字分类基准,它是最常用的。样本大小为 120K 到 3.6M,包括了从二元到 14 阶的问题。来自 DBPedia, Amazon, Yelp, Yahoo!,搜狗和 AG 的数据集。
WikiText
标签:实用 学术基准
源自高品质维基百科文章的大型语言建模语料库。Salesforce MetaMind 维护。
Question Pairs
标签:实用
Quora 发布的第一个数据集,包含副本/语义近似值标记。
SQuAD
标签:实用 学术基准
斯坦福的问答社区数据集——适用范围较广的问题回答和阅读理解数据集。每一个回答都被作为一个 span,或者一段文本。
CMU Q/A Dataset
标签:无
人工创建的仿真陈述问题/回答组合,还有维基百科文章的难度评分。
Maluuba Datasets
标签:实用
NLP 研究人工创建的复杂数据集。
Billion Words
标签:实用 学术基准
大型、通用型建模数据集。时常用来训练散布音(distributed)的词语表达,比如 word2vec 或  GloVe。
Common Crawl
标签:实用 学术基准
PB(拍字节)级别的网络爬虫。最经常被用来学习词语嵌入。可从 Amazon S3 免费获取。对于 WWW 万维网的信息采集,是一个比较有用的网络数据集。
bAbi
标签:学术基准 经典
Facebook AI Research (FAIR) 推出的合成阅读理解和问题回答数据集。
The Children's Book Test
标签:学术基准
Project Gutenberg(一项正版数字图书免费分享工程)儿童图书里提取的成对数据(问题加情境,回答)基准。对问答、阅读理解、仿真陈述(factoid)查询比较有用。
Stanford Sentiment Treebank
标签:学术基准 经典 较旧
标准的情绪数据集,对每一句话每一个节点的语法树,都有细致的情感注解。
20 Newsgroups
标签:经典 较旧
一个较经典的文本分类数据集。通常作为纯粹分类或者对 IR / indexing 算法验证的基准,在这方面比较有用。
Reuters
标签:经典 较旧
较老的、基于纯粹分类的数据集。文本来自于路透社新闻专线。常被用于教程之中。
IMDB
标签:经典 较旧
较老的、相对比较小的数据集。用于情绪分类。但在文学基准方面逐渐失宠,让位于更大的数据集。
UCI’s Spambase
标签:经典 较旧
较老的、经典垃圾邮件数据集,源自于 UCI Machine Learning Repository。由于数据集的管理细节,在学习私人订制垃圾信息过滤方面,这会是一个有趣的基准。
语音
58b003d643cd2.jpg
大多数语音识别数据库都是专有的——这些数据对其所有公司而言有巨大价值。绝大部分该领域的公共数据集已经很老了。
2000 HUB5 English
标签:学术基准 较旧
只包含英语的语音数据。最近一次被使用是百度的深度语音论文。
LibriSpeech
标签:学术基准
有声图书数据集,包含文字和语音。接近 500 个小时的清楚语音,来自于多名朗读者和多个有声读物,根据图书章节来组织。
VoxForge
标签:实用 学术基准
带口音英语的清晰语音数据集。如果你需要有强大的不同口音、语调识别能力,会比较有用。
TIMIT
标签:学术基准 经典
只含英语的语音识别数据集。
CHIME
标签:实用
含大量噪音的语音识别挑战杯数据集。它包含真实、模拟和清晰的录音:真实,是因为该数据集包含四个说话对象在四个不同吵闹环境下接近 9000 段的录音;模拟,是通过把多个环境与语音结合来生成;清晰,是指没有噪音的清楚录音。
TED-LIUM
标签:无
TED 演讲的音频转录。包含 1495 场 TED 演讲,以及它们的完整字幕文本。
推荐和排名系统
58b006735e31c.jpg
Netflix Challenge
标签:经典 较旧
第一个 Kaggle 模式的数据挑战。由于盗版问题只能获得非官方版本。
MovieLens
标签:实用 学术基准 经典
不同大小的电影点评数据——一般作为协同过滤的基准。
Million Song Dataset
标签:无
Kaggle 上的大型、富含原数据的开源数据集。对于试验混合推荐系统有价值。
Last.fm
标签:实用
音乐推荐数据集,并关联相关社交网络和其他元数据。对混合系统有用处。
网络和图
58b008ea1b429.jpg
Amazon Co-Purchasing 和 Amazon Reviews
标签:学术基准
从亚马逊“买了这个的用户还买了XXX”功能抓取的数据,还有相关商品的评价数据。对于试验网络中的推荐系统有价值。
http://snap.stanford.edu/data/amazon-meta.html
Friendster 社交网络数据集
标签:无
在成为游戏网站之前,Friendster 发布了 103,750,348 名用户朋友名单的匿名数据。

58b008be50791.jpg

地理空间数据
OpenStreetMap
标签:实用
整个地球的矢量数据,处于免费协议下。它的旧版本包含美国人口统计部门的 TIGER 数据。
Landsat8
标签:实用
整个地球表面的卫星拍照,每隔几周更新一次。
NEXRAD
标签:实用
多普勒天气雷达对美国大气情况的扫描。
后话
人们经常认为,能在一个数据集上解决问题,就等同于有了一个能用的产品。开发者可以使用这些数据集作为验证集,或用作概念论证;但别忘了测试,或创建模拟产品运行的原型机。获取更新、更真实的数据来改善模型非常关键。雷锋网了解到,成功的数据驱动型公司,往往擅长收集新的专有数据,以及改善产品性能增强竞争优势。而这往往是竞争对手难以直接 copy 的。
via medium

分享到: QQ好友和群QQ好友和群 腾讯微博腾讯微博 腾讯朋友腾讯朋友 微信微信
转播转播0 分享淘帖0 收藏收藏0 支持支持0 反对反对0
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

手机版|纳金网 ( 闽ICP备2021016425号-2/3

GMT+8, 2024-11-14 12:50 , Processed in 0.168783 second(s), 34 queries .

Powered by Discuz!-创意设计 X2.5

© 2008-2019 Narkii Inc.

回顶部