歌发布Quick Draw:5千万张矢量图,345个类别

还记得谷歌上个月推出的 AutoDraw 吗?这是一个能把你的随手涂鸦变成绘画的人工智能技术工具。谷歌也曾发布论文和博客介绍了其背后的技术,参见机器之心文章《谷歌官方揭秘 AutoDraw 人工智能绘画工具原理:让机器学会理解艺术》。实际上,AutoDraw 所用的技术基于谷歌先前的涂鸦实验「Quick, Draw!」。近日,谷歌发布了该项目背后的数据集,其中包含 5000 万张矢量画。机器之心对该项目的介绍文档进行了编译介绍。

歌发布Quick Draw:5千万张矢量图,345个类别

数据集地址:https://github.com/googlecreativelab/quickdraw-dataset

数据集官网:https://quickdraw.withgoogle.com/data

Quick, Draw! 在线体验:https://quickdraw.withgoogle.com

AutoDraw 在线体验:https://www.autodraw.com

相关论文:https://arxiv.org/abs/1704.03477

Quick Draw 数据集是一个包含 5000 万张图画的集合,分成了 345 个类别,这些图画都来自于 Quick, Draw! 游戏的玩家。这些画都是加了时间戳的矢量图,并带有一些元数据标注,包括玩家被要求绘画的内容和玩家所在的国家。你可以在数据集官网浏览被识别出的绘画。

我们在这里将这个数据集共享给开发者、研究者和艺术家,以供探索、研究和学习。如果你使用这个数据集创造出了什么东西,请发邮件告知我们:quickdraw-support@google.com 或提交到 A.I. Experiments:https://aiexperiments.withgoogle.com/submit

请注意,尽管这个绘画集合中每一张都被审核过,但其中可能仍有不当内容。

原始的审核过的数据集

原始数据在 ndjson 文件中,并按类别进行了分割,按照如下格式:

歌发布Quick Draw:5千万张矢量图,345个类别

每一张包含一副绘画,下面给出了一个例子:

{

“key_id”:”5891796615823360″,

“word”:”nose”,

“countrycode”:”AE”,

“timestamp”:”2017-03-01 20:41:36.70725 UTC”,

“recognized”:true,

“drawing”:[[[129,128,129,129,130,130,131,132,132,133,133,133,133,…]]]

}

绘画数组的格式如下:

[

[ // First stroke

[x0, x1, x2, x3, …],

[y0, y1, y2, y3, …],

[t0, t1, t2, t3, …]

],

[ // Second stroke

[x0, x1, x2, x3, …],

[y0, y1, y2, y3, …],

[t0, t1, t2, t3, …]

],

… // Additional strokes

]

其中 x 和 y 是像素坐标,t 是自第一个点开始后的时间,单位:毫秒。x 和 y 是实数值,而 t 是整型值。因为用于显示和输入的设备各不相同,原始绘画的边框大小和点的数量可能有非常大的差异。

预处理后的数据集

我们已经对该数据集进行了预处理,并且将其分成了不同的文件和格式,以便人们能更快更轻松地下载和使用。

简化图文件(.ndjson)

我们对这些矢量图进行了简化,移除了时间信息,并且对数据进行了定位和缩放处理,得到了大小 256×256 的图像。该数据以 ndjson 的格式导出,带有与原始格式一样的元数据。简化过程如下:

1. 将绘画对齐到左上角,最小值为 0;

2. 均匀缩放绘画,最大值为 255;

3. 以 1 像素的间隔重采样所有的笔画;

4. 使用 Ramer–Douglas–Peucker 算法简化所有的笔画,设置其 ε 值为 2.0

二进制文件(.bin)

我们也提供了简化后的绘画和元数据的定制二进制格式,可用于高效的压缩和加载。examples/binary_file_parser.py 给出了如何用 Python 加载该文件的示例。

Numpy 位图(.npy)

所有简化过的绘画也都被转换成了 28×28 的灰度位图,保存为 numpy 的 .npy 格式。该文件可以通过 np.load() 函数加载。这些图像是从简化过的数据中生成的,但对齐的是绘画边框的中心,而非左上角。

获取数据

该数据集在谷歌云存储服务中,在 ndjson 文件中分类存储。请参阅 Cloud Console 中的文件列表,你也可以使用其他方法使用它(参阅:https://cloud.google.com/storage/docs/access-public-data)。

数据集分类

Raw files (.ndjson)

Simplified drawings files (.ndjson)

Binary files (.bin)

Numpy bitmap files (.npy)

Sketch-RNN QuickDraw 数据集

这些数据也被用于训练 Sketch-RNN 模型。该模型开源的 TensorFlow 应用将在 Magenta Project 上近期推出。了解该模型可参阅文章《谷歌官方揭秘 AutoDraw 人工智能绘画工具原理:让机器学会理解艺术》。数据存储在压缩文件.npz 中,这种格式适合输入进循环神经网络中。在这一数据集中 75000 个用例(70000 用于训练、2500 个用于验证、2500 个用于测试)在每个类别里随机选择,使用值为 2.0 的 epsilon 参数经过 Ramer–Douglas–Peucker 算法线简化处理。

许可证

这些数据由谷歌提供,使用 Creative Commons Attribution 4.0 International 许可证。

参与:吴攀、李泽南

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:卢松松,转转请注明出处:https://www.chuangxiangniao.com/p/1089421.html

(0)
上一篇 2025年1月13日 23:38:35
下一篇 2025年1月13日 23:39:06

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • 聊聊SEO、推广、新媒体与数据分析的关系,为什么需要做数据分析?

    大纲如下: 1、SEO与数据的关系 2、网络推广、新媒体与数据的关系 3、为什么做SEO、推广、新媒体都需要数据管理与数据分析? 4、SEO、推广、新媒体数据分析应该怎么做? 在进入正题之前,先聊聊数据与数据分析。 数据是什么?我相信只要从…

    2025年1月14日 IT业界
    200
  • 深度解剖信息流投放系统知识

    * 怎样投信息流广告才能盈利? *如何系统化的学习信息流广告投放? *怎么实操优化信息流广告投放的关键节点? 通过信息流投放实现盈利是每个操盘手追求的终极目标,但是很多在追求盈利的路上一直在走弯路。 很多操盘手不知道如何建立属于自己的系统投…

    2025年1月14日
    200
  • 疫情之下:重新审视互联网搜索数据的价值

    一场席卷而来的疫情让国人的春节假期变得漫长而又焦虑,疫情叠加春节让人们有了更多时间安静下来深度思考。而从互联网领域来看,抗疫之后,曾经的“搜索”价值重回视线。 多样化的信息获取方式,极大丰富了用户行为习惯。而疫情之下,用户从被动的信息阅览开…

    2025年1月14日
    300
  • 2019年薪水最高的十三个技术岗位

    如果您是一名计算机科学专业的毕业生,或者正在考虑投身于软件开发领域,抑或是经验丰富且正在考虑跳槽的程序员,那么恭喜各位——这篇文章绝对能带来一些有益的启发。 在本文中,我们将共同了解目前技术行业中薪酬最高的 13 个开发岗位。 这些岗位门槛…

    2025年1月14日
    200
  • 分享:数据信息收集的3个方法

    对于互联网人来说,信息收集是基本功,是很关键但又经常被忽略的能力。特别是对于产品经理而言,启动新项目、接触一个新的领域时,都需要先去了解这个行业、了解业务背景,观察行业的趋势以便做出正确的选择。 例如前段时间,5G的概念炒得很火。假设有一天…

    2025年1月14日 IT业界
    100
  • 数据到底是怎样被泄露的?

    我们知道在坐火车或者坐飞机的时候需要验证身份,这个时候我们会出示我们的身份证,工作人员核验过后就可以继续出行了,这种形式叫身份验证。 身份核验的权限最终都来自中国公安部,以及有公安部授权的各个有资质的机构或者企业。 比如征信公司、酒店、支付…

    2025年1月14日 IT业界
    100
  • Chrome和火狐插件让数以百万计用户隐私数据泄露

    7月21日消息,据国外媒体报道,流行浏览器诸如广告拦截等扩展功能,已经遭利用而让数以百万计使用Chrome和火狐(Firefox)的消费者个人数据泄露。遭遇泄露的这些个人数据,不仅涉及他们的浏览历史,而且还包括他们存放在相关网络公共服务上的…

    2025年1月14日
    200
  • 我对牟长青分享的各个私董会数据分析

    其实之前,我也想写一个关于各个草根社群的数据分析,但这样的文章容易得罪人,因为我一直喜欢直言不讳,所以一直没有动笔。例如,我在6月份写了一篇关于一个收费但群主话不多的社群的文章,结果一直被纠缠、投诉,原因仅仅是因为文章中展示了一个模糊的LO…

    2025年1月14日
    200
  • 2018年最受关注的十大黑客事件

    很快2018年就要跟我们说再见,而在这过去的一年里,虽然互联网的整体安全性都在提升,但依然出现了几波影响力颇大的用户信息被黑客盗走泄密的事件,现在我们就来盘点2018年十大最受关注的黑客事件。 1. Facebook:8700万用户数据泄露…

    2025年1月14日
    200
  • 卢松松第160场直播带货数据分享

    昨晚是卢松松做的第十五期陪跑直播,也是在这个帐号累计直播的第160场。 昨晚直播,一共出了15单,累计小1000块钱。因为是知识付费(陪跑社群+课),几乎没什么成本。注意这个数据真实有效,我不拿最好的数据说话,也不拿最差的数据发文,目的是想…

    2025年1月14日
    300

发表回复

登录后才能评论

联系我们

156-6553-5169

在线咨询: QQ交谈

邮件:253000106@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

联系微信