数据派THU

资源 | 25个深度学习开源数据集，have fun !

作者：PRANAV DAR

翻译：Nicola

校对：冯羽

本文共4000字，建议阅读8分钟。
本文介绍了图像处理，自然语言处理，以及音频/语音处理三类25个开源数据集。

简介

深度学习（或生活中的大部分领域）的关键是演练。演练各种问题-从图像处理到语音识别。每个问题都有其独特的细微差别和方法。

但是，哪里可以获得这些数据？现今你看到的很多研究论文都使用通常不向公众开放的专有数据集。而这成为了如果你学习并应用你新掌握的技能的阻碍。

如果你也遇到此问题，我们有解决方案提供给你。我们挑选了一系列公开可用的数据集供各位详细阅读。

在本文中，我们列出了一系列高质量的数据集，每个深度学习爱好者都可以应用和改进他们的技能。使用这些数据集将使你成为一名更好的数据科学家，同时你所学到的知识将对你的职业生涯产生无价的帮助。我们还收录了具有最新技术（SOTA）结果的论文供你浏览并改进你的模型。

如何使用这些数据集

首先要做的事-这些数据集的容量相当大！所以请确保你的网络是高速的、不限流量或有很多流量地下载数据。

有很多种可以使用这些数据集的方式。你可以使用它们来应用各种深度学习技巧。也可以使用它们来磨练你的技能，了解如何识别和构建每个问题，思考独特的使用案例并展示给所有人你的发现，让大家都可以看到！

这些数据集分为三类-图像处理，自然语言处理，以及音频/语音处理。

让我们开始更深入的了解！

图像处理

MNIST

MNIST是最受欢迎的深度学习数据集之一。这是一个手写数字数据集，包含一组60,000个示例的训练集和一组10,000个示例的测试集。这是一个对于在实际数据中尝试学习技术和深度识别模式的很好的数据库，同时尝试学习如何在数据预处理中花费最少的时间和精力。

大小：〜50 MB

记录数量：分为10个类别的70，000个图片

SOTA：Dynamic Routing Between Capsules

MS-COCO

COCO是一个规模大且丰富的物体检测，分割和字幕数据集。它有几个特点：

物体分割
文中识别
超像素物质分割
330K图像（> 200K标记）
150万个物体实例
80个物体类别
91个物质类别
每张图片5个字幕
250,000有关键点的人

大小：〜25 GB（压缩）

记录数量：330K图像，80个物体类别，每幅图像5个字幕，250，000个有关键点的人

SOTA:Mask R-CNN

ImageNet

ImageNet是依据WordNet层次结构组织的图像数据集。WordNet包含大约100,000个短语，ImageNet提供了平均大约1000个图像来说明每个短语。

大小：〜150GB

记录数量：图像总数：〜1,500,000;每个都有多个边界框和相应的类标签

SOTA：Aggregated Residual Transformations for Deep Neural Networks

Open Images Dataset

Open Images是一个包含近900万个图像URL的数据集。这些图像已经用数千个类别的图像级标签边框进行了注释。该数据集包含9,011,219张图像的训练集，41,260张图像的验证集以及125,436张图像的测试集。

大小：500 GB（压缩）

记录数量：9,011,219张超过5k标签的图像

SOTA：Resnet 101图像分类模型（在V2数据上训练）：Model checkpoint, Checkpoint readme, Inference code.

VisualQA

VQA是一个包含有关图像的开放式问题的数据集。这些问题需要理解是视觉和语言。这个数据集有一些有趣的特点：

265,016张图片（COCO和抽象场景）
每张图片至少有3个问题（平均5.4个问题）
每个问题10个基于事实答案
每个问题3个似乎合理（但看起来不正确）的答案
自动评估指标

大小：25 GB（压缩）

记录数量：265,016张图片，每张图片至少3个问题，每个问题10个基于事实答案

SOTA:Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge

The Street View House Numbers (SVHN)

这是用于开发物体检测算法的真实世界图像数据集。这些只需要最少的数据预处理。它与本列表中提到的MNIST数据集类似，但拥有更多标签数据（超过600,000个图像）。这些数据是从谷歌街景中查看的房屋号码中收集的。

大小：2.5 GB

记录数量：10个课程中的6,30,420张图片

SOTA:Distributional Smoothing With Virtual Adversarial Training

CIFAR-10

这是另一个图像分类的数据集。它包含了10个类别的60,000个图像（每个类在上图中表示为一行）。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分- 5个培训批次和1个测试批次。每批有10,000个图像。

大小：170 MB

记录数量：10个类别的60,000张图片

SOTA:ShakeDrop regularization

Fashion-MNIST

Fashion-MNIST包含60,000个训练图像和10,000个测试图像。它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用，因此他们将其作为MNIST的直接替代品。每张图片都以灰度显示，并与10个类别的标签相关联。

大小：30 MB

记录数量：10个类别的70,000张图片

SOTA:Random Erasing Data Augmentation

自然语言处理

IMDB Reviews

这是一个电影爱好者的梦寐以求的数据集。它意味着二元情感分类，并具有比此领域以前的任何数据集更多的数据。除了训练和测试评估示例之外，还有更多未标记的数据可供使用。包括文本和预处理的词袋格式。

大小：80 MB

记录数量：25,000个高度差异化的电影评论用于训练，25,000个测试

SOTA：Learning Structured Text Representations

Twenty Newsgroups

顾名思义，该数据集包含有关新闻组的信息。为了选择这个数据集，从20个不同的新闻组中挑选了1000篇新闻文章。这些文章具有一定特征，如主题行，签名和引用。

大小：20 MB

记录数量：来自20个新闻组的20,000条消息

DOTA:Very Deep Convolutional Networks for Text Classification

Sentiment140

Sentiment140是一个可用于情感分析的数据集。一个流行的数据集，非常适合开始你的NLP旅程。情绪已经从数据中预先移除。最终的数据集具有以下6个特征：

推文的极性
推文的ID
推文的日期
问题
推文的用户名
推文的文本

大小：80 MB（压缩）

记录数量：160,000条推文

SOTA:Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets

WordNet

在上面的ImageNet数据集中提到，WordNet是一个很大的英文同义词集。同义词集是每个都描述了不同的概念的同义词组。WordNet的结构使其成为NLP非常有用的工具。

大小：10 MB

记录数量：117,000个同义词集通过少量“概念关系”与其他同义词集相关联。

SOTA:Wordnets: State of the Art and Perspectives

Yelp Reviews

这是Yelp为了学习目的而发布的一个开源数据集。它包含了由数百万用户评论，商业属性和来自多个大都市地区的超过20万张照片。这是一个非常常用的全球NLP挑战数据集。

大小：2.66 GB JSON，2.9 GB SQL和7.5 GB照片（全部压缩）

记录数量：5,200,000条评论，174,000条商业属性，20万张图片和11个大都市区

SOTA：Attentive Convolution

The Wikipedia Corpus

这个数据集是维基百科全文的集合。它包含来自400多万篇文章的将近19亿字。使得这个成为强大的NLP数据集的是你可以通过单词，短语或段落本身的一部分进行搜索。

大小：20 MB

记录数量：4,400,000篇文章，19亿字

SOTA:Breaking The Softmax Bottelneck: A High-Rank RNN language Model

The Blog Authorship Corpus

这个数据集包含了从blogger.com收集的数千名博主的博客帖子。每个博客都作为一个单独的文件提供。每个博客至少包含200个常用英语单词。

大小：300 MB

记录数量：681,288个帖子，超过1.4亿字

SOTA:Character-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attribution

Machine Translation of Various Languages

此数据集包含四种欧洲语言的训练数据。这里的任务是改进当前的翻译方法。您可以参加以下任何语言组合：

英语-汉语和汉语-英语
英语-捷克语和捷克语-英语
英语-爱沙尼亚语和爱沙尼亚语-英语
英语-芬兰语和芬兰语-英语
英语-德语和德语-英语
英语-哈萨克语和哈萨克语-英语
英文-俄文和俄文-英文
英语-土耳其语和土耳其语-英语

大小：〜15 GB

记录数量：约30,000,000个句子及其翻译

SOTA:Attention Is All You Need

音频/语音处理

Free Spoken Digit Dataset

此列表中的另一个被MNIST启发而创建的数据集！这是为了解决识别音频样本中的口头数字而创建。这是一个开源数据集，所以希望随着人们继续贡献更多样本帮助它不断成长。目前，它包含以下特点：

3个说话者
1500个录音（每个数字每个说话者读50个）
英语发音

大小：10 MB

记录数量：1500个音频样本

SOTA:Raw Waveform-based Audio Classification Using Sample-level CNN Architectures

Free Music Archive (FMA)

FMA是一个音乐分析的数据集。数据集包括了完整长度和HQ音频，预先计算的特征，以及音轨和用户级元数据。它是一个用于评估MIR中的一些任务的开源数据集。下面是数据集的csv文件列表以及它们包含的内容：

tracks.csv：每首曲目元数据，如ID，标题，艺术家，流派，标签和播放次数，共106,574首曲目
genres.csv：所有163种风格的ID与他们的名字和起源（用于推断流派层次和顶级流派）。
features.csv：用 librosa提取的常用特征。
echonest.csv：由 Echonest(现在的Spotify)提供的为13,129首音轨的子集的音频功能。

大小：〜1000 GB

记录数量：约100,000轨道

SOTA:Learning to Recognize Musical Genre from Audio

Ballroom

该数据集包含舞池跳舞音频文件。以真实音频格式提供了许多舞蹈风格的一些特征摘录。以下是数据集的一些特点：

实例总数：698
持续时间：约30秒
总持续时间：约20940秒

大小：14GB（压缩）

记录数量：约700个音频样本

SOTA:A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles

Million Song Dataset

Million Song Dataset是免费的一百万首当代流行音乐曲目的音频特征和元数据集合。其目的是：

鼓励对扩大到商业规模的算法进行研究
为评估研究提供参考数据集
作为使用API创建大型数据集的捷径（例如The Echo Nest）
帮助新研究人员在MIR领域开始工作

数据集的核心是一百万首歌曲的特征分析和元数据。这个数据集不包含任何音频，只是派生的功能。示例音频可以通过使用哥伦比亚大学提供的code从7digital等服务中获取。

大小：280 GB

记录数量：PS - 它的一百万首歌曲！

SOTA:Preliminary Study on a Recommender System for the Million Songs Dataset Challenge

LibriSpeech

该数据集是大约1000小时的英语演讲的大型语料库。这些数据来自LibriVox项目的有声读物。它们已被分割并适当对齐。如果您正在寻找一个起点，请查看在kaldi-asr.org和语言模型上进行了训练了的已准备好的声学模型，这些模型适合在http://www.openslr.org/11/进行评测。

大小：〜60 GB

记录数量：1000小时的演讲

SOTA:Letter-Based Speech Recognition with Gated ConvNets

VoxCeleb

VoxCeleb是一个大规模演讲者识别数据集。它包含了来自YouTube视频的约1,251位知名人士的约10万个话语。数据大部分是性别平衡的（男性占55％）。这些名人横跨不同的口音，职业和年龄。开发和测试集之间没有重叠。对于独立和识别哪个超级巨星的音频来说，这是一个有趣的使用案例。

大小：150 MB

记录数量：1,251位名人的100,000条话语

SOTA:VoxCeleb: a large-scale speaker identification dataset

分析Vidhya实践问题：为了您的练习，我们还提供实际生活问题和数据集让你可以实际演练。在本节中，我们列举了在我们DataHack平台上的深度学习实践问题。

Twitter Sentiment Analysis

仇恨型演讲以种族主义和性别歧视为形式的言论已成为推特上的麻烦事，重要的是将这类推文与其他的分开。在这个实际问题中，我们同时提供正常的和仇恨型推文的推特数据。你作为数据科学家的任务是确定哪些推文是仇恨型推文，哪些不是。

大小：3 MB

记录数量：31,962条推文

Age Detection of Indian Actors

对于任何深度学习爱好者来说，这是一个令人着迷的挑战。该数据集包含数千个印度演员的图像，你的任务是确定他们的年龄。所有图像都是手动选择，并从视频帧中剪切的，这使得尺度，姿势，表情，照度，年龄，分辨率，遮挡和化妆的高度干扰性。

大小：48 MB（压缩）

记录数量：训练集中的19,906幅图像和测试集中的6636幅图像

SOTA：Hands on with Deep Learning – Solution for Age Detection Practice Problem

Urban Sound Classification

这个数据集包含超过8000个来自10个类别的城市声音摘录。这个实践问题是为了在向您介绍常见分类方案中的音频处理。

大小：训练集-3 GB（压缩），测试集- 2 GB（压缩）

记录数量：来自10个类别的8732个城市声音标注的声音片段（<= 4s）

如果您知道其他开源数据集，可以用来推荐其他人开始他们的深度学习/非结构化数据集之旅，请随时把它们推荐给我们并附上应该包括这些数据集的原因。

如果原因很好，我会把它们列入清单。我们非常欢迎您在评论区域让我们知道使用这些数据集的经验。最后祝大家学习愉快！

原文标题：25 Open Datasets for Deep Learning Every Data Scientist Must Work With

原文链接：https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/

译者简介

陈之炎，北京交通大学通信与控制工程专业毕业，获得工学硕士学位，历任长城计算机软件与系统公司工程师，大唐微电子公司工程师，现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护，在人工智能深度学习和自然语言处理（NLP）方面积累有一定的经验。业余时间喜爱翻译创作，翻译作品主要有：IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等，其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组，希望能和大家一起交流分享，共同进步

翻译组招募信息

工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利：来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

点击“阅读原文”拥抱组织

你可能感兴趣的:(资源 | 25个深度学习开源数据集，have fun !)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
那个抄袭的大张伟猫小努
最近一直在追《即刻电音》这个综艺，除了觉得出场节目的音乐制作人有意思之外，也觉得有两个导师挺有趣的（另外一个就忽略了吧）。孙艺兴在上一篇文章里面已经说过了，那么这篇就说说我们的大老师，大张伟吧。其实在节目刚开始大张伟出来的时候，我以为他是属于导师里面来活跃气氛负责搞笑的，毕竟孙艺兴属于卖萌卖傻卖老实的，尚雯婕一般负责装逼耍狠的，而大张伟一贯以来上综艺的形象基本上都是蹦蹦跳跳带动气氛的。谁知道，两期
三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
开心蒋泳频
从无比抗拒来上课到接受，感动，收获～看着波哥成长，晶晶幸福笑容满面。感觉自己做的事情很有意义，很开心！还有3个感召目标就是还有三个有缘人，哈哈。明天感召去明日计划：8：30-11：00小公益11：00-21点上班，感召图片发自App图片发自App图片发自App
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

资源 | 25个深度学习开源数据集，have fun !

MS-COCO

ImageNet

Open Images Dataset

VisualQA

The Street View House Numbers (SVHN)

CIFAR-10

Fashion-MNIST

Fashion-MNIST包含60,000个训练图像和10,000个测试图像。它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用，因此他们将其作为MNIST的直接替代品。每张图片都以灰度显示，并与10个类别的标签相关联。

大小：30 MB

记录数量：10个类别的70,000张图片

这是一个电影爱好者的梦寐以求的数据集。它意味着二元情感分类，并具有比此领域以前的任何数据集更多的数据。除了训练和测试评估示例之外，还有更多未标记的数据可供使用。包括文本和预处理的词袋格式。

大小：80 MB

记录数量：25,000个高度差异化的电影评论用于训练，25,000个测试

Twenty Newsgroups

顾名思义，该数据集包含有关新闻组的信息。为了选择这个数据集，从20个不同的新闻组中挑选了1000篇新闻文章。这些文章具有一定特征，如主题行，签名和引用。

大小：20 MB

记录数量：来自20个新闻组的20,000条消息

Sentiment140

Sentiment140是一个可用于情感分析的数据集。一个流行的数据集，非常适合开始你的NLP旅程。情绪已经从数据中预先移除。最终的数据集具有以下6个特征：

推文的极性

推文的ID

推文的日期

问题

推文的用户名

推文的文本

大小：80 MB（压缩）

记录数量：160,000条推文

WordNet

在上面的ImageNet数据集中提到，WordNet是一个很大的英文同义词集。 同义词集是每个都描述了不同的概念的同义词组。WordNet的结构使其成为NLP非常有用的工具。

大小：10 MB

记录数量：117,000个同义词集通过少量“概念关系”与其他同义词集相关联。

Yelp Reviews

这是Yelp为了学习目的而发布的一个开源数据集。它包含了由数百万用户评论，商业属性和来自多个大都市地区的超过20万张照片。这是一个非常常用的全球NLP挑战数据集。

大小：2.66 GB JSON，2.9 GB SQL和7.5 GB照片（全部压缩）

记录数量：5,200,000条评论，174,000条商业属性，20万张图片和11个大都市区

The Wikipedia Corpus

这个数据集是维基百科全文的集合。它包含来自400多万篇文章的将近19亿字。使得这个成为强大的NLP数据集的是你可以通过单词，短语或段落本身的一部分进行搜索。

大小：20 MB

记录数量：4,400,000篇文章，19亿字

The Blog Authorship Corpus

Machine Translation of Various Languages

Free Music Archive (FMA)

Million Song Dataset

VoxCeleb

Urban Sound Classification

你可能感兴趣的:(资源 | 25个深度学习开源数据集，have fun !)

在上面的ImageNet数据集中提到，WordNet是一个很大的英文同义词集。同义词集是每个都描述了不同的概念的同义词组。WordNet的结构使其成为NLP非常有用的工具。