深度学习世界

【干货】二十五个深度学习相关公开数据集

（选自Analytics Vidhya；作者：Pranav Dar；磐石编译）

介绍
图像处理相关数据集
自然语言处理相关数据集
语音处理相关数据集
Supplement

一．介绍

通常来说，深度学习的关键在于实践。从图像处理到语音识别，每一个细分领域都有着独特的细微差别和解决方法。

然而，你可以从哪里获得这些数据呢？现在大家所看到的大部分研究论文都用的是专有数据集，这些专有数据集又通常不会公开。那么，想实践那些最新的理论方法往往就成了难题。

如果你也遇到了这样的问题，接下来我们会提供了一系列可用的公开数据集给大家。

在本文中，我们列出了一系列高质量的数据集，每个深度学习爱好者都可以使用这些数据集来提高自己的能力。应用这些数据集将使您成为一名更好的数据科学家，并且您从中获得的东西将在您的职业生涯中具有无可估量的价值。我们还收录了具有当前最好结果（SOTA）的论文，供您浏览并改进您的模型。

如何使用这些数据集？

首先要做的事：这些数据集的规模很大！所以请确保你的网络够快，确保下载没有任何限制。

有很多种方式可以使用这些数据集。比如：你可以使用它们来锻炼你的各种深度学习方法技巧；你可以使用它们来磨练你的技能，了解如何识别和构建每个问题，思考独特的使用案例和公布你的新发现！

数据集分为三类：图像处理相关数据集，自然语言处理相关数据集和语音处理相关数据集。

二．图像处理相关数据集

1. MNIST (https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/)

MNIST是最受欢迎的深度学习数据集之一。它是一个手写数字数据集，包含一个60,000个样本的训练集和一个10,000个样本的测试集。这是一个很不错的数据集，它可用于在实际数据中尝试学习技术和深度识别模式，并且它花费极少的时间和精力在数据预处理上。

大小：约50 MB

数量： 10个类别，70,000张图片

SOTA：Dynamic Routing Between Capsules

(https://arxiv.org/pdf/1710.09829.pdf)

2. MS-COCO

(https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit_v2&action=edit&isNew=1&type=10&token=1276755825&lang=zh_CN#home)

COCO是一个可用于object detection, segmentation and caption的大型数据集。有以下特点：

目标分割
上下文关系识别
超像素分割
330K图像（> 200K已标记）
150万个目标
80个分类
91种目标
每张图片5个字幕
包含250,000个人（已标记）

大小：约25 GB（压缩包）

数量： 330K张图像，80个对象类别，每个图像5个描述，25万个人（已标记）

SOTA： Mask R-CNN

（https://arxiv.org/pdf/1703.06870.pdf）

3. ImageNet

（https://arxiv.org/pdf/1703.06870.pdf）

ImageNet是基于WordNet层次结构组织的图像数据集。WordNet包含约100,000个短语，ImageNet平均提供了约1000个图像来说明每个短语。

大小：约150GB

数量：图像总数约1,500,000; 每个都有多个边界框和相应的类标签。

SOTA： Aggregated Residual Transformations for Deep Neural Networks

（https://arxiv.org/pdf/1611.05431.pdf）

4. Open Images Dataset

（https://github.com/openimages/dataset）

Open Images Dataset是一个包含超过900万个链接图像的数据集。其中包含9,011,219张图像的训练集，41,260张图像的验证集以及125,436张图像的测试集。它的图像种类跨越数千个类别，且有图像层级的标注框进行注释。

大小： 500 GB（压缩包）

数量： 9,011,219张超过5k标签的图像

SOTA： Resnet 101 image classification model (trained on V2 data):Model checkpoint, Checkpoint readme, Inference code.

（https://storage.googleapis.com/openimages/2017_07/oidv2-resnet_v1_101.ckpt.tar.gz）

5. VisualQA （http://www.visualqa.org/）

VQA是一个包含有关图像的开放式问题的数据集。这些问题需要理解视野和语言。有以下有意思的特点：

265,016张图片（COCO和抽象场景）
每张图片至少有3个问题（平均5.4个问题）
每个问题10个基本事实
每个问题3个似乎合理（但可能不正确）的答案
指标自动评估

大小： 25 GB（压缩包）

数量： 265,016张图片，每张图片至少3个问题，每个问题10个基本事实

SOTA： Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge（https://arxiv.org/abs/1708.02711）

6. The Street View House Numbers (SVHN）

（http://ufldl.stanford.edu/housenumbers/）

这是一个为训练目标检测算法而“真实”存在的一个图像数据集--来自于谷歌街景中的房屋号码。它对图像预处理和格式要求较低。与上边提到的MNIST数据集类似，但SVHN包含更多的标记数据（超过600,000个图像）。

大小： 2.5 GB

数量： 10个类别，共6,30,420张图片

SOTA：Distributional Smoothing With Virtual Adversarial Training（https://arxiv.org/pdf/1507.00677.pdf）

7. CIFAR-10

（http://www.cs.toronto.edu/~kriz/cifar.html）

这个数据集是图像分类的另一个神级入门数据集。它由10个类别60,000个图像组成（每个类在上图中表示为一行）。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分 - 5个训练批次（training batches）和1个测试批次（test batches)。每个批次（batch）有10,000个图像。

大小：170 MB

数量：10个类别，共60,000张图片

SOTA：ShakeDrop regularization（https://openreview.net/pdf?id=S1NHaMW0b）

8. Fashion-MNIST (https://github.com/zalandoresearch/fashion-mnist)

Fashion-MNIST包含60,000个训练图像和10,000个测试图像。它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用，因此他们将其作为该数据集的直接替代品。每张图片都以灰度显示，并与10个类别的标签相关联。

大小：30 MB

数量：10个类，70,000张图片

SOTA：Random Erasing Data Augmentation(https://arxiv.org/abs/1708.04896)

三．自然语言处理相关数据集

1.IMDB Reviews

(http://ai.stanford.edu/~amaas/data/sentiment/)

这对电影爱好者来说是一个极棒的数据集。它可用于着二元情感分类，并具有比此领域以前的任何数据集更多的数据。除了用于训练和测试评论数据外，还有更多未标记的数据可供使用。同时该数据集还包含原始文本和预处理单词格式包。

大小：80 MB

数量：25,000条高质量影评用于训练，25,000条用于测试

SOTA：Learning Structured Text Representations https://arxiv.org/abs/1705.09207

https://arxiv.org/abs/1705.09207

2.Twenty Newsgroups

https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups

顾名思义，该数据集包含着新闻组相关的文本数据信息。这二十个新闻组数据集合收集了大约20,000新闻组文档，均匀的分布在20个不同的集合。这些文档具有新闻的典型特征：主题，作者和引述。

大小：20 MB

数量：来自20个新闻组的20,000条消息

SOTA：Very Deep Convolutional Networks for Text Classification (https://arxiv.org/abs/1606.01781)

3.Sentiment140 (http://help.sentiment140.com/for-students/)

Sentiment140是一个可用于情感分析的数据集。使用这个流行数据集来开启你的NLP旅程是完美的。情绪信息已经从数据中预先删除。最终的数据集具有以下6个特征：

推文的感情色彩（polarity）
推文的ID
推文的日期
推特（tweeter）的用户名
推文的文本内容

大小：80 MB（压缩包）

数量：160,000条推文

SOTA：Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets http://www.aclweb.org/anthology/W17-5202

4.WordNet https://wordnet.princeton.edu/

在上面的ImageNet数据集中提到，WordNet是一个包含英文synsets的大型数据库。Synsets是指同义词组，每个描述不同的概念。 WordNet的结构使其成为NLP非常有用的工具。

大小：10 MB

数量：通过少量“概念联系”将117,000个同义词集与其他同义词集相关联。

SOTA：Wordnets: State of the Art and Perspectives

https://aclanthology.info/pdf/R/R11/R11-1097.pdf

5.Yelp Reviews https://www.yelp.com/dataset

这是Yelp（美国最大的点评网站）为了学习目的而发布的一个公开数据集。它由数百万用户评论、商业类型和来自多个大型城市的超过20万张照片组成。这在全球都是一个非常常用的NLP挑战级数据集。

大小：2.66 GB JSON，2.9 GB SQL and 7.5 GB Photos（全部已压缩）

数量：5,200,000条评论，174,000条商业类型，20万张图片和11个大型城市

SOTA：Attentive Convolution

6.The Wikipedia Corpus

https://arxiv.org/pdf/1710.00519.pdf

该数据集是维基百科全文的集合。它包含来自400多万篇文章的将近19亿单词。这是个强大的NLP数据集--你可以通过单词，短语或段落来进行检索。

大小：20 MB

数量：4,400,000篇文章，19亿单词

SOTA：Breaking The Softmax Bottelneck: A High-Rank RNN language Model https://arxiv.org/pdf/1711.03953.pdf

7.The Blog Authorship Corpus

http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

此数据集包含来自数千名博主的博文（收集自blogger.com）。每篇博客都作为一个单独的文件提供。每篇博客至少有着200个常用英语单词。

大小：300 MB

数量：681,288博文，超过1.4亿单词

SOTA：Character-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attribution https://arxiv.org/pdf/1609.06686.pdf

8.Machine Translation of Various Languages

http://statmt.org/wmt18/index.html

该数据集包含四种欧洲语言的训练数据。可用于改进当前的翻译方法。有以下语言互译可供参考：

英汉和汉英
英语 - 捷克语和捷克语 - 英语
英语 - 爱沙尼亚语和爱沙尼亚语 - 英语
英语 - 芬兰语和芬兰语 - 英语
英语 - 德语和德语 - 英语
英语 - 哈萨克语和哈萨克语 - 英语
英文 - 俄文和俄文 - 英文
英语 - 土耳其语和土耳其语 - 英语

大小：约15 GB

数量：约30,000,000个句子及其翻译

SOTA：Attention Is All You Need https://arxiv.org/abs/1706.03762

四．语音处理相关数据集

1.Free Spoken Digit Dataset

https://github.com/Jakobovski/free-spoken-digit-dataset

此列表中的另一个与MNIST数据集相似的数据集！为了解决自然语言处理中的数字识别任务而创建。这是一个公开的数据集，并且希望随着人们贡献更多样本来获得持续增长。目前，它包含以下特点：

3个录音者
1500条录音（每个人每个数字50遍
英式发音

大小：10 MB

数量：1500条音频

SOTA：Raw Waveform-based Audio Classification Using Sample-level CNN Architectures https://arxiv.org/pdf/1712.00866

2.Free Music Archive (FMA) https://github.com/mdeff/fma

FMA是一个音乐分析数据集。数据集由音频（full-length and HQ），预先计算的特征（ pre-computed features）以及音轨和用户级元数据（metadata）组成。它是一个公开数据集，用来评估MIR中的多项任务。以下是其包含的csv文件列表：

tracks.csv：包含所有（106,574首）曲目的基本信息--ID，标题，艺术家，流派，标签和播放次数。
genres.csv：163种流派的ID（包含名称和之间的关系）
features.csv：基本特征（使用librosa(https://librosa.github.io/librosa/)提取）。
echonest.csv：由Echonest（现在的Spotify）为13129首曲目提供的音频特征。(http://the.echonest.com/) (https://www.spotify.com/)

大小：约1000 GB

数量：约100,000曲目（tracks）

SOTA：Learning to Recognize Musical Genre from Audio

https://arxiv.org/pdf/1803.05337.pdf

3.Ballroom http://mtg.upf.edu/ismir2004/contest/tempoContest/node5.html

该数据集由来自舞厅的音频数据组成。以实际音频格式提供了许多舞蹈风格的一些音频片段。有以下特点：

总数：698
单个时长：约30秒
总时长：约20940秒

大小：14GB（压缩）

数量：约700个音频样本

SOTA： A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles https://pdfs.semanticscholar.org/0cc2/952bf70c84e0199fcf8e58a8680a7903521e.pdf

4.Million Song Dataset https://labrosa.ee.columbia.edu/millionsong/

百万歌曲数据集是由一百万首当代流行音乐曲目的音频特征和元数据组成。其目的是：

鼓励对扩展到商业规模的算法进行研究
为评估研究提供参考数据集
作为使用API创建大型数据集的替代方法（e.g. The Echo Nest）
帮助新研究人员在MIR领域开始工作

数据集的核心是一百万首歌曲的特征分析和元数据。该数据集不包含任何音频，只包含派生的特征。样本音频可以通过使用哥伦比亚大学提供的代码从7digital等服务器上获取。https://labrosa.ee.columbia.edu/millionsong/ http://www.7digital.com/

大小：280 GB

数量：一百万首歌曲哦！

SOTA： Preliminary Study on a Recommender System for the Million Songs Dataset Challenge http://www.ke.tu-darmstadt.de/events/PL-12/papers/08-aiolli.pdf

5.LibriSpeech http://www.openslr.org/12/

该数据集是包含约1000小时英语音频的大型语料库。这些数据来自LibriVox项目的有声读物（audiobooks），且已经过分割、对齐处理。如果您恰好想入门这个领域，请查看已准备好的声学模型（已在kaldi-asr.org和语言模型上进行了训练且适合评估），网址为http://www.openslr.org/11/ http://www.kaldi-asr.org/downloads/build/6/trunk/egs/

大小：约60 GB

数量：1000小时音频

SOTA： Letter-Based Speech Recognition with Gated ConvNets https://arxiv.org/abs/1712.09444

6.VoxCeleb https://mp.weixin.qq.com/cgi-bin/VoxCeleb

VoxCeleb是一个大型的语音识别数据集。它由来自YouTube视频中的1,251名明星所讲的约10万句话组成。这些数据性别分布均衡（男性占55％），名人跨越不同的口音、职业和年龄，训练集和测试集之间没有重叠。通过这个数据集可以实现一个有趣的应用--区分和识别超级巨星

大小：150 MB

数量：1,251位名人的100,000条话语

SOTA：VoxCeleb: a large-scale speaker identification dataset https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf

五．Supplement

Analytics Vidhya Practice Problems:

为了帮助练习，我们还提供了来自DataHack平台，三个更贴近生活的题目（包含问题+数据集）供练手。当然，肯定是深度学习相关，如下：

1.Twitter Sentiment Analysis

https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/

含有种族主义和性别歧视言论的推文的处理已成为twitter的难题，那么区分识别这些推文就成了twitter的重要任务。在这个实际问题中，我们提供正常推文与非正常推文两种Twitter数据。你的任务是正确区分这些推文。

大小：3 MB

数量：31,962条推文

2.Age Detection of Indian Actors

https://datahack.analyticsvidhya.com/contest/practice-problem-age-detection/

对于任何深度学习爱好者来说，这都是一个令人着迷的挑战。该数据集由数千个印度演员的图片组成，你的任务是确定他们的年龄。所有图像都是从视频帧中人工剪切的，这致使尺度，姿态，表情，亮度（illumination），年龄，分辨率，遮挡和妆容具有高度可变性。

大小：48 MB（压缩包）

数量：训练集19,906幅图像和测试集6636幅图像

SOTA：Hands on with Deep Learning – Solution for Age Detection Practice Problem

https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/

3. Urban Sound Classification

https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/

这个数据集包含超过8000个来自10个类别的城市声音片段。这个实际问题旨在向你介绍对常用分类场景的音频处理。

大小：训练集 - 3 GB（压缩），测试集 - 2 GB（压缩）

数量：10个类别，8732个城市声音片段（单个片段时长<= 4s，已标注）

写在最后：如果你知道其他公开数据集，可以告诉我们（说明推荐原因、详细用途等等）。

如果理由充分，我会把它们列入清单。来评论里讨论你们的使用感受吧。深度学习万岁！

（编译自：https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/）

点击下方“阅读原文”了解【人工智能实验平台】 ↓↓↓

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
本周第二次约练 2cfbdfe28a51
中原焦点团队中24初26刘霞2021.12.3约练161次，分享第368天当事人虽然是带着问题来的，但是咨询过程中发现，她是经过自己不断地调整和努力才走到现在的，看到当事人的不容易，找到例外，发现资源，力量感也就随之而来。增强画面感，或者说重温，会给当事人带来更深刻的感受。
2022-07-08 保利学府里李楚怡1307022
——保利碧桂园学府里——童梦奇趣【科学实验室】「7.9-7.10」✏玩出大智慧约99-144㎡二期全新升级力作
直抒《紫罗兰永恒花园外传》雷姆的黑色童话
没看过《紫罗兰永恒花园》的我莫名的看完了《紫罗兰永恒花园外传》，又莫名的被故事中的姐妹之情狠狠地感动了的一把。感动何在：困苦中相依为命的姐妹二人被迫分离，用一个人的自由换取另一个人的幸福。之后，虽相隔不知几许依旧心心念念彼此牵挂。这种深深的姐妹情谊就是令我为之动容的所在。贝拉和泰勒分别影片开始，海天之间一个孩童凭栏眺望，手中拿着折旧的信纸。镜头一转，挑灯伏案的薇尔莉特正在打字机前奋笔疾书。这些片段
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
如果做到轻松在股市赚钱？只要坚持这三个原则。履霜之人
大A股里向来就有七亏二平一赚的说法，能赚钱的都是少数人。否则股市就成了慈善机构，人人都有钱赚，谁还要上班？所以说亏钱是正常的，或者说是应该的。那么那些赚钱的人又是如何做到的呢？普通人能不能找到捷径去分一杯羹呢？方法是有的，但要做到需要你有极高的自律。第一，控制仓位，散户最大的问题是追涨杀跌，只要涨起来，就把钱往股票上砸，然后被套，隔天跌的受不了，又一刀切，全部割肉。来来回回间，遍体鳞伤。所以散户首
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
特殊的拜年飘雪的天堂
文/雪儿大年初一，家家户户没有了轰响的鞭炮声，大街上没有了人流涌动的喧闹，几乎看不到人影，变得冷冷清清。天刚亮不大会儿，村里的大喇叭响了起来：由于当前正值疾病高发期，流感流行的高峰期。同时，新型冠状病毒感染的肺炎进入第二波流行的上升期。为了自己和他人的健康安全着想，请大家尽量不要串门拜年，不要在街里走动。可以通过手机微信，视频，电话，信息拜年……今年的春节真是特别。禁止燃放鞭炮，烟花爆竹，禁止出村
398顺境，逆境戴骁勇
2018.11.27周二雾霾最近儿子进入了一段顺境期，今天表现尤其不错。今天的数学测试成绩喜人，没有出现以往的计算错误，整个卷面书写工整，附加题也在规定时间内完成且做对。为迎接体育测试的锻炼有了质的飞跃。坐位体前屈成绩突飞猛进，估测成绩能达到12cm，这和上次测试的零分来比，简直是逆袭。儿子还在不断锻炼和提升，唯恐到时候掉链子。跑步姿势在我的调教下，逐渐正规起来，速度随之也有了提升。今晚测试的50
想明白这个问题，你才能写下去文自拾
春节放假的时候，又有一天梦见她，第二天她冒着漫天大雪，傻傻地跑来见我。她说，见见傻傻的我，天很冷，心很暖。她回去后，我写了一篇文章，题目叫——从此梦中只有你。我们没在一起的很长一段时间里，她都在我的心底，一次次出现在我的梦里。我对她说，在一起之前，是胆小且闷骚，在一起之后，我变得不要脸了。不要脸的——去爱你。那文章没写完，火车上，给她看了。我有点小失望，花了好几个小时写，她分分钟就看完，很希望她逐
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
其二十八尾喵
你知道吗？图片发自App我今天知道了你有喜欢的人，不是我。心空空的，整个人都不是我的了。可，怎么办？还是要好好的活着，毕竟你喜欢的人，我不能杀，可是我可以杀其他喜欢你的人呀！也罢，此生无缘，来世再见。鱼干
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
webpack图片等资源的处理 dmengmeng
需要的loaderfile-loader（让我们可以引入这些资源文件）url-loader（其实是file-loader的二次封装）img-loader（处理图片所需要的）在没有使用任何处理图片的loader之前，比如说css中用到了背景图片，那么最后打包会报错的，因为他没办法处理图片。其实你只想能够使用图片的话。只加一个file-loader就可以，打开网页能准确看到图片。{test:/\.(p
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
ARM中断处理过程落汤老狗嵌入式linux
一、前言本文主要以ARM体系结构下的中断处理为例，讲述整个中断处理过程中的硬件行为和软件动作。具体整个处理过程分成三个步骤来描述：1、第二章描述了中断处理的准备过程2、第三章描述了当发生中的时候，ARM硬件的行为3、第四章描述了ARM的中断进入过程4、第五章描述了ARM的中断退出过程本文涉及的代码来自3.14内核。另外，本文注意描述ARM指令集的内容，有些sourcecode为了简短一些，删除了T
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修