夏钰彤

部分数据集

为防丢失，进行记录

大学公开数据集

(Stanford)69G大规模无人机(校园)图像数据集【Stanford】

http://cvgl.stanford.edu/projects/uav_data/

人脸素描数据集【CUHK】

http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html

自然语言推理(文本蕴含标记)数据集【NYU】

https://www.nyu.edu/projects/bowman/multinli/

Berkeley图像分割数据集BSDS500【Berkeley】

https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html

宠物图片(分割)数据集【Oxford】

http://www.robots.ox.ac.uk/~vgg/data/pets/

发布ADE20K场景感知/解析/分割/多目标识别数据集【MIT】

https://groups.csail.mit.edu/vision/datasets/ADE20K/

多模态二元行为数据集【GaTech】

http://www.cbi.gatech.edu/mmdb/

计算机视觉／图像／视频数据集

Fashion-MNIST风格服饰图像数据集【肖涵】

https://github.com/zalandoresearch/fashion-mnist

大型(50万)LOGO标志数据集

https://data.vision.ee.ethz.ch/cvl/lld/

4D扫描(60fps移动非刚性物体3D扫描)数据集【D-FAUST】

http://dfaust.is.tue.mpg.de

基于MNIST的视觉计数合成数据集Counting MNIST

http://fomoro.com/tools/counting-mnist/

YouTube MV视频数据集【Keunwoo Choi】

https://github.com/keunwoochoi/YouTube-music-video-5M

计算机视觉合成数据集/工具大列表【unrealcv】

https://github.com/unrealcv/synthetic-computer-vision

动物属性标记数据集【ChristophH. Lampert／Daniel Pucher／JohannesDostal】

http://cvml.ist.ac.at/AwA2/

日本漫画数据集Manga109

http://dl.acm.org/citation.cfm?doid=3011549.3011551

俯拍舞蹈视频数据集

http://homepages.inf.ed.ac.uk/rbf/CEILIDHDATA/

Pixiv(着色)图片数据集【Jerry Li】

https://github.com/jerryli27/pixiv_dataset

e-VDS视频数据集

https://engineering.purdue.edu/elab/eVDS/#download

Quick, Draw!简笔画涂鸦数据集

https://github.com/googlecreativelab/quickdraw-dataset

简笔画涂鸦数据集【hardmaru】

https://github.com/hardmaru/sketch-rnn-datasets

服饰人像生成模型(&Chictopia10K[HumanParsing]时尚人像解析数据集)【Christoph Lassner／Gerard Pons-Moll／Peter V. Gehler】

http://files.is.tue.mpg.de/classner/gp/

COCO像素级标注数据集

https://github.com/nightrome/cocostuff

大规模街道级图片(分割)数据集【Peter Kontschieder】

http://blog.mapillary.com/product/2017/05/03/mapillary-vistas-dataset.html

大规模日语图片描述数据集

https://github.com/STAIR-Lab-CIT/STAIR-captions

Cityscapes街景语义分割数据集（50城30类5k细标20k粗标图片及标记视频）

https://github.com/mcordts/cityscapesScripts

(街头)时尚服饰数据集(2000+标注图片)

https://github.com/bearpaw/clothing-co-parsing

PyTorch实现的VOC2012数据集Pixel-wise目标分割【BodoKaiser】

https://github.com/bodokaiser/piwise

Twenty Billion Neurons对象复杂运动与交互视频数据集【Nikita Johnson】

https://www.re-work.co/blog/the-something-something-video-dataset

文本／评价／问答／自然语言数据集

(20万)英文笑话数据集【TaivoPungas】

https://github.com/taivop/joke-dataset

机器学习保险行业问答开放数据集【HainWang】

https://github.com/shuzi/insuranceQA

保险行业问答(QA)数据集【Minwei Feng】

https://github.com/shuzi/insuranceQA

Stanford NLP发布新的多轮、跨域、任务导向对话数据集【Mihail Eric】

https://github.com/keunwoochoi/YouTube-music-video-5M

实体/名词语义关系标记数据集【David S. Batista】

https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets

NLVR：自然语言基础数据集(对象分组、数量、比较及空间关系推理)

http://lic.nlp.cornell.edu/nlvr/

2.8万文章/10万问题大规模(英语考试)阅读理解数据集

https://github.com/qizhex/RACE_AR_baselines

错误拼写数据集

http://www.dcs.bbk.ac.uk/~ROGER/corpora.html

文本简化数据集

http://www.cs.pomona.edu/~dkauchak/simplification/

英语词/句/语义框架框架标注数据集FrameNet

https://framenet.icsi.berkeley.edu/fndrupal/

(又一个)自然语言处理(NLP)数据集列表【Nicolas Iderhoff】

https://github.com/niderhoff/nlp-datasets

跨语种/多样式/多粒度文本相似性检测数据集

https://github.com/FerreroJeremy/Cross-Language-Dataset

Quora数据集：400000行潜在重复问题

http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv

文本分类数据集

http://disi.unitn.it/moschitti/corpora.htm

Frames：Maluuba对话数据集

https://datasets.maluuba.com/Frames/dl

跨域(Amazon商品评论)情感数据集

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

语义网机器学习系统评价/基准数据集集合

http://dws.informatik.uni-mannheim.de/en/research/a-collection-of-benchmark-datasets-for-ml

其它数据集

数据科学/机器学习数据集汇总

https://elitedatascience.com/datasets

CORe50：连续目标识别数据集【VincenzoLomonaco&DavideMaltoni】

https://vlomonaco.github.io/core50/

(Matlab)数据集统计分布自动发现【Isabel Valera】

http://proceedings.mlr.press/v70/valera17a.html

(建筑物)损害评估数据集【tsunami】

https://github.com/faiton713/ABCDdataset

IndieWeb社交图谱数据集【IndieWeb】

http://www.indiemap.org

DeepMind开源环境/数据集/代码集合【DeepMind】

https://deepmind.com/research/open-source/

鸟叫声数据集【xeno-canto】

http://www.xeno-canto.org

Wolfram数据集仓库

https://datarepository.wolframcloud.com

大型音乐分析数据集FMA

https://github.com/mdeff/fma

(300万)Instacart在线杂货购物数据集【Jeremy Stanley】

https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2

用于欺诈检测的合成财务数据集【TESTIMON】

https://www.kaggle.com/ntnu-testimon/paysim1

NSynth：大规模高质量音符标记音频数据集

https://magenta.tensorflow.org/datasets/nsynth

LIBSVM格式分类/回归/多标签/字符串数据集

https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html

笔记本电脑用logistic回归拟合100G数据集【DmitriySelivanov】

http://dsnotes.com/post/2017-02-07-large-data-feature-hashing-and-online-learning-part-2/

StackExchange近似/重复问题数据集

http://nlp.cis.unimelb.edu.au/resources/cqadupstack/

2010-2017最全KDD CUP赛题回顾及数据集

http://suo.im/2kRoQ1

食谱数据集：带有评级、营养及类别信息的超过2万种食谱【HugoDarwood】

https://www.kaggle.com/hugodarwood/epirecipes

奥斯卡数据集【Academy of Motion Picture Arts and Sciences】

https://www.kaggle.com/theacademy/academy-awards

计算医疗库：(TensorFlow)大型医疗数据集分析与机器学习建模【AkshayBhat】

https://github.com/AKSHAYUBHAT/ComputationalHealthcare

聚类数据集

https://cs.joensuu.fi/sipu/datasets/

官方开放气候数据集

https://pan.baidu.com/s/1i52Xarb

全球恐怖袭击事件数据集【START Consortium】

https://www.kaggle.com/START-UMD/gtd

七个机器学习时序数据集

https://machinelearningmastery.com/time-series-datasets-for-machine-learning/

大型众包关系数据库自然语言查询语义解析数据集(8万+查询样本)

http://t.cn/RNMr09n

赛马赔率数据集

http://t.cn/RNf0tXN

新的YELP数据集：包含470万评论和15.6万商家

http://t.cn/RNG6JYi

JMIR数据集专刊《JMIR Data》

http://t.cn/RCIhmvS

用于评价监督机器学习算法的基准数据集

https:// github.com/EpistasisLab/penn-ml-benchmarks

人口普查收入数据集分类

https:// github.com/dformoso/sklearn-classification

日文木版印刷文字识别数据集

http://t.cn/RCZPfYB

多模态二元行为数据集

http://t.cn/RCzFn1g

(TensorFlow)AudioSet音频事件数据集分类模型

GitHub: tensorflow/models/tree/master/audioset

Facebook星际争霸游戏数据集

(TorchCraft可读/365GB/6万多场次/15亿帧画面/近5亿用户操作)

http://t.cn/R9j8AUM

机器学习论文/数据集/工具集锦(日文)

http://t.cn/RKV7x2A

机器学习公司的十大数据搜集策略

http://t.cn/R54rtvd

NLP数据集加载工具集

http://t.cn/RaYwYXl

日语相似词数据集

http://t.cn/RaVFV35

大规模人本完形填空(多选阅读理解)数据集

http://t.cn/Rac2Pey

高质量免费数据集列表

http://t.cn/R6B1aqa

《数据之美》自然语言数据集/代码

http://t.cn/hBOTM4

微软数据集MS MARCO，阅读理解领域的「ImageNet」

http://t.cn/RIMqGBK

AI2科学问答数据集(多选)

http://t.cn/RI5liwJ

常用图像数据集大全

（分类，跟踪，分割，检测等）

1. 搜狗实验室数据集：

http://www.sogou.com/labs/dl/p.html

互联网图片库来自sogou图片搜索所索引的部分数据。其中收集了包括人物、动物、建筑、机械、风景、运动等类别，总数高达2,836,535张图片。对于每张图片，数据集中给出了图片的原图、缩略图、所在网页以及所在网页中的相关文本。200多G

2. http://www.imageclef.org/

IMAGECLEF致力于位图片相关领域提供一个基准（检索、分类、标注等等） Cross Language Evaluation Forum (CLEF) 。从2003年开始每年举行一次比赛.

http://staff.science.uva.nl/~xirong/index.php?n=Main.Dataset

最近新增数据集

1. 开源生物识别数据。

地址：http://openbiometrics.org/

2. Google Audioset：扩展了 632 个音频分类样本，并从 YouTube 视频中提取了 2，084，320 个人类标记的 10 秒声音片段。

地址：https://research.google.com/audioset/

3. Uber 2B trip data：首次展示 2 百万公里的出行数据。

地址：https://movement.uber.com/cities

4. Yelp Open Dataset：Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。

地址：https://www.yelp.com/dataset

5. Core50：用于连续目标识别的新数据集和基准。

地址：https://vlomonaco.github.io/core50/

6. Kaggle 数据集。

地址：https://www.kaggle.com/datasets

7. Data Portal。

地址：http://dataportals.org/

8. Open Data Monitor。

地址：https://opendatamonitor.eu/

9. Quandl Data Portal。

地址：https://www.quandl.com/

10. Mut1ny 头部/面部分割数据集。

地址：http://www.mut1ny.com/face-headsegmentation-dataset

11. Github 上的优秀公共数据集。

地址：https://www.kdnuggets.com/2015/04/awesome-public-datasets-github.html

12. 头部 CT 扫描数据集：491 次扫描的 CQ500 数据集。

地址：http://headctstudy.qure.ai/

自然图像数据集

1. MNIST：手写数字图像。最常用的可用性检查。格式 25x25、居中、黑白手写数字。这是一项简单的任务——仅某部分适用于 MNIST，不意味着它有效。

地址：http://yann.lecun.com/exdb/mnist/

2. CIFAR10 / CIFAR100：32x32 彩色图像，10/100 类。虽然仍有趣却不再常用的可用性检查。

地址：http://www.cs.utoronto.ca/~kriz/cifar.html

3. Caltech 101：101 类物体的图片。

地址：http://www.vision.caltech.edu/Image_Datasets/Caltech101/

4. Caltech 256：256 类物体的图片。

地址：http://www.vision.caltech.edu/Image_Datasets/Caltech256/

5. STL-10 数据集：用于开发无监督特征学习、深度学习、自学习算法的图像识别数据集。像修改过的 CIFAR-10。

地址：http://cs.stanford.edu/~acoates/stl10/

6. The Street View House Numbers (SVHN)：Google 街景中的门牌号码。可以把它想象成复现的户外 MNIST。

地址：http://ufldl.stanford.edu/housenumbers/

7. NORB：玩具摆件在各种照明和姿势下的双目图像。

地址：http://www.cs.nyu.edu/~ylclab/data/norb-v1.0/

8. Pascal VOC：通用图像分割/分类——对于构建真实世界图像注释不是非常有用，但对基线很有用。

地址：http://pascallin.ecs.soton.ac.uk/challenges/VOC/

9. Labelme：带注释图像的大型数据集。

地址：http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

10. ImageNet：新算法的客观图像数据集（de-facto image dataset）。许多图像 API 公司都有来自其 REST 接口的标签，这些标签近 1000 类;WordNet; ImageNet 的层次结构。

地址：http://image-net.org/

11. LSUN：具有很多辅助任务的场景理解（房间布局估计，显著性预测（saliency prediction）等），有关联竞赛。（associated competition）。

地址：http://lsun.cs.princeton.edu/2016/

12. MS COCO：通用图像理解/说明，有关联竞赛。

地址：http://mscoco.org/

13. COIL 20：不同物体在 360 度旋转中以每个角度成像。

地址：http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php

14. COIL100：不同物体在 360 度旋转中以每个角度成像。

地址：http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

15. Google 开源图像：有 900 万张图像的网址集合，这些图像通过知识共享（Creative Commons）被标注成 6000 多个类别。

地址：https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

地理空间数据

1. OpenStreetMap：免费提供整个星球的矢量数据。它包含（旧版）美国人口普查局的数据。

地址：http://wiki.openstreetmap.org/wiki/Planet.osm

2. Landsat8：整个地球表面的卫星视角图，每隔几周更新一次。

地址：https://landsat.usgs.gov/landsat-8

3. NEXRAD：美国大气层的多普勒雷达扫描图。

地址：https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

我是深度学习图像的分割线

人工数据集

1. Arcade Universe：一个人工数据集生成器，图像包含街机游戏 sprite，如 tetris pentomino / tetromino。该生成器基于 O. Breleux 的 bugland 数据集生成器。

地址：https://github.com/caglar/Arcade-Universe

2. 以 Baby AI School 为灵感的数据集集合。

地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAISchool

3. Baby AI Shapes Dataset：区分 3 种简单形状。

地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIShapesDatasets

4. Baby AI Image And Question Dataset：一个问题-图像-答案数据集。

地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIImageAndQuestionDatasets

5. Deep Vs Shallow Comparison ICML2007：为实证评估深层架构而生成的数据集。

地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/DeepVsShallowComparisonICML2007

6. MnistVariations：在 MNIST 中引入受控变化。

地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/MnistVariations

7. RectanglesData：区分宽矩形和垂直矩形。

地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/RectanglesData

8. ConvexNonConvex：区分凸形和非凸形状。

地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/ConvexNonConvex

9. BackgroundCorrelation：嘈杂 MNIST 背景下相关度的控制

地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BackgroundCorrelation

人脸数据集

1. Labelled Faces in the Wild：13000 个经过裁剪的人脸区域（使用已经用名称标识符标记过的 Viola-Jones）。数据集中每个人员的子集里包含两个图像——人们常用此数据集训练面部匹配系统。

地址：http://vis-www.cs.umass.edu/lfw/

2. UMD Faces：有 8501 个主题的 367，920 个面孔的带注释数据集。

地址：http://www.umdfaces.io/

3. CASIA WebFace：超过 10，575 个人经面部检测的 453，453 张图像的面部数据集。需要一些质量过滤。

地址：http://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.html

4. MS-Celeb-1M：100 万张全世界的名人图片。需要一些过滤才能在深层网络上获得最佳结果。

地址：https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

5. Olivetti：一些人类的不同图像。

地址：http://www.cs.nyu.edu/~roweis/data.html

6. Multi-Pie：The CMU Multi-PIE Face 数据库。

地址：http://www.multipie.org/

7. Face-in-Action。

地址：http://www.flintbox.com/public/project/5486/

8. JACFEE：日本和白种人面部情绪表达的图像。

地址：http://www.humintell.com/jacfee/

9. FERET：面部识别技术数据库。

地址：http://www.itl.nist.gov/iad/humanid/feret/feret_master.html

10. mmifacedb：MMI 面部表情数据库。

地址：http://www.mmifacedb.com/

11. IndianFaceDatabase。

地址：http://vis-www.cs.umass.edu/~vidit/IndianFaceDatabase/

12. 耶鲁人脸数据库。

地址：http://vision.ucsd.edu/content/yale-face-database

13. 耶鲁人脸数据库 B。

地址：http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html

14. Mut1ny 头部/面部分割数据集：像素超过 16K 的面部/头部分割图像

地址：http://www.mut1ny.com/face-headsegmentation-dataset

我是深度学习视频的分割线

视频数据集

Youtube-8M：用于视频理解研究的大型多样化标记视频数据集。

地址：https://research.googleblog.com/2016/09/announcing-youtube-8m-large-and-diverse.html

文本数据集

1. 20 newsgroups：分类任务，将出现的单词映射到新闻组 ID。用于文本分类的经典数据集之一，通常可用作纯分类的基准或任何 IR /索引算法的验证。

地址：http://qwone.com/~jason/20Newsgroups/

2. 路透社新闻数据集：（较旧）纯粹基于分类的数据集，包含来自新闻专线的文本。常用于教程。

地址：https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

3. 宾州树库：用于下一个单词或字符预测。

地址：http://www.cis.upenn.edu/~treebank/

4. UCI‘s Spambase：来自著名的 UCI 机器学习库的（旧版）经典垃圾邮件数据集。根据数据集的组织细节，可以将它作为学习私人垃圾邮件过滤的基线。

地址：https://archive.ics.uci.edu/ml/datasets/Spambase

5. Broadcast News：大型文本数据集，通常用于下一个单词预测。

地址：http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC97S44

6. 文本分类数据集：来自 Zhang et al., 2015。用于文本分类的八个数据集合集。这些是用于新文本分类基线的基准。样本大小从 120K 至 3.6M 不等，范围从二进制到 14 个分类问题。数据集来自 DBPedia、亚马逊、Yelp、Yahoo！和 AG。

地址：https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

7. WikiText：来自维基百科高质量文章的大型语言建模语料库，由 Salesforce MetaMind 策划。

地址：http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

8. SQuAD：斯坦福问答数据集——应用广泛的问答和阅读理解数据集，其中每个问题的答案都以文本形式呈现。

地址：https://rajpurkar.github.io/SQuAD-explorer/

9. Billion Words 数据集：一种大型通用语言建模数据集。通常用于训练分布式单词表征，如 word2vec。

地址：http://www.statmt.org/lm-benchmark/

10. Common Crawl：网络的字节级抓取——最常用于学习单词嵌入。可从 Amazon S3 上免费获取。也可以用作网络数据集，因为它可在万维网进行抓取。

地址：http://commoncrawl.org/the-data/

11. Google Books Ngrams：来自 Google book 的连续字符。当单词首次被广泛使用时，提供一种简单的方法来探索。

地址：https://aws.amazon.com/datasets/google-books-ngrams/

12. Yelp 开源数据集：Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。

地址：https://www.yelp.com/dataset

我是深度学习文本的分割线

问答数据集

1. Maluuba News QA 数据集：CNN 新闻文章中的 12 万个问答对。

地址：https://datasets.maluuba.com/NewsQA

2. Quora 问答对：Quora 发布的第一个数据集，包含重复/语义相似性标签。

地址：https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

3. CMU Q / A 数据集：手动生成的仿真问/答对，维基百科文章对其难度评分很高。

地址：http://www.cs.cmu.edu/~ark/QA-data/

4. Maluuba 面向目标的对话：程序性对话数据集，对话旨在完成任务或做出决定。常用于聊天机器人。

地址：https://datasets.maluuba.com/Frames

5. bAbi：来自 Facebook AI Research（FAIR）的综合阅读理解和问答数据集。

地址：https://research.fb.com/projects/babi/

6. The Children’s Book Test：Project Gutenberg 提供的儿童图书中提取的（问题+背景、答案）对的基线。用于问答（阅读理解）和仿真查找。

地址：http://www.thespermwhale.com/jaseweston/babi/CBTest.tgz

情感数据集

1. 多领域情绪分析数据集：较旧的学术数据集。

地址：http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

2. IMDB：用于二元情感分类的较旧、较小数据集。对文献中的基准测试无法支持更大的数据集。

地址：http://ai.stanford.edu/~amaas/data/sentiment/

3. Stanford Sentiment Treebank：标准情感数据集，在每个句子解析树的每个节点都有细粒度的情感注释。

地址：http://nlp.stanford.edu/sentiment/code.html

推荐和排名系统

1. Movielens：来自 Movielens 网站的电影评分数据集，各类大小都有。

地址：https://grouplens.org/datasets/movielens/

2. Million Song 数据集：Kaggle 上元数据丰富的大型开源数据集，可以帮助人们使用混合推荐系统。

地址：https://www.kaggle.com/c/msdchallenge

3. Last.fm：音乐推荐数据集，可访问深层社交网络和其它可用于混合系统的元数据。

地址：http://grouplens.org/datasets/hetrec-2011/

4. Book-Crossing 数据集：来自 Book-Crossing 社区。包含 278,858 位用户提供的约 271,379 本书的 1,149,780 个评分。

地址：http://www.informatik.uni-freiburg.de/~cziegler/BX/

5. Jester：来自 73,421 名用户对 100 个笑话的 410 万个连续评分（分数从-10 至 10）。

地址：http://www.ieor.berkeley.edu/~goldberg/jester-data/

6. Netflix Prize：Netflix 发布了他们的电影评级数据集的匿名版；包含 480,000 名用户对 17,770 部电影的 1 亿个评分。首个主要的 Kaggle 风格数据挑战。随着隐私问题的出现，只能提供非正式版。

地址：http://www.netflixprize.com/

我是深度学习图表的分割线

网络和图形

1. Amazon Co-Purchasing：亚马逊评论从「购买此产品的用户也购买了……」这一部分抓取数据，以及亚马逊相关产品的评论数据。适合在网络中试行推荐系统。

地址：http://snap.stanford.edu/data/#amazon

2. Friendster 社交网络数据集：在变成游戏网站之前，Friendster 以朋友列表的形式为 103,750,348 名用户发布了匿名数据。

地址：https://archive.org/details/friendster-dataset-201107

语音数据集

1. 2000 HUB5 English：最近在 Deep Speech 论文中使用的英语语音数据，从百度获取。

地址：https://catalog.ldc.upenn.edu/LDC2002T43

2. LibriSpeech：包含文本和语音的有声读物数据集。由多个朗读者阅读的近 500 小时的各种有声读物演讲内容组成，包含带有文本和语音的章节。

地址：http://www.openslr.org/12/

3. VoxForge：带口音的清晰英语语音数据集。适用于提升不同口音或语调鲁棒性的案例。

地址：http://www.voxforge.org/

4. TIMIT：英语语音识别数据集。

地址：https://catalog.ldc.upenn.edu/LDC93S1

5. CHIME：嘈杂的语音识别挑战数据集。数据集包含真实、仿真和干净的录音。真实录音由 4 个扬声器在 4 个嘈杂位置的近 9000 个录音构成，仿真录音由多个语音环境和清晰的无噪声录音结合而成。

地址：http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

6. TED-LIUM：TED 演讲的音频转录。1495 个 TED 演讲录音以及这些录音的文字转录。

地址：http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

我是深度学习音频的分割线

音符音乐数据集

1. Piano-midi.de: 古典钢琴曲

地址：http://www.piano-midi.de/

2. Nottingham : 超过 1000 首民谣

地址：http://abc.sourceforge.net/NMD/

3. MuseData: 古典音乐评分的电子图书馆

地址：http://musedata.stanford.edu/

4. JSB Chorales: 四部协奏曲

地址：http://www.jsbchorales.net/index.shtml

其它数据集

1. CMU 动作抓取数据集。

地址：http://mocap.cs.cmu.edu/

2. Brodatz dataset：纹理建模。

地址：http://www.ux.uis.no/~tranden/brodatz.html

3. 来自欧洲核子研究中心的大型强子对撞机（LHC）的 300TB 高质量数据。

地址：http://opendata.cern.ch/search?ln=en&p=Run2011A+AND+collection:CMS-Primary-Datasets+OR+collection:CMS-Simulated-Datasets+OR+collection:CMS-Derived-Datasets

4. 纽约出租车数据集：由 FOIA 请求而获得的纽约出租车数据，导致隐私问题。

地址：http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml

5. Uber FOIL 数据集：来自 Uber FOIL 请求的纽约 4.5M 拾取数据。

地址：https://github.com/fivethirtyeight/uber-tlc-foil-response

6. Criteo 点击量数据集：来自欧盟重新定位的大型互联网广告数据集。

地址：http://research.criteo.com/outreach/

健康 &生物数据

1. 欧盟传染病监测图集。

地址：http://ecdc.europa.eu/en/data-tools/atlas/Pages/atlas.aspx

2. 默克分子活动挑战。

地址：http://www.kaggle.com/c/MerckActivity/data

3. Musk dataset: Musk dataset 描述了以不同构造出现的分子。每个分子都是 musk 或 non-musk，且其中一个构造决定了这一特性。

地址：https://archive.ics.uci.edu/ml/datasets/Musk+(Version+2)

政府&统计数据

1. Data USA: 最全面的可视化美国公共数据。

地址：http://datausa.io/

2. 欧盟性别统计数据库。

地址：http://eige.europa.eu/gender-statistics

3. 荷兰国家地质研究数据。

地址：http://www.nationaalgeoregister.nl/geonetwork/srv/dut/search#fast=index&from=1&to=50&any_OR_geokeyword_OR_title_OR_keyword=landinrichting*&relation=within

4. 联合国开发计划署项目。

地址：http://open.undp.org/#2016

你可能感兴趣的:(数据集,数据集)

1、快速上手 [代码级手把手解析diffusers库] Yuezero_ AIGC 人工智能深度学习
快速上手Pipeline内部执行步骤后续更新计划diffusers是HuggingFace推出的一个diffusion库，它提供了简单方便的diffusion推理训练pipe，同时拥有一个模型和数据社区，代码可以像torchhub一样直接从指定的仓库去调用别人上传的数据集和pretraincheckpoint。除此之外，安装方便，代码结构清晰，注释齐全，二次开发会十分有效率。diffusers使用
CentOS企业级文件服务器终极部署指南
方案对比与选择指南（企业级评估）技术方案详细对比表方案协议版本典型应用场景核心优势主要局限性NFSNFSv3/NFSv4.2高性能计算(HPC)、容器持久化存储、AI训练数据集共享内核级支持、RDMA协议支持、10μs级延迟、支持pNFS并行传输默认无加密、ACL管理复杂、Windows需额外客户端SambaSMB3.1.1企业办公协作、Hyper-V虚拟机存储、MicrosoftSQLServe
多模态实操第一弹：多模态AI是什么？能做什么？江凯吴杰多模态的尝试人工智能
多模态AI专栏第一期：多模态人工智能概述与应用你是否想过，AI如何像人一样同时"看、听、说"？本期专栏将带你深入了解多模态AI的核心原理、发展脉络、关键技术、典型应用，并为后续实战打下坚实基础。最后，我们将详细介绍本系列所用的ERIT数据集及其任务背景。目录1.什么是多模态AI？2.多模态AI的发展历程3.多模态AI的核心技术4.多模态AI的应用场景5.多模态AI的挑战与机遇6.专栏预告与ERIT
遥感云大数据在灾害、水体与湿地领域典型案例实践及GPT模型应用科研的力量生态遥感双碳 chatgpt GEE 卫星遥感数据
以EarthEngine（GEE）、PIE-Engine为代表全球尺度地球科学数据（尤其是卫星遥感数据）在线可视化计算和分析云平台应用越来越广泛。GEE平台存储和同步遥感领域目前常用的MODIS、Landsat和Sentinel等卫星影像、气候与天气、地球物理等方面的数据集超过80PB，同时依托全球上百万台超级服务器，提供足够的运算能力对这些数据进行处理。相比于ENVI等传统的遥感影像处理工具，G
【知识图谱构建系列1】数据集介绍几道之旅人工智能智能体及数字员工 Python杂货铺 AI 自建MCP 学习记录知识图谱
文章目录项目简介数据集简介数据集核心内容应用与影响小细节参考论文：hal.science/hal-04862214/项目地址：https://github.com/ChristopheCruz/LLM4KGC/项目简介我们所要学习的项目（LLM4KGC）聚焦于利用大语言模型（LLMs）实现从文本到知识图谱（Text-to-KnowledgeGraph,T2KG）的自动化构建，旨在探索高效可靠的知识
感知机学习 Collin_NLP 机器学习 Python
基本概念：感知机是二类分类的线性分类模型，对应于特征空间中将实例划分为正负两类的分离超平面，属判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面。感知机的定义：从输入空间Rn到输出空间{+1,-1}的函数映射:f(x)=sign(w*x+b)模型参数：w----权值向量b----偏置wx+b=0-----分离超平面方程数据集{(xi,yi)}with1给定训练集，正例x1=(3,3)x
KAIST数据集及使用草莓奶忻 SLAM基础 #SLAM数据集 ubuntu
文章目录KAIST复杂城市数据集KAIST数据集转换为rosbag1.将.gz.tar文件解压到其文件夹中2.克隆并构建此存储库3.使用路径和所需主题编辑配置文件4.为每种传感器类型创建一个rosbag文件5.将所有bag合并为一个参考KAIST复杂城市数据集KAIST-Urban-数据集-论文阅读数据集下载：ComplexUrbanDataset复杂城市数据集KAIST数据集转换为rosbag1
行为正则化与顺序策略优化结合的离线多智能体学习算法
离线多智能体强化学习（MARL）是一个新兴领域，目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展，多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战，仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战，中山大学计算机学院、美团履约平台技术部开展了学术合作项目，并取得了一些的成果，希望分享
深度学习目标检测之YOLOv3实战（二）训练自己的图像数据郎郎不会飞深度学习目标识别 python 深度学习
深度学习目标检测之YOLOv3实战（二）训练自己的图像数据数据集准备数据集预处理原demo修改数据集训练目标检测补充二零二零年的大年初一，给大家拜个年，祝大家鼠年吉祥，万事如意，趁着喜气，把Yolov3训练自己的数据过程，记录一下，共勉共进。同样，无人机搭载山狗拍摄的视频，目标检测的种类是模型tank和airplane，部分效果图镇贴：数据集准备首先需要将自己的数据集准备好，不同场景下的目标数据尽
面向大语言模型幻觉的关键数据集：系统性综述与分类法致Great 语言模型人工智能自然语言处理
面向大语言模型幻觉的关键数据集：系统性综述与分类法摘要大语言模型（LargeLanguageModels,LLMs）在自然语言处理的多个领域取得了革命性进展，但其固有的“幻觉”问题——即生成看似合理但与事实不符或与上下文无关的内容——严重制约了其在关键应用中的可靠性与安全性。为了系统性地评估、理解并缓解LLM的幻觉现象，学术界和工业界开发了大量多样化的数据集与基准。本文对大模型幻觉领域的关键数据集
AI测试方法二狗子82 ai 功能测试测试用例 AIGC
1.创建高质量的测试数据集为了验证标签的准确性，需要构建一个丰富的测试数据集。该数据集应包括多种场景和风格的输入文本：正常对话、非正式对话、含有拼写错误或语法问题的文本等。包括模棱两可或复杂情境的文本，看看模型是否能正确分类。确保数据集中有足够的标签种类分布，这样可以测试模型是否能应对不同类别的文本内容。2.多轮对话的上下文跟踪对于涉及多轮对话或长文本的情况，模型需要正确理解整个对话的上下文。例如
信息抽取数据集全景分析：分类体系、技术演进与挑战_DEEPSEEK 致Great 分类数据挖掘人工智能
信息抽取数据集全景分析：分类体系、技术演进与挑战摘要信息抽取（IE）作为自然语言处理的核心任务，是构建知识图谱、支持智能问答等应用的基础。近年来，随着深度学习技术的发展和大规模预训练模型的兴起，IE数据集呈现爆发式增长，其分析与评估对模型研发和领域迁移至关重要。本文基于对158个主流IE数据集的系统性梳理，首次提出“信息提取与命名实体识别数据集分类体系”。该体系涵盖8大类别（命名实体识别、关系提取
使用Ultralytics YOLO进行数据增强 alpszero YOLO计算机视觉应用 YOLO 人工智能机器学习
概述数据增强是计算机视觉领域的一项重要技术，它通过对现有图像进行各种转换，人为地扩展训练数据集。在训练深度学习模型时，数据增强有助于提高模型的鲁棒性，减少过拟合，并增强对真实世界场景的泛化。在训练计算机视觉模型的过程中，数据增强具有多种重要作用：扩展数据集：通过创建现有图像的变体，可以有效增加训练数据集的规模，而无需收集新数据。提高泛化能力：模型学会在各种条件下识别物体，使其在实际应用中更加稳健。
Python数据可视化-----制作全球地震散点图从未止步.. python python json 数据结构
为了制作全球地震散点图，我在网上下载了一个数据集，其中记录了一个月内全球发生的所有地震，但这些数据是以JSON格式存储的，因此需要用json模块来进行处理。查看JSON数据：首先我们先打开下载好的数据集浏览一下：你会发现其中的数据密密麻麻，根本不是人读的，因此，接下来我们将对数据进行处理，让它变得简单易读。importjson#导入json模块，以便于加载文件中的数据filename='eq_da
Python隐式反馈数据集库之implicit使用详解 Rocky006 python 开发语言
概要Implicit是一个专注于隐式反馈数据集的协同过滤推荐系统Python库，由BenFrederickson开发。与显式反馈（如用户明确给予的评分）不同，隐式反馈是指用户通过行为间接表达偏好的数据，如点击次数、浏览时长或购买历史。这类数据在实际应用中更为普遍，但也更难以处理。传统推荐系统如Surprise或LightFM虽然功能全面，但在处理大规模稀疏矩阵时性能不佳。Implicit库通过优化
FineWeb数据集 frostmelody 人工智能
FineWeb数据集根据您提供的文档链接，我将对FineWeb数据集进行全面解析。FineWeb是HuggingFace在2024年发布的一项革命性开源AI训练数据集，它通过提供高质量、大规模的数据，打破了AI训练数据的垄断局面。以下解析基于文档内容，分为几个核心部分：FineWeb的定义与规模、其重要性、主要突破点，以及制作过程的全貌。我会在相关部分嵌入文档中的图片，以增强理解。所有图片均来自文
Ultralytics YOLO 库介绍与使用指南东北豆子哥人工智能/机器学习 YOLO
文章目录UltralyticsYOLO库介绍与使用指南主要特点安装基本使用1.使用预训练模型进行推理2.训练自定义模型3.验证模型4.导出模型高级功能1.使用不同任务模型2.使用自定义数据集3.跟踪对象(结合ByteTrack)常见问题解决性能优化技巧UltralyticsYOLO库介绍与使用指南UltralyticsYOLO是一个流行的计算机视觉库，专注于实现和优化YOLO(YouOnlyLoo
KITTI数据集可视化实用教程及源码解析国营窝窝乡蛮大人
本文还有配套的精品资源，点击获取简介：本文详细介绍如何使用源码实现KITTI数据集的可视化，强调数据集可视化在计算机视觉领域的关键作用。重点介绍如何加载、处理和融合KITTI数据集中的图像和激光雷达数据，并通过可视化手段分析结果，包括图像点云投影、坐标转换、颜色映射等技术。读者将通过学习源码深入理解数据结构、文件格式，并定制化工具以满足特定项目需求。1.计算机视觉数据集可视化的重要性在计算机视觉领
Python全栈数据工程师养成攻略-全部代码实战详解国营窝窝乡蛮大人
本文还有配套的精品资源，点击获取简介：本攻略提供全面资源，帮助初学者系统掌握Python全栈数据工程师的核心技能，包括数据处理、分析、数据库管理及Web开发。攻略详细指导如何使用.gitignore保持项目整洁，通过README.md文档深入了解项目内容，以及如何操作data目录中的数据集和codes目录中的Python代码，实现从数据处理到Web应用构建的全流程。学习内容涵盖数据ETL、Pand
数据分析案例-全球表面温度数据可视化与统计分析艾派森数据分析信息可视化 python 数据分析数据挖掘
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
人脸识别常用数据集和Loss JL_Jessie 人脸识别深度学习
人脸识别数据集数据集的noise对训练效果的影响很大！很长一段时间MegaFace的效果都上不去，就是因为数据集噪声的原因。而且自己在训练人脸的时候，如果不对数据集的噪声和属性有一点了解，对训练结果可能会有误判，甚至越训练越差…在选择数据集的时候不要一味求大，有的时候选择一个noise比例极高的大数据集，效果还不如选择一个clean的小数据集呢，可以参见这篇论文TheDevilofFaceReco
【python】2.set集合一个玉米栗 python python
Set集合创建一个空集合使用set(),若创建的集合内元素有值可以使用creatset={'tom','arry','张三','李四'}集合内重复的元素会被自动去掉集合是无序的，可变类型的数据集合添加元素set.add('addname')-addname为要添加的元素set.remove():删除集合的元素set.update('添加元素包含字典，列表，集合'):向集合中更新元素set.clea
KAN-Transfomer——基于新型神经网络KAN的时间序列预测 MatpyMaster 时间序列付费专栏神经网络人工智能深度学习
1.数据集介绍ETT(电变压器温度)：由两个小时级数据集（ETTh）和两个15分钟级数据集（ETTm）组成。它们中的每一个都包含2016年7月至2018年7月的七种石油和电力变压器的负载特征。traffic(交通)：描述了道路占用率。它包含2015年至2016年旧金山高速公路传感器记录的每小时数据electrity（电力）：从2012年到2014年收集了321个客户每小时电力消耗。exchange
数据标注工具详解 Sally璐璐 ai 大数据
数据标注工具是构建高质量AI训练数据集的核心基础设施，其功能覆盖图像、文本、视频、音频、3D点云等多模态数据的标注与管理。以下从工具类型、核心功能、行业应用及技术趋势等方面进行系统介绍：一、主流数据标注工具分类与特性1.通用型标注平台LabelStudio由Heartex开发的开源工具，支持文本、图像、视频、音频及时间序列数据标注，可通过YAML自定义标注界面19。其内置质量控制机制（如标注审核、
Python实例题：基于 KNN 算法的手写数字识别
目录Python实例题题目要求：解题思路：代码实现：Python实例题题目基于KNN算法的手写数字识别要求：实现一个基于K-NearestNeighbors(KNN)算法的手写数字识别系统。支持以下功能：使用MNIST数据集训练和测试模型实现KNN分类算法可视化手写数字样本评估模型性能（准确率、混淆矩阵等）添加用户交互界面，允许用户绘制数字并进行识别。解题思路：使用sklearn加载MNIST数据
matplotlib 绘制热力图扶子 python matplotlib绘图代码 matplotlib python 经验分享热力图
1、功能介绍：使用了matplotlib和seaborn两个python库来创建并显示一个热力图。热力图是一种通过颜色变化来表示二维表格数据集中值分布的图形，适合用于展示矩阵数据或数据分析结果中的模式和趋势。2、代码部分：importmatplotlib.pyplotaspltimportseabornassnsimportnumpyasnp#设置中文字体plt.rcParams['font.sa
22种创新思路！今年必将是特征选择爆发的一年小唯啊小唯人工智能注意力机制特征选择
2025深度学习发论文&模型涨点之——特征选择特征选择是机器学习和数据挖掘领域中一个非常重要的步骤。它指的是从原始特征集合中挑选出对目标变量有较强预测能力的特征子集。在实际的数据集中，往往包含众多特征，但并非所有特征都对模型的性能有正面影响。例如在房价预测任务中，原始特征可能包括房屋的面积、房间数量、所在小区、周边配套设施等众多内容。通过特征选择，可以剔除一些无关的或者冗余的特征，比如可能存在的重
mot数据集_MOT数据集转化成VOC格式脚本(mot2voc) 飞啦不休 mot数据集
使用mmdetection检测框架进行相关的训练，由于MOT的数据集标注格式和检测常用的VOC以及COCO格式有很大的差距，因此用于检测任务的时候，需要将mot格式的数据集转化成VOC格式用于检测任务的训练，评估。HUST小菜鸡：将MOT17-Det数据集转成VOC格式zhuanlan.zhihu.com之前我写过一篇将MOT17转化成VOC格式的文章，但是该方法是一个分布的步骤，而且在实际操作过
python读取sas数据集_SASpy模块，利用Python操作SAS
SASpy模块打通了Python与SAS之间的连接。有了SASpy模块，我们就能够在Python中操控SAS。本文将首先介绍SASpy模块的一些基本方法，最后通过一个聚类分析的例子，来展示如何在Python中调用SAS的机器学习过程，以及对聚类结果的可视化。SASpy模块特点1、需要Python3.X及以上，SAS9.4及以上，需要Java环境；2、无论是本地SAS还是远程服务器上的SAS，都可以
说说自己Python 代码优化实践 chilavert318 大数据 linux 运维 python
今年上半年在外省做一个大数据相关的项目，在review项目组成员的代码时，发现一段处理大数据集的模块存在明显性能瓶颈：10万条数据的清洗流程耗时近20分钟，CPU占用率却始终在30%以下。深入分析后发现，看似简洁的Python代码背后，隐藏着诸多可以优化的细节——这并非个例，我们的程序在追求代码可读性时，往往忽略了Python特有的性能陷阱。今天抽点时间，从我实践中的代码就python开发，从内存
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1