antkillerfarm

知名数据集

知名数据集

MNIST

MNIST是一个手写字符集，也是学习深度学习和SVM的入门必备数据集。目前由Yann LeCun维护。网址：

http://yann.lecun.com/exdb/mnist/

MNIST是NIST的一个子集，包含了6万个训练样本和1万个测试样本。为了避免碎小文件的问题，所有的手写字符图片都被放到一个文件中。整个数据集包含4个这样的文件。它们的格式说明，实际上在官网就有，只是比较靠后面，容易被忽视。

Iris flower Data Set

Iris是一种叫做鸢尾的植物。Iris flower Data Set是Ronald Fisher在1936年的论文中给出的数据集。该数据集包含了三种鸢尾花的4个特征的样本集。Fisher基于该数据集，提出了linear discriminant analysis算法。

下图是该数据集的LDA图示。

这个数据集并没有专门的网站，但实际上大多数ML软件都自带该数据集，比如R、sklearn等。

参考：

https://en.wikipedia.org/wiki/Iris_flower_data_set

http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html

CIFAR-10

CIFAR-10是由Hinton的两个大弟子Alex Krizhevsky、Ilya Sutskever收集的一个用于普适物体识别的数据集。Cifar是加拿大政府牵头投资的一个先进科学项目研究所。

说白了，就是看你穷的没钱搞研究，就施舍给你。Hinton、Bengio和他的学生在2004年拿到了Cifar投资的少量资金，建立了神经计算和自适应感知项目。

这个项目结集了不少计算机科学家、生物学家、电气工程师、神经科学家、物理学家、心理学家，加速推动了DL的进程。从这个阵容来看，DL已经和ML系的数据挖掘分的很远了。

DL强调的是自适应感知和人工智能，是计算机与神经科学交叉。DM强调的是高速、大数据、统计数学分析，是计算机和数学的交叉。

CIFAR-10由60000张32*32的RGB彩色图片构成，共10个分类。50000张训练，10000张测试（交叉验证）。这个数据集最大的特点在于将识别迁移到了普适物体，而且应用于多分类（姊妹数据集CIFAR-10达到100类，ILSVRC比赛则是1000类）。

官网：

https://www.cs.toronto.edu/~kriz/cifar.html

参考：

http://www.cnblogs.com/neopenx/p/4480701.html

CNN训练Cifar-10技巧

ImageNet

ImageNet是由李飞飞等创建的一个计算机视觉系统识别项目，是目前世界上图像识别最大的数据库。

官网：

http://www.image-net.org/

需要注意的是，由于ImageNet的数据过于庞大，因此主页下载的数据文件，仅仅只是图片的URL而已。

PASCAL VOC

PASCAL VOC是一个标有物体类别和位置的图片库。

官网：

http://host.robots.ox.ac.uk/pascal/VOC/

2005～2012年期间，围绕着该数据集展开了Pascal VOC挑战赛。

MSCOCO

COCO数据集是微软团队获取的一个可以用来图像recognition+segmentation+captioning的数据集。

官网：

http://cocodataset.org/

UCI数据集

UCI大学有个专门提供数据集的网站：

http://archive.ics.uci.edu/ml/datasets

其中包含360+的数据集，实在是个宝库啊。

猫狗数据集

最早的宠物数据集，当属Ronald Fisher在1947年的论文中给出的数据集。它包含了144只猫的性别、体重和心脏重量。该数据集的地址：

https://github.com/mathisonian/datasets-cats

其他的宠物数据集还包括：

http://www.robots.ox.ac.uk/~vgg/data/pets/

VGG提供的图片数据集，有语义分割的标签。

https://www.kaggle.com/c/dogs-vs-cats/data

kaggle的猫狗图片数据集

http://vision.stanford.edu/aditya86/ImageNetDogs/

Stanford的狗图片数据集。

WMT

WMT数据集是一个多语种的机器翻译数据集。

官网：

http://www.statmt.org/

这里不仅包含数据，还包含了若干相关软件。

数据下载：

http://data.statmt.org/

合集

https://mp.weixin.qq.com/s/jezxjPZTnOXWca-VUpfslw

AI研发者福利！谷歌推出数据集搜索专用引擎Dataset Search

https://mp.weixin.qq.com/s/Kmq2tG5XQUO9k1pD3YW2oA

从文本处理到自动驾驶：机器学习最常用的50大免费数据集

https://mp.weixin.qq.com/s?__biz=MzA3NDIyMjM1NA==&mid=2649030010&idx=1&sn=76e0123bf24064c4cb1eb7acacac86fd

深度学习从“数据集”开始

http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics/1

100+诡异的数据集

https://mp.weixin.qq.com/s/NjJRSim8DLvKoI01PMkNfw

机器学习高质量数据集大合辑

http://www.sogou.com/labs/

搜狗实验室的网站可以下载很多NLP和图片识别方面的数据

https://mp.weixin.qq.com/s/ywjgVzEh8e7-lcUmIAtzCA

这是一份非常全面的开源数据集，你真的不想要吗

https://zhuanlan.zhihu.com/p/25138563

各领域公开数据集下载

https://mp.weixin.qq.com/s/_A71fTgwSyaW5XTAySIGOA

最强数据集集合：50个最佳机器学习公共数据集

https://mp.weixin.qq.com/s/Aatv0Q-Mfkkb75h_ZF8AIA

100大机器学习数据集，总有一款适合你！

https://mp.weixin.qq.com/s/484E_ycxQVwKOD6Lcpy-GQ

开放数据集

http://www.dataonthemind.org/data-resources/datasets

认知科学数据集大列表Center for Data on the Mind

https://mp.weixin.qq.com/s/0-gBsoxKaXZz7ojtFrGlvQ

史上最全数据集网站汇总

https://mp.weixin.qq.com/s/B-dEz-uUfjG1r98glkY3Fg

数据科学家必用的25个深度学习的开放数据集！

https://mp.weixin.qq.com/s/vaIhDnyQ7vh8kfrgCpXpQA

从医疗语音到灾难响应，这八大优质数据集快抱走

https://mp.weixin.qq.com/s/COnDB9EveANOBmCksCqoYg

微软内部研究数据集正式对外开放，覆盖NLP、CV等9个领域

https://mp.weixin.qq.com/s/4jhtCUtv_szfMvyDCWKvoQ

最强数据集50个最佳机器学习公共数据，可以帮你验证idea！

NLP

https://mp.weixin.qq.com/s/tewjGzfAVCKcG1dlURxyeg

MIT发布的10大自然语言处理数据集和语料库

https://github.com/candlewill/Dialog_Corpus/blob/master/README.md

用于对话系统的中英文语料

https://mp.weixin.qq.com/s/qh4evahPVjvZlzqan7RIKg

囊括欧亚非大陆多种语言的25个平行语料库数据集

https://mp.weixin.qq.com/s/37cUxUzcSZ_OgfuN_yTmlA

阅读理解与问答数据集

https://mp.weixin.qq.com/s/W48TlxSLPk2E2DuSzEidNA

免费文本语料训练数据集

https://mp.weixin.qq.com/s/K1eYjrrWuHu8JgWgoDliJw

百度的中文问答数据集WebQA

https://mp.weixin.qq.com/s/WfcFiRXBKAMqnDi5KFpIEA

百万级字符：清华大学提出中文自然文本数据集CTW

https://mp.weixin.qq.com/s/AdzBrseH3SOgo5BrbjWVpw

机器能做中/高考英语试题吗？

https://mp.weixin.qq.com/s/myg_PCdHB3DUtdA7ROmTOg

100+个自然语言处理数据集大放送，再不愁找不到数据！

https://mp.weixin.qq.com/s/eAqtNDT7LDdMg_41QWJ5iA

DuReader：百度大规模的中文机器阅读理解数据集

https://mp.weixin.qq.com/s/tENiB4P1--sD5B5r3Af16w

Chinese Word Vectors：目前最全的中文预训练词向量集合

https://mp.weixin.qq.com/s/S6KrNNz3TJQr8i3-fAZe-Q

今日头条新闻文本分类数据集

https://mp.weixin.qq.com/s/gAFNbMhatFVwnGmBEUFOQA

耶鲁大学发布自然语言处理资源引擎TutorialBank: 让NLP学习不再困难

https://mp.weixin.qq.com/s/WkDTGxWtgUMjpIoO4LkLRg

腾讯AI Lab开源800万中文词的NLP数据集

https://mp.weixin.qq.com/s/isUT--guYrsIWRXApcutrg

耶鲁大学11名学生标注完成大规模复杂跨域Text-to-SQL数据集Spider

http://universaldependencies.org/

一个依存语法方面的标注数据集。这类数据也叫做treebank数据，原因是依存语法生成的结果是一棵语法树。

https://mp.weixin.qq.com/s/7xFlELcm325Q6wEB5Pyphg

让AI学会刨根问底和放飞自我，斯坦福最新问答数据集CoQA

https://mp.weixin.qq.com/s/Rf3NAYlNMrcVythVA-90cQ

端到端对话模型新突破！Facebook发布大规模个性化对话数据库

https://mp.weixin.qq.com/s/LC6bJOsJczTLolQ1Yx5cvg

最全中华古诗词数据库:近14k唐宋古诗人, 55k首唐诗，60k宋诗

https://mp.weixin.qq.com/s/yZ138cMv4203wJdIY_0sUA

FAIR重磅发布大规模语料库XNLI：解决跨15种语言理解难题

https://mp.weixin.qq.com/s/RduLMsu599YRSsxd-mjX2A

最新任务型对话数据集大全

https://github.com/fighting41love/funNLP

40个中文NLP词库

https://mp.weixin.qq.com/s/KK7jCN5yN_TOrnNQWLuUNg

CMU多语种语音数据集：700多种语言的语音/文本对齐语料

https://mp.weixin.qq.com/s/xzHMzQ4uVBJaUR8b_KNptA

你说“神马”？非正式汉语数据集资源上线，帮你训练网络语言处理

CV

http://www.cvpapers.com/datasets.html

常见的cvpr研究的数据库下载链接

https://mp.weixin.qq.com/s/SKZhcd3QpoVMubTkD14iWw

Fashion-MNIST：替代MNIST手写数字集的图像数据集

https://niessner.github.io/Matterport/

全球最大的3D数据集公开了！标记好的10800张全景图

https://mp.weixin.qq.com/s/q2lsD4MSqQG-LqRmVjEHeg

图像配对数据集TTL：展现人类和机器判断图像相似性的差异

https://mp.weixin.qq.com/s/Y__z-0nxAZNuZsZefCm4IA

纽约大学联合谷歌大脑提出“COG”数据集，可提高系统的“视觉推理”能力

https://mp.weixin.qq.com/s/0D8OQ6hF_70mNtadewyGVw

全球最大的第一视角视频数据集开源，取自真实生活，还能提升厨艺

https://mp.weixin.qq.com/s/NXI9Bp4xxbZCQqAddK1HgA

Google开放最大目标检测数据集，还要为它举办AI挑战赛

https://mp.weixin.qq.com/s/DsBoGT2Pl4tRwHX8REOqnw

MURA：斯坦福ML团队开放的大型放射影像数据集与挑战赛

https://mp.weixin.qq.com/s/_wQoiC6ogcLWSEUFUGHd5g

Facebook，MIT等发布大规模卫星图像理解数据挑战赛DeepGlobe 2018

https://mp.weixin.qq.com/s/WPESySGMv_ehSt6oNUkVGg

视频语义显著实例分割数据集SESIV

https://mp.weixin.qq.com/s/fR8-zODLNp24nlR5dJ85Nw

3万患者11万图像14类病理：NIH公开大规模胸部X光数据集

https://mp.weixin.qq.com/s/d-fIQwMxHXTJvFWQUKHAvw

我用5000万组数据分析了“猜画小歌”

https://mp.weixin.qq.com/s/jOjiAAK1byUx8ic011f33w

2200万室内场景数据集，包含语义、全景、灯光等十余种效果

https://mp.weixin.qq.com/s/aw5o-1Bwc4hQUatehFFx2A

南京大学发布WebCaricature漫画人脸识别数据集

https://mp.weixin.qq.com/s/deJ6dChES_WhYH8T05ruag

腾讯AI实验室宣布开源多标签图像数据集ML-Images

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650750713&idx=5&sn=678eef1122d35c048a5fca8f22fa12c9

CIFAR-10+ImageNet=？CINIC-10！

https://mp.weixin.qq.com/s/Kxnvv1i0nvkg0vUDBlx6MA

向机器学习偏见开战：谷歌展示全球涂鸦数据集分析结果

https://mp.weixin.qq.com/s/vTnc55KAiGaFfktHPZctbw

捡漏！用谷歌图片搜索自制深度学习数据集

https://mp.weixin.qq.com/s/-NQa2VeuskDx5XN9WMCmPQ

腾讯开源业内最大多标签图像数据集，附ResNet-101模型

https://mp.weixin.qq.com/s/8nPfU72WocrDxToG6v5tIA

计算摄影学数据集汇总（一）

你可能感兴趣的:(知名数据集)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
目前哪里有卖高仿包包，推荐十个渠道已更新富腕表之家
1、工厂购买，推荐微信:【76929666】目前买的人最多的渠道。2、某宝购买，价格较高，质量没有保障。3、拼夕夕，价格是便宜，但是质量不敢想象。4、专柜购买，数量较少，经常断货，价格也太高不好接受。5、批发市场购买，可遇不可求，一般生活在批发市场附近的，根本不用考虑在哪里买高仿包包分几个级别？在当今的包类市场中，广州作为一个知名的货源地，已经成为高仿包行业的一个重要标志。随着市场的需求增加，高仿
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
Python多线程实现大规模数据集高效转移 sand&wich 网络 python 服务器
背景在处理大规模数据集时，通常需要在不同存储设备、不同服务器或文件夹之间高效地传输数据。如果采用单线程传输方式，当数据量非常大时，整个过程会非常耗时。因此，通过多线程并行处理可以大幅提升数据传输效率。本文将分享一个基于Python多线程实现的高效数据传输工具，通过遍历源文件夹中的所有文件，将它们移动到目标文件夹。工具和库这个数据集转移工具主要依赖于以下Python标准库：os：用于文件系统操作，如
COCO 格式的数据集转化为 YOLO 格式的数据集 QYQY77 YOLO python
"""--json_path输入的json文件路径--save_path保存的文件夹名字，默认为当前目录下的labels。"""importosimportjsonfromtqdmimporttqdmimportargparseparser=argparse.ArgumentParser()parser.add_argument('--json_path',default='./instances
《我的职业是小说家》 simple梦
《我的职业是小说家》：《我的职业是小说家》是村上春树前所未有的自传性作品，历时六年完成。一个人，写作三十五年，十三部长篇小说，超过五十种语言译本。虽然拥有享誉世界的知名度，但关于村上春树，许多事情始终包裹在神秘的面纱中：他是怎样下定决心走上职业小说家之路？对他来说，人生中幸福的事是什么？究竟如何看待芥川奖与诺贝尔文学奖……小说家看似风光，却是份孤独的职业。三十五年来，村上春树在孤独中编织着美妙动人
《拖延心理学》（一）你为什么会拖延？|木盒笔记纯se蓝调
《拖延心理学》是帮助你向拖延症宣战的一本书，作者简·博克和莱诺拉·袁是全球知名的拖延症治疗专家。大概每个人或多或少总会有一点拖延症的行为。比如明天要叫论文了，今天你还没有写好，你一边在焦虑症怎么办，一边又拿着手机漫无目的的刷新闻；比如你想了很久准备减肥，但是迟迟又没有行动，想着今天晚上少吃一点吧、明天我就开始运动。今天分析的笔记来告诉你“你为什么会拖延？”，解读人杨坚。有人说拖延就像巨大的泥沼，让
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
世界十大名牌皮鞋都适合什么性格的人？我信了你滴鞋
前面介绍了《世界公认的五大名鞋，穿过三个以上都是不一般的人》，大概讲了5大名鞋品牌的故事，受到广大读者的关注和讨论，因此在原来的基础上重新整理了世界十大知名皮鞋品牌及特点，揭开他们神秘的面纱，看看到底是哪些人在穿这些鞋子？他们为什么能被公认为是世界排名靠前的品牌？能进入十大名皮鞋的，制造的手工工艺已相近，不同的是品牌设计理念与鞋材选用。正因为每个品牌不同的设计理念，制造出不一样的美丽的产品，适合不
python编写直方图和饼图 2301_80421078 python 开发语言
1.直方图#直方图的绘制#语法格式：plt.hist(x,bins),其中x:数据集；bins:统计数据的分布区间importmatplotlib.pyplotaspltimportpandasaspd#导入文件excel=pd.read_excel('成绩.xlsx')#print(excel)#避免乱码plt.rcParams['font.sans-serif']=['SimHei']x=ex
Cut, Paste and Learn方法解读 wangxinwei2000 深度学习人工智能
Abstract问题背景：标注数据的缺乏：在实例检测任务中，部署物体检测模型的一个主要障碍是缺乏大量标注数据。例如，在一个特定的厨房环境中找到包含实例的大型标注数据集是不太可能的。每当面对新的环境和新的物体实例时，都需要进行昂贵的数据收集和标注工作。研究贡献：解决方法：本文提出了一种简单的方法，可以以最小的努力生成大量标注的实例数据集。关键洞察：研究者的关键洞察是，仅仅确保“局部真实感”（patc
Python中判断两个字符串的内容是否相同 songyuc 《Python学习笔记》Python
1前言今天在划分数据集的时候，需要判断两个字符串的内容是否相同，这个之前查过，不过好像忘记了，所以想着再记录一下～2Python中判断两个字符串的内容是否相同使用“==”符号进行判断，这个判断是根据字符串中字符的ASCII进行判断的；在判断字符串内容是否相同时，不能使用“is”进行判断，因为is是判断变量的内存ID（即使用函数id(a)获得变量的内存ID）是否相同；
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
春来了向往清灵
每天接送孩子，气温升了又降，降了又升，在我无视中周围不再是灰色，远观柳树已换上嫩绿的新妆，樱桃树也不再是花团紧簇，绿绿的小树芽也悄悄地从花蓓下钻出了头，不知名的树上第一批的树芽已长大变成一片片小树叶，树叶树枝中时不时晃动着红色的花苞。一切都在彰显：春天已经到了。
python画出分子化学空间分布（UMAP） Sakaiay python
利用umap画出分子化学空间分布图安装pipinstallumap-learn下面是用一个数据集举的例子importtorchimportumapimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfromsklearn.manifoldimportTSNEfromrdkit.Chemimport
大家在哪里买高仿包包，推荐6个最新渠道腕表鞋屋
大家在哪里买高仿包包，推荐6个最新渠道在如今的社会中，有许多人喜欢购买高仿包包。虽然真正的奢侈品价格昂贵，但是高仿包包的外观和品质却能够满足大多数人的需求。那么，大家想知道在哪里买高仿包包吗？下面就为大家推荐6个最新渠道。微信:97870758(下单赠送精美礼品)第一个渠道是线上购物平台。如今，互联网的发展让我们可以方便地在各大电商平台上搜索并购买高仿包包。一些知名的电商平台如淘宝、京东等都有很多
认识世界陈陈_19b4
9月16日，雨。阅读书目:《真相》。作者:瑞典统计学家和医学教授汉斯·罗斯林，他的儿子奥拉·罗斯林，google公共数据团队的负责人。汉斯·罗斯林还是一位全球知名的教育家，是世界健康组织和联合国儿童基金会的顾问。他与儿子儿媳共同创办了Gapminder基金会，开发了Trendalyzer软件，将国际统计数据转化成交互式的生动有趣的图表，帮助人们以事实为基础来观察世界，被称为“可视化数据之父”。图片
哪些网站用python开发 hakesashou python基础知识 python
国内的话，知乎，网易，腾讯，搜狐，金山，豆瓣这些属于用Python比较知名的。大型的项目的话，网易的许多游戏，腾讯的某些网站，搜狐的邮箱，金山的测试框架等等都是或多或少使用了Python。YouTube-视频分享网站，在某些功能上使用到python。Quora-社交问答网站。Google-谷歌在很多项目中用python作为网络应用的后端，如GoogleGroups、Gmail、GoogleMaps
8个莆田鞋购买渠道：试试这8个购买莆田鞋的平台美鞋之家
8个莆田鞋购买渠道：试试这8个购买莆田鞋的平台莆田鞋因其精细的工艺和逼真的仿造度受到了消费者的一致好评。那么，在市场上如何购买到正宗的莆田鞋呢？接下来我将为您介绍8个购买莆田鞋的平台。微信:676986923(下单赠送精美礼品)1.莆田鞋官方商城：作为莆田鞋的直销平台，买家可以在这里买到最新设计、最全款式的莆田鞋。而且，所有鞋款都直接从莆田工厂出货，确保了产品的质量。2.淘宝网：作为中国最知名的电
奇慧文化华日雁：行走于另类品牌传播策划的激情人生静雅子
华日雁原名陈浩，新锐品牌策划界代表性人物，厦门奇慧文化传播有限公司创始人，首席导师，曾任知名上市公司总裁。华日雁最常讲的一句话就是：品牌传播要敢于天马行空，要敢于无中生有，要敢于打破规则，同时要传递积极的社会正能量。这也是华日雁给自己的品牌策划生涯制定的最基本的创意底线和道德底线。奇慧文化创始人华日雁说华日雁的发展史就是一部传奇史一点儿也不为过，从一名普通的销售人员到创立自己的公司，到把公司成功于
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他