量子位

最强数据集集合：50个最佳机器学习公共数据集丨资源

原作 mlmemoirs
郭一璞编译
量子位报道 | 公众号 QbitAI

外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息，整理了一张50个最佳机器学习公共数据集的榜单，量子位为大家分享一下~

提前说两个须知：

寻找数据集の奥义

根据CMU的说法，寻找一个好用的数据集需要注意一下几点：

数据集不混乱，否则要花费大量时间来清理数据。

数据集不应包含太多行或列，否则会难以使用。

数据越干净越好，清理大型数据集可能非常耗时。

应该预设一个有趣的问题，而这个问题又可以用数据来回答。

去哪里找数据集

Kaggle：爱竞赛的盆友们应该很熟悉了，Kaggle上有各种有趣的数据集，拉面评级、篮球数据、甚至西雅图的宠物许可证。
https://www.kaggle.com/

UCI机器学习库：最古老的数据集源之一，是寻找有趣数据集的第一站。虽然数据集是用户贡献的，因此具有不同的清洁度，但绝大多数都是干净的，可以直接从UCI机器学习库下载，无需注册。
http://mlr.cs.umass.edu/ml/

VisualData：分好类的计算机视觉数据集，可以搜索~
https://www.visualdata.io/

好了，下面就是那50个数据集了，由于后期加上了一些补充，所以总数已经超过了50。

机器学习数据集

图片

Labelme：带注释的大型图像数据集。
http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

ImageNet：大家熟悉的ImageNet，女神李飞飞参与创建，同名比赛影响整个计算机视觉界。
http://image-net.org/

LSUN：场景理解与许多辅助任务（房间布局估计，显着性预测等）
http://lsun.cs.princeton.edu/2016/

MS COCO：同样也是知名计算机视觉数据集，同名比赛每年都被中国人屠榜。
http://mscoco.org/

COIL 100 ：100个不同的物体在360度旋转的每个角度成像。
http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

视觉基因组：非常详细的视觉知识库。
http://visualgenome.org/

谷歌开放图像：在知识共享下的900万个图像网址集合“已经注释了超过6000个类别的标签”。
https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

野外标记面：13000张人脸标记图像，用于开发涉及面部识别的应用程序。
http://vis-www.cs.umass.edu/lfw/

斯坦福狗子数据集：20580张狗子的图片，包括120个不同品种。
http://vision.stanford.edu/aditya86/ImageNetDogs/

室内场景识别：包含67个室内类别，15620个图像。
http://web.mit.edu/torralba/www/indoor.html

情绪分析

多域情绪分析数据集：一个稍老一点的数据集，用到了来自亚马逊的产品评论。
http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

IMDB评论：用于二元情绪分类的数据集，不过也有点老、有点小，有大约25000个电影评论。
http://ai.stanford.edu/~amaas/data/sentiment/

斯坦福情绪树库：带有情感注释的标准情绪数据集。
http://nlp.stanford.edu/sentiment/code.html

Sentiment140：一个流行的数据集，它使用160,000条预先删除表情符号的推文。
http://help.sentiment140.com/for-students/

Twitter美国航空公司情绪：2015年2月美国航空公司的Twitter数据，分类为正面，负面和中性推文。
https://www.kaggle.com/crowdflower/twitter-airline-sentiment

自然语言处理

HotspotQA数据集：具有自然、多跳问题的问答数据集，具有支持事实的强大监督，以实现更易于解释的问答系统。
https://hotpotqa.github.io/

安然数据集：来自安然高级管理层的电子邮件数据。
https://www.cs.cmu.edu/~./enron/

亚马逊评论：包含18年来亚马逊上的大约3500万条评论，数据包括产品和用户信息，评级和文本审核。
https://snap.stanford.edu/data/web-Amazon.html

Google Books Ngrams：Google Books中的一系列文字。
https://aws.amazon.com/datasets/google-books-ngrams/

Blogger Corpus：收集了来自blogger.com的681,288篇博文，每篇博文至少包含200个常用英语单词。
http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

维基百科链接数据：维基百科的全文，包含来自400多万篇文章的近19亿个单词，可以按段落、短语或段落本身的一部分进行搜索。
https://code.google.com/p/wiki-links/downloads/list

Gutenberg电子书列表：Gutenberg项目中带注释的电子书书单。
http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

Hansards加拿大议会文本：来自第36届加拿大议会记录的130万组文本。
http://www.isi.edu/natural-language/download/hansard/

Jeopardy：来自问答节目Jeopardy的超过200,000个问题的归档。
http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

英文垃圾短信收集：由5574条英文垃圾短信组成的数据集。
http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

Yelp评论：Yelp，就是美国的“大众点评”，这是他们发布的一个开放数据集，包含超过500万条评论。
https://www.yelp.com/dataset

UCI的Spambase：一个大型垃圾邮件数据集，对垃圾邮件过滤非常有用。
https://archive.ics.uci.edu/ml/datasets/Spambase

自动驾驶

Berkeley DeepDrive BDD100k：目前最大的自动驾驶数据集，包含超过100,000个视频，其中包括一天中不同时段和天气条件下超过1,100小时的驾驶体验。其中带注释的图像来自纽约和旧金山地区。
http://bdd-data.berkeley.edu/

百度Apolloscapes：度娘的大型数据集，定义了26种不同物体，如汽车、自行车、行人、建筑物、路灯等。
http://apolloscape.auto/

Comma.ai：超过7小时的高速公路驾驶，细节包括汽车的速度、加速度、转向角和GPS坐标。
https://archive.org/details/comma-dataset

牛津的机器人汽车：这个数据集来自牛津的机器人汽车，它于一年时间内在英国牛津的同一条路上，反反复复跑了超过100次，捕捉了天气、交通和行人的不同组合，以及建筑和道路工程等长期变化。
http://robotcar-dataset.robots.ox.ac.uk/

城市景观数据集：一个大型数据集，记录50个不同城市的城市街景。
https://www.cityscapes-dataset.com/

CSSAD数据集：此数据集对于自动驾驶车辆的感知和导航非常有用。不过，数据集严重偏向发达国家的道路。
http://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset

KUL比利时交通标志数据集：来自比利时法兰德斯地区数以千计的实体交通标志的超过10000条注释。
http://www.vision.ee.ethz.ch/~timofter/traffic_signs/

MIT AGE Lab：在AgeLab收集的1,000多小时多传感器驾驶数据集的样本。
http://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/

LISA：UC圣迭戈智能和安全汽车实验室的数据集，包括交通标志、车辆检测、交通信号灯和轨迹模式。
http://cvrr.ucsd.edu/LISA/datasets.html

博世小交通灯数据集：用于深度学习的小型交通灯的数据集。
https://hci.iwr.uni-heidelberg.de/node/6132

LaRa交通灯识别：巴黎的交通信号灯数据集。
http://www.lara.prd.fr/benchmarks/trafficlightsrecognition

WPI数据集：交通灯、行人和车道检测的数据集。
http://computing.wpi.edu/dataset.html

临床

MIMIC-III：MIT计算生理学实验室的公开数据集，标记了约40000名重症监护患者的健康数据，包括人口统计学、生命体征、实验室测试、药物等维度。
https://mimic.physionet.org/

一般数据集

除了机器学习专用的数据集，还有一些其他的一般数据集，可能很有趣~

公共政府数据集

Data.gov：该网站可以从多个美国政府机构下载数据，包括各种奇怪的数据，从政府预算到考试分数都有。不过，其中大部分数据需要进一步研究。
https://www.data.gov/

食物环境地图集：本地食材如何影响美国饮食的数据。
https://catalog.data.gov/dataset/food-environment-atlas-f4a22

学校财务系统：美国学校财务系统的调查。
https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

慢性病数据：美国各地区慢性病指标数据。
https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9

美国国家教育统计中心：教育机构和教育人口统计数据，不仅有美国的数据，也有一些世界上其他地方的数据。
https://nces.ed.gov/

英国数据服务：英国最大的社会、经济和人口数据集。
https://www.ukdataservice.ac.uk/

数据美国：全面可视化的美国公共数据。
http://datausa.io/

量子位补充一句，我国国家统计局其实也不错。
http://www.stats.gov.cn/

金融与经济

Quandl：经济和金融数据的良好来源，有助于建立预测经济指标或股票价格的模型。
https://www.quandl.com/

世界银行开放数据：全球人口统计数据，还有大量经济和发展指标的数据集。
https://data.worldbank.org/

国际货币基金组织数据：国际货币基金组织公布的有关国际金融，债务利率，外汇储备，商品价格和投资的数据。
https://www.imf.org/en/Data

金融时报市场数据：来自世界各地的金融市场的最新信息，包括股票价格指数，商品和外汇。
https://markets.ft.com/data/

Google Trends：世界各地的互联网搜索行为和热门新闻报道的数据。
http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0

美国经济协会：美国宏观经济数据。
https://www.aeaweb.org/resources/data/us-macro-regional

传送门

mlmemoirs：50个最佳机器学习公共数据集
https://medium.com/datadriveninvestor/the-50-best-public-datasets-for-machine-learning-d80e9f030279

子曰：世界上有三个互联网，美国互联网、中国互联网和欧洲互联网。

故其中有一些链接，需要先探究科学上网方式，再打开。

暂时手头没有工具怎么办？先收藏呀！

在最下边点“阅读原文”，可前往知乎版，有可戳的超链接。

— 完 —

加入社群

量子位AI社群开始招募啦，欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“交流群”，获取入群方式；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号（QbitAI）对话界面回复关键字“专业群”，获取入群方式。（专业群审核较严，敬请谅解）

活动策划招聘

量子位正在招聘活动策划，将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入，并希望你能有一些活动策划或运营的相关经验。相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

你可能感兴趣的:(最强数据集集合：50个最佳机器学习公共数据集丨资源)

TCP/IP协议族 dlz0836 网络 tcp/ip 网络协议
理解常见的网络协议，特别是TCP/IP协议族，对于网络通信的深入学习至关重要。TCP/IP协议族是支撑互联网通信的基础，涉及一系列协议来保证数据在网络上的正确传输。下面，我将对TCP/IP协议的工作原理进行深入浅出的讲解，分为多个部分来解释它的主要协议及其作用。一、TCP/IP协议族概述TCP/IP（TransmissionControlProtocol/InternetProtocol）是一个协
Linux 自旋锁不悔哥 linux 网络 tcp/ip c语言智能路由器
当内核发生访问资源冲突的时候，可以有两种锁解决方案：1.原地等待2.挂起当前进程，调度其它进程执行spinklock是内核中提供的一种比较常见的锁机制，自旋锁是“原地等待”的方式解决资源冲突的，即，一个线城获取看一个自旋锁后，另外一个线程期望获取该自旋锁，获取不到，只能够原地“打转”（忙等待）。由于自旋锁的这个忙等待的特性，注定了它的使用场景的限制-------自旋锁不应该被长时间的持有（消耗CP
自定义数据集使用scikit-learn中的包实现线性回归方法对其进行拟合灵封～ scikit-learn 线性回归 python
一、导入必要的库importpandasaspdfromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLinearRegressionfromsklearn.metricsimportmean_squared_error,r2_score二、加载自定义数据集#创建自定义数据集#假设我们有一个简单
使用scikit-learn中的KNN包实现对鸢尾花数据集的预测。灵封～ scikit-learn 机器学习人工智能
导入必要的库和数据集#导入鸢尾花数据集fromsklearn.datasetsimportload_iris#数据化可视包importpandasaspdfromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportMinMaxScaler,StandardScalerfromsklearn.neig
编程式路由导航的三种方法小野晨曦前端 javascript 开发语言
什么是编程式路由导航？编程式路由导航其实就是脱离实现路由跳转。//创建一个路由器，并暴露出去//第一步：引入createRouterimport{createRouter,createWebHistory,createWebHashHistory}from'vue-router';//引入一个一个可能要呈现的组件importHomefrom'@/pages/Home.vue'importNewsf
【如何获取股票数据01】Python、Java等多种主流语言实例演示获取股票行情api接口之沪深A股实时交易数据获取实例演示及接口API说明文档 Eumenides_max python java 开发语言
最近一两年内，股票量化分析逐渐成为热门话题。而从事这一领域工作的第一步，就是获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的主要任务是从这些数据中提炼出有价值的信息，为我们的投资策略提供有力的指导。在数据探索的旅途中，我尝试了多种方法，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花顺问财的爬虫，甚
TCP/IP协议：构建互联网的基石亿林数据 tcp/ip 网络协议网络
TCP/IP协议，（TransmissionControlProtocol/lntemetProtocol）即传输控制协议/网际协议，是互联网通信的基础协议。它由一系列协议组成，共同构建了一个可靠、高效的网络通信体系。TCP/IP协议不仅实现了计算机之间的数据传输，还确保了数据的完整性和可靠性，为互联网的各种应用提供了坚实的基础。TCP和IP协议不仅仅是两个协议，而是指一个由FTP、TCP、UDP
VUE之路由Props、replace、编程式路由导航、重定向三日沐水 vue vue.js 智能路由器前端
目录1、路由_props的配置2、路由_replaces属性3、编程式路由导航4、路由重定向1、路由_props的配置1）第一种写法，将路由收到的所有params参数作为props传给路由组件只能适用于params参数//创建一个路由器，并暴露出去//第一步：引入createRouterimport{createRouter,createWebHistory,createWebHashHistor
练习题 - Django 4.x File 文件上传使用示例和配置方法 Mr数据杨 Python Web开发 django sqlite 数据库
在现代的web应用开发中，文件上传是一个常见的功能，无论是用户上传头像、上传文档，还是其他类型的文件，处理文件上传都是开发者必须掌握的技能之一。Django作为一个流行的Pythonweb框架，提供了便捷的文件上传功能和配置方法。学习如何在Django中实现文件上传，不仅有助于提升编程技能，还能帮助我们更好地理解web应用的开发流程。本次练习题的设计目的是通过真实的生活实例帮助自学编程的用户掌握D
第30章测试驱动开发中的设计模式解析（Python 版） Tester_孙大壮测试驱动开发驱动开发设计模式 python
写在前面这本书是我们老板推荐过的，我在《价值心法》的推荐书单里也看到了它。用了一段时间Cursor软件后，我突然思考，对于测试开发工程师来说，什么才更有价值呢？如何让AI工具更好地辅助自己写代码，或许优质的单元测试是一个切入点。就我个人而言，这本书确实很有帮助。第一次读的时候，很多细节我都不太懂，但将书中内容应用到工作中后，我受益匪浅。比如面对一些让人抓狂的代码设计时，书里的方法能让我逐步深入理解
TCP/IP 协议：互联网通信的基石 froginwe11 开发语言
TCP/IP协议：互联网通信的基石引言TCP/IP协议，全称为传输控制协议/互联网协议，是互联网上应用最为广泛的通信协议。它定义了数据如何在网络上传输，是构建现代互联网的基础。本文将深入探讨TCP/IP协议的原理、结构、应用以及其在互联网通信中的重要性。TCP/IP协议概述定义TCP/IP协议是一套用于数据通信的协议集合，它包括了传输控制协议（TCP）和互联网协议（IP）等多个协议。这些协议共同构
Python中opencv的一些函数及应用灵封～ python opencv 开发语言
Sobel算子函数功能：Sobel算子用于计算图像的梯度（变化率），常用于边缘检测。它通过对图像应用一个基于一阶导数的滤波器来强调图像中的边缘部分，特别是水平和垂直方向上的边缘。通过计算图像的梯度，可以获得图像中亮度变化较大的地方，这些地方通常是物体的边界。Sobel算子有两个方向的变体：SobelX：计算水平方向的梯度。SobelY：计算垂直方向的梯度。Sobel算子函数：cv2.Sobel()
【代码随想录：数组】python3 zzzmy159 代码随想录 leetcode
数组Day1704.二分查找，27.移除元素704二分查找35搜索插入位置34在排序数组中查找元素的第一个和最后一个位置27移除元素：双指针977.有序数组的平方209.长度最小的子数组：最小滑窗904.水果成篮：最大滑窗59.螺旋矩阵IIDay1704.二分查找，27.移除元素704二分查找时间复杂度为O(logn)O(logn)O(logn)，空间复杂度为O(1)O(1)O(1)leetcod
Optional char parameter ‘questionNum‘ is present but cannot be translated into a null value fengfeng N 前端 javascript 数据库
Optionalcharparameter'questionNum'ispresentbutcannotbetranslatedintoanullvalueduetobeingdeclaredasaprimitivetype.Considerdeclaringitasobjectwrapperforthecorrespondingprimitivetype.报错信息如上，错误信息指出，当尝试将一个
Thymeleaf基础知识语法沐暖沐 thymeleaf 开发语言
1、简介Thymeleaf是⾯向Web和独⽴环境的现代服务器端Java模板引擎，能够处理HTML、XML、JavaScript、CSS、TEXT、RAW这六种模板。这六种模版模式包含两种标记模板模式（HTML和XML），三种⽂本模板模式（TEXT，JAVASCRIPT和CSS）和⼀个⽆操作模板模式（RAW）。①简单表达式变量表达式：${…}选择变量表达式：*{…}消息表达：#{…}链接URL表达式
机器学习入门——机器学习基本概念四月是你的机器学习
@机器学习什么是机器学习机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎简单来说机器学习就是机
python 应用开发日志工具包—— loguru 添财小哥 python 应用开发 python pip
一、简介Loguru是一个Python库，旨在让日志记录变得愉快。你是否曾因为懒得配置日志记录器而直接使用print()？…我有过，然而日志记录对于每个应用程序都是基本的，它简化了调试过程。使用Loguru，你没有理由不从一开始就使用日志记录，这就像导入fromloguruimportlogger一样简单。此外，这个库旨在通过添加一系列有用的功能来解决标准日志记录器的缺陷，从而减轻Python日志
工程化概述 WJP丶前端工程化实战前端工程化概述
工程化的定义和主要解决的问题前端工程化指遵循一定的规范，通过工具提升效率，降低成本的一种手段。前端日常开发遇到的问题想要使用ES6+新特性，但是兼容性有问题想要使用Less/Sass/PostCss增强css编程性，但是运行环境不能直接支持想要使用模块化的方式提高项目的可维护性，但是运行环境不能直接支持部署上线前需要手动压缩代码及资源文件、部署过程需要手动上传代码到服务器多人协作开发，无法硬性同一
JVM --- 类的生命周期 Wangwq. 八股文 JVM
一、类的生命周期加载-----》校验-----》准备-----》解析-----》初始化-----》使用-----》卸载二、类加载过程1、加载（1）主要工作：通过类的全限定名来获取定义此类的二进制字节流。将这个类字节流代表的静态存储结构转换为方法区的运行时数据结构。在堆中生成了一个代表此类的java.lang.Class对象，作为访问这些方法区的数据入口。（2）支持的两种类加载器：引导类加载器用户（
Python 一个脚本批量安装第三方库漫漫进阶路 Python Pycharm python
importos#引入os库，os是python自带的库definstall_packages():#将要批量安装的第三方库写进一个列表libs=["numpy","matplotlib","pillow","sklearn","scipy","requests","uvicorn","pyspider","beautifulsoup4","wheel","networkx","sympy","p
@Contended qq_31273845 spring java 后端
`@Contended`是Java8引入的一个注解，主要用于减少多线程环境下的伪共享（FalseSharing）问题。伪共享是由于缓存行的争用导致的性能问题，特别是在多核处理器上。###`@Contended`注解的作用-**减少伪共享**：当多个线程访问不同的变量，但这些变量位于同一个缓存行时，可能会引发伪共享问题。`@Contended`注解通过在变量之间插入填充字段，确保它们位于不同的缓存行
前端工程化都有哪些及优化方案光影少年前端前端框架基带工程
一、前端工程化的主要组成部分1.模块化模块化是将复杂的程序分解为若干小的独立模块，每个模块负责一个功能。常用的模块化方案包括：ES6模块（import/export）CommonJS（require/module.exports，Node.js中常用）AMD（define/require，如RequireJS）优化方案：尽量使用ES6模块，因为它是JavaScript的标准，支持更好的静态分析和T
Go语言中的Select Cxzzzzzzzzzz golang 开发语言后端
Select在Go语言中，select是一种用于处理多个通道操作的控制结构。它允许你同时监听多个通道上的通信操作（发送或接收），并根据哪个操作先完成来执行相应的代码块。select是Go并发编程中的一个重要工具，常用于实现超时、非阻塞通信和多通道选择等场景。select的基本语法select的语法类似于switch，但它用于通道操作。基本形式如下：go复制select{case<-ch1://当c
基于R-CNN深度学习的无人机目标检测系统：数据集、模型和UI界面的完整实现 2025年数学建模美赛 R-CNN检测系统深度学习 cnn 无人机计算机视觉目标检测人工智能
摘要随着无人机技术的迅猛发展，无人机在军事、农业、环境监测等多个领域的应用日益广泛。无人机目标检测系统的建设成为提升无人机自主飞行和环境感知能力的重要环节。本文将详细介绍如何构建一个基于深度学习的无人机目标检测系统，采用R-CNN（区域卷积神经网络）算法，通过用户界面设计和数据集处理，实现高效的目标检测功能。通过本项目，旨在为无人机目标检测提供一种可行的解决方案，并提高其在复杂环境下的工作效率。目
Python编程的最好搭档—VSCode 详细指南程序员朱鹏 vscode python 编辑器
刚学Python的同学可能会觉得每次写Python的时候都得打开Cmd有点烦躁，直接上手Pycharm的同学可能会觉得这软件太笨重了，晦涩难用。那么有没有省去打开CMD的步骤，又能弥补Pycharm笨重的特点的软件呢？——答案是VSCode.诞生于2015年的VSCode编辑器，现在可以说是目前最强的编辑器之一，在微软的背书下，比各位历史悠久的老大哥成长快得多，不到5年的时间里便坐到了市场占有率第
基于YOLOv8+PyQt5的密集人群计数检测系统人工智能教学实践 YOLO qt 目标检测
基于YOLOv8+PyQt5的密集人群计数检测系统是一个结合了目标检测算法与图形用户界面的项目，以下是相关介绍：【毕业设计参考】基于yolov8+pyqt5的密集人群计数检测系统.zip资源-CSDN文库系统概述该系统旨在实时分析某一区域内的人群数量与分布情况，将YOLOv8算法的高效目标检测能力与PyQt5框架的简洁直观界面相结合，能够实时捕获视频流，通过YOLOv8进行人群检测，并在用户界面中
dp题目总结（1）——基础 _So_Far_Away 算法动态规划
例题1数字三角形题目描述观察下面的数字金字塔。写一个程序来查找从最高点到底部任意处结束的路径，使路径经过数字的和最大。每一步可以走到左下方的点也可以到达右下方的点。738810274445265在上面的样例中,从7到3到8到7到5的路径产生了最大输入格式第一个行包含R(1usingnamespacestd;inta[1010][1010],ans=0;intn;//输入数塔层数nvoiddfs(i
python学习系列之logging(一、基础教程) Idea King python3
文章目录1.什么是日志？为什么需要日志？2.什么时候使用什么级别的日志？2.1日志的级别3.logging基础教程3.1输出到控制台3.2记录日志到文件3.3从多个模块记录日志3.4记录变量数据3.5修改日志输出的格式参考文献按照官方使用说明进行编写1.什么是日志？为什么需要日志？日志是对软件执行时所发生事件的一种追踪方式。软件开发人员对他们的代码添加日志调用，借此来指示某事件的发生。一个事件通过
python 基本知识达达玲玲 python 开发语言
Python：背景知识及环境安装什么是Python？Python是一种解释型、面向对象的高级编程语言。它的设计哲学强调代码的可读性和简洁性，因此被广泛应用于各种领域，包括：数据科学与机器学习：NumPy,Pandas,Matplotlib,Scikit-learn等库让Python成为了数据分析和机器学习的首选语言。Web开发：Django,Flask等框架提供了高效的Web开发解决方案。自动化：
hive视图与物化视图使用详解达达玲玲 hive hadoop 数据仓库大数据
Hive视图和物化视图都是在数据仓库中处理数据的概念。下面对Hive视图和物化视图进行详细解释：Hive视图：1.Hive视图是一个逻辑表，它是对基础表的查询结果的引用，被视为一个新表。2.视图可以简化复杂查询，隐藏复杂的逻辑，并将查询重用。3.视图不存储数据，而是在查询时动态地返回结果。4.视图可以基于单个表或多个表创建，也可以对其他视图创建。Hive视图的使用方式：1.创建视图：```sqlC
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他