linweidong

精心挑选的100多种机器学习数据集

毫无疑问，每个人都知道，学习数据科学和机器学习的唯一最佳方法是通过执行各种项目来学习它们。老实说，您周围有很多现实世界的机器学习数据集，即使您不必完成全面的数据科学或机器学习课程，也可以选择练习基础数据科学和机器学习技能。但是是的，数据科学和机器学习项目绝对没有其他选择。大多数数据科学和机器学习初学者做错的事情是，他们只是专注于学习许多理论概念，而等待太长时间才能启动专注于该概念的实际实现的机器学习/数据科学项目。毫无疑问，从理论上讲清楚您的机器学习概念总会很好，但是如果没有获得相关的实际经验，您就无法期望成为企业数据科学家或机器学习工程师。在此博客的此处，我们将为您提供100多个有价值的数据集，以供机器学习（特别是对于初学者）使用，这无疑将有助于验证您的基本数据科学和机器学习技能。

机器学习中的数据集是什么？
机器学习中的数据集是实例的集合（实例是指一行数据），这些实例都共享一些共同的特征和属性。为了使机器学习模型执行不同的动作，需要两种数据集–

训练数据集-送入机器学习算法进行训练的数据。

测试数据集或验证数据集–用于评估和测试机器学习模型正在正确解释的数据。

为什么需要机器学习数据集？
机器学习算法从数据中学习。机器学习算法可识别趋势，关系并根据为训练模型而提供的大量数据进行预测。因此，数据是机器学习中的金鹅。从机器学习模型中收集的见解与数据集一样好。对于机器学习项目而言，拥有大量且更好的训练数据可带来更好而准确的模型性能。可靠的机器学习数据集非常重要，并且在精确的机器学习模型的开发中起着至关重要的作用。

可在此处免费访问已解决的机器学习Python和R代码示例（这些已为您的项目准备使用）

在哪里可以找到用于机器学习的数据集？
有大量的免费和付费资源可用于机器学习数据集。公共机器学习数据集可帮助您入门的最受欢迎资源包括–

UCI或UC Irvine机器学习数据集存储库
AWS数据集
Google数据集搜索
数据政府
微软研究开放数据
卡格勒
世界银行
但是，对于数据科学和机器学习的初学者来说，从这些网站上提供的众多选项中进行选择可能会变得势不可挡。如果您想学习机器学习，则需要一个坚实的基础，这意味着用于机器学习项目的有趣数据集，以及一些可以使用这些免费数据集的很棒的项目构想。想知道在哪里可以找到免费和公共的机器学习数据集？别无所求……无论是零售，医疗保健，银行与金融，犯罪，还是其他任何类型的机器学习数据集，我们都精选了一系列顶级机器学习数据集，以帮助您使模型成功。

面向数据科学和机器学习从业人员的100多种机器学习数据集
机器学习数据集

我们汇总了一个以领域为中心的顶级机器学习数据集列表，其中包含对数据和可以使用特定数据集进行的项目的简短描述。

零售机器学习数据集
医疗保健机器学习数据集
银行和金融机器学习数据集
社交媒体机器学习数据集
犯罪机器学习数据集

机器学习的最佳零售数据集
机器学习的零售数据集
零售交易机器学习数据集
1）在线零售数据集（英国在线商店）

如果您热衷于预处理大型零售数据集，则可能希望查找这家英国的在线公司的交易数据，该数据可以出售独特的全场合赠品。分类和聚类具有超过500,000行和8个属性，是可以使用此数据集执行的最常见的关联机器学习任务。

Download Online Retail Dataset for Machine Learning

Interesting Machine Learning Project Idea using UK Online Retail Dataset– Perform Market Basket Analysis to identify the association rules between the products.

2）零售火箭推荐系统数据集

该数据集由真实世界电子商务网站的点击流数据组成，该网站具有有关客户行为的信息，例如添加到购物车信息，交易和点击以及有关417053个唯一商品的不同商品属性的信息。数据集具有事件数据文件，其中包含有关用户在特定时间戳下对产品执行的事件（添加到购物车，交易或视图）的信息。仅当用户进行交易时，事件数据文件中的“ transaction-id”列才具有值，否则为N / A。

Download Retail Rocket Recommender System Dataset for Machine Learning

Machine Learning Project Idea using Retail Rocket Machine Learning Dataset – Build a Recommender System to predict the transaction and event pattern of a visitor.

3）用于机器学习的Instacart订单数据集

这是另一个有趣的机器学习数据集，可处理200,000多个Instacart匿名客户的杂货订单，该数据集可用于处理大型零售数据。对于每个客户，数据集均包含购买产品的顺序中4到100个订单的数据以及一天中的星期几和小时数。 XGBoost，Word2Vec和Annoy是机器学习算法，彻底改变了Instacart客户如今购买杂货的方式。

Download Instacart Orders Kaggle Dataset

使用Instacart数据集的初学者的机器学习/数据科学项目创意

客户细分–建立基于关联的机器学习模型，以了解Instacart客户的多样化组合，并针对合适的客户群体以最大程度地提高盈利能力。
市场篮子分析–开发预测性市场篮子分析机器学习模型，以确定Instacart客户将再次购买哪些产品？
4）Olist的巴西电子商务数据集

该机器学习数据集由Olist商店的10万个客户订单数据组成，其中包括卖方信息，产品元数据，客户信息和客户评论的详细信息。

Download Brazilian E-commerce Public Kaggle Dataset by Olist

使用巴西电子商务数据集的数据科学/机器学习项目构想

电子商务产品评论分析–通过分析客户给出的产品评论中的文字对Olist商店出售的产品进行评分。
分析Olist客户的购买趋势，以根据客户当前购买的商品确定客户是否打算购买相关产品。
5）机器学习的超级市场数据集

该零售数据集具有超过1000行和17列，具有一家超市公司3个月的历史销售数据，并记录了该公司三个不同分支机构的数据。该零售数据集是任何类型的预测分析项目的理想选择。

Download Supermarket Kaggle Dataset for Machine Learning

机器学习的零售图像数据集

6）MVTec密集细分的超市图像数据集

由于培训数据数量有限，并且验证和测试集中的多样性很高，因此对于机器学习而言，这是一个具有挑战性的图像数据集。它具有在700个不同场景中采集的日常产品和杂货的21K高分辨率图像，并在与行业相关的设置中以高质量注释为所有对象实例提供了像素化标签。

Download MVTec D2S Retail Dataset for Machine Learning

使用MVTec D2S数据集的计算机视觉项目构想

该零售数据集可用于语义图像分割，以覆盖自动结帐，仓库或库存系统的实际应用。经典的深度学习CNN机器学习算法最适合在像素级别对图像中的产品进行分类，以简化结帐流程。

7）上下文中的通用对象（COCO）数据集

COCO数据集共有330,000张图像，超过200,000个标签，其中包含91个东西类别，80个对象类别，150万个对象实例以及25万具有关键点的人员-COCO数据集是最流行且最具挑战性的高质量计算机视觉数据集之一。该数据集代表了我们在日常生活中遇到的各种物体的图像，被认为是转移学习的理想检查点。它是训练计算机视觉模型的基础数据集。使用COCO计算机视觉数据集训练了任何计算机视觉模型后，您就可以使用任何自定义数据集进一步调整模型以学习其他任务。

Download COCO Dataset for Machine Learning

您可以使用COCO数据集进行哪种计算机视觉项目？

对象检测-使用COCO数据集执行最具挑战性的计算机视觉任务之一，即预测图像中不同对象的位置以及存在的对象的类型。

8）弗莱堡杂货数据集

弗赖堡食品杂货零售数据集包含5000张图像，其中包含25种不同的食品杂货，每个类别至少具有97张图像，这些图像已在不同杂货店的各个部门的实际环境中捕获。

Download Freiburg Groceries Dataset

使用弗莱堡食品杂货集的计算机视觉项目构想

您可以基于杂货产品的多类对象分类构建计算机视觉模型。可以进一步微调此模型，以建立无摩擦的商店体验，类似于流行的Amazon Go商店，而无需手动结帐。

9）时尚MNIST数据集

凭借10K测试示例，60K，培训示例以及10类零售产品，分辨率为28×28灰度通道图像，这是用于深度学习和计算机视觉的MNIST数据集的最佳替代产品之一。但是，这比直接替换更具挑战性。

Download Fashion MNIST Kaggle Dataset

使用Fashion MNIST数据集的计算机视觉项目构想

通过使用Keras或TensorFlow训练简单的CNN从头开始构建模型，使用此数据集来享受您对服装分类的初体验。如果您想练习一种使用CNN机器学习算法解决图像分类问题的方法，则可以查找此数据集。

10）零售产品结帐数据集

在商店货架上有来自2000种不同产品类别的超过500,000张零售商品图像-就产品类别和产品图像数量而言，这是最大的零售图像数据集之一。

Download a Large-Scale Retail Product Checkout Kaggle Dataset

使用RPC数据集的计算机视觉项目构想

该数据集被广泛用于推进零售产品图像识别的研究，以进行自动货架审核和结帐。该数据集的高质量性质使其非常适合用于细粒度的零售产品图像分类。

是否想发展您的数据科学和机器学习技能？查看我们最新的端到端数据科学和机器学习项目以及源代码

客户评论用于机器学习的零售数据集
11）亚马逊客户评论数据集

从1995年到2015年，该机器学习数据集在数百万种产品上拥有超过130亿条客户评论，是机器学习，自然语言处理和信息检索领域的数据科学家和研究人员的福音，以了解客户体验。

Download Amazon Customer Reviews Dataset

12）妇女的电子商务服装评论数据集

这是一个匿名的数据集，因为它包含真实客户撰写的评论，并具有23486个带有10个不同功能变量的客户评论。该ML数据集提供了一个绝佳的环境，可用于解析多个维度的文本。

Download Women’s E-Commerce Clothing Reviews Dataset

13）宜家机器学习评论数据集

这是一个相当小的机器学习数据集，其中包含从Google Maps刮取的1300条最佳和最差的IKEA客户评论。这为情感分析提供了一个完美的初学者级数据集。

Download IKEA Reviews Kaggle Dataset

14）亚马逊和百思买电子产品评论数据集

该数据集专门针对百思买和亚马逊上提供的50种电子产品提供了7000多个在线评论。数据集包括审阅日期，标题，等级，来源，元数据和其他信息。

Download Amazon and Best Buy Electronic Product Reviews Dataset

15）多域情感数据集

这是一个多域数据集，包含来自许多产品类型的产品评论。超过10万条Amazon.com对产品，乐器，书籍和DVD的评论，评分介于1到5之间。

Download Multi-Domain Sentiment Kaggle Dataset

使用客户评论数据集的有趣的机器学习项目创意

使用NLP根据客户评论的内容预测收视率
研究客户反馈对产品购买过程的影响。您可以使用这些评论数据集来预测客户向其朋友推荐产品的可能性。
研究各种品牌的在线声誉。
对客户评论进行情绪分析，以识别用户对产品的情感（正面，负面或中立）。（评论情绪）
ProjectPro通过构建端到端的现实世界数据科学和机器学习项目来帮助学生学习实践技能。为有源代码的学生检查一些有趣的有趣的机器学习项目构想。

其他用于机器学习的零售数据集
16）来自维多利亚的秘密和其他组织的内衣数据

该数据集包含来自受欢迎的零售网站（如亚马逊，维多利亚的秘密，汉基·潘基，梅西百货，Btemptd，Nordstrom，American Eagle等）的600,000多种内衣产品的数据。

Download Innerwear Data from Victoria’s Secret and Others Kaggle Dataset

使用Innerwear Kaggle数据集的机器学习项目构想：

该数据集可用于分析泳装和内装产品的流行趋势。

17）电子商务项目数据

机器学习数据集包含500个SKU，以及服装品牌产品目录中的产品说明。

Download eCommerce Item Kaggle Dataset

使用电子商务项目Kaggle数据集的机器学习项目构想：

您可以使用Item数据进行的有趣的机器学习项目是构建产品推荐系统。

18）eBay在线拍卖数据集

该在线拍卖零售数据集包含拍卖信息，例如竞标价格，竞标时间，物品的拍卖价格，以及有关施华洛世奇珠子，卡地亚手表，Xbox游戏机和Palm Pilot M515 PDA的其他拍卖信息。

Download eBay Online Auctions Dataset

使用在线拍卖Kaggle数据集的机器学习项目构想：

建立机器学习模型以预测拍卖品的最终价格。从利润最大化的角度来看，预测拍卖品的最终价格对买卖双方都有利。

19）沃尔玛数据集

这是最佳的初学者级机器学习数据集之一，因为它具有最多的零售数据以及每个沃尔玛商店区域中的外部数据，例如失业率，燃料价格，CPI，是进行详细分析的理想选择。该Kaggle数据集包含2010年至2012年记录的45家沃尔玛商店的匿名历史销售数据。

Download Walmart Store Sales Kaggle Dataset

使用沃尔玛零售数据集的机器学习/数据科学项目构想

考虑假日和降价事件，消费者物价指数，季节变化以及其他影响产品销售的因素，建立一个机器学习模型来预测沃尔玛在全部门的销售。销售预测模型可帮助公司草拟有关如何满足未来需求和增加销售的计划。

20）男鞋价格数据集

该数据集包含10,000种男鞋的大集合，以及它们的销售价格，品牌名称，鞋名和其他信息。

Download Men’s Shoe Price Dataset

使用鞋价数据集的机器学习/数据科学项目构想

使用此定价数据建立机器学习模型以-

确定奢侈品牌的品牌价值
确定定价策略
确定奢侈男鞋的趋势
确定鞋子的特定功能与价格变化之间的相关性。

机器学习的最佳医疗保健数据集

用于机器学习的医疗保健数据集

1）OSIC肺纤维化进展

开源影像协会医疗保健数据集包括200例匿名的肺部基线CT扫描以及其他相关临床信息，例如基线强迫生命系数，患者性别，年龄，基线扫描后的相对周数，吸烟状况等。

Download OSIC Pulmonary Fibrosis Progression Dataset

使用OSIC Kaggle数据集的数据科学/机器学习项目构想

您可以建立机器学习模型来预测患者肺功能下降的严重程度。

2）APTOS 2019失明检测

这是在各种成像条件下捕获的眼底摄影视网膜图像的多样化且广泛的数据集。根据糖尿病性视网膜病变的严重程度，每张图片的临床评分为0到4。

Download APTOS 2019 Blindness Detection Kaggle Dataset

使用APTOS数据集的机器学习项目构想

在285万人中，有1/3患有糖尿病性视网膜病变。您可以使用此数据集建立一个机器学习模型，该模型可以在DR引起影响眼睛的并发症之前早发现DR，这将帮助数百万糖尿病患者失去视力。

3）超声神经分割数据集

这个Kaggle数据集包含5635张图像，其中的神经已由人工手动注释。它是具有挑战性的机器学习数据集之一，因为它具有减小的数据大小并且没有明显的结构特征。

Download Ultrasound Nerve Segmentation Dataset

访问带有源代码的该机器学习项目，以建立一个机器学习模型，该模型可识别超声图像中的神经结构，以分割称为臂丛（BP）的神经集合。

4）帕金森数据集

这是一个非常小的医疗数据集，大约需要39 KB的数据，并且可以对31位患者进行一系列生物医学语音测量，其中23位患有帕金森氏病。

Download Parkinson Dataset from UCI Machine Learning Repository

使用帕金森数据集的机器学习项目构想

每年印度有超过100万人受到帕金森氏病的影响。这种疾病是慢性的，无法治愈，甚至很难为医生早期诊断。您可以建立一个机器学习模型，以准确检测个体中帕金森氏病的早期发作，并基于多种因素来确定帕金森氏病患者是否健康。

5）英特尔和MobileODT宫颈癌数据集

该Kaggle数据集包含1481个训练图像和512个测试图像。考虑到此数据集的局限性，您可能必须应用各种数据增强技术来增加训练样本的数量。

Download Intel & MobileODT Cervical Cancer Dataset

使用英特尔和移动ODT宫颈癌数据集的深度学习项目构想

使用深度学习和图像分类的子宫颈类型分类-宫颈癌是致命的，但是如果在早期发现并进行适当治疗，对许多妇女来说可以挽救生命。您可以使用此Kaggle数据集构建深度学习模型，以对子宫颈类型（类型1，类型2和类型3）进行分类，以帮助医疗保健专业人员为全球女性提供更好的护理。对子宫颈类型进行分类将有助于医疗保健提供者提高女性子宫颈癌筛查的效率和质量。

6）乳房组织病理学图像数据集

实际数据集包含162个乳腺癌标本的幻灯片图像。从该数据集中提取了277,524个补丁，其中78786个属于阳性类别，而其余198、738个补丁属于阴性类别。

Download Breast Histopathology Images Dataset

使用乳房组织病理学图像数据集的深度学习项目构想

乳腺癌是最常见的癌症类型，在2018年经诊断的210万例乳腺癌病例中有627,000例死亡报告。在所有确诊的乳腺癌病例中，有80％属于浸润性导管癌（IDC）类型。早期准确诊断癌症有助于选择正确的治疗方案，并有助于提高癌症患者的生存率。您可以使用此数据集构建用于图像分类的深层CNN，以识别未标记的组织病理学图像中IDC的存在。这是一项重要的临床任务，为此，自动化模型肯定会节省时间并减少错误。

7）迷你DDSM数据集

最大的（45GB）公共乳腺摄影数据集之一，具有年龄属性，密度属性，患者的原始文件名，癌病灶轮廓二进制蒙版图像以及带有所有所需元数据的excel表。

Download Mini DDSM Kaggle Dataset

使用Mini DDSM数据集的机器学习项目

年龄估计具有多种临床应用，并且已经使用生物医学图像对人类年龄进行了一些研究。使用此数据集，您可以基于乳房X线照片图像中的胸肌段建立基于AI的模型来估计年龄。最重要的步骤是从乳房X线照片中分割胸肌，然后提取深度学习特征以建立年龄估计模型。

8）克利夫兰心脏病数据集

克利夫兰心脏病UCI数据集包含303个个体的数据，这些个体具有75个属性，其中14个属性，例如年龄，性别，静息血压，血清胆固醇，静息心电图，获得的最大心率，运动诱发的心绞痛以及其他可能的重要参数发生心血管疾病的主要危险因素。

Download Heart Disease Dataset

使用心脏病数据集的机器学习项目构想

心脏病是世界范围内死亡率和发病率的主要原因，仅在美国，每年就有61万例死亡。根据风险因素很难手动确定罹患心血管疾病的几率。在这里，机器学习可以极大地帮助您根据医疗保健行业产生的大量数据做出预测。您可以应用各种机器学习算法，例如SVM，朴素贝叶斯，XGBoost，决策树，随机森林，并使用克利夫兰心脏病机器学习数据集对它们进行比较，以预测某人是否患有心脏病。

9）行动预测数据集的机制

这是一个独特的机器学习数据集，由细胞活力数据和基因表达组成，可以访问超过5K药物的MoA注释。这个用于机器学习的数据集基于一种新颖的技术，该技术可测量人类细胞对数百种不同细胞类型池中药物的反应，从而消除了确定哪种细胞类型更适合任何给定药物的问题。

Download Mechanisms of Action (MoA) Prediction Kaggle Dataset

使用MoA预测数据集的机器学习项目构想

药物发现在疾病治疗的发展中起着至关重要的作用。机器学习被广泛用于理解疾病的潜在机制，临床标记，药物发现和验证。通过开发机器学习算法来基于药物的生物活性对药物进行分类，该数据集可用于促进药物开发。

10）世界卫生组织-医疗机器学习数据集的世界

不同国家/地区最值得信赖和最真实的医疗数据来源。通过针对霍乱，肺结核，流行性感冒和其他疾病等特定疾病的COVID -19数据和分析，世卫组织获得了全球卫生重点数据以及大多数卫生状况的趋势重点。

Download Healthcare Datasets for Machine Learning from WHO Repository

与医疗数据配合使用的其他有趣且有趣的机器学习项目创意

肺分割
糖尿病预测
接触追踪以阻止传染病的传播
癌症分类
个性化医学
预测慢性病
预测疾病暴发
分类图像数据（X射线，CT扫描等）以进行诊断护理。

最佳银行和金融机器学习数据集

机器学习的银行和金融数据集

1）桑坦德数据集

由于这是银行业务数据集，因此已被完全掩盖，仅包含数值。西班牙在线银行桑坦德银行提供了四个不同的数据集，以帮助他们使用机器学习解决各种业务挑战。

ownload Santander Customer Transaction Dataset

Download Santander Value Prediction Dataset

Download Santander Product Recommendation Dataset

Download Santander Customer Satisfaction

这些桑坦德银行数据集可用于构建端到端机器学习模型，以-

预测客户将来是否会与银行进行交易，而不管交易的金额如何。
预测客户是否会购买产品
预测客户是否有能力支付费用
预测客户是否对银行的服务感到满意。
2）房屋信贷违约风险数据集

该数据集包含7个不同的客户数据源-贷款申请数据，局数据，信用卡余额数据，以前的贷款申请数据，POS现金余额数据，EMI付款数据和局余额数据。

Download Home Credit Default Risk Kaggle Dataset

使用房屋信用违约风险Kaggle数据集的机器学习项目构想

建立机器学习模型以预测客户是否有能力偿还贷款。这些模型将帮助银行决定是否只对有能力偿还贷款的申请人批准贷款。

3）银行营业额数据集

该数据集包含针对银行的大约1万名客户的14个功能，其中20％是流失客户。

Download Bank Turnover Dataset

使用银行营业额数据集的机器学习项目

该数据集可用于预测客户流失，这是机器学习的最常见应用之一。您可以建立一个机器学习模型来预测客户是否会在未来6个月内退出银行的服务。预测客户流失将有助于银行制定保留活动和忠诚度计划以保留客户。

4）信用卡交易数据集

该欧洲信用卡数据集包含2013年9月在两天内发生的284、807笔交易和492笔欺诈交易（占所有交易的0.172％）。这是一个极具挑战性的数据集，因为它的数据不平衡，因为大多数这些交易不是欺诈性交易，因此很难检测到欺诈性交易。

Download Credit Card Fraud Transaction Kaggle Dataset

使用信用卡交易数据集的机器学习项目

信用卡欺诈是许多银行和信用卡公司的常见问题，因为大多数欺诈交易看起来与正常交易相似，并且每天在信用卡上完成大量交易，因此很难手动检测到欺诈行为。使用此金融机器学习数据集来识别欺诈性信用卡交易，以确保不会因客户未进行的交易向客户收费。

5）给我一些信用数据集

该数据集包含2008年为25万巴西借款人创建的历史数据，金融机构可以利用这些历史数据来预测信用评分并做出最佳的财务决策。

Download Give me Some Credit Kaggle Dataset

使用“给我一些信誉”数据集的机器学习项目构想

建立一个机器学习模型，以预测一个人在未来两年内遭受财务困扰的可能性。

6）两个西格玛数据集

该数据集由两个数据源组成，即Intrinio和Thomson Reuters。 Intrinio提供的培训市场数据大约有400万行，而路透社提供的培训新闻分析数据则有近900万行，使其成为可用于预测股价的最大数据集之一。

Download Two Sigma Dataset

使用两个Sigma Kaggle数据集的有趣的机器学习项目创意

股票价格通常由投资者的行为决定，而投资者则根据公共信息确定股票价格以预测股票市场的反应。在此，随着投资者对这些信息做出反应，财经新闻文章在影响股票价格方面起着至关重要的作用。该数据集可用于构建机器学习模型，以对与公司列表相关的新闻文章进行分类，并基于该模型预测那些公司的股价波动。

7）比特币历史数据集

该数据集包括从2012年1月到2020年12月的精选比特币交易数据，包括开盘价，最高价，最低价和收盘价的逐分钟更新，以及加权比特币价格，BTC量和指定货币。

Download Bitcoin Historical Dataset

使用比特币历史数据集的示例机器学习项目构想

使用此Kaggle数据集构建机器学习模型，以预测明天的比特币价格。人们可以探索使用LSTM模型来预测比特币价格。

8）简街市场数据集

如果您喜欢机器学习项目或想探索一些良好的股市数据，则此数据集可能是一个绝佳的合作机会。它包含带有匿名功能的真实股市数据，其中数据集中的每一行代表一个交易机会。

Download Jane Street Market Prediction Dataset

使用Jane Street市场预测数据集的建议的机器学习项目

使用Jane Street股票市场数据来构建定量交易机器学习模型，以使用来自全球证券交易所的真实股票市场数据来最大化回报。您还可以针对未来的实际股市数据测试机器学习模型的有效性。

9）Elo商家类别推荐

Elo是巴西的大型支付品牌，向借记卡和信用卡用户提供餐厅推荐，并根据他们的偏好提供折扣。该数据集包含有关每笔卡交易的信息，以及有关特定商人长达3个月的每张卡交易价值的数据，每张卡的新商人的交易详细信息，以及基于交易中涉及的各种商人的其他商人数据。卡交易。

Download Elo Merchant Category Recommendation Dataset

建议的Elo商家类别数据集机器学习项目

该数据集可用于查找这些促销对客户和商人有多有益。建立机器学习模型来预测客户的忠诚度分数，并帮助Elo了解客户的忠诚度，以便他们减少不必要的营销活动并为其用户创造正确的体验。

10）俄罗斯储蓄银行俄罗斯住房市场数据集

此数据集的训练数据包含有关俄罗斯最古老，最大的银行Sberbank的21000个真实交易的信息，而测试数据包含7K个真实交易以及有关该物业的其他信息。

Download Sberbank Russian Housing Market Kaggle Dataset

使用Sberbank俄罗斯住房市场数据集的机器学习项目构想

使用此丰富的银行数据集来开发机器学习模型，以预测实际房价，以便开发商，贷方和提供者在购买物业或签订租约时充满信心。这些数据还包括有关俄罗斯经济和金融部门的信息，这些信息可以帮助开发准确的模型而无需再次猜测。

探索其他100个主要的金融和经济数据集。

机器学习社交媒体数据集
用于机器学习的社交媒体公共数据集

1）Twitter美国航空情绪数据集

该社交媒体数据集具有14,640行和12个属性，并包含从Twitter刮取的美国各主要航空公司的推文。

Download Twitter US Airline Sentiment Dataset

ML项目建议的想法：使用机器学习的情感分类系统

您可以使用此数据集将航空公司的推文分类为肯定，否定或中性，以分析旅行者对航空公司的反馈。

2）Google Cloud和YouTube 8M数据集

由Google AI / Research在2016年开发的数据集，其中包含800万个YouTube视频（总计50万小时）和4.8K（每个视频平均3.4个标签）视觉标题。

Download YouTube 8M Dataset

使用YouTube 8M数据集的数据科学和机器学习项目构想

建立模型大小小于1GB的紧凑型视频分类，以学习视频表示形式。这将有助于推进视频级注释。
建立分类机器学习模型以准确分配视频标签。
3）COVID-19 Tweets数据集

这是一个多语言的推文数据集，包含超过10亿条推文，其中包含冠状病毒，病毒，covid，ncov19，ncov2019等关键字，并带有标签，提及，主题和其他信息。

Download COVID19 Tweets Dataset

使用COVID 19数据集的建议ML项目

使用数据挖掘，网络分析和NLP分析来自该数据集的推文集，以识别人们对大流行的反应以及反应随时间的变化。您还可以利用此ML数据集来收集有关大流行初期如何传输正确信息和错误信息的见解。

4）Yelp数据集

该数据集包含5,200,000条评论，其中包含来自4个国家/地区11个地区的1,74,000家企业的信息。

Download Yelp Kaggle Dataset

您可以使用此数据集进行哪些项目以进行机器学习？

使用NLP和情感分析来找出评论中正面或负面的含义，并推断出各种情感和业务属性的含义。

5）Twitter上的客户支持

Twitter上来自顶级品牌的300万条推文的数据集。

Download Customer Support on Twitter Dataset

我可以使用此ML数据集做什么项目？

机器学习犯罪数据集

1）旧金山犯罪分类

这是一个历史数据集，包含2003年至2015年旧金山地区的12年犯罪报告。数据包括犯罪发生的日期，犯罪时间，犯罪描述，地区，地址，位置坐标和解决方案。

Download San Francisco Crime Classification Dataset

使用犯罪分类Kaggle数据集的ML项目构想

建立端到端机器学习模型，根据事件发生的位置和时间来预测犯罪事件的类别。

2）伦敦犯罪数据集

该数据集由LSOA区，月份和次要/主要类别在2008年1月至2016年12月之间的犯罪报告组成，犯罪记录为1300万行。

Download London Crime Dataset

使用London Crime Kaggle数据集的建议项目

该数据可用于分析根据一周中的某天或某个季节的犯罪发生率是否发生任何变化，或确定特定犯罪在减少或增加的自治市镇。

3）印度犯罪

该数据集包含有关2001年国家犯罪数据的完整信息，分为40多个因素。

Download Crime in India Dataset

使用此数据集的分析建议项目

该数据集可用于分析印度的犯罪模式，例如虐待儿童案件，针对SC和ST的犯罪以及其他犯罪，以根据犯罪模式发现潜在的罪犯。

4）芝加哥犯罪数据集

来自芝加哥警察局的芝加哥犯罪数据集有699万行，具有22个属性。该数据集会随着犯罪事件不断更新。

Download Chicago Crime Dataset

使用Chicago Crime Dataset的机器学习项目构想

可以利用该数据集来构建模型，以分析温度对暴力犯罪（如殴打或殴打）的影响，确定同比增长最高的犯罪类别等。

5）波士顿数据集中的犯罪

数据集由波士顿警察局提供，其中包含2015年6月以来的犯罪类型，犯罪发生的时间和地点，犯罪描述，位置坐标以及其他信息。

Download Crime in Boston Dataset

该数据集可用于构建一个模型，以识别犯罪热点和犯罪的频繁发生时间。

获取多个大数据电子书：下载地址

你可能感兴趣的:(大数据开发)

月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
科锐国际（计算机类），汤臣倍健，中建三局，宁德时代，途游游戏，得物，顺丰，康冠科技24春招内推 weixin_53585422 c++算法 python java c语言
科锐国际（计算机类），汤臣倍健，中建三局，宁德时代，途游游戏，得物，顺丰，康冠科技24春招内推①汤臣倍健【内推岗位】：市场类、营销类、研发类、电商类、职能类、IT技术类、商业分析类、生产运营类【内推链接】https://sourl.cn/JSDhLU【推荐码】ES3W2T②科锐国际(OD项目组--计算机专场)【招聘岗位】软件开发工程师、软件测试工程师、大数据开发工程师、运维工程师等计算机类岗位，2
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
最新【JAVA问题解决方案】02，字节跳动大数据开发高级工程师 2401_84586779 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！publicvoidexcelTest(){Lists
HiveSQL一本通 - 案例实操，2024年最新大数据开发编程基础班疯狂的石头。程序员大数据
count(stu_id)stu_countfromscore_infogroupbycourse_idhavingstu_count>=15;（3）查询结果。course_idstu_count0119021903196.3.4查询结果排序和分组指定条件1.查询学生的总成绩并按照总成绩降序排序（1）思路分析。本题主要考查分组聚合和orderby关键字的使用。（2）查询语句。hive>select
Spark一些个人总结易逑实战数据大数据 spark big data scala
文章目录前言一、Spark是什么二、Spark用来做什么三、Spark的优势是什么四、为什么用Spark五、Spark解决了什么问题总结前言随着大数据技术的发展，一些更加优秀的组件被提了出来，比如现在最常用的Spark组件，基于RDD原理在大数据处理中占据了越来越重要的作用。在此我们探索了Spark的原理，以及其在大数据开发中的重要作用。一、Spark是什么Spark是一个用来实现快速，通用的集群
最全金融数据_PySpark-3(2)，大数据开发学习的三个终极问题及学习路线规划 2401_84185145 大数据面试学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化资料的朋友，可以戳这里获取frompyspark.ml.evaluationimportBinaryClassificationEv
Java 快速入门知识精简（1） Tangy范 Java java 开发语言
语言特点特点一：面向对象俩个基本概念：类，对象三大特性：封装，继承，多态特点二：健壮性去掉了指针，内存的申请与释放提供了相对安全的内存管理和访问机制特点三：跨平台性由JVM负责Java程序在系统中的运行JVMforUNIXJVMforWindowsJVMforMac应用领域：JavaWeb开发后台开发大数据开发Android应用程序开发：客户端开发知识结构编程语言核心结构：主要知识点：变量、基本语
大数据开发技术HBase优化与特点分析 at小白在线中大数据
高可用在HBase中Hmaster负责监控RegionServer的生命周期，均衡RegionServer的负载，如果Hmaster挂掉了，那么整个HBase集群将陷入不健康的状态，并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。关闭HBase集群（如果没有开启则跳过此步）[atguigu@hadoop102hbase]$bin/stop-hbase.sh在con
小白？转型？毕业生？外行学习快速入行大数据开发指南 weixin_45732643 Hadoop 大数据开发编程语言大数据大数据开发大数据学习 Hadoop 编程语言
大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段，处理的数据量通常是TB级，甚至是PB或EB级的数据，这是传统数据处理手段所无法完成的，其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等，汇集了当前IT领域热门流行的IT技术。大数据是什么？投资者眼里是金光闪闪的两个字：资产。比如，Facebook上市时，评估机构评定的有效资产中大部分都是其社交网站上的数据。如果把
大数据分析与大数据开发两者的区别是怎样的? 泰迪智能科技01 就业班大数据
大数据主要分为两个就业方向：①大数据开发②大数据分析大数据分析：主要负责现有数据价值提炼与挖掘，包括业务增长点挖掘，产品改进点挖掘，业务分析指标体系构建，业务分析报告出具等大数据开发：主要负责大数据平台与应用开发，包括数据仓库构建，离线计算、实时计算应用开发，大数据应用后端开发，企业数据标准制定等就业岗位薪资（平均月薪如下）大数据的培训目标是什么呢？大数据分析方向：从企业实际数据分析需求出发，满足
Python大数据学习day01——大数据开发概论笨小孩124 python 学习总结大数据学习 python
目录大数据概念大数据特点大数据应用场景大数据分析业务步骤大数据职业规划大数据学习路线1.大数据解决问题海量数据存储——海量数据运算——海量数据迁移2.大数据特点（大、多、值、快、信）数据体量大种类和来源多源化实现低价值密度速度快数据的质量准确可信3.大数据应用4.大数据分析步骤明确分析目的思路——数据收集——数据处理（ETL）——数据分析——数据展现——撰写报告5.大数据职业规划6.大数据学习路线
面试笔记8.24 励志秃头码代码面试职场和发展
项目你的项目中涉及大数据开发，那你的代码工程是怎么搭建的？正确答案：在我的项目中涉及大数据开发时，我通常会采用分布式的架构，比如使用Hadoop或者Spark等大数据处理框架。我会在集群中部署多台服务器，通过分布式计算和存储来处理大规模数据。解答思路：首先，我会搭建一个Hadoop或Spark集群，确保集群中的每台服务器都能正常通信。然后，我会编写MapReduce或Spark作业来处理数据，将数
大数据开发（Hive面试真题-卷二） Key-Key 大数据 hive 面试
大数据开发（Hive面试真题）1、举几个Hive开窗函数例子？什么要有开窗函数，和聚集函数区别？2、说下Hive是什么？跟数据仓库区别？3、Hive架构？4、Hive数据倾斜以及解决方案？5、Hive如果不用参数调优，在map和reduce端应该做什么？6、Hive的三种自定义函数是什么？实现步骤与流程？它们之间的区别？作用是什么？7、Hive分区和分桶的区别？8、Hive的执行流程？9、Hive
大数据开发（Kafka面试真题-卷一） Key-Key 大数据 kafka 面试
大数据开发（Kafka面试真题）1、请解释以下ApacheKafka是什么？它在大数据系统中的角色是什么？2、请解释以下Kafka的工作原理和它与传统消息队列服务的不同之处？3、解释以下ApacheKafka的作用以及它与常见消息队列系统（如RabbitMQ）之间的区别？4、如何使用ApacheKafka来实现实时数据流处理？5、Flinkcheckpoint和Kafkaoffset的关联是什么？
Java开发从入门到精通（七）：Java的面向对象编程OOP：常用API HACKNOE Java开发从入门到精通 java intellij-idea
Java大数据开发和安全开发（一）Java的常用API1.1Object类1.1toString1.1equals方法1.1对象克隆clone1.1Objects类1.1包装类1.1StringBuilder1.1StringBuffer1.1StringJoiner1.1Math、System、Runtime1.1BigDecimal1.1传统时间：Date日期类、SimpleDateForma
大数据开发（Spark面试真题-卷一） Key-Key 大数据 spark 面试
大数据开发（Spark面试真题）1、什么是SparkStreaming？简要描述其工作原理。2、什么是Spark内存管理机制？请解释其中的主要概念，并说明其作用。3、请解释一下Spark中的shuffle是什么，以及为什么shuffle操作开销较大？4、请解释一下Spark中的RDD持久化（Caching）是什么以及为什么要使用持久化？5、请解释一下Spark中ResilientDistribut
大数据开发（Spark面试真题-卷六） Key-Key 大数据 spark 面试
大数据开发（Spark面试真题）1、SparkHashPartitioner和RangePartitioner的实现？2、SparkDAGScheduler、TaskScheduler、SchedulerBackend实现原理？3、介绍下Sparkclient提交application后，接下来的流程？4、Spark的cache和persist的区别？它们是transformation算子还是ac
大数据开发（Hadoop面试真题-卷二） Key-Key 大数据 hadoop 面试
大数据开发（Hadoop面试真题）1、在大规模数据处理过程中使用编写MapReduce程序存在什么缺点？如何解决这些问题？2、请解释一下HDFS架构中NameNode和DataNode之间是如何通信的？3、请解释一下Hadoop的工作原理及其组成部分？4、HDFS读写流程是什么样子？5、Hadoop中fsimage和edit的区别是什么？6、Spark为什么比MapReduce更快？7、详细描述一
大数据开发（Hadoop面试真题-卷九） Key-Key 大数据 hadoop 面试
大数据开发（Hadoop面试真题）1、Hivecount(distinct)有几个reduce，海量数据会有什么问题？2、既然HBase底层数据是存储在HDFS上，为什么不直接使用HDFS，而还要用HBase?3、Sparkmapjoin的实现原理？4、Spark的stage如何划分？在源码中是怎么判断属于ShuffleMapStage或ResultStage的？5、SparkreduceByKe
我的创作纪念日 GoAI 程序人生人工智能 AI写作
机缘读大二的时候开始尝试记录学习笔记，刚开始再到仅仅为了对自己学习内容做回顾，后来发现可以帮助身边其他人，再到后来随着粉丝增多，陆续接到合作及平台邀请，期间自己的技术方向也从大数据开发转为算法领域，这一路走来并不容易，目前收获了一些粉丝的好评，粉丝数8w+，目前更新的文章大部分成为一个系列，方便大家学习，欢迎大家只需关注。收获目前获得了8w+粉丝的关注，公众号：GoAI的学习小屋获得140w+阅读
Java和人工智能哪个好？华清远见成都中心 java 人工智能开发语言
Java和人工智能哪个好？Java和人工智能开发的工资高低主要取决于具体的工作岗位、行业、经验和技能水平等因素，很难一概而论。一般来说，这两个领域的工资都比较不错，尤其是在大城市和知名公司工作的薪资更高。在Java开发方向，像Java后端开发、大数据开发、微服务架构师、云计算架构师等高级岗位，收入会相对较高。而在人工智能领域，像机器学习工程师、深度学习工程师、自然语言处理工程师、数据科学家等方向的
学习大数据开发，需要满足哪些条件？学历，性别，专业有限制吗？ yoku酱
给大家介绍一下关于零基础学习大数据需要哪些条件？首先我们在平时的工作中，经常有小白同学问学习大数据有学历限制吗？我是大专学历可以学习大数据技术吗？我没有计算机基础，可以学习大数据吗？大数据学习是不是很难，零基础能学会吗？我是女生，可以学习大数据技术吗？下面我们针对这些问题来一一作答！首先对于零基础的童鞋想参加大数据开发学习，需要：1、一些数学常识，尤其是想从事数据分析这一块，至少要了解常用计算模型
Hadoop+Spark+MongoDB+MySQL+C#大数据开发项目最佳实践 yiyidsj 大数据人工智能互联网 spark Hadoop MySQL 大数据开发大数据学习
一、前言随着IT技术的飞速发展，各行各业都已在广泛尝试使用大数据技术提供更稳健和优质的服务。目前，医疗IT系统收集了大量极具价值的数据，但这些历史医疗数据并没有发挥出其应有的价值。为此，本文拟利用医院现有的历史数据，挖掘出有价值的基于统计学的医学规则、知识，并基于这些信息构建专业的临床知识库，提供诊断、处方、用药推荐功能，基于强大的关联推荐能力，极大地提高医疗服务质量，减轻医疗人员的工作强度。二、
大数据开发之Sqoop详细介绍只是甲
备注:测试环境CDH6.3.1Sqoop1.4.7一.Sqoop概述ApacheSqoop（SQL-to-Hadoop）项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。用户可以在Sqoop的帮助下，轻松地把关系型数据库的数据导入到Hadoop与其相关的系统(如HBase和Hive)中；同时也可以把数据从Hadoop系统里抽取并导出到关系型数据库里。Sqoop是一个在结构化数据和Had
学习大数据要有这样的学习思路才行尚学先生
我们在系统学习大数据的之前，要先了解大数据开发是在什么系统平台下进行的。所以我们在学之前要先学习Linux的知识，这部分显得格外的重要。1、Linux学习学习如何使用VMware安装Linux镜像------认识linux的桌面环境、shell环境------在shell环境下进行文件系统的操作，掌握more、touch、cp、mv、rm等20多个常用命令------学习linux的网络管理，掌握
大数据开发 | 最流行的项目管理工具Maven 程序员不敲代码
什么是Maven？Maven是优秀的项目管理和构建工具，能让我们更为方便的来管理和构建项目，从最基础的环境配置，到maven核心知识点的应用。Maven简化和标准化项目建设过程。处理编译，分配，文档，团队协作和其他任务的无缝连接。Maven增加可重用性并负责建立相关的任务。Maven是干什么？Maven就可以帮你构建工程，管理jar包，编译代码，还能帮你自动运行单元测试，打包，生成报表，甚至能帮你
Java从入门到精通 nightluo 基础学习 java 开发语言
Java从入门到精通java快速入门java快速入门20240212，java快速入门学习目标：熟练掌握javaEE廖雪峰老师推荐的Java学习路线图如下：1、首先要学习JavaSE，掌握Java语言本身、Java核心开发技术以及Java标准库的使用；2、如果继续学习JavaEE，那么Spring框架、数据库开发、分布式架构就是需要学习的；3、如果要学习大数据开发，那么Hadoop、Spark、F
小白入门大数据，这一篇就够了弄潮大数据
大数据、人工智能(ArtificialIntelligence)像当年的石油、电力一样，正以前所未有的广度和深度影响所有的行业，现在及未来公司的核心壁垒是数据，核心竞争力来自基于大数据的人工智能的竞争。所以不论是计算机专业的程序员，还是非计算机专业准备转行计算机的跨行人员都想学习大数据，从事大数据开发工作。但是当你站在一个行业门外的时候，你更多的是看到他的价值和前景，这会促使你义无反顾地往里冲。但
一本Python爬虫的书，凭什么能畅销10W册程序员老冉 python 爬虫开发语言 pycharm 青少年编程
Python作为一种广泛应用的编程语言，在Web开发、大数据开发、人工智能开发和嵌入式开发等领域都有着重要的应用。Python的易学性、清晰性和可移植性等特点使它得到很多技术人士的喜爱。对于数据科学和机器学习领域的程序员来说，Python提供了强大的API和众多的库，使其成为数据科学和机器学习的首选语言。在Python的众多应用中，爬虫一直有着超高需求。这主要是因为Python具有简洁明了的语法和
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持