havef

实例示范( 泰坦尼克沉船数据分析之二)

欢迎关注公众号数据分析指北

数据分析指北 - 实例示范( 泰坦尼克沉船数据分析之二)

决策树了解下？也许它应该是你熟练掌握的第一个机器学习算法。

前期回顾：
泰坦尼克沉船数据分析之一)

其余相关：
基础( KNIME 基础模块之一 )
附录二 KNIME 使用基本介绍

Engraving by Willy Stöwer: Der Untergang der Titanic

微信公众号：数据分析指北

机器学习模型
决策树
- KNIME 中的决策树模块

好，我们已经对泰坦尼克沉船数据有了一个基本的了解，下一步我们将使用机器学习中的一个简单算法建立模型。看看能否通过模型预测一个人是否最终存活下来，并与事实进行对比。

机器学习模型

决策树

Decision Tree，决策树是一种机器学习中很常见的算法。它的目的是从特征中学习得到一个树形规则，并根据最终规则来预测目标变量的值。

在维基百科决策树的词条中有这样一个例子，小王是一个高尔夫球场的老板，他被雇多少临时工这件事搞的很心烦。如果来高尔夫球场的客户多，他就会需要更多的员工来服务客户；但是如果他雇佣了很多的员工，那天来的客户却不够多，那么他又得给这些人付工资。他观察到来高尔夫球场的客户和天气关系很大，于是就记录了天气状况与球场客户的数量，并找了专业人员构建了一个决策树模型，来帮助他决策今天要不要雇佣更多的临时工。最终他得到的模型是这样的：

高尔夫球场决策树模型

在这个模型的指导下，小王就可以在很多客人要来时，多雇佣一些临时工，反之亦然。

决策树模型有一些明显的优点和缺点，优点包括：
- 可解释性。可以看出上面的模型非常容易观察和解释，这是一个很大的优势，现今流行的深度学习模型在可解释性上就要比一些传统的模型差很多。
- 训练需要的数据少，等等。
缺点有：
- 模型很可能会过拟合，导致泛化性能差。当然现今有一些剪枝算法已经可以在一定程度上解决这个问题了。
- 模型可能是不稳定的，原始数据稍微有变化就可能导致产生一棵完全不同的树模型。一般通过决策树的集成来缓解这个问题。

拟合、过拟合、以及泛化性能这些概念，是机器学习中重要而且基础的概念。在这里简单举例说明，假设我们有部分数据，想通过这些数据构建一个函数（模型），数据在下图中以橘黄色点表示，那么你可能会构造出多种多样的模型，比如，构造出左边的一次函数 y=ax+b, 或是构造出中间的二次函数 y=ax2+bx+c 或是构造出最右边的三次函数 y=ax3+bx2+cx+d。

拟合、过拟合举例

那么究竟哪个函数更符合需求呢？这一般要看具体情况。在没有其他信息的情况下，单从上面的图来看，我们简单认为最左边的图是 underfitting(中文一般翻译为欠拟合的)，中间是正好的情况，最右边的是 overfitting（过拟合）的情况。对比使用最左边图中的一次函数模型给所有的点建模的情况，中间的二次函数建立的模型误差要更小。但对于最右边的模型来说，虽然它的总体误差要比中间的模型更小（因为它的曲线离所有点的距离都要比中间模型离所有点的距离近），但一般假设我们手头只有一部分数据，且这部分数据可能含有噪声，所以这个模型在所有数据的集合（包括我们没有采集到的数据）上总体误差要差一些，这个只通过了每一个现有的点的模型是一个过拟合的模型。对现有可见数据拟合程度较高，但扩展到未知数据时，拟合误差较高，这种情况我们就称这个模型泛化能力不够。泛化能力的英文称为 Generalization, 泛化性能强不强从英文意译过来其实就是指这个模型的通用性强不强。

有可能聪明的你会问，为什么不能认为中间和左边的模型都是 underfitting, 而最右边的模型是 Balanced 的呢？

如果能想到这个问题，那么恭喜你，我觉得你有非常优秀的批判性思维。没错，上面本来就是一个糊里糊涂的解释，因为如果你要了解一个模型究竟是过拟合、欠拟合还是刚刚好，你不仅需要知道一些具体的情况以及数据来源方面的专业知识（domain knowledge），你还要把所有数据分割成训练集、测试集两组（甚至还会有开发集，三组），然后分别在训练集中构建模型，在测试集中验证模型，最后选出刚刚好的模型。

如果你没有问出这个问题，那么也没有关系，因为你经过学习、训练，这些概念迟早会成为你日常工作生活中的一部分 =P。

上面是一个简单拟合、过拟合举例。对于我们上面所讲的决策树这个模型来说，它非常容易过拟合，例如：

决策树的过拟合举例

其中需要注意的点是，如果这天天气预报是晴，湿度是62，那么在前面的模型中，预测结果是有很多人会来玩；而在现在这个模型中，得到的预测结果是很少人来玩，后面这个模型在逻辑上可以认为是过拟合了。这个过拟合模型的产生有可能非常简单，比如，小王收集的数据里面，就有62，大家都没人来玩的情况，而这个数据，有可能只是因为这一天是春节，大家都在家和家人团聚这种特殊情况。当然，这种问题也许可以通过收集更多的数据来解决–发现只有偶尔几次湿度是62的情况没什么人来，在大多数情况下大家都是来的；有时这种问题是不能解决的–在某些情况下收集更多数据很困难。

在生活中，有时你会反思，对于一些事情，你想的过于复杂，这种情况就可以理解为 overfitting 了。孔子的学生子贡曾问孔子，子张和子夏哪个人更贤明？孔子回答，子张常常超过周礼的要求，而子夏常常达不到周礼的要求。子贡说，那是不是说超过周礼要求的子张更贤明一些呢？孔子答，过犹不及。其实也是同样的意思，underfiting 与 overfitting 都是效果一样，不合格的。

因为决策树模型非常容易过拟合，所以对于初步构建好的决策树来说，剪枝（意如其名）算法对于它是非常重要的步骤。咦，不对，我们不是还没说如何构建决策树吗？没错，主要原因是这部分知识相对比较简单，只需要搞清楚基尼不纯度或 information gain 信息增益就基本可以了。

至于剪枝（Pruning），有前剪枝和后剪枝两类。前剪枝就是在树的构建时设定一个阈值，比如树的深度，如果树的深度超过了某一个值，我们就不再对此节点进行划分；后剪枝中的MDL（minimum description length）是 KNIME 的 decision tree 模块中可以选择的方法。

KNIME 中的决策树模块

KNIME的机器学习模块一般都分为两个部分，一部分是 XXXX Learner，一部分是 XXXX Predictor，Learner 学习到模型之后，把模型和测试数据再塞给 Predictor 就完成了一次学习与预测的过程。我们先来看 Decision Tree Learner。

KNIME 中的Decision Tree相关节点

在 Node Repository 中搜索 decision 之后，我们看到了一系列和 Decision Tree 相关的模块，有一些是一望可知的模块，比如 Decision Tree View（JavaScript），Decision Tree To Image用于输出 Decision Tree 图形，而带 Regression 字样的模块都是做回归的（上面演示的Decision Tree都是做分类的，也可以用它做回归）；还有一些都是 Ensemble 类型的算法，所谓 Ensemble（集成）就是训练多个分类器，然后把这些分类器组合起来，达到更好的预测性能，简单来说就是，三个臭皮匠，顶一个诸葛亮。各种 Boosting 以及 Random Forest 都属于集成学习的范畴，集成学习因为是多个分类器的组合，不容易过拟合，所以泛化性能相对来说就强一些，但由于是多个分类器的组合，所以在模型的可解释性方面要稍微弱一些。我们今天的主角 Decision Tree Learner 的配置如下：

泰坦尼克号船难的Decision Tree配置

通过其中 Class column 选出模型需要预测的列，Quality Measure 选择基尼不纯度或是熵都可以，这两者可以近似替代，我倾向于使用度量信息量的熵，Pruning method选择剪枝算法，MDL或是No Pruning（不选剪枝，不推荐），其余的，默认选项即可。

配置完成之后，即可对测试集数据进行训练，右键节点选择View: Decision Tree View获得如下决策树。

泰坦尼克沉船数据的Decision Tree结果

对于泰坦尼克沉船数据来说，在我们的简单配置下，学习得到的 Decision Tree 结果和上面预测打高尔夫球的决策树并没有什么不同，只是多了一些更详细的说明。从第一个根节点往下，首先判断的是 Sex，如果是 male 男性，那么直接预测他死亡（0），如果是 female 女性，先预测她活着，然后根据 SibSp (同在船上的兄妹及配偶的数量)以及 Parch（同在船上的父母或子女的数量）来进一步预测这个人的生存情况。但从逻辑上来看，生存与否的确和性别以及亲属的数量相关，模块学习得到的结果是符合预期的，也没有观察到过拟合的 Decision Tree 节点，所以这个粗糙的模型我们是认可的，可以做为其他机器学习方法的一个基准。我们现在还没有在另外的数据集上验证这个模型，但却已经认可了这个基准模型，这种情况是不多见的，这是可解释性模型的一个优点。

泰坦尼克沉船数据的Decision Tree View中的一个节点

让我们再仔细观察Decision Tree中的一个具体节点，来了解节点中的数据。其中0(320/397)代表了这个节点预测结果为0（死亡），落入这个节点的数据一共有397人，其中320人符合我们的模型预期。节点中部的 Table 部分描述了符合节点预测以及不符合节点预测的具体数据以及比例，节点下部的 Chart部分，以可视化的形式，描述了同样的数据。值得注意的是，因为在整个 workflow 中，在上游节点我们使用了 Color Manager 对数据进行标记（生存1标记为绿色，死亡0标记为红色），所以这里的可视化会非常的清晰明了。

我们接下来看一下这个模型在测试集上的效果。接入 Decision Tree Predictor 与 Scorer 模块，如下图所示：

预测测试集数据并进行评价

在数据进入 Decision Tree Learner 和 Decision Tree Predictor 之前，有一个叫做 Partitioning 的模块，这个模块是用来分割原始数据集的，我们把其中的一部分数据（通常称为训练集，大约占总数据百分之七十）送给 Learner 模块，把另外的一部分数据（通常称为测试集，大约占总数据百分之三十）送给 Predictor 模块，最后接入 Scorer 模块来考察模型在测试集上的表现。图中最右边是 Scorer 节点的模块配置。

模型评价结果

当运行完整个 Workflow 之后，我们右键 Scorer 模块，选择 View: Confusion Matrix，得到上面的评价结果。因为这是一个分类问题的模型，所以有实际为1预测为1、实际为1预测为0、实际为0预测为1、实际为0预测为0，这四种情况，将四种情况的数据按照矩阵列写就称为 Confusion Matrix。对于泰坦尼克这个具体问题来说，1和0的地位是平等的，所以只看左下角的 Accuracy （准确率）结果就可以。但对于某些问题来说，1和0的地位是不平等的，比如在癌症预测时，预测为癌症（假设为1）与没有癌症（假设为0）这两种预测结果来说，人的承受能力是不一样的，如果实际这个人没有癌症，但预测为有癌症，那么这个误诊不是那么严重，但如果实际这个人有癌症，但预测为没有癌症，耽误了最佳诊疗时间，那么这个误诊就比较严重了。在这种时候，看这个模型的准确率是没有太大意义的，需要另外设计其他指标进行模型评价。

我们没有做任何事情，只是把 Decision Tree 这么一摆，在自己划分的测试集上就获得了 79.8% 的准确率，如果原始问题是一个值得深入的问题，那么这个准确率就是我们接下来工作的 Baseline。要么用更高级的算法，要么收集数据，要么调整现有模型参数，这就是另外的话题了。

对于之前所说的 Kaggle 入门比赛来说，你需要把真正的测试集（而不是我们在这里划分的测试集）下载下来，然后将预测结果输出成 CSV，并上传到 Kaggle 网站上看你的最终结果。这部分作业，有兴趣的话，自己做咯。

至此，我们通过泰坦尼克沉船数据，已经从分析到预测走了一整个流程，也希望你能够静下心来自己做做看。

另外，虽然我们在整个过程中用的机器学习算法不是很 fancy, 也不够 state-of-the-art，但决策树这个模型，绝对值得成为你机器学习工具箱中的第一把有力工具。

如果想要实验一下泰坦尼克沉船数据的决策树例子，请关注公众号“数据分析指北”，回复“作业”获取下载链接。

回头聊

给赞是支持，转发是更大的支持

《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
网络通信流程记得开心一点啊服务器网络运维
目录♫IP地址♫子网掩码♫MAC地址♫相关设备♫ARP寻址♫网络通信流程♫IP地址我们已经知道IP地址由网络号+主机号组成，根据IP地址的不同可以有5钟划分网络号和主机号的方案：其中，各类地址的表示范围是：分类范围适用网络网络数量主机最大连接数A类0.0.0.0~127.255.255.255大型网络12616777214【(2^24)-2】B类128.0.0.0~191.255.255.255中
C++ lambda闭包消除类成员变量 barbyQAQ c++c++java 算法
原文链接：https://blog.csdn.net/qq_51470638/article/details/142151502一、背景在面向对象编程时，常常要添加类成员变量。然而类成员一旦多了之后，也会带来干扰。拿到一个类，一看成员变量好几十个，就问你怕不怕？二、解决思路可以借助函数式编程思想，来消除一些不必要的类成员变量。三、实例举个例子：classClassA{public:...intfu
阿里云服务器4核8G配置购买及价格类文章汇总（10篇）阿里云最新优惠和活动汇总
阿里云服务器4核8G配置如何购买？价格是多少？4核8G配置的阿里云服务器可以通过云服务器产品页购买也可以通过阿里云活动去下单购买，一般通过活动购买的用户比较多，但是不同实例规格的阿里云服务器价格不一样，带宽不同价格也不一样，本文为大家汇总了10篇关于阿里云服务器4核8G配置购买教程文章和价格类文章，分为购买类文章和价格类文章，以供大家参考如何购买阿里云服务器4核8G配置和最新优惠价格是多少。阿里云
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
Python编程 - 初识面向对象易辰君 Python核心编程 python 开发语言
目录前言一、面向对象二、类和对象（一）类简介定义类（二）对象简介创建对象（三）总结三、实例属性和实例方法（一）实例属性创建的基本语法使用示例（二）实例方法定义实例方法的基本语法调用示例方法的示例（三）总结四、类中的self（一）基本概念（二）作用访问实例属性调用其他实例方法在构造函数中初始化对象（三）总结五、__init__方法（一）__init__方法的特点（二）基本语法（三）示例（四）总结前言
郭生白中药方论之二(破除温凉寒热的框框) 本能学堂a昨年
离病说药茫茫然，对症下药不着边。顺势利导一乘法，排异调节渡法船。无限整合非模糊，模糊病区得清楚。共性之外求个性，亲和不生抗药性。温凉寒热巧方便，君臣佐使筏喻焉。药包大小折中看，毒性有无一念间。导读破除温凉寒热的框框寒热温凉是基于中药共性的传统分类药无寒热人有寒热药无寒热病有寒热抛弃温凉不并用的错误观念寒热温凉是基于中药共性的传统分类寒热温凉是个共性，是说的共性。这个共性，知道什么叫共性吗？所有的药
高性能javascript--算法和流程控制海淀萌狗
-for,while和do-while性能相当-避免使用for-in循环，==除非遍历一个属性量未知的对象==es5:for-in遍历的对象便不局限于数组，还可以遍历对象。原因：for-in每次迭代操作会同时搜索实例或者原型属性，for-in循环的每次迭代都会产生更多开销，因此要比其他循环类型慢，一般速度为其他类型循环的1/7。因此，除非明确需要迭代一个属性数量未知的对象，否则应避免使用for-i
【java】怎么理解不同对象实例的对象锁是互不干扰的晨春计 Android java
在Java中，synchronized关键字用于实现线程同步，它可以作用于实例方法、静态方法以及代码块。当synchronized应用于实例方法或实例变量时，它创建的是一个对象锁，这个锁是与特定的对象实例关联的。因此，每个对象实例都有其自己的锁。这里的关键点在于，对象锁是绑定到特定对象实例上的。这意味着对于不同的对象实例，即使它们属于同一个类，它们各自拥有独立的对象锁。当一个线程获取了一个对象实例
C#动态加载DLL程序集及使用反射创建实例-简记不全 C#相关 Asp.net WebForm Asp.net MVC c#Assembly 反射程序集
Assembly动态加载程序集：分两种情况：1、需要加载的程序集已经在程序中被引用了，则直接从当前程序域中查找即可：Assemblyassembly=AppDomain.CurrentDomain.GetAssemblies().FirstOrDefault(x=>x.GetName().Name.Contains("theAssemblyName"));2、需要加载的程序集未被加载，则使用程序集
丹青医姐：吐字归音丹青医姐
对于朗读者来说，吐字清晰，珠圆玉润，听起来温柔而坚定，也格外暖心。这就要靠唇舌力度和正确的吐字归音。唇舌力度可以靠口部操和绕口令来练习。而正确的吐字归音应该是叼住字头，字腹立起，字尾弱收，枣核形的吐字流程。字腹立起，这个知道，将口腔打开。而字头如何叼，字尾如何弱收，一直不明白，以致于怀疑自己的声音不能达到温柔而坚定。当我听了一个音频，老师示范了一下，才知道，字头应该有力饱满，字尾变弱收音，听起来字
六、全局锁和表锁：给表加个字段怎么有这么多阻碍 nieniemin
数据库锁设计的初衷是处理并发问题。作为多用户共享的资源，当出现并发访问的时候，数据库需要合理地控制资源的访问规则。而锁就是用来实现这些访问规则的重要数据结构。根据加锁的范围，MySQL里面的锁大致可以分成全局锁、表级锁和行锁三类。6.1全局锁全局锁就是对整个数据库实例加锁。MySQL提供了一个加全局读锁的方法，命令是Flushtableswithreadlock(FTWRL)。当你需要让整个库处于
linux下好用的任务管理器htop WittXie Linux linux 服务器运维
给大家推荐个好用的任务管理器htop，简直好用的不得了。完虐top。不解释了，看文章！！！在Linux系统中，top命令用来显示系统中正在运行的进程的实时状态，它显示了一些非常有用的信息，比如CPU利用情况、内存消耗情况，以及每个进程情况等。但是，你知道吗？还有另外一个命令行工具'htop'，它与传统的top命令功能一样，但它有更加强大的功能及能显示更多的信息。这篇文章，我们会用实例来讨论这个'h
maven-assembly-plugin 打包实例带着二娃去遛弯
1.先在pom.xml文件中添加assembly打包插件org.apache.maven.pluginsmaven-assembly-plugin2.6assembly/assembly.xmlmake-assemblypackagesingle说明:1.需要修改的可能就是descriptors标签下面的打包配置文件目录,指定assembly.xml的路径.2.可以添加多个打包配置文件,进行多种形
Cut, Paste and Learn方法解读 wangxinwei2000 深度学习人工智能
Abstract问题背景：标注数据的缺乏：在实例检测任务中，部署物体检测模型的一个主要障碍是缺乏大量标注数据。例如，在一个特定的厨房环境中找到包含实例的大型标注数据集是不太可能的。每当面对新的环境和新的物体实例时，都需要进行昂贵的数据收集和标注工作。研究贡献：解决方法：本文提出了一种简单的方法，可以以最小的努力生成大量标注的实例数据集。关键洞察：研究者的关键洞察是，仅仅确保“局部真实感”（patc
阿里云服务器4核8G配置可选实例规格及最新优惠价格表（2023最新）阿里云最新优惠和活动汇总
阿里云4核8G服务器有十几种实例规格可选，其中计算型c7、通用算力型u1和计算优化型c7（国外地域）三种实例规格有优惠，其中计算型c7实例4核8G配置1M带宽优惠价格为3127.61元1年、5M带宽优惠价格为3862.01元1年；通用算力型u1实例4核8G配置1M带宽1367.86元1年、5M带宽优惠价格为1735.06元1年；计算优化型c7（国外地域）实例4核8G配置1M带宽5907.19元1年
Linux使用mjpg-streamer进行图像传输 —你的鼬先生 Linux驱动 linux 树莓派图像传输
图像传输是一项在Linux操作系统中比较常见的一个操作，在视频图传时，一般是采用MJPG-streamer来进行图像传输，本文就以树莓派为例子，来示范一个图像传输。1.树莓派的摄像头激活首先更新树莓派sudoapt-getupdatesudoapt-getupgrade随后打开树莓派的配置界面，选择InterfaceOptionsudoraspi-config在InterfaceOption选择C
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
[面试高频问题]关于多线程的单例模式朱玥玥要每天学习 java 单例模式开发语言
单例模式什么是设计模式?设计模式可以看做为框架或者是围棋中的”棋谱”,红方当头炮,黑方马来跳.根据一些固定的套路下,能保证局势不会吃亏.在日常的程序设计中,往往有许多业务场景,根据这些场景,大佬们总结出了一些固定的套路.按照这个套路来实现代码,也不会吃亏.什么是单例模式,保证某类在程序中只有一个实例,而不会创建多份实例.单例模式具体的实现方式:可分为”懒汉模式”,”饿汉模式”.饿汉模式类加载的同时
python读写CSV文件 bcbobo21cn .Net python 开发语言机器学习 CSV
做数据分析，有时候要分析的数据在CSV文件里；先看一下python读写CSV文件；importpandasaspddf=pd.read_csv('test1.csv')print(df)print('')print(df.head(2))companyname=["A1","B2","E3","F4"]legperson=["lier","yanqi","wangwu","zhangsan"]le
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

实例示范( 泰坦尼克沉船数据分析之二)

机器学习模型

决策树

KNIME 中的决策树模块

你可能感兴趣的:(实例示范( 泰坦尼克沉船数据分析之二))