艾派森

数据分析案例-基于随机森林算法探索影响人类预期寿命的因素并预测人类预期寿命

1.项目背景

2.项目简介

2.1项目内容

2.2数据说明

2.3技术工具

3.算法原理

3.1线性回归

3.2神经网络

3.3随机森林

4.项目实施步骤

4.1理解数据

4.2数据预处理

4.2.1缺失值处理

4.2.2重复值处理

4.3探索性数据分析

4.3.1预期寿命分析

4.3.2医疗保健分析

4.3.3生活方式分析

4.3.4教育分析

4.3.5死亡率分析

4.3.6不同国家发展的差异

4.4预期寿命预测

4.4.1建模及模型预测

4.4.2指标重要性排序

4.4.3参数优化

4.4.4结果预测

5.实验总结

5.1结果分析

5.2改善建议

5.3实验心得

1.项目背景

从古到今，人们都希望自己以及家人长寿。长命百岁、寿比南山这些成语也是被大家一直所期望的。随着医疗水平的进步，人的平均寿命在慢慢提升。现在全球平均预期寿命是73.2岁，而在1950年则只有47岁。

平均预期寿命是在一定的年龄别死亡率水平下，活到确切年龄X岁以后，平均还能继续生存的年数，它是衡量一个国家、民族和地区居民健康水平的一个指标。可以反映出一个社会生活质量的高低。社会经济条件、卫生医疗水平限制着人们的寿命。所以不同的社会，不同的时期，人类寿命的长短有着很大的差别；同时，由于体质、遗传因素、生活条件等个人差异，也使每个人的寿命长短相差悬殊。

这个指标与性别、年龄、种族有着紧密的联系，因此常常需要分别计算。平均预期寿命是我们最常用的预期寿命指标，它表明了新出生人口平均预期可存活的年数，是度量人口健康状况的一个重要的指标。

寿命的长短受两方面的制约。一方面，社会经济条件、卫生医疗水平限制着人们的寿命，所以不同的社会，不同的时期，寿命的长短有着很大的差别；另一方面，由于体质、遗传因素、生活条件等个人差异，也使每个人的寿命长短相差悬殊。因此，虽然难以预测具体某个人的寿命有多长，但可以通过科学的方法计算并告知在一定的死亡水平下，预期每个人出生时平均可存活的年数。这就是平均预期寿命。

因此，对于探究影响人类预期寿命的因素以及对预期寿命进行预测有着至关重要的作用。

2.项目简介

2.1项目内容

本项目是世卫组织建立了一段时间内所有国家健康状况的数据集，其中包括预期寿命，成人死亡率等方面的统计数据。使用此数据集，探索各种变量之间的关系，通过数据集建立模型对预期寿命进行预测以及找出对预期寿命的最大影响因素是什么？

本项目主要解决以下问题：

- 最初选择的各种预测因素是否真的影响预期寿命？实际影响预期寿命的预测变量有哪些？

- 预期寿命值低于（<65）的国家是否应该增加其医疗保健支出以改善其平均寿命？

- 婴儿和成人死亡率如何影响预期寿命？

- 是否接受教育对人类寿命有何影响？

- 预期寿命与饮酒是正相关还是负相关？

- 人口稠密的国家的预期寿命是否有降低的趋势？

2.2数据说明

数据集：数据/探索影响预期寿命的因素/Life Expectancy Data.csv

案例来源：https://www.kaggle.com/kumarajarshi/life-expectancy-who

在本项目中，我们考虑了193个国家2000年至2015年的数据进行进一步分析。单个数据文件已合并到一个数据集中。对数据进行初步目视检查时发现有些值缺失。由于数据集来自世界卫生组织，我们没有发现明显的错误。R软件使用Missmap命令处理缺失数据。结果表明，缺失的数据主要集中在人口、乙肝和国内生产总值。缺失的数据来自不太为人所知的国家，如瓦努阿图、汤加、多哥、佛得角等。很难找到这些国家的所有数据，因此决定将这些国家排除在最终模型数据集之外。最终合并的文件(最终数据集)由22列和2938行组成，这意味着20个预测变量。所有的预测变量被分成几个大类:免疫相关因素、死亡率因素、经济因素和社会因素。

所以最终的数据共有2938行，22列

该数据集每个指标名称及其含义说明如表 2‑1所示。

指标名称	指标含义
Hepatitis B	B乙型肝炎
Measles	麻疹
BMI	体重指数
under-five deaths	五岁以下死亡数
Polio	小儿麻痹
Total expenditure	总支出
Diphtheria	白喉病
HIV/AIDS	艾滋病
GDP	国家GDP值
Population	国家人口数
thinness 1-19 years	虚弱1-19年
thinness 5-9 years	虚弱5-9年
Income composition of resources	资源收入构成
Schooling	学校教育

指标名称	指标含义
Country	国家
Year	年份
Status	国家发展：Developing, Developed
Life expectancy	预期寿命
Adult Mortality	成年人死亡数
infant deaths	婴幼儿死亡数
Alcohol	酒精
Percentage expenditure	支出百分比

2.3技术工具

本项目以jupyter notebook为平台，以Python语言为基础，采用pandas进行数据整理和统计分析，用matplotlib、seaborn进行可视化呈现，采用线性回归、随机森林、神经网络三个模型进行预测预期寿命。

3.算法原理

3.1线性回归

一元线性回归是一个主要影响因素作为自变量来解释因变量的变化，在现实问题研究中，因变量的变化往往受几个重要因素的影响，此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化，这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时，所进行的回归分析就是多元线性回归。　设y为因变量X1,X2…Xk为自变量，并且自变量与因变量之间为线性关系时，则多元线性回归模型为：

Y=b0+b1x1+…+bkxk+e

其中，b0为常数项，b1,b2…bk为回归系数，b1为X1,X2…Xk固定时，x1每增加一个单位对y的效应，即x1对y的偏回归系数；同理b2为X1,X2…Xk固定时，x2每增加一个单位对y的效应，即，x2对y的偏回归系数，等等。如果两个自变量x1,x2同一个因变量y呈线相关时，可用二元线性回归模型描述为：

y=b0 +b1x1 +b2x2 +e

建立多元线性回归模型时，为了保证回归模型具有优良的解释能力和预测效果，应首先注意自变量的选择，其准则是：

(1)自变量对因变量必须有显著的影响，并呈密切的线性相关；

(2)自变量与因变量之间的线性相关必须是真实的，而不是形式上的；

(3)自变量之间应具有一定的互斥性，即自变量之间的相关程度不应高于自变量与因变量之间的相关程度；

(4)自变量应具有完整的统计数据，其预测值容易确定。

3.2神经网络

神经网络（Neural Networks,NN）是由大量的、简单的处理单元（称为神经元）广泛地互相连接而形成的复杂网络系统，它反映了人脑功能的许多基本特征，是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力，特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。神经网络的发展与神经科学、数理科学、认知科学、计算机科学、人工智能、信息科学、控制论、机器人学、微电子学、心理学、光计算、分子生物学等有关，是一门新兴的边缘交叉学科。

神经网络的基础在于神经元。

神经元是以生物神经系统的神经细胞为基础的生物模型。在人们对生物神经系统进行研究，以探讨人工智能的机制时，把神经元数学化，从而产生了神经元数学模型。

大量的形式相同的神经元连结在—起就组成了神经网络。神经网络是一个高度非线性动力学系统。虽然，每个神经元的结构和功能都不复杂，但是神经网络的动态行为则是十分复杂的；因此，用神经网络可以表达实际物理世界的各种现象。

神经网络模型是以神经元的数学模型为基础来描述的。人工神经网络(ArtificialNuearlNewtokr)s,是对人类大脑系统的一阶特性的一种描。简单地讲,它是一个数学模型。神经网络模型由网络拓扑．节点特点和学习规则来表示。神经网络对人们的巨大吸引力主要在下列几点：

1．并行分布处理。

2．高度鲁棒性和容错能力。

3．分布存储及学习能力。

4．能充分逼近复杂的非线性关系。

3.3随机森林

随机森林是一种有监督学习算法。就像它的名字一样，它创建了一个森林，并使它拥有某种方式随机性。所构建的“森林”是决策树的集成，大部分时候都是用“bagging”方法训练的。bagging 方法，即 bootstrapaggregating，采用的是随机有放回的选择训练数据然后构造分类器，最后组合学习到的模型来增加整体的效果。简而言之，随机森林建立了多个决策树，并将它们合并在一起以获得更准确和稳定的预测。其一大优势在于它既可用于分类，也可用于回归问题，这两类问题恰好构成了当前的大多数机器学习系统所需要面对的。

随机森林分类器使用所有的决策树分类器以及 bagging 分类器的超参数来控制整体结构。与其先构建 bagging分类器，并将其传递给决策树分类器，我们可以直接使用随机森林分类器类，这样对于决策树而言，更加方便和优化。要注意的是，回归问题同样有一个随机森林回归器与之相对应。

随机森林算法中树的增长会给模型带来额外的随机性。与决策树不同的是，每个节点被分割成最小化误差的最佳指标，在随机森林中我们选择随机选择的指标来构建最佳分割。因此，在随机森林中，仅考虑用于分割节点的随机子集，甚至可以通过在每个指标上使用随机阈值来使树更加随机，而不是如正常的决策树一样搜索最佳阈值。这个过程产生了广泛的多样性，通常可以得到更好的模型。

4.项目实施步骤

从机器学习的分类来讲，这是一个有监督问题中的回归问题。通过训练已有的数据进行未来数据的预测。

4.1理解数据

在jupyter notebook单元格中输入下面程序，导入数据和工具包，并查看数据集的信息、大小，并初步观察头部信息。

查看数据大小

数据共有2938行，22列

查看数据基本信息

查看数值型数据描述

查看非数值型数据描述

4.2数据预处理

在真实世界中，数据通常是不完整的（缺少某些感兴趣的指标值）、不一致的（包含代码或者名称的差异）、极易受到噪声（错误或异常值）的侵扰的。因为数据库太大，而且数据集经常来自多个异种数据源，低质量的数据将导致低质量的挖掘结果。就像一个大厨现在要做美味的蒸鱼，如果不将鱼进行去鳞等处理，一定做不成我们口中美味的鱼。数据预处理就是解决上述所提到的数据问题的可靠方法，因此，在进行数据分析之前我们需要进行数据预处理。

数据预处理一般要遵循以下规则：

1）完整性：单条数据是否存在空值，统计的字段是否完善。

2）全面性：观察某一列的全部数值，通过常识来判断该列是否有问题，比如：数据定义、单位标识、数据本身。

3）合法性：数据的类型、内容、大小的合法性。比如数据中是否存在非ASCII字符，性别存在了未知，年龄超过了150等。

4）唯一性：数据是否存在重复记录，因为数据通常来自不同渠道的汇总，重复的情况是常见的。行数据、列数据都需要是唯一的。

本项目对数据进行数重复值和缺失值处理两种预处理方法，以确保其完整性、全面性与合法性。

4.2.1缺失值处理

首先，通过data.isnull().sum()统计出每个特征的缺失值，运行结果如图 4‑3所示。

我们发现数据缺失值还是挺多的，于是我们调用dropna()函数进行删除缺失值。

4.2.2重复值处理

这里我们直接调用drop_duplicates()进行删除重复值

4.3探索性数据分析

探索性数据分析（Exploratory Data Analysis，EDA）是对数据进行分析并得出规律的一种数据分析方法，是一种利用各种工具和图形技术（如柱状图、直方图等）分析数据的方法。它是一个开放式的过程，在这个过程中，我们可以绘制图表并计算统计数据以便探索我们的数据。

EDA本身很有趣（例如找到两个变量之间的关联），或者他们可以用于通知建模的决策（例如使用哪些功能）。简而言之，EDA的目标是确定我们的数据可以告诉我们什么。与目标相关的变量对模型很有用，因为他们是用于预测目标。简单说就是画图来理解数据，EDA探索性数据分析本质上就是用图画图的方式来理解数据。

4.3.1预期寿命分析

分析每一年人类预期寿命的变化情况

通过图我们发现预期寿命从2001年开始直线下跌，2003年跌到最低，后开始逐年上升，且2009年开始上升速度非常快。通过查阅资料，我们得知在2001年世界多地发生很多自然灾害以及部分国家的战乱可能导致人类预期寿命下降，2009年以后随着经济、医疗的发展，人类预期寿命开始上升。

4.3.2医疗保健分析

从图中可以看出绝大部分预期寿命值低于（<65）的国家的医疗支出百分比都是很少的，而且我们还可以看出随着支出百分比的增加，预期寿命有增加的趋势，存在正相关关系。故预期寿命值低于（<65）的国家应该增加其医疗保健支出以改善其平均寿命。

4.3.3生活方式分析

从上图我们可以看出预期寿命与酒精相关系数为0.4,较弱的正相关性

预期寿命与虚弱1-19和5-9的相关系数为-0.46，存在负相关关系

预期寿命与收入和教育的相关系数为0.72,0.73，存在着较强的正相关关系

4.3.4教育分析

从图中我们可以看出教育与预期寿命存在着正相关的关系，教育越好的国家预期寿命也就越高；教育与成年死亡数、虚弱1-19和5-9都存在这负相关的关系，说明教育差的国家成年死亡数和虚弱人数也就相对越多

4.3.5死亡率分析

从图中我们可以看出成人死亡率与预期寿命存在较强的负相关关系，说明成人死亡率越高的国家，预期寿命也低，婴儿死亡率与预期寿命存在着较弱的负相关关系，婴儿死亡率对预期寿命影响较小

4.3.6不同国家发展的差异

从图中我们可以看出发达国家的预期寿命是高于发展中国家的，婴儿死亡数以及5岁以下死亡数数量发展中国家远超过发达国家，但是小儿麻痹和B已型肝炎的人数是相差不大的

4.4预期寿命预测

构建建模型之前我们需要将Status这一列的值用0和1代替

接着我们需要划分数据集

最后对数据标准化处理

4.4.1建模及模型预测

1)构建线性回归模型

2）构建神经网络模型

3）构建随机森林模型

通过三个模型的均方误差大小来看，随机森林模型的均方误差最小，故我们选择使用随机森林模型来进行预测。

4.4.2指标重要性排序

经过对上述各个指标与预期寿命关系的分析之后，以及模型的建立与调整，最后按照重要程度对各个指标进行排序。

通过结果我们发现，重要程度最大的是资源收入构成，占了一半多，其次是HIV/AIDS艾滋病，最后是成年人死亡数，其他的特征重要程度都很略微，忽略不计。

4.4.3参数优化

在我们确定好了模型之后，我们需要对模型参数进行优化，提高模型的准确率，在这里我们选用网格搜索来进行最优参数的选取。

经过搜索后的最优参数，我们重新对原模型进行训练

我们发现模型的均方误差减小了，说明最优参数改善了模型的准确率。

4.4.4结果预测

最后我们使用模型对预期寿命进行预测

第一列是真实值，第二列是预测值，我们发现绝大部分都预测正确了，误差非常小，模型准确率很高，模型不错。

5.实验总结

5.1结果分析

根据以上分析，得到影响预期寿命最关键的因素：

1）资源收入构成。

2）HIV/AIDS。

3）成年人死亡数。

问题解决：

最初选择的各种预测因素是否真的影响预期寿命？实际影响预期寿命的预测变量有哪些？答：否，实际影响预期寿命的变量有资源收入构成、HIV/AIDS和成年人死亡数。
预期寿命值低于（<65）的国家是否应该增加其医疗保健支出以改善其平均寿命？答：绝大部分预期寿命值低于（<65）的国家的医疗支出百分比都是很少的，而且我们还可以看出随着支出百分比的增加，预期寿命有增加的趋势，存在正相关关系。故预期寿命值低于（<65）的国家应该增加其医疗保健支出以改善其平均寿命。
婴儿和成人死亡率如何影响预期寿命？答：成人死亡率与预期寿命存在较强的负相关关系，说明成人死亡率越高的国家，预期寿命也低；婴儿死亡率与预期寿命存在着较弱的负相关关系，婴儿死亡率对预期寿命影响较小。
预期寿命与饮酒是正相关还是负相关？答：预期寿命与酒精相关系数为0.4,较弱的正相关性。
是否接受教育对人类寿命有何影响？答：预期寿命与收入和教育的相关系数为0.72,0.73，存在着较强的正相关关系。
人口稠密的国家的预期寿命是否有降低的趋势？答：人口数量与预期寿命直接不存在什么关系，从折线图也看不出什么规律，说明人口稠密的国家的预期寿命没有降低的趋势。

5.2改善建议

为了提高预期寿命，给出如下建议：

1）调整改善人的资源收入构成，使得收入结构合理，增强人的满足感。

2）虽然HIV/AIDS的治愈率非常低，仅为0.001%，但是我相信在未来的医疗发展中，肯定改善这种情况，提高治愈率，以消除人对艾滋病的恐慌。

3）控制成年人死亡人数，减少死亡率，这就得需要国家在各种方面来进行防范，比如交通、法律、自然灾害、战争等方面做好改善和防控。

4）国家应该加大对医疗的投入，做好医疗保健，让人们不再为医疗费用而担忧。

5)国家应该增大对教育的投入，保证每一位孩子都能接受平等的教育。

5.3实验心得

通过这次Python项目实战，我学到了许多新的知识，这是一个让我把书本上的理论知识运用于实践中的好机会。原先，学的时候感叹学的资料太难懂，此刻想来，有些其实并不难，关键在于理解。

在这次实战中还锻炼了我其他方面的潜力，提高了我的综合素质。首先，它锻炼了我做项目的潜力，提高了独立思考问题、自我动手操作的潜力，在工作的过程中，复习了以前学习过的知识，并掌握了一些应用知识的技巧等

在此次实战中，我还学会了下面几点工作学习心态：

1）继续学习，不断提升理论涵养。在信息时代，学习是不断地汲取新信息，获得事业进步的动力。作为一名青年学子更就应把学习作为持续工作用心性的重要途径。走上工作岗位后，我会用心响应单位号召，结合工作实际，不断学习理论、业务知识和社会知识，用先进的理论武装头脑，用精良的业务知识提升潜力，以广博的社会知识拓展视野。

2）努力实践，自觉进行主角转化。只有将理论付诸于实践才能实现理论自身的价值，也只有将理论付诸于实践才能使理论得以检验。同样，一个人的价值也是透过实践活动来实现的，也只有透过实践才能锻炼人的品质，彰显人的意志。

3）提高工作用心性和主动性。实习，是开端也是结束。展此刻自我面前的是一片任自我驰骋的沃土，也分明感受到了沉甸甸的职责。在今后的工作和生活中，我将继续学习，深入实践，不断提升自我，努力创造业绩，继续创造更多的价值。

这次Python实战不仅仅使我学到了知识，丰富了经验。也帮忙我缩小了实践和理论的差距。在未来的工作中我会把学到的理论知识和实践经验不断的应用到实际工作中，为实现理想而努力。

你可能感兴趣的:(数据分析,大数据,数据分析,python,数据挖掘,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri