weixin_30532837

Python中随机森林的实现与解释

使用像Scikit-Learn这样的库，现在很容易在Python中实现数百种机器学习算法。这很容易，我们通常不需要任何关于模型如何工作的潜在知识来使用它。虽然不需要了解所有细节，但了解机器学习模型是如何工作的仍然有用。这使我们可以在模型表现不佳时进行诊断，或者解释模型如何做出决策，如果我们想让别人相信我们的模型，这是至关重要的。

在本文中，我们将介绍如何在Python中构建和使用Random Forest。除了查看代码之外，我们还将尝试了解此模型的工作原理。因为由许多决策树组成的随机森林，我们首先要了解单个决策树如何对一个简单的问题进行分类。然后，我们将努力使用随机森林来解决现实世界的数据科学问题。本文的完整代码在GitHub上以Jupyter Notebook的形式提供【1】。

理解决策树‍
一个决策树是一个随机森林的基石，是一个直观的模型。我们可以将决策树视为一系列是/否问题，询问我们的数据最终导致预测类（或回归情况下的连续值）。这是一个可解释的模型，因为它可以像我们一样进行分类：（在理想世界中）在我们做出决定之前，我们会询问有关可用数据的一系列问题。

决策树的技术细节是如何形成有关数据的问题。在CART算法中，通过确定问题（称为节点的分裂）来构建决策树，这些问题在被回答时导致基尼杂质的最大减少。这意味着决策树试图通过在将数据干净地划分为类的特征中查找值来形成包含来自单个类的高比例样本（数据点）的节点。

我们稍后将讨论关于Gini杂质的低级细节，但首先，让我们构建一个决策树，以便我们能够在高层次上理解它。

关于简单问题的决策树

我们将从一个非常简单的二进制分类问题开始，如下所示：

我们的数据仅具有两个特征（预测变量），具有6个数据点，分成2个不同的标签。虽然这个问题很简单，但它不是线性可分的，这意味着我们不能通过数据绘制一条直线来对点进行分类。

然而，我们可以绘制一系列直线，将数据点划分为多个框，我们称之为节点。实际上，这就是决策树在训练期间所做的事情。有效地，决策树是通过构造许多线性边界而构建的非线性模型。

要创建决策树并对数据进行训练（fit），我们使用Scikit-Learn。

from sklearn.tree import DecisionTreeClassifier    
# Make a decision tree and train    
tree = DecisionTreeClassifier(random_state=RSEED)    
tree.fit(X, y)   ‍

在训练过程中，我们为模型提供特征和标签，以便学习根据特征对点进行分类。（我们没有针对这个简单问题的测试集，但在测试时，我们只为模型提供功能并让它对标签进行预测。）

我们可以在训练数据上测试我们模型的准确性：

print(fModel Accuracy: {tree.score(X, y)})    
Model Accuracy: 1.0

我们看到它获得100％的准确性，这是我们所期望的，因为我们提供了训练的答案（y）并没有限制树的深度。事实证明，完全学习训练数据的能力可能是决策树的缺点，因为它可能会导致过度拟合，我们稍后会讨论。

可视化决策树

那么当我们训练决策树时，实际上会发生什么？我找到了一种有用的方法来理解决策树是通过可视化来实现的，我们可以使用Scikit-Learn函数。

除叶子节点（彩色终端节点）外，所有节点都有5个部分：

问题基于特征的值询问了数据。每个问题都有一个分裂节点的真或假答案。根据问题的答案，数据点向下移动。

gini：节点的Gini杂质。当我们向下移动树时，平均加权基尼杂质值会减少。
samples：节点中的观察数。
value：每个类的样本数量。例如，顶部节点在类0中有2个样本，在类1中有4个样本。
class：节点中点的多数分类。在叶节点的情况下，这是对节点中所有样本的预测。‍

要对新点进行分类，只需向下移动树，使用点的特征来回答问题，直到到达class作为预测的叶节点。

为了以不同的方式查看树，我们可以在原始数据上绘制由决策树构建的分割。

每个拆分都是一条线，它根据特征值将数据点划分为节点。对于这个简单的问题并且对最大深度没有限制，划分将节点中的每个点仅放置在同一类的点上。（再次，稍后我们将看到训练数据的这种完美划分可能不是我们想要的，因为它可能导致过度拟合。

基尼杂质

现在深入了解基尼杂质的概念（数学并不令人生畏！）。节点的基尼杂质是指节点中随机选择的样本如果被标记的错误标记的概率。节点中样本的分布。例如，在顶部（根）节点中，有44.4％的可能性错误地根据节点中的样本标签对随机选择的数据点进行分类。我们使用以下等式得出这个值：

节点的Gini杂质是1减去每个类的p_i平方的总和（对于二分类任务，这是2）。这可能有点令人困惑，所以让我们计算出根节点的基尼杂质。

在每个节点处，决策树在要素中搜索要拆分的值，从而最大限度地减少基尼杂质。（拆分节点的替代方法是使用信息增益）。

然后，它以贪婪的递归过程重复此拆分过程，直到达到最大深度，或者每个节点仅包含来自一个类的样本。每层的加权总基尼杂质必须减少。在树的第二层，总加权基尼杂质值为0.333：

最终，最后一层的加权总Gini杂质变为0意味着每个节点都是纯粹的，并且从该节点随机选择的点不会被错误分类。虽然这似乎是好的，但这意味着模型可能过度拟合，因为节点仅使用训练数据构建。

过度拟合：或者为什么森林比一棵树更好

您可能会想问为什么不只使用一个决策树？它似乎是完美的分类器，因为它没有犯任何错误！要记住的关键点是树在训练数据上没有犯错。我们预计会出现这种情况，因为我们给树提供了答案，并没有限制最大深度（级别数）。机器学习模型的目标是很好地概括它以前从未见过的新数据。

当我们具有非常灵活的模型（模型具有高容量）时，过度拟合发生，其基本上通过紧密拟合来记忆训练数据。问题是模型不仅学习训练数据中的实际关系，还学习任何存在的噪声。据说灵活模型具有高方差，因为学习参数（例如决策树的结构）将随着训练数据而显着变化。

另一方面，据说一个不灵活的模型具有较高的偏差，因为它对训练数据做出了假设（它偏向于预先设想的数据思想。）例如，线性分类器假设数据是线性的，不具备适应非线性关系的灵活性。一个不灵活的模型可能无法适应训练数据，在这两种情况下 - 高方差和高偏差 - 模型无法很好地推广到新数据。

创建一个非常灵活的模型来记忆训练数据与不能学习训练数据的不灵活模型之间的平衡称为偏差 - 方差权衡，是机器学习的基本概念。

当我们不限制最大深度时决策树容易过度拟合的原因是因为它具有无限的灵活性，这意味着它可以保持增长，直到它为每个单独的观察只有一个叶节点，完美地对所有这些进行分类。如果您返回决策树的图像并将最大深度限制为2（仅进行一次拆分），则分类不再100％正确。我们减少了决策树的方差，但代价是增加了偏差。

作为限制树深度的替代方案，它可以减少方差（好）并增加偏差（差），我们可以将许多决策树组合成一个称为随机森林的单一集合模型。

随机森林

在随机森林是许多决策树组成的模型。这个模型不是简单地平均树的预测（这样的算法可以称为“森林”），而是使用两个关键概念，使其名称为随机森林：

①在构建树时对训练数据点进行随机抽样

②分割节点时考虑的随机特征子集

随机抽样训练观察

在训练时，随机森林中的每棵树都会从数据点的随机样本中学习。样本用可放回抽取，称为bootstraping，这意味着一些样本将在一棵树中多次使用。这个想法是通过对不同样本上的每棵树进行训练，尽管每棵树相对于特定训练数据集可能具有高度差异，但总体而言，整个森林将具有较低的方差，但不会以增加偏差为代价。

在测试时，通过平均每个决策树的预测来进行预测。这种在不同的数据bootstraped子集上训练每个学习器然后对预测求平均值的过程称为bagging，是bootstrap aggregating的缩写。

用于拆分节点的随机特征子集

随机林中的另一个主要概念是，只考虑所有特征的子集来分割每个决策树中的每个节点。通常，这被设置为sqrt(n_features)个用于分类，这意味着如果存在16个特征，则在每个树中的每个节点处，将仅考虑4个随机特征来分割节点。（随机林也可以考虑每个节点的所有特征，如回归中常见的那样。这些选项可以在Scikit-Learn 的Random Forest实现中控制）。

如果你能理解一个决策树，bagging的想法，以及随机的特征子集，那么你对随机森林的工作方式有了很好的理解：

随机森林将数百或数千个决策树组合在一起，在略微不同的观察集上训练每个决策树，考虑到有限数量的特征，在每棵树中分割节点。随机森林的最终预测是通过平均每棵树的预测来做出的。

要理解为什么随机森林优于单一决策树，请想象以下情况：您必须决定特斯拉股票是否会上涨，并且您可以访问十几位对该公司没有先验知识的分析师。每个分析师都有较低的偏见，因为他们没有任何假设，并且可以从新闻报道的数据集中学习。

这似乎是一个理想的情况，但问题是报告除了真实信号之外可能还包含噪声。因为分析师完全根据数据做出预测 - 他们具有很高的灵活性 - 他们可能会被无关的信息所左右。分析师可能会从同一数据集中得出不同的预测。此外，如果给出不同的报告训练集，每个分析师的差异很大，并且会得出截然不同的预测。

解决方案是不依赖于任何一个人，而是汇集每个分析师的投票。此外，就像在随机森林中一样，允许每个分析人员只访问报告的一部分，并希望通过采样取消噪声信息的影响。在现实生活中，我们依赖于多种来源，因此，决策树不仅直观，而且在随机森林中将它们组合在一起的想法也是如此。

随机森林实践

接下来，我们将使用Scikit-Learn在Python中构建一个随机林。我们将使用分为训练和测试集的真实数据集，而不是学习一个简单的问题。我们使用测试集作为模型对新数据的执行方式的估计，这也可以让我们确定模型过度拟合的程度。

数据集

我们要解决的问题是二元分类任务，目的是预测个人的健康状况。这些特征是个人的社会经济和生活方式特征，标签是0健康状况不佳和1身体健康。此数据集是来自中心疾病控制和预防【2】。

通常，80％的数据科学项目需要对数据进行清理，探索和特征生成【3】。但是，对于本文，我们将集中于建模。

这是一个不平衡的分类问题，因此准确性Accuracy不是一个合适的指标。相反，我们将测量 Receiver Operating Characteristic Area Under the Curve （ROC AUC），从0（最差）到1（最佳）的度量，随机猜测得分为0.5。我们还可以绘制ROC曲线以评估模型。

该notebook【4】包含了决策树和随机森林都实现，但在这里我们只专注于随机森林。在读取数据后，我们可以实例化和训练随机森林如下：

from sklearn.ensemble import RandomForestClassifier    
# Create the model with 100 trees    
model = RandomForestClassifier(n_estimators=100,    
                               bootstrap = True,    
                               max_features = sqrt)    
# Fit on training data    
model.fit(train, train_labels)

在训练几分钟后，模型准备好对测试数据进行如下预测：

# Actual class predictions    
rf_predictions = model.predict(test)    
# Probabilities for each class    
rf_probs = model.predict_proba(test)[:, 1]

我们进行类预测（predict）以及预测概率（predict_proba）来计算ROC AUC。一旦我们有了测试预测，我们就可以计算出ROC AUC。

from sklearn.metrics import roc_auc_score    
# Calculate roc auc    
roc_value = roc_auc_score(test_labels, rf_probs)

结果

随机森林的最终测试ROC AUC为0.87，而具有无限最大深度的单一决策树的最终测试ROC AUC为0.67。如果我们查看训练分数，两个模型都达到1.0 ROC AUC，这也是预期的，因为我们给这些模型提供了训练答案，并没有限制每棵树的最大深度。

虽然随机森林过度拟合（在训练数据上比在测试数据上做得更好），但它能够比单一决策树更好地应用到测试数据。随机森林具有较低的方差（良好），同时保持决策树的相同低偏差（也良好）。

我们还可以绘制单个决策树（顶部）和随机森林（底部）的ROC曲线。顶部和左侧的曲线是更好的模型：

随机森林明显优于单一决策树。

我们可以采用的模型的另一个诊断措施是绘制测试预测的confusion矩阵

这显示了模型在左上角和右下角的正确预测以及模型在左下角和右上角错的预测。我们可以使用这些图来诊断我们的模型，并确定它是否表现良好，可以投入生产。

特征重要性

随机林中的特征重要性表示基于该特征上拆分的所有节点上Gini杂质减少的总和。我们可以使用这些来尝试找出随机森林认为最重要的预测变量。可以从训练好的随机森林中提取特征重要性，并将其放入Pandas的DataFrame中，如下所示：

import pandas as pd    
# Extract feature importances    
fi = pd.DataFrame({feature: list(train.columns),    
                   importance: model.feature_importances_}).\    
                    sort_values(importance, ascending = False)    
# Display    
fi.head()    
    feature	   importance    
    DIFFWALK	   0.036200    
    QLACTLM2	   0.030694    
    EMPLOY1	   0.024156    
    DIFFALON	   0.022699    
    USEEQUIP	   0.016922

通过告诉我们哪些变量在类之间最具辨别力，特征重要性可以让我们洞察问题。例如，这里DIFFWALK, 指示患者是否行走困难，是在问题环境中有意义的最重要的特征。

我们可以通过构建最重要的附加特征，将特征重要性用于特征工程。我们还可以通过删除低重要性特征，使用特征重要性来选择特征。

在森林中可视化树

最后，我们可以在森林中可视化单个决策树。这次，我们必须限制树的深度，否则它将太大而无法转换为图像。为了制作下图，我将最大深度限制为6.这仍然导致我们无法完全解析的大树！然而，鉴于我们深入研究了决策树，我们掌握了模型的工作原理。

下一步

进一步的步骤是使用Scikit-Learn的RandomizedSearchCV中的随机搜索来优化随机森林。优化是指在给定数据集上找到模型的最佳超参数。最佳超参数将在数据集之间变化，因此我们必须在每个数据集上单独执行优化（也称为模型调整）。

我喜欢将模型调整视为寻找机器学习算法的最佳设置。我们可以在随机林中优化的因素包括决策树的数量，每个决策树的最大深度，用于拆分每个节点的最大特征数，以及叶节点中所需的最大数据点数。

【参阅资料】

【1】https://github.com/WillKoehrsen/Machine-Learning-Projects/blob/master/Random%20Forest%20Tutorial.ipynb

【2】https://www.kaggle.com/cdc/behavioral-risk-factor-surveillance-system

转载于:https://www.cnblogs.com/alan-blog-TsingHua/p/10624631.html

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本