Nancy-sn

Python数据处理课程设计-房屋价格预测

注：可能有些图片未能成功上传，可在文档处进行下载

链接：Python数据处理课程设计-房屋价格预测-机器学习文档类资源-CSDN下载

课程设计报告

课程名称	Python数据处理课程设计
项目名称	房屋价格预测

一． 题目背景.. 3

1.选题背景... 3

2.研究意义... 3

3.题目描述... 3

4.选题数据... 3

二． 现有研究状态... 4

三． 运用的技术手段和方法... 5

3.1 EDA（探索性数据分析）... 5

3.2 异常值的处理.. 5

3.3合并训练集和测试集... 6

3.4 删除多余的列.. 6

3.5 缺失值的处理.. 6

3.6 数据类型转换.. 6

3.7 数据对数化处理... 6

3.8 得到数据特征的重要性并做成DataFrame形式... 6

3.9 对数据特征重要性数值进行可视化.. 6

3.10 对数据进行合并... 7

3.11 取出处理后的测试集数据... 7

3.12 使用机器学习模型对数据进行预测.. 7

四． 数据分析.. 7

4.1 EDA（探索性数据分析）... 7

4.2异常值处理.. 7

4.3合并训练集和测试集... 11

4.4删除多余的列... 11

4.5缺失值处理.. 11

4.6数据类型转换... 14

4.7数据对数化处理.. 14

4.8 得到数据特征的重要性并做成DataFrame形式... 16

4.9 对数据特征重要性数值进行可视化.. 17

4.10 对数据进行合并... 18

4.11 取出处理后的测试集数据... 20

4.12使用机器学习模型对数据进行预测... 20

4.13 有意义的方面... 21

五． 项目总结.. 22

六． 参考文献.. 23

题目背景

1.选题背景

随着经济的持续发展，房地产行业已经成为了支柱产业，房屋价格不仅直接影响着居民的生活水平，也间接影响着国家经济的持续、健康、平稳发展，房屋价格已经成为关系民生的热点问题。房价是否合理，仅仅通过表面观察和凭空想象是不能回答这些问题的，要通过科学的研究方法才能得出合理的结论。房屋价格受到很多因素的制约和影响，比如：地理位置、建造房子所用的材料、住宅风格、住宅类型、有无地下室、有无车库、栅栏的质量、家庭的功能等，都会对房价产生影响。所以要选取的特征因素应当具有全面性、多样性，选择与房价密切相关的指标，对数据进行分析、处理，利用机器学习算法研究其对价格的影响程度，并构建出稳定性好、误差小的价格预测模型，较为准确地预测出房子的最终价格，从而为政府相关部门宏观调控、房地产开发商以及卖房或买房者提供科学的定价以及估价依据，更好地推进房屋市场的稳定发展。

2.研究意义

目前有人在对房屋价格的研究上已经取得了诸多成果，大多数人主要从政治、经济、政策、人口等宏观层面对房屋价格进行了分析，也有少数学者从房屋建筑硬件设施等微观因素展开了研究，也取得了较好的预测效果，但目前这方面还是相对较少。鉴于此，我将根据比赛的数据，构建特征变量集，选取有代表性的特征变量，在已有数据的基础上，对数据进行处理，使用机器学习算法分析房价问题，选择预测模型将其用于预测测试集的房屋价格。

此外，无论是对于监管者还是消费者，是房产中介机构还是房地产开发商，只有深入了解房地产交易市场，才能进行合理监管与规划；高效率推广房源，在能满足购房者需求的前提下科学定价，提高市场竞争优势；有效规避风险，降低不必要的损失等。所以预测房屋价格能为人们在住房购买方面提供更多选择，具有一定的参考作用。

3.题目描述

购房者描述了他们梦想中的房子，他们可能不会从地下室天花板的高度或东西向铁路的距离开始。但这些数据证明，影响价格谈判的因素远大于卧室数量或白色栅栏。题目给出的变量几乎描述了爱荷华州艾姆斯市住宅的各个方面。根据题目所给出的训练集和测试集的数据，分析题目所给的80个变量，预测出测试集中1460条样本的房价。

4.选题数据

赛题数据由以下两部分构成：

训练集包含1460条样本，81个属性：

测试集包含1460条样本，80个属性：

现有研究状态

一直以来，房价问题是社会各界讨论较多的话题，已有诸多学者从不同视角探索了影响房价的因素，并取得了一定研究成果。同时也在尝试探索如何构建更精确的模型去预测房价。

近年来，国内外大多学者以宏观或微观角度为切入点，展开对房价影响因素的研究。如：

周学君等[1]采用了影响房价的6个主要因素输入到人工神经网络中进行房价预测；
申瑞娜等[2]收集了影响房价的8个因素，结合主要影响因素和支持向量机对房屋价格进行预测；
王景行[3]将LASSO回归和XGBoost机器学习算法集成并融合stacking模型来对比用单一方法预测房价的效果，得到用集成模型来预测房价比用单一模型预测效果更加显著的结论；
赵泰等[4]将灰色GM(1,1)模型来对商品房销售的价格进行预测，得到了该模型在房价中的应用价值；
王瑾等[5]通过多元逐步回归方法建立房价预测模型对北京市房屋价格进行统计分析；
陈世鹏等[6]根据襄阳房贷数据建立随机森林模型对测试样本进行房价预测，取得了较好的效果。

在研究方法上大部分学者都使用了 Lasso回归、随机森林回归、支持向量回归、XGBoost 回归、多元线性回归等单一模型，使用的模型较为广泛，也有部分研究所选取的特征维数有限，并不能全面反映影响房屋价格的制约因素，能够分析处理的特征维数较少，并不能全面挖掘特征因素与房价之间的影响关系。

所以本文在对房屋价格的研究过程中，以Kaggle平台的房屋价格作为数据库，建立影响房屋价格的多维因素与房屋价格之间的联系，我选取了较多的变量组合对同一预测指标进行对比分析和模型评价，将多种算法融合使用并构建组合模型去预测房屋的价格，通过模型评价指标，选择最优的预测模型，以为政府部门、中介机构和购房者等提供合理的对策建议。

运用的技术手段和方法

3.1 EDA（探索性数据分析）

这是一个功能强大的库，使用这个库只需要一行代码便可以得到数据EDA报告，生成的报告可以有效帮助我们熟悉数据集、了解数据集。报告中会有缺失值信息、重复值信息、每个变量的信息等内容，这些信息以便更好对数据进行的分析、处理。

3.2 异常值的处理

看到数据后，我首先考虑的是数据中异常值信息，对数据中异常值进行处理。在处理数据异常值这里，我根据变量的相关矩阵图选取了三个变量：建造年份、房屋的面积和地下室面积，构建了三个图像：YearBuilt与SalePrice之间的箱型图、GrLivArea与SalePrice之间的散点图、TotalBsmSF与SalePrice之间的散点图，通过得到的图对异常的数据进行分析处理。

3.3合并训练集和测试集

接下来便是把训练集和测试集数据进行合并，以便后面方便对数据进行分析、处理。

3.4 删除多余的列

把数据进行合并后，我发现Id列和索引值都是以1为间隔，升序排列的数值，所以我把Id列给删除了，删除Id列后，方便后面对数据的处理。

3.5 缺失值的处理

在开始的时候，有考虑过要不要把有缺失的数据给删除，但缺失值的数量还是挺多的，如果把缺失的数据都删除的话，信息丢失会很大，所以还是选择保留。

在对缺失数据进行填充时，我对部分字符类型的变量使用众数进行填充，部分字符类型的变量用“None”进行填充，对数值类型的变量使用0进行填充。

3.6 数据类型转换

从变量的数据类型信息图中可以看到，有很多变量是字符串类型的，但计算机对字符串的特征是无能为力的，所以需要将字符串特征映射成数值类型。

3.7 数据对数化处理

由于一些变量不符合正态分布，对数据进行对数化处理可以使那些不完全具有正态分布的特征更符合正态分布，特征的正态性对回归模型的拟合效果起到非常重要的作用。所以对数据进行对数转换，不仅可以使特征正态化，而且也可以减少异常值对变量的影响。

3.8 得到数据特征的重要性并做成DataFrame形式

特征的选择是非常关键的一步，好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。特征没有选择好，对比赛结果也会产生不小的影响。这里我选择使用Lasoo回归来得到数据特征的重要性数值，并将变量名和特征的重要性作为DataFrame的形式，方便后面进行可视化处理。

3.9 对数据特征重要性数值进行可视化

得到了变量特征的重要性后，由于得到的是一些数值，数字太抽象，图表会更直观、可以突出数据中的关注点，所以这里对上面得到的数据进行可视化处理。

3.10 对数据进行合并

根据上面得到的数据特征重要性图，对数据特征进行选择与重做，对题目所给的变量，根据特征重要性值对特征进行加减乘除等运算，对部分数据进行合并。

3.11 取出处理后的测试集数据

将数据进行处理后，把测试集的数据取出，以便后面使用机器学习相关模型对数据进行预测。

3.12 使用机器学习模型对数据进行预测

对数据处理完成后，使用机器学习算法对的处理后的测试集进行预测，得到测试结果。

数据分析

4.1 EDA（探索性数据分析）

首先我根据题目所给的数据，使用了pandas_profiling库，生成了数据的EDA（探索性数据分析）报告：

从Overview部分可以看到，数据中没有重复数据，不需要处理重复数据；但空值占比还是不小的，有5.9%，需要对空值进行处理。

4.2异常值处理

根据EDA报告中得到的变量相关矩阵图：

从这个相关矩阵图的最后一列数据可以看出，SalePrice与其他变量的关系，从图中可以看出房屋的面积(GrLivArea)、地下室面积(GrLivArea)、建造年份(YearBuilt)等变量与SalePrice的颜色较深，也有其他一些颜色较深的变量。颜色越深说明其相关性越大。我认为房屋的面积(GrLivArea)、地下室面积(TotalBsmSF)、建造年份(YearBuilt)与房屋的价格(SalePrice)关系还是挺大的，一般来讲，面积越大房子的价格会越贵，房龄越久房子的价格也会较便宜。所以我构建了三个图像：YearBuilt与SalePrice之间的箱型图、GrLivArea与SalePrice之间的散点图、TotalBsmSF与SalePrice之间的散点图。

YearBuilt与SalePrice的箱型图：

从这个箱型图可以看出：房屋建造年份和销售价格并没有很强的趋势关系, 但根据我平时的常识来说，我觉得他们两者之间还是有一定的关系，所以在后面处理时我还是将它重点考虑了。

GrLivArea与SalePrice的散点图：

根据得到的散点图，可以看出房屋面积和房屋的价格存在着一定的线性关系，但也有少量的数据偏离线性关系，由于数据只有两个，所以这里我把太偏离线性的那两个数据使用drop()函数删除掉了，删除后得到的散点图如下：

TotalBsmSF与SalePrice的散点图：

根据得到的散点图，可以看出地下室面积和房屋的价格存在着一定的线性关系，但也有数据偏离线性关系，所以这里我把右边太偏离线性的那个数据使用drop()函数删除掉了，删除后得到的散点图如下：

4.3合并训练集和测试集

处理好了训练集的异常值后，我把训练集和测试集数据使用concat()函数进行合并，以便后面方便对数据进行分析处理。

4.4删除多余的列

把数据进行合并后，我发现Id列和索引值都是以1 为间隔升序的数值：

所以我把Id列给删除，删除Id列后，方便后面对数据的处理，删除后：

4.5缺失值处理

在得到的EDA报告中可以看出训练集中缺失值占比不少：

从图中可以看出，空白部分代表的是缺失值，部分变量缺失值占比很大。

把数据合并后，我使用了isnull()和sum()函数来统计数据中缺失值的个数，并使用sort_values()函数对缺失数据从低到高进行排序：

由于存在空值的变量较多，我使用了info()方法查看80个变量的信息：

从得到的信息可以看出，有些缺失数据时字符串类型的，有些是数值类型的，所以在使用fillna()函数对缺失值进行填充时，我先对字符串类型的变量进行分析，决定对这些变量：MSZoning (一般分区分类)、BsmtFullBath (地下室全浴室)、BsmtHalfBath (地下室半浴室)、KitchenQual (厨房质量)、SaleType (销售类型)、Exterior1st (房屋外墙)、Exterior2nd (房屋的外部覆盖物)、Utilities(公用设施)、Functional(家庭功能评级)、Electrical(电气设备)使用众数进行填充；对数值类型的变量用0进行填充；对剩下的字符型变量使用“None”进行填充：

填充完成后，查看是否有还有未填充的数据：

发现只有房屋价格一列存在缺失，故把目前把空值填充完成。

4.6数据类型转换

从上面得到数据类型信息图中可以看到，有很多变量是字符串类型的，但计算机对字符串的特征是无能为力的，所以需要将字符串特征映射成数值类型。我使用了fit_transform()函数对数据进行转换，fit_transform()是fit()和transform()的组合，这个函数先对部分数据进行拟合fit，然后根据具体转换的目的，对该数据进行转换，从而实现数据的标准化：

可以看到转换后字符类型的值转换为数值类型的值。

4.7数据对数化处理

由于一些变量不符合正态分布，对数据进行对数化处理可以使那些不完全具有正态分布的特征更符合正态分布，特征的正态性对回归模型的拟合效果会起到非常重要的作用。所以我对部分数据进行对数转换：

SalePrice（房屋价格）：

处理前：

处理后：

由于变量数较多，所以我筛选了部分变量，选择了skew（偏差）大于0.75的变量，共有12个，对这12个变量进行了转换，下面是前后对比图：

4.8 得到数据特征的重要性并做成DataFrame形式

特征的选择是非常关键的一步，好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。特征没有选择好，对比赛结果也会产生不小的影响。在得到数据特征的重要性时，我考虑到了Lasso回归和Ridge回归，但由于Lasso回归中求得的值会有更少的非零分量，所以这里我选择使用Lasoo回归来得到数据特征的重要性数值：

得到后，将变量名和特征的重要性作为DataFrame的形式，方便后面进行可视化处理：

4.9 对数据特征重要性数值进行可视化

得到了变量特征的重要性后，由于得到的是一些数值，数字太抽象，图表会更直观、可以突出数据中的关注点，所以这里对上面得到的数据进行可视化处理：

4.10 对数据进行合并

根据上面得到的数据特征重要性图，对数据特征进行选择与重做，对题目所给的变量，根据特征重要性值对特征进行加减乘除等运算，对部分数据进行合并，我构造了一个转换函数transform()：

下面是我构建这个转换函数的想法：

地下室面积、一楼的面积、二楼的面积这三者进行组合为整个房子
地下室面积、一楼的面积、二楼的面积、车库面积这四者进行组合为整个房子的总面积
把总体材料和加工质量、整个房子进行组合为一个新的特征变量
把生活区面积、总体材料和加工质量进行组合为一个新的特征变量
把一般分区分类、整个房子进行组合为一个新的特征变量
把一般分区分类、总体材料和加工质量进行组合为一个新的特征变量
把一般分区分类、建造年份进行组合为一个新的特征变量
把邻里、整个房子进行组合为一个新的特征变量
把邻里、总体材料和加工质量进行组合为一个新的特征变量
把邻里、建造年份进行组合为一个新的特征变量
把地下室的高度、总体材料和加工质量进行组合为一个新的特征变量
把家庭功能评级、整个房子进行组合为一个新的特征变量
把家庭功能评级、总体材料和加工质量进行组合为一个新的特征变量
把地块面积、总体材料和加工质量进行组合为一个新的特征变量
把整个房子、地块面积进行组合为一个新的特征变量
把类型 1成品、类型 2成品、地下室进行组合为一个新的特征变量
把浴室、房间数进行组合为一个新的特征变量
把开放门廊面积、封闭的门廊面积、三季门廊面积、屏幕门廊面积进行组合为一个新的特征变量
把地下室总面积、一楼的面积、二楼的面积、车库面积、开放门廊面积、封闭的门廊面积、三季门廊面积、屏幕门廊面积进行组合为一个新的特征变量

以上19条便是我根据数据特征重要性图和自己的想法来对数据进行特征的选择和重做。

4.11 取出处理后的测试集数据

将数据进行处理后，把测试集的数据取出，以便后面使用机器学习相关模型对数据进行预测：

4.12使用机器学习模型对数据进行预测

对数据处理完成后，使用机器学习算法对的处理后的测试集进行预测，得到测试结果：

①首先构建了模型评估方法：我选择使用交叉验证法。使用交叉验证法，每个样例都会刚好在测试集中出现一次，对数据的使用更加高效，更多的数据可以得到更为精确的模型。

②接下来使用网格搜索：网格搜索是一种调参手段，可以实现自动调参并返回最佳的参数组合。

③接下来就是对模型的选择：我使用了6个模型，这些模型之间有一些相同的点，但各个模型都有各自的优点所在：

Lasso回归：该方法是以缩小变量集（降阶）为思想的压缩估计方法。

岭回归：在不抛弃任何一个变量的情况下，缩小了回归系数，使得模型相对而言会比较稳定。

支持向量回归：这是一种“宽容的回归模型”，在线性函数两侧制造了一个“间隔带”，对于所有落入到间隔带内的样本，都不计算损失。

核岭回归：这个回归会产生近似形式的解，在中度规模的数据时效率高。

弹性网络：弹性网络它永远可以产生有效解，它不会产生交叉的路径。

贝叶斯回归：贝叶斯回归易于训练，可以用于在预估阶段的参数正则化，通过手动调节数据值来实现。

④最优参数的选取：使用上面所定义的模型评估方法对选择的模型进行评估，得出每个模型的最优参数如下：

⑤模型的集成：得到了选取模型的最优参数后，对模型进行集成，我使用了两个方法对模型进行集成：

加权平均法：使用上面所选取的最优参数，对每个模型分配不同比例的权重，求出交叉验证的均值：

模型的堆叠：定义了模型堆叠函数（先把数据进行了5折划分，把数据集分成了5份，然后使用模型进行拟合），后面便可以根据这个函数对数据进行预测。

⑥模型训练、预测结果：把处理后得到的测试集数据放到堆叠的模型中进行计算，得到结果，并将结果保存到csv文件中：

4.13 有意义的方面

我认为数据处理的有意义方面有：

对空值的填充：在对空值进行填充时，我选择对房屋销售类型、一般分区分类、地下室全浴室、地下室半浴室、厨房质量、销售类型、房屋外墙、房屋的外部覆盖物、公用设施、家庭功能评级、电气设备这些变量使用众数进行填充，我认为这些变量可以用数据的一般水平来代替。
对异常数据的删除：通过分析得到了房屋的面积、地下室面积、建造年份这三个变量与房屋价格之间的关系，得到了他们与房屋价格之间的图像，通过图像分析，对异常的值进行删除。
数据的对数化处理：一些变量不符合正态分布，对数据进行对数化处理可以使那些不完全具有正态分布的特征更符合正态分布，这样对回归模型的拟合效果会起到非常重要的作用。

将特征进行合并：

将室内房屋的面积（地下室面积、一楼的面积、二楼的面积、车库面积）进行合并处理，构建出一个新的变量，并对这个新的变量进行分析处理。
把室内、室外房屋的面积（地下室总面积、一楼的面积、二楼的面积、车库面积、开放门廊面积、封闭的门廊面积、三季门廊面积、屏幕门廊面积）进行合并，构建出一个新的变量，表示整个房子的室内、室外总面积。
把房屋的面积和房屋的加工材料这两个变量进行乘法运算，得到一个新的变量，后面再对这个新的变量进行分析。
把浴室、房间数相加组合为一个新的特征变量，这个变量可以用来表示整个房子的总房间个数。
把邻里、建造年份相加，组合为一个新的特征变量，我认为邻里可以反应出房子所在位置所在地段是否繁华，而建造年份可以反应出房子从开始建造到购买房子的时间。
把家庭功能评级、总体材料和加工质量相加，组合为一个新的特征变量，家庭功能评级和房子所用的材料都可以反应出这个房子的好坏，评级越高、加工材料越好，肯定房子也是越好的。
把（开放门廊面积、封闭的门廊面积、三季门廊面积、屏幕门廊面积）相加，进行组合为一个新的特征变量门廊的总面积，后面便可以对门廊总面积进行分析了。

等等。。。

以上便是我列举的10个较有意义的数据处理。

项目总结

房价预测这个题目看似简单，只需要得到1460个样本数据的房价即可。但实质上也有难度，它的属性有80个，缺失值也很多，在数据预处理这里我也更改了多次。

特别是在对数据特征进行选择和重做时，我也是有点不知道该怎样处理，最后我决定构建出数据的特征重要性图，根据数据特征重要性图中的数据对参数进行选择，再把属性进行合并、分拆等操作。

在选择模型的时候，先是对模型的选择，再对模型进行集成、堆叠，通过更改每个模型的权重，最后得到了一个较好的结果。

通过这次的课程设计有学到很多，收获很大，对缺失值的处理、数据的合并、数据可视化处理、对数据特征的选择等。我也明白了数据处理的重要性，对数据的分析也很重要，使用不同的方法得出的结果可能会有很大的差别。这次实验，我对Python有了更好的了解，它拥有着巨大且活跃的科学计算社区，它有着pandas、sklearn等功能强大的库和工具，这次的课程设计让我深刻体会到了一些库和工具的强大。

但我觉得我在数据预处理部分还是处理的不够好，在填充空值时，只使用了均值、众数等进行填充，我认为这里还可以使用标准偏差值进行填充，在这一块，我还得继续学习；在变量特征的选取及合并方面，我认为还可以考虑更综合、更全面，构建出不一样的新特征，进一步加强预测精度，不断改进，最后拿到更好的成绩。

竞赛结果：

参考文献

周学君，陈文秀.基于人工神经网络BP算法的黄冈市房价预测[J].黄冈师范学院学报，2014.
申瑞娜，曹昶，樊重俊.基于主成分分析的支持向量机模型对上海房价的预测研究[J].数学的实践与认识，2013.
王景行.基于回归的房价预测模型研究[J].全国流通经济，2020.
赵泰，迟建英.基于灰色GM(1,1)模型在商品房销售价格预测中的应用[J].价值工程，2019.
王瑾，崔玉杰，李仝.统计模型在北京市商品房价格预测上的应用[J].劳动保障世界，2018.
陈世鹏，金升平.基于随机森林模型的房价预测[J].科技创新与应用，2016.
纪昀瑛.北京房价的思考研究与总结[J].全国流通经济，2017.
罗乐.中国房地产周期波动的统计研究成都四川大学，2007.
姜玉砚，段燕临.影响房地产价格的四大因素[J].房地产市场，2009.

王明涛.多指标综合评价中权数确定的一种综合分析方法[J].系统工程，1999.

你可能感兴趣的:(Python,数据分析,数据挖掘)

Python 进程间的通信：原理剖析与项目实战女码农的重启 java 进程通信 python
在Python编程中，当涉及多进程编程时，进程间的通信（Inter-ProcessCommunication，简称IPC）是一个重要的课题。多个进程在运行过程中，常常需要交换数据、传递状态或协同工作，这就离不开进程间通信机制。本文将深入讲解Python进程间通信的原理，并结合实际项目案例，展示其在项目中的具体使用方法。一、Python进程间通信原理操作系统为进程提供了多种通信机制，Python在标
K近邻算法【python】【sklearn】 weixin_44985842 python 近邻算法 sklearn
0定义K近邻算法（K-NearestNeighbors,KNN）是一种基于实例的监督学习算法，主要用于分类和回归任务。其核心思想是：在特征空间中，对于待预测的样本，找到与其距离最近的k个已知样本（“邻居”），根据这k个邻居的类别（分类任务）或属性值（回归任务）来决定该样本的预测结果，，常用欧氏距离公式：对于两个n维样本点xi=(xi1,xi2,...,xin)x_i=(x_{i1},x_{i2},
python学智能算法（二十五）|SVM-拉格朗日乘数法理解
引言前序学习进程中，已经对最佳超平面的求解有了一定认识。刚好在此梳理一下:函数距离首先有函数距离F，也可以称为函数间隔F：F=min⁡i=1...myi(w⋅xi+b)F=\min_{i=1...m}y_{i}(w\cdotx_{i}+b)F=i=1...mminyi(w⋅xi+b)几何距离然后有几何距离δ，也可以称为几何间隔δ：δ=min⁡i=1...myi(w∥w∥⋅xi+b∥w∥)\delt
python爬虫运行_Python爬虫杂记 - python运行js weixin_39727402 python爬虫运行
execjs使用有了selenium+ChromeHeadless加载页面为什么还要用execjs来运行js？selenium+ChromeHeadless必然是爬虫的一大利器，可是缺点依然存在，性能问题不可忽视。但这构不成舍弃它而不用的理由。我认为舍弃包括ChromeHeadless、PhantomJS在内的无头浏览器的原因主要有以下几点：1.页面结构改变、弹窗(一些网站的页面结构经常无规则改变
python3 pyv8 linux,Python3.5安装PyV8 左瑶 python3 pyv8 linux
Python3.5安装PyV8时，报错，PyV8版本：PyV8-0.5。错误如下：C:UsersAdministratorAppDataLocalProgramsPythonPython35Libsite-packages>pipinstallPyV8CollectingPyV8Usingcachedhttps://files.pythonhosted.or...683f439e7bdd67f95
python 安装PyV8 和 lxml
近来在玩python爬虫，需要使用PyV8模块和lxml模块。但是执行pipinstallxx或者easy_installxx指令都会提示一些错误。这些错误有些是提示pip版本过低或者缺少vc++9.0环境，再或者一些头文件无法引用等等。我也懒得找错误解决方法。就直接下载Pyv8模块的安装包和lxml的安装包。Pyv8的安装包链接：1.针对win32+python2.7的安装包PyV8-1.0-p
力扣25.7.15每日一题——有效单词一个OI蒟蒻 LeetCode leetcode 算法职场和发展
Description应该都能看懂吧……Solution一道简单的模拟题。按照题意枚举字符串，判断元/辅音；判断合法即可。也不知道今天的题为什么怎么淼Code（C++、Python3）C++classSolution{public:boolisValid(stringword){if(word.size()bool:iflen(word)<3:returnFalsee=f=Falseforcinw
OpenCV 入门指南 —— 从环境搭建到图像处理 m0_74751715 opencv 图像处理人工智能 python
文章目录前言一、什么是OpenCV？二、环境准备与安装1.Python虚拟环境2.安装OpenCV3.验证安装三、读取与显示图像四、常见图像处理操作1.色彩空间转换2.图像平滑（模糊）3.边缘检测（Canny算法）4.在图像上绘制图形与文字五、视频与摄像头操作六、推荐学习路线七、参考资料前言在计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）凭借其开源、
Python机器学习教程
Python机器学习教程(MachineLearningwithPythonTutorial)PDFVersionQuickGuideResourcesJobSearchDiscussionPDF版本快速指南资源资源求职讨论区MachineLearning(ML)isbasicallythatfieldofcomputersciencewiththehelpofwhichcomputersyste
Python PyV8: 在Python中运行JavaScript的利器莱财一哥
本文还有配套的精品资源，点击获取简介：PythonPyV8是一个在Python环境中执行JavaScript代码的库，基于Google的V8JavaScript引擎，实现Python与JavaScript之间的互操作性。本文将详细讨论PyV8的安装方法，包括通过pip安装和自行编译安装特定版本的步骤，以及如何在Python程序中使用PyV8执行JavaScript代码。1.PythonPyV8库介
Pycharm开发Djnago项目部署详细教程（2021更新） af9f873c915c
项目部署：这里用的是非常干净的ubuntu16.04系统环境，没有使用任何云服务器，原因是因为不同的云服务器环境都不一样。我们就从零开始来完成部署。在开发机上的准备工作：确认项目没有bug。用pipfreeze>requirements.txt将当前环境的包导出到requirements.txt文件中，方便部署的时候安装。把dysms_python文件准备好。因为短信验证码的这个包必须通过将项目上
医疗AI与融合数据库的整合：挑战、架构与未来展望（上） Loving_enjoy 计算机学科论文创新点机器学习 facebook 课程设计经验分享
在医疗AI爆发式增长的今天，单一数据库已无法满足多模态医疗数据的处理需求。本文将揭秘医疗融合数据库的核心架构，通过真实代码示例展示如何破解医疗数据整合的世纪难题。###一、医疗数据的"四维挑战"####1.多模态数据洪流```python#典型患者数据组成patient_data={"时序数据":"ECG/EEG波形(1000Hz采样)","影像数据":"CT/MRI(单次扫描2GB+)","文本
PyQt5学习笔记，带例子源码
一、很程序员，都喜欢开发windows桌面应用系统，基于python3开发，效率高二、PyQt5开发的桌面应用系统是可以跨平台的，可以在Mac上、Window上、Linux桌面系统上运行，以下为学习笔记及总级三、源码下载登录后复制1、QDateTimeEdit日期输入框setCalendarPopup弹出日期选择框setDisplayFormat("yyyy-MM-ddHH:mm:ss")设置展示
Python爬虫实战：高效提取与解析JSON格式数据 Python爬虫项目 python 爬虫宽度优先数据库 json 深度优先开发语言
1.JSON数据爬取概述在当今互联网时代，JSON(JavaScriptObjectNotation)已成为最流行的数据交换格式之一。相比传统的HTML页面，JSON格式数据具有结构清晰、体积小、解析方便等优势，使得它成为API接口的首选数据格式。1.1为什么选择JSON数据爬取数据结构化：JSON数据本身就是结构化的，不需要像HTML那样进行复杂的解析传输高效：JSON通常比HTML体积小，传输
手绘电路图的节点和端点检测一个简化版的算法实现框架 zhangfeng1133 算法
于论文描述，我将提供一个简化版的算法实现框架，用于手绘电路图的节点和端点检测，并整合生成电路原理图。以下代码结合了YOLOv5目标检测和传统图像处理技术，符合论文中提到的98.2%mAP和92%节点识别准确率的关键指标。核心算法实现（Python+OpenCV+YOLOv5）importcv2importnumpyasnpimporttorchfromyolov5importYOLOv5#需要安装
Python实现神经网络算法指南代码编织匠人 python 神经网络算法
Python实现神经网络算法指南神经网络是一种模拟人脑神经元结构进行信息处理的机器学习算法。在深度学习领域中，神经网络是最为强大的算法之一。Python作为一门简单易学的编程语言，也成为了许多人选择实现神经网络算法的首选语言。在本篇文章中，我们将通过Python代码来实现神经网络算法。导入必要的库为了实现神经网络算法，我们需要导入一些必要的Python库，包括numpy和matplotlib。其中
使用LangChain构建多代理系统实现复杂任务自动化 LCG元工具 langchain 自动化运维
目录一、系统架构设计模块说明：二、核心工作流程（双流程图对比）横向对比：单代理vs多代理纵向核心流程三、企业级实现方案1.Python核心代码（LangChain0.1.8+）2.TypeScript前端集成代码四、性能对比测试五、生产级部署方案安全审计要点：高可用部署拓扑：六、技术前瞻性分析附录：完整技术图谱摘要：本文深度解析如何基于LangChain框架构建企业级多代理系统，通过模块化架构设计
时序数据库选型避坑全攻略：IoTDB性能与成本双杀的秘密！ LCG元数据库时序数据库 iotdb java
文章目录一、架构设计深度解析1.1IoTDB架构图谱1.2核心流程对比二、企业级实战代码2.1Python数据写入示例2.2TypeScript客户端实现2.3集群配置YAML三、性能对比分析四、生产部署方案4.1安全加固配置4.2安全策略实施五、技术前瞻分析5.1云原生演进路径5.2新型存储引擎预测六、技术图谱附录一、架构设计深度解析1.1IoTDB架构图谱数据写入协议适配层内存表管理持久化引擎
大规模图计算引擎的分区与通信优化：负载均衡与网络延迟的解决方案 LCG元系统服务架构负载均衡网络运维
目录一、系统架构设计与核心流程1.1原创架构图解析1.2双流程对比分析二、分区策略优化实践2.1动态权重分区算法实现（Python）三、通信优化机制实现3.1基于RDMA的通信层实现（TypeScript）四、性能对比与调优4.1分区策略基准测试五、生产级部署方案5.1Kubernetes部署配置（YAML）5.2安全审计配置六、技术前瞻与演进附录：完整技术图谱一、系统架构设计与核心流程1.1原创
用Python实现神经网络(四)
使用多层神经网络我们展示如何用TensorFlow构建多层神经网络###低出生率数据LowBirthratedata:#Columns Variable Abbreviation#---------------------------------------------------------------------#Lo
自平衡摩托车控制系统设计：Python实现方案神经网络15044 仿真模型算法机器学习 python 开发语言
自平衡摩托车控制系统设计：Python实现方案摘要本文针对5CCE2MCT机电一体化补考项目要求，提出了一种基于Python的自平衡摩托车控制系统完整实现方案。该系统结合PID控制、状态空间方法和数字信号处理技术，实现了稳定的平衡与运动控制。我们从数学模型建立到硬件测试进行了完整展示，提供了可替代MATLAB/Simulink方案的可行解决方案。该实现方案在保持与参考Arduino工程套件相当性能
python基础语法9，用os库实现系统操作并用sys库实现文件操作（简单易上手的python语法教学） AI 嗯啦 python 开发语言
一、os库os.system()是Pythonos库中用于执行操作系统命令的重要方法，它允许在Python程序中直接调用系统shell命令（如Linux的bash命令或Windows的cmd命令）。基本语法importosos.system(command)command：要执行的系统命令字符串（与在终端/命令提示符中输入的命令格式一致）返回值：命令执行的退出状态码（0表示成功，非0表示执行出错）
Python教程：你一定要知道的26个Python魔术方法（快记下来）旦莫 Python进阶 python 开发语言
Python中的魔术方法是指以双下划线__开头和结尾的特殊方法，也被称为特殊方法或魔术方法。这些方法在类中具有特殊的用途，它们可以让你自定义类的行为，使得你的对象可以像内置类型一样工作。这些方法由解释器调用，而不是你直接调用它们。例如，当你使用+运算符时，实际上是调用了对象的__add__方法。这些方法允许你重载运算符、改变对象的构造和初始化行为、自定义属性访问等等。使用魔术方法可以使你的代码更具
快捷删除python中pip安装的所有外部库 m0_74366096 python pip 开发语言
windows环境首先，列出所有安装的第三方库并导出到一个文件：pipfreeze>requirements.txt然后，批量卸载这些库：pipuninstall-y-rrequirements.txt最后，用del命令删除requirements.txt文件：delrequirements.txt这样就能在Windows系统上完成卸载并清理文件的操作。
Python与Java互操作性的桌面应用开发 master_chenchengg python python Python python开发 IT
Python与Java互操作性的桌面应用开发跨语言协作的魅力：Python遇上Java为什么选择Python和Java进行桌面应用开发？两种语言的优势互补：Python的简洁与Java的强大实际案例分享：当Python遇见Java，会发生什么奇妙的化学反应？搭建桥梁：Jython与JPype介绍Jython：用Python编写Java程序安装与配置：轻松几步让你上手调用Java类库：如何在Pyth
Python常见的魔术方法和魔术属性景天科技苑 python轻松入门基础语法到高阶实战教学 python 开发语言魔术方法魔术属性
文章目录魔术方法1、`__new__`魔术方法(1)基本使用(2)`__new__`触发时机要快于`__init__`(3)`__new__`的参数要和`__init__`参数一一对应。参数个数一致就行(4)`__new__`和`__init__`之间的注意点2、单态模式:同一个类,无论实例化多少次,都有且只有一个对象3、`__del__`魔术方法(析构方法)(1)基本语法(2)模拟文件操作4、`
Docker 基本操作 dufufd other
https://zhuanlan.zhihu.com/p/23599229Docker是什么？Docker是一个虚拟环境容器，可以将你的开发环境、代码、配置文件等一并打包到这个容器中，并发布和应用到任意平台中。比如，你在本地用Python开发网站后台，开发测试完成后，就可以将Python3及其依赖包、Flask及其各种插件、Mysql、Nginx等打包到一个容器中，然后部署到任意你想部署到的环境。
python调用java的方法月下老葫 python自动化测试 python java
最近自己开发的一套测试平台，因为上游系统经常修改主数据，导致其中一个功能经常失败，要频繁找上游测试帮忙修改数据。基于此种原因，对于这种过于依赖上游系统的接口，决定放弃直接调上游系统的http请求下发数据，改成调本地系统的java接口，直接构造数据。而这有两个难点，一个python怎么调用java方法，一个是我不会java编程。。。经常不懈的努力，终于解决了这2个问题，这里做个简单的记录。这里有同学
北京-4年功能测试2年空窗-报培训班学测开-第四十五天
今天自习，在教室白天都在复习python的面向对象之所以先复习以前的课而不是复习昨天的，一是因为这块还没复习，二是因为，新学的unittest框架，用到封装继承的部分太多了，面向对象学的都忘了，所以昨天很多部分都不理解面向对象三大特征，封装，继承，多态封装是把属性和方法封装到一个类里方便复用，继承是类之间的从属关系，子类可以继承父类的所有属性和方法在类里，类对象用cls表示，实例对象用self表示
疫情下，我的健康码首次变成了黄码唯我一心
3月中旬，老公在广州白云区接了一单生意，要很久才回来，就在那里租了一间房，带我和孩子一起住。房子在七楼，步梯，因孩子小，自己就很少下楼，都是他买菜回来，4月8号，订单完成，返程回了佛山。过了两天突然接到短信通知，白云区要大规模核酸筛查，又过一天收到短信:通过大数据分析，您近期行程涉及疫情防控重点区域，您的健康码将被赋予2次黄码并需开展2次核酸检测，请注意健康码状态，尽快凭码到附近黄码核酸检测点进行
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一