尤尔小屋的猫

kaggle赛题：波士顿房价分析

公众号：尤而小屋
作者：Peter
编辑：Peter

大家好，我是Peter~

这个是Kaggle专栏的第二篇，赛题名是： House Prices - Advanced Regression Techniques。在本文中，你将会学习到：

单、多变量分析
相关性分析
缺失值、异常值处理
哑变量转换

原notebook地址：https://www.kaggle.com/pmarcelino/comprehensive-data-exploration-with-python

排名榜

让我们看下排名榜，第一名真的是碾压其他选手呀~所以，今天我们一起看看这个第一名的方案到底是多棒？

数据介绍

这份波士顿房价的数据集有4份数据，训练集train+测试集test+数据集的描述description+提交模板sample

其中训练集有81个特征，1460条数据；测试集81个特征，1459条数据。看下部分属性介绍：

数据EDA

导入模块和数据，并进行数据探索：

导入库

import pandas as pd
import numpy as np
# 绘图相关
import plotly.express as px
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use("fivethirtyeight")

# 数据建模
from scipy.stats import norm
from scipy import stats
from sklearn.preprocessing import StandardScaler

# 警告
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

导入数据

数据信息

训练集整体是1460*81；而且很多的存在字段都存在缺失值

描述统计信息：

销售价格SalePrice分析

前原notebook文档中，作者分析了很多自己关于这个题目和字段的看法，具体不阐述。下面介绍的是重点部分：

统计信息

单单看这个字段的统计信息：

分布直方图如下，我们明显感受到：

价格的分布偏离了正态分布
有明显的正偏度现象
有明显的峰值出现

偏度和峰度（skewness and kurtosis）

知识加油站：偏度和峰度

详细的解释参见文章：https://zhuanlan.zhihu.com/p/53184516

偏度：衡量随机变脸概率分布的不对称性，是相对于平均值不对称程度的度量，通过对偏度系数的测量，我们能够判定数据分布的不对称程度以及方向。
峰度：是研究数据分布陡峭或者平滑的统计量，通过对峰度系数的测量，我们能够判定数据相对于正态分布而言是更陡峭还是更平缓。峰度接近0，数据呈现正态分布；峰度>0，高尖分布；峰度<0，矮胖分布

偏度的两种分布情况：

如果是左偏，则偏度小于0
如果是右偏，则偏度大于0

峰度的两种分布情况：

如果是高瘦型，则峰度大于0
如果是矮胖型，则峰度小于0

# 打印销售价格的偏度和峰度

print("Skewness（偏度）: %f" % train['SalePrice'].skew())
print("Kurtosis（峰度）: %f" % train['SalePrice'].kurt())

Skewness（偏度）: 1.882876
Kurtosis（峰度）: 6.536282

偏度和峰度值都是正的，明显说明数据是右偏且高尖分布

SalePrice和数值型字段的关系

首先我们考察和居住面积的关系：

plt.figure(1,figsize=(12,6))
sns.scatterplot(x="GrLivArea",y="SalePrice",data=data)
plt.show()

# plotly版本
px.scatter(data,x="GrLivArea",y="SalePrice",trendline="ols")

TotalBsmtSF VS SalePrice

# 2、TotalBsmtSF 
data = train[["SalePrice","TotalBsmtSF"]]

plt.figure(1,figsize=(12,6))
sns.scatterplot(x="TotalBsmtSF",y="SalePrice",data=data)
plt.show()

小结：我们可以观察到这两个特征和销售价格之间是存在一定的线性关系。

价格和分类型字段的关系

1、OverallQual VS SalePrice

# 1、OverallQual：整体房屋质量

# 总共10个类别
train["OverallQual"].value_counts()

5     397
6     374
7     319
8     168
4     116
9      43
3      20
10     18
2       3
1       2
Name: OverallQual, dtype: int64

data = train[["SalePrice","OverallQual"]]

# 房屋整体质量和房价的关系
# 绘制子图：1号位
f,ax = plt.subplots(1,figsize=(12,6))
fig = sns.boxplot(x="OverallQual",y="SalePrice",data=data)
# y轴的刻度范围
fig.axis(ymin=0,ymax=800000)
plt.show()

2、YearBuilt VS SalePrice

住在建造年份和销售价格的关系

data = train[["SalePrice","YearBuilt"]]

# 建造年份和房价的关系
f,ax = plt.subplots(1,figsize=(16,8))
fig = sns.boxplot(x="YearBuilt",y="SalePrice",data=data)
# y轴的刻度范围
fig.axis(ymin=0,ymax=800000)
plt.show()

小结：销售价格和住宅的整体质量有很强的关系；但是和建筑年份的关系不大。但是在实际的买房过程中，我们还是会很在意年份

小结

对上面分析的一点小结：

地面生活区(GrLivArea)、地下室面积(GrLivArea)和销售价格SalePrice都是呈现正向的线性相关
房屋的整体质量(OverallQual)和建造年份(YearBuilt)好像也和销售价格线性相关。常识来说，整体的质量越好，价格越贵

缺失值处理

针对缺失值的情况，主要是讨论两点：

缺失值分布情况怎么样？
缺失值是随机的？还有具有某种规律

缺失值占比

1、查看每个字段的缺失值情况

# 每个字段的缺失值数量：降序
total = train.isnull().sum().sort_values(ascending=False)
total.head()

PoolQC         1453
MiscFeature    1406
Alley          1369
Fence          1179
FireplaceQu     690
dtype: int64

2、转成百分比

# 每个字段的缺失值 / 总数
percent = (train.isnull().sum() / train.isnull().count()).sort_values(ascending=False)
percent.head()

PoolQC         0.995205
MiscFeature    0.963014
Alley          0.937671
Fence          0.807534
FireplaceQu    0.472603
dtype: float64

3、数据合并，整体的缺失值情况：

删除缺失值

原文中分析了很多，最后的结论：

In summary, to handle missing data,

1、we’ll delete all the variables with missing data, except the variable ‘Electrical’.

2、In ‘Electrical’ we’ll just delete the observation with missing data.

# 步骤1：需要删除的字段
missing_data[missing_data["Total"] > 1].index

Index(['PoolQC', 'MiscFeature', 'Alley', 'Fence', 'FireplaceQu', 'LotFrontage',
       'GarageYrBlt', 'GarageCond', 'GarageType', 'GarageFinish', 'GarageQual',
       'BsmtFinType2', 'BsmtExposure', 'BsmtQual', 'BsmtCond', 'BsmtFinType1',
       'MasVnrArea', 'MasVnrType'],
      dtype='object')

# 第一步
train = train.drop(missing_data[missing_data["Total"] > 1].index,1)
#	第二步
train = train.drop(train.loc[train["Electrical"].isnull()].index)

离群点out liars

查找离群点

## 数据标准化standardizing data
# np.newaxis 增加数据维度，一维变成二维
saleprice_scaled = StandardScaler().fit_transform(train["SalePrice"][:,np.newaxis])
saleprice_scaled[:5]

array([[ 0.34704187],
       [ 0.0071701 ],
       [ 0.53585953],
       [-0.5152254 ],
       [ 0.86943738]])

# 查看前10和最后10位的数据
# argsort：返回的是索引值；默认是升序排列，最小的在最前面，最大的在最后

low_range = saleprice_scaled[saleprice_scaled[:,0].argsort()][:10]

high_range = saleprice_scaled[saleprice_scaled[:,0].argsort()][-10:]

print(low_range)
print('----------')
print(high_range)

小结3

low_range接近，且离0比较近
high_range离0很远；且7+的数据就应该是离群点了

单变量分析1

data = train[["SalePrice","GrLivArea"]]
data.plot.scatter(x="GrLivArea",y="SalePrice",ylim=(0,800000))
plt.show()

很明显的，两个变量（属性）存在一种线性关系

删除离群点

指定删除某个字段为具体值的方法：

单变量分析2

data = train[["SalePrice","TotalBsmtSF"]]   # 待分析的两个变量
data.plot.scatter(x="TotalBsmtSF",y="SalePrice",ylim=(0,800000))
plt.show()

深入理解SalePrice

主要从以下几个方面来深入研究销售价格：

Normality：归一化
Homoscedasticity：同方差性
Linearity：线性特质
Absence of correlated errors：相关误差

Normality归一化（SalePrice）

sns.distplot(train["SalePrice"],fit=norm)
fig = plt.figure()
res = stats.probplot(train["SalePrice"], plot=plt)

我们发现：销售价格不是正态分布的，出现了右偏度；同时也不遵循对数变化的规律。

为了解决这个问题：实施对数变换

## 对数变换
train["SalePrice"] = np.log(train["SalePrice"])

sns.distplot(train["SalePrice"],fit=norm)
fig = plt.figure()
res = stats.probplot(train["SalePrice"], plot=plt)

实施对数变换后效果好了很多的

Normality-归一化（GrLivArea）

sns.distplot(train["GrLivArea"],fit=norm)
fig = plt.figure()
res = stats.probplot(train["GrLivArea"], plot=plt)

对数变换前的效果：

执行对数变换及效果：

# 执行相同的对数操作
train["GrLivArea"] = np.log(train["GrLivArea"])

sns.distplot(train["GrLivArea"],fit=norm)
fig = plt.figure()
res = stats.probplot(train["GrLivArea"], plot=plt)

Normality-归一化（TotalBsmtSF）

sns.distplot(train["TotalBsmtSF"],fit=norm)
fig = plt.figure()
res = stats.probplot(train["TotalBsmtSF"], plot=plt)

处理之前的效果：

如何处理上面的特殊部分？

# 增加一列数据
train['HasBsmt'] = 0

# 当TotalBsmtSF>0 则赋值1
train.loc[train['TotalBsmtSF']>0,'HasBsmt'] = 1

# 对数转换：等于1的部分
train.loc[train['HasBsmt']==1,'TotalBsmtSF'] = np.log(train['TotalBsmtSF'])

# 绘图
data = train[train['TotalBsmtSF']>0]['TotalBsmtSF']
sns.distplot(data,fit=norm)
fig = plt.figure()
res = stats.probplot(data, plot=plt)

同方差性

检验两个变量之间的同方差性最好的方法就是作图。

The best approach to test homoscedasticity for two metric variables is graphically

1、讨论：‘SalePrice’ 和’GrLivArea’之间的关系

2、讨论SalePrice’ 和 ‘TotalBsmtSF’

We can say that, in general, ‘SalePrice’ exhibit equal levels of variance across the range of ‘TotalBsmtSF’. Cool!

从上面的两张图中，我们看到：销售价格和另外两个变量都是呈现一定的正向关系

生成哑变量

虚拟变量( Dummy Variables) 又称虚设变量、名义变量或哑变量，用以反映质的属性的一个人工变量，是量化了的自变量，通常取值为0或1。

Pandas中的get_dummies函数能够实现：

train = pd.get_dummies(train)  # 生成哑变量
train

总结

至此，我们完成了以下的内容：

整体变量间的相关性分析
重点分析了变量“SalePrice”
处理缺失值和异常值（离群点）
做了一些统计分析，将分类变量变成了哑变量

自己需要后续补充深入学习的点：

多元统计分析
偏度和峰度
哑变量的深入
标准化和归一化

关于数据集的领取，公众号后台回复：房价。看完整篇文章的分析过程，有什么感受呢？

用 Java 的思路快速学习 Scala 进朱者赤其他大数据 scala Scala
引言Scala是一种结合了面向对象和函数式编程的现代编程语言，广泛应用于大数据处理框架如ApacheSpark和ApacheFlink。对于熟悉Java的开发者来说，Scala的学习曲线相对平缓。本文将通过类比Java中的概念，帮助Java开发者快速上手Scala。1.基本语法1.1.数据类型以下是Scala和Java数据类型的汇总表格：Scala数据类型Java数据类型说明Intint32位整数
Python快速使用js接口程序媛小本 python javascript udp
在跨语言编程和Web开发中，Python和JavaScript是两种常用的编程语言。有时候，我们可能需要在Python环境中执行JavaScript代码。这就是execjs库发挥作用的地方。一、安装ExecJS在命令行中输入以下命令：pipinstallPyExecJS二、ExecJS的基本使用ExecJS支持多种JavaScript运行时环境，包括Node.js、SpiderMonkey、Web
Python设计模式详解之5 —— 原型模式拾工 Python设计模式 python 设计模式
Prototype设计模式是一种创建型设计模式，它通过复制已有的实例来创建新对象，而不是通过从头实例化。这种模式非常适合对象的创建成本较高或者需要避免复杂的构造过程时使用。Prototype模式提供了一种通过克隆来快速创建对象的方式。1.Prototype模式简介Prototype模式通过定义一个接口来克隆自身，使得客户端代码可以通过复制原型来创建新对象。Python中，Prototype模式可以
Python中的23种设计模式：详细分类与总结拾工 Python设计模式软件设计设计模式
设计模式是解决特定问题的通用方法，分为创建型模式、结构型模式和行为型模式三大类。以下是对每种模式的详细介绍，包括其核心思想、应用场景和优缺点。一、创建型模式（CreationalPatterns）创建型模式关注对象的创建，旨在解耦对象的创建过程，提高灵活性和可扩展性。1.单例模式（Singleton）核心思想：确保一个类只有一个实例，并提供全局访问点。应用场景：数据库连接、配置管理器、日志记录器。
华为OD机试E卷 -最长方连续方波信号（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python javascript c语言华为od机考e卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述输入一串方波信号，求取最长的完全连续交替方波信号，并将其输出，如果有相同长度的交替方波信号，输出任一即可。方波信号高位用1标识，低位用0标识。说明：一个完整的信号一定以0开始然后以0结尾，即010是一个完整信号，但101，1010，0101不是输入的一串方波信号是由一个或多个完整信号组成两个相邻信号之间可能有0个或多个
「Py」进阶语法篇之 Python中的异常捕获与处理何曾参静谧「Py」Python程序设计 python 数据库开发语言
✨博客主页何曾参静谧的博客（✅关注、点赞、⭐收藏、转发）全部专栏（专栏会有变化，以最新发布为准）「Win」Windows程序设计「IDE」集成开发环境「UG/NX」BlockUI集合「C/C++」C/C++程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「UG/NX」NX定制开发「Py」Python程序设计「Math」探秘数学世界「PK」Pa
AI Agent的记忆系统实现：从短期对话到长期知识技术出海录人工智能 AI ai agent
在上一篇文章中，我们搭建了AIAgent的基础框架。今天，我想深入讲讲AIAgent最核心的部分之一：记忆系统。说实话，我在实现记忆系统时走了不少弯路，希望通过这篇文章，能帮大家少走一些弯路。从一个bug说起还记得在开发知识助手的过程中，我遇到了一个很有意思的问题。一天我正在测试多轮对话功能：我：Python的装饰器是什么？助手：装饰器是Python中用于修改函数或类行为的一种设计模式...（省略
kaggle上面有哪些适合机器学习新手的比赛和项目 xiamu_CDA 机器学习人工智能
Kaggle上面有哪些适合机器学习新手的比赛和项目？在当今数据驱动的时代，机器学习已经成为一门炙手可热的技能。Kaggle作为全球最大的数据科学竞赛平台，不仅汇聚了众多顶尖的数据科学家和机器学习工程师，也为初学者提供了丰富的学习资源和实战机会。对于机器学习新手来说，选择合适的比赛和项目是至关重要的第一步。本文将为你推荐一些适合新手的Kaggle比赛和项目，并提供一些实用的建议，帮助你在机器学习的道
python如何在一个类里面调用另一个类里面的东西 xiamu_CDA python 开发语言
Python高手必备：轻松实现在一个类里调用另一个类的方法和属性Python是一门强大且灵活的编程语言，它的面向对象特性使得开发者可以轻松地组织和管理代码。然而，在实际开发过程中，我们经常会遇到这样一个问题：如何在一个类里面调用另一个类里面的东西？这看似简单的问题背后其实涉及到了许多面向对象编程的核心概念。本文将深入探讨这个问题，并提供几种实现方法，帮助你更好地理解和应用Python的类。为什么需
spss因子分析过程中，旋转载荷平方和累积有点低咋办怎么调整 xiamu_CDA python
SPSS因子分析过程中，旋转载荷平方和累积有点低咋办？怎么调整？在数据分析领域，因子分析是一项重要的统计技术，尤其在心理学、社会学、市场营销等领域中应用广泛。它通过将多个变量简化为少数几个潜在因子，帮助研究者理解变量之间的内在结构。然而，在实际操作过程中，我们常常会遇到一些棘手的问题，比如旋转载荷平方和累积值偏低。这不仅会影响模型的解释力，还可能导致研究结果的可靠性大打折扣。那么，当我们在使用SP
python给PDF添加水印 icon920 java pdf
#添加水印fromPyPDF2importPdfReader,PdfWriterfromcopyimportcopysy=PdfReader("C:\\test\\watermark.pdf")＃水印所在位置mark_page=sy.pages[0]#水印所在的页数#读取添加水印的文件file_reader=PdfReader("C:\\test\\PDF.pdf")#需要添加水印的PDFfile
使用python对pdf批量添加水印，并且水印字体，大小，位置，旋转角度都是可以调节不懂python不懂R python python pdf
1.使用python对pdf批量添加水印，并且水印字体，大小，位置，旋转角度都是可以调节的importosfromPyPDF2importPdfReader,PdfWriterfromreportlab.pdfgenimportcanvasfromreportlab.lib.pagesizesimportletterfromreportlab.lib.colorsimportColordefcre
Python批量为PDF添加水印：让你的文件瞬间高大上！码无止尽 Python办公自动化 python pdf
嗨，各位可爱的小伙伴们！小编在此奉上今天的超级干货：如何用Python给一大堆PDF文件添加水印。请放心，这不是在交朋友圈秀操作，而是有实际需求的哦！有时候我们需要在PDF文件上添加水印，比如“草稿”、“保密”、“审阅”等标识，来提醒自己或他人。今天就让我来教你如何用Python轻松搞定这件事！首先，让我给你看一下大致的实现思路，然后再附上实际代码。实现思路1、首先，我们需要一个PDF处理的Pyt
构建自动化网页内容监控系统：使用Python 爱你不会累
本文还有配套的精品资源，点击获取简介：网页监控更新工具是一个由Python开发的软件，用于检测和记录网页内容的变化。该工具利用Python在Web抓取和数据分析方面的优势，包括利用requests,BeautifulSoup,lxml,和diff-match-patch等库来获取网页内容、解析HTML文档及计算文本差异。工具支持在Windows7及Python2.7.3环境下运行，并允许用户设定监
python监控网页更新_【小白教程】Python3监控网页 weixin_39553904 python监控网页更新
之前用RSS来监控网页更新内容，可惜刷新时间太长了，三个小时。。只能看看新闻啥的，又没有小钱钱充会员（摊手听说Python可以做这个功能，抱着试试看的态度，本以为会很麻烦，没想到这么简单哈哈~我从来没有用过Python都做出来了，相信你也没问题！（我真是纯小白，路过的大佬请指教（⊙ｏ⊙）ノ）所用模块#监控模块fromurllibimportrequestfrombs4importBeautiful
python鸢尾花数据集knn_【python+机器学习1】python 实现 KNN weixin_39629269 python鸢尾花数据集knn
欢迎关注哈希大数据微信公众号【哈希大数据】1KNN算法基本介绍K-NearestNeighbor(k最邻近分类算法)，简称KNN，是最简单的一种有监督的机器学习算法。也是一种懒惰学习算法，即开始训练仅仅是保存所有样本集的信息，直到测试样本到达才开始进行分类决策。KNN算法的核心思想：要想确定测试样本属于哪一类，就先寻找所有训练样本中与该测试样本“距离”最近的前K个样本，然后判断这K个样本中大部分所
实时监控网页变化，并增加多种提示信息安替-AnTi 自动化工具 linux 运维服务器监控网页变化
文章目录python代码实现优势手动部署下载源码安装依赖初次登录设置Docker部署设置监控chromeJS插件实现插件1背景介绍使用方法插件2参考文献通过订阅本篇文章，您可以实现在任意打开网页情况下，监控网页内指定内容或者全部内容的变化，变化的内容、时间点可以通过邮箱、微信等方式进行提醒。使用场景可以用来监控足球比赛的赔率、京东商品库存、价格等因素，并且可以为订阅用户添加各种定制化的服务。如在订
用python监控网页某个位置的值的变化老光私享 python 开发语言爬虫
可以使用Python的第三方库来监控网页上某个位置的值的变化。一种方法是使用BeautifulSoup库来爬取网页并解析HTML/XML。然后，您可以使用正则表达式或其他方法来提取所需信息。另一种方法是使用Selenium库来模拟浏览器行为，并使用JavaScript来获取网页上的信息。下面是一个使用BeautifulSoup的例子：importrequestsfrombs4importBeaut
python向pdf添加水印 ChenWenKen Python应用 python 前端
fromtypingimportUnion,Tuplefromreportlab.libimportunitsfromreportlab.pdfgenimportcanvasfromreportlab.pdfbaseimportpdfmetricsfromreportlab.pdfbase.ttfontsimportTTFontpdfmetrics.registerFont(TTFont('msy
mysql之group by语句程序研 mysql mysql 数据库
MySQL的GROUPBY语句详细介绍在MySQL数据库中，GROUPBY子句用于将查询结果按照一个或多个列进行分组。这在数据分析和报表生成中非常有用，因为它允许我们对数据进行汇总和聚合，从而提取有价值的信息。本文将详细介绍GROUPBY语句的用法、注意事项以及通过多个代码例子来演示其功能。1.基本概念GROUPBY子句通常与聚合函数（如COUNT、SUM、AVG、MAX、MIN等）一起使用，以便
python笔记（3）(re库和pandas库) Techer_Y 笔记
参考链接：Python正则表达式|菜鸟教程(runoob.com)1、re库，python正则表达式正则表达式是一个特殊的字符序列它能帮助你检查一个字符串是否与某种模式匹配。re模块使python语言拥有全部的正则表达式功能。re.match尝试从字符串起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。re.match(pattern,string,flags=0)
Python PDF添加水印 lxccc9 python 笔记
PDF添加水印加载模块：fromPyPDF2importPdfFileReader,PdfFileWriterimportosPDF添加水印：watermark_pdf=PdfFileReader('./tests/watermark.pdf')#读取第一页watermark=watermark_pdf.getPage(0)#读取需要加水印的pdf文件input_pdf=PdfFileReader
用Python写前端 eternity_ld 前端 python 开发语言
分享一个让开发交互式Webapp超级简单的工具。不会HTML，CSS，JAVASCRIPT也没事。交互式Webapp非常实用，比如说做一个问卷调查页面、一个投票系统、一个信息收集表单，上传文件等等，因为网页是可视化的，因此还可以作为一个没有服务端的图片界面应用程序而使用。如果你有这样的开发需求，那用Python真的是太简单了。借助于PyWebIO（pipinstallpywebio），你可以分分钟
使用python做出一只懒羊羊大G哥 python 开发语言
今天使用Python的Turtle库做出一只懒羊羊PythonTurtle库功能与用途一、绘图基础功能Turtle库提供了一种简单易用的方式来进行图形绘制。通过控制屏幕上的海龟指针移动来完成线条和形状的创建。可以设置画笔的颜色、大小以及方向等属性，从而实现多样化的视觉效果。importturtlet=turtle.Turtle()t.forward(100)#向前走100像素距离t.right(9
【全栈】SprintBoot+vue3迷你商城-扩展：vue3项目创建及目录介绍杰九 vue.js javascript 前端 spring boot
【全栈】SprintBoot+vue3迷你商城-扩展：vue3项目创建及目录介绍往期的文章都在这里啦，大家有兴趣可以看一下【全栈】SprintBoot+vue3迷你商城（1）【全栈】SprintBoot+vue3迷你商城（2）【全栈】SprintBoot+vue3迷你商城-扩展：利用python爬虫爬取商品数据【全栈】SprintBoot+vue3迷你商城（3）【全栈】SprintBoot+vue
【算法】动态规划：从斐波那契数列到背包问题杰九优质文章算法动态规划
【算法】动态规划：从斐波那契数列到背包问题文章目录【算法】动态规划：从斐波那契数列到背包问题1.斐波那契数列2.爬楼梯3.零钱转换Python代码4.零钱兑换II5.组合数dp和排列数dp6.为什么动态规划的核心思想计算组合数的正确方法代码实现为什么先遍历硬币再遍历金额可以计算组合数详细解释举例说明最终结果具体组合情况为什么有效7.背包问题01背包问题定义完全背包问题定义示例为什么需要倒序遍历8.
通过Python为PDF添加图片水印 nini！ pdf python vscode 安全
前言之前介绍了如何通过Python向PDF添加文本水印。事实上，添加图片水印也同样实用。例如将公司或产品logo添加到文档中，从而提升品牌效应或防止他人随意盗用。或者将图片插入到文档中以注明文档用处或状态。与文本水印类似，添加图片水印时，也可以设置添加单个图片水印或者多个重复水印。下面是以Python平台为例，为PDF添加图片水印的方法介绍。所需工具VisualStudioCodeSpire.PD
【机器学习】使用scikit-learn中的KNN包实现对鸢尾花数据集或者自定义数据集的的预测加德霍克机器学习人工智能 python 学习作业
一、KNN算法概念K最近邻(K-NearestNeighbor,KNN)分类算法是数据挖掘分类技术中最简单的方法之一，是著名的模式识别统计学方法，在机器学习分类算法中占有相当大的地位。它是一个理论上比较成熟的方法。既是最简单的机器学习算法之一，也是基于实例的学习方法中最基本的，又是最好的文本分类算法之一。二、对鸢尾花数据集进行预测1、代码示例：fromsklearn.datasetsimportl
用Java提取Word文档表格数据
Word文档作为一种广泛使用的文件格式，常常承载着丰富的表格信息，这些信息可能涉及到财务报表、项目规划、实验数据记录等多方面内容。将这些表格数据提取出来，能够方便进行数据分析以及内容再创作等场景。通过使用Java实现Word文档表格数据的提取，可以确保数据处理的一致性和准确性，同时大大减少所需的时间和成本。本文将介绍如何使用Java提取Word文档中的表格数据。用Java提取Word文档表格到文本
282道Python面试八股文（答案、分析和深入提问）整理 ocean2103 面试题 python 面试开发语言
1.请解释Python中的模块和包。回答在Python中，模块和包是组织代码的重要工具，它们有助于代码的重用和结构化。模块(Module)模块是一个包含Python代码的文件，通常以.py作为文件扩展名。模块可以定义函数、类和变量，也可以包含可执行的代码。通过模块，可以将相关的功能分组到一个文件中，从而使得代码更加结构化和可维护。创建和使用模块创建模块：你可以创建一个Python文件（例如mymo
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$