weixin_30872867

【学习笔记】Python 小练习—数据挖掘

用python按照教程尝试做一下数据分析，小试牛刀一下~~

数据导入和可视化

通常，数据分析的第一步由获取数据和导入数据到我们的工作环境组成。我们可以使用以下的Python代码简单的下载数据：

import urllib2
url = 'http://aima.cs.berkeley.edu/data/iris.csv'
u = urllib2.urlopen(url)
localFile = open('iris.csv'', 'w')
localFile.write(u.read())
localFile.close()

在以上的代码片段中，我们使用了urllib2类库以获取伯克利大学网站的一个文件，并使用标准类库提供的File对象把它保存到本地磁盘。数据包含鸢尾花（iris）数据集，这是一个包含了三种鸢尾花（山鸢尾、维吉尼亚鸢尾和变色鸢尾）的各50个数据样本的多元数据集，每个样本都有四个特征（或者说变量），即花萼（sepal）和花瓣（petal）的长度和宽度。以厘米为单位。

数据集以CSV(逗号分割值）的格式存储。CSV文件可以很方便的转化并把其中的信息存储为适合的数据结构。此数据集有5列（译者注：原文是行，但这里应该是列的意思），前4列包含着特征值，最后一列代表着样本类型。CSV文件很容易被numpy类库的genfromtxt方法解析：

from numpy import genfromtxt, zeros
# read the first 4 columns
data = genfromtxt('iris.csv',delimiter=',',usecols=(0,1,2,3))
# read the fifth column
target = genfromtxt('iris.csv',delimiter=',',usecols=(4),dtype=str)

在上面的例子中我们创建了一个包含特征值的矩阵以及一个包含样本类型的向量。我们可以通过查看我们加载的数据结构的shape值来确认数据集的大小：

print data.shape
(150, 4)
print target.shape
(150,)

我们也可以查看我们有多少种样本类型以及它们的名字：

print set(target)
set(['setosa', 'versicolor', 'virginica'])

当我们处理新数据的时候，一项很重要的任务是尝试去理解数据包含的信息以及它的组织结构。可视化可以灵活生动的展示数据，帮助我们深入理解数据。

使用pylab类库（matplotlib的接口）的plotting方法可以建一个二维散点图让我们在两个维度上分析数据集的两个特征值：

上面那段代码使用第一和第三维度（花萼的长和宽），结果如下图所示：

在上图中有150个点，不同的颜色代表不同的类型；蓝色点代表山鸢尾，红色点代表变色鸢尾，绿色点代表维吉尼亚鸢尾。

另一种常用的查看数据的方法是分特性绘制直方图。在本例中，既然数据被分为三类，我们就可以比较每一类的分布特征。下面这个代码可以绘制数据中每一类型的第一个特性（花萼的长度）：

from pylab import figure, subplot, hist, xlim, show
xmin = min(data[:,0])
xmax = max(data[:,0])
figure()
subplot(411) # distribution of the setosa class (1st, on the top)
hist(data[target=='setosa',0],color='b',alpha=.7)
xlim(xmin,xmax)
subplot(412) # distribution of the versicolor class (2nd)
hist(data[target=='versicolor',0],color='r',alpha=.7)
xlim(xmin,xmax)
subplot(413) # distribution of the virginica class (3rd)
hist(data[target=='virginica',0],color='g',alpha=.7)
xlim(xmin,xmax)
subplot(414) # global histogram (4th, on the bottom)
hist(data[:,0],color='y',alpha=.7)
xlim(xmin,xmax)
show()

结果如下图：

根据上图的直方图，我们可以根据数据类型区分理解数据的特征。例如，我们可以观察到，山鸢尾的平均花萼长度小于维吉尼亚鸢尾。

分类

分类是一个数据挖掘方法，用于把一个数据集中的样本数据分配给各个目标类。实现这个方法的模块叫做分类器。使用分类器需要以下两步：训练和分类。训练是指采集已知其特定类归属的数据并基于这些数据创建分类器。分类是指使用通过这些已知数据建立的分类器来处理未知的数据，以判断未知数据的分类情况。

Sklearn类库包含很多分类器的实现，本章我们将会使用高斯朴素贝叶斯来分析我们在第一章载入的鸢尾花数据，包含山鸢尾、变色鸢尾和维吉尼亚鸢尾。最后我们把字符串数组转型成整型数据：

t = zeros(len(target))
t[target == 'setosa'] = 1
t[target == 'versicolor'] = 2
t[target == 'virginica'] = 3

现在我们已经做好实例化和训练分类器的准备了：

from sklearn.naive_bayes import GaussianNB
classifier = GaussianNB()
classifier.fit(data,t)

分类器可以由predict方法完成，并且只要输出一个样例就可以很简单的检测：

print classifier.predict(data[0])
[ 1.]
print t[0]
1

上例中predicted类包含了一个正确的样本（山鸢尾），但是在广泛的样本上评估分类器并且使用非训练环节的数据测试是很重要的。最终我们通过从源数据集中随机抽取样本把数据分为训练集和测试集。我们将会使用训练集的数据来训练分类器，并使用测试集的数据来测试分类器。train_test_split方法正是实现此功能的：

from sklearn import cross_validation
train, test, t_train, t_test = cross_validation.train_test_split(data, t, …
test_size=0.4, random_state=0)

数据集被分一分为二，测试集被指定为源数据的40%（命名为test_size），我们用它反复训练我们的分类器并输出精确度：

classifier.fit(train,t_train) # train
print classifier.score(test,t_test) # test
0.93333333333333335

在此例中，我们的精确度为93%。一个分类器的精确度是通过正确分类样本的数量除以总样本的数量得出的。也就是说，它意味着我们正确预测的比例。

另一个估计分类器表现的工具叫做混淆矩阵。在此矩阵中每列代表一个预测类的实例，每行代表一个实际类的实例。使用它可以很容易的计算和打印矩阵：

from sklearn.metrics import confusion_matrix
print confusion_matrix(classifier.predict(test),t_test)
[[16  0  0]
[ 0 23  3]
[ 0  0 18]]

在这个混淆矩阵中我们可以看到所有山鸢尾和维吉尼亚鸢尾都被正确的分类了，但是实际上应该是26个的变色鸢尾，系统却预测其中三个是维吉尼亚鸢尾。如果我们牢记所有正确的猜测都在表格的对角线上，那么观测表格的错误就很容易了，即对角线以外的非零值。

可以展示分类器性能的完整报告的方法也是很好用的：

以下是该报告使用到的方法总结：

Precision：正确预测的比例

Recall（或者叫真阳性率）：正确识别的比例

F1-Score：precision和recall的调和平均数

以上仅仅只是给出用于支撑测试分类的数据量。当然，分割数据、减少用于训练的样本数以及评估结果等操作都依赖于配对的训练集和测试集的随机选择。如果要切实评估一个分类器并与其它的分类器作比较的话，我们需要使用一个更加精确的评估模型，例如Cross Validation。该模型背后的思想很简单：多次将数据分为不同的训练集和测试集，最终分类器评估选取多次预测的平均值。这次，sklearn为我们提供了运行模型的方法：

from sklearn.cross_validation import cross_val_score
# cross validation with 6 iterations
scores = cross_val_score(classifier, data, t, cv=6)
print scores
[ 0.84  0.96  1.    1.    1.    0.96]

如上所见，输出是每次模型迭代产生的精确度的数组。我们可以很容易计算出平均精确度：

from numpy import mean
print mean(scores)
0.96

聚类

通常我们的数据上不会有标签告诉我们它的样本类型；我们需要分析数据，把数据按照它们的相似度标准分成不同的群组，群组（或者群集）指的是相似样本的集合。这种分析被称为无监督数据分析。最著名的聚类工具之一叫做k-means算法，如下所示：

from sklearn.cluster import KMeans
kmeans = KMeans(k=3, init='random') # initialization
kmeans.fit(data) # actual execution

上述片段运行k-measn算法并把数据分为三个群集（参数k所指定的）。现在我们可以使用模型把每一个样本分配到三个群集中：

c = kmeans.predict(data)

我们可以估计群集的结果，与使用完整性得分和同质性得分计算而得的标签作比较：

from sklearn.metrics import completeness_score, homogeneity_score
print completeness_score(t,c)
0.7649861514489815
print homogeneity_score(t,c)
0.7514854021988338

当大部分数据点属于一个给定的类并且属于同一个群集，那么完整性得分就趋向于1。当所有群集都几乎只包含某个单一类的数据点时同质性得分就趋向于1.

我们可以把集群可视化并和带有真实标签的做可视化比较：

figure()
subplot(211) # top figure with the real classes
plot(data[t==1,0],data[t==1,2],'bo')
plot(data[t==2,0],data[t==2,2],'ro')
plot(data[t==3,0],data[t==3,2],'go')
subplot(212) # bottom figure with classes assigned automatically
plot(data[c==1,0],data[tt==1,2],'bo',alpha=.7)
plot(data[c==2,0],data[tt==2,2],'go',alpha=.7)
plot(data[c==0,0],data[tt==0,2],'mo',alpha=.7)
show()

结果如下图所示：

观察此图我们可以看到，底部左侧的群集可以被k-means完全识别，然而顶部的两个群集有部分识别错误。

回归

回归是一个用于预测变量之间函数关系调查的方法。例如，我们有两个变量，一个被认为是解释，一个被认为是依赖。我们希望使用模型描述两者的关系。当这种关系是一条线的时候就称为线性回归。

为了应用线性回归我们建立一个由上所述的综合数据集：

from numpy.random import rand
x = rand(40,1) # explanatory variable
y = x*x*x+rand(40,1)/5 # depentend variable

我们可以使用在sklear.linear_model模块中发现的LinearRegression模型。该模型可以通过计算每个数据点到拟合线的垂直差的平方和，找到平方和最小的最佳拟合线。使用方法和我们之前遇到的实现sklearn的模型类似：

from sklearn.linear_model import LinearRegression
linreg = LinearRegression()
linreg.fit(x,y)

我们可以通过把拟合线和实际数据点画在同一幅图上来评估结果：

from numpy import linspace, matrix
xx = linspace(0,1,40)
plot(x,y,'o',xx,linreg.predict(matrix(xx).T),'--r')
show()

图见下：

观察该图我们可以得出结论：拟合线从数据点中心穿过，并可以确定是增长的趋势。

我们还可以使用均方误差来量化模型和原始数据的拟合度：

from sklearn.metrics import mean_squared_error
print mean_squared_error(linreg.predict(x),y)
0.01093512327489268

该指标度量了预期的拟合线和真实数据之间的距离平方。当拟合线很完美时该值为0。

相关

我们通过研究相关性来理解成对的变量之间是否相关，相关性的强弱。此类分析帮助我们精确定位被依赖的重要变量。最好的相关方法是皮尔逊积矩相关系数。它是由两个变量的协方差除以它们的标准差的乘积计算而来。我们将鸢尾花数据集的变量两两组合计算出其系数如下所示：

from numpy import corrcoef
corr = corrcoef(data.T) # .T gives the transpose
print corr
[[ 1.         -0.10936925  0.87175416  0.81795363]
[-0.10936925  1.         -0.4205161  -0.35654409]
[ 0.87175416 -0.4205161   1.          0.9627571 ]
[ 0.81795363 -0.35654409  0.9627571   1.        ]]

corrcoef方法通过输入行为变量列为观察值的矩阵，计算返回相关系数的对称矩阵。该矩阵的每个元素代表着两个变量的相关性。

当值一起增长时相关性为正。当一个值减少而另一个只增加时相关性为负。特别说明，1代表完美的正相关，0代表不相关，-1代表完美的负相关。

当变量数增长时我们可以使用伪彩色点很方便的可视化相关矩阵：

from pylab import pcolor, colorbar, xticks, yticks
from numpy import arrange
pcolor(corr)
colorbar() # add
# arranging the names of the variables on the axis
xticks(arange(0.5,4.5),['sepal length',  'sepal width', 'petal length', 'petal width'],rotation=-20)
yticks(arange(0.5,4.5),['sepal length',  'sepal width', 'petal length', 'petal width'],rotation=-20)
show()

结果如下：

看图右侧的彩条，我们可以把颜色点关联到数值上。在本例中，红色被关联为最高的正相关，我们可以看出我们数据集的最强相关是“花瓣宽度”和“花瓣长度”这两个变量。

转载于:https://www.cnblogs.com/liyangqiu/p/6540541.html

DAY2——Python 基础变量类型之字符串和数字类型 .venn PYTHON学习 python 开发语言算法
字符串类型（str）字符串是Python中最常用的数据类型之一，用于表示文本信息。字符串可以用单引号（''）、双引号（""）或三引号（''''''或""""""）定义。三引号通常用于多行字符串。字符串是不可变序列，支持索引和切片操作。以下是一些常见操作：#定义字符串s1='hello's2="world"s3='''Thisisamulti-linestring'''#字符串拼接combined=
DAY4——Python 推导式及常见语句和内置函数个人总结
Python推导式Python推导式是一种简洁的语法结构，用于快速生成列表、字典、集合或生成器。推导式通常比传统的循环更高效且更易读。常见的推导式包括列表推导式、字典推导式、集合推导式和生成器推导式。列表推导式语法：[expressionforiteminiterableifcondition]示例：#生成平方数列表squares=[x**2forxinrange(10)]print(square
对象的本质：OOP编程核心揭秘止观止计算机科学 OOP 面对对象编程
引言面向对象编程（OOP）革命性地重塑了软件开发，其核心在于“对象”——一种模拟现实实体的计算模型。对象不仅是数据容器，更是封装了状态和行为的自治单元，使程序从指令序列转变为交互网络。通过本解析，我们将层层递进，揭示对象在OOP中的根本角色：从定义延伸到设计实践，帮助读者跨越语言差异（如Java、Python或C++），掌握这一范式的精髓。章节构建遵循技术演进：先解剖对象本质，再关联OOP支柱，最
python怎么打印 _python大神_ python python
python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？py
报错解决：/usr/bin/python^M: bad interpreter: No such file or directory KimmyDs linux 运维服务器
报错问题分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh.py文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。一般是因为windows行结尾和linux行结尾标识不同造成的。问题解决：1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具先将脚本编码转换，再放到Linux中执行。转换方式如下（UltraEdit）：File-->
Python 高手编程系列三千三百五十四：你自己的包索引或索引镜像杨琴1 python java 网络
你可能会想要运行你自己的Python包索引，主要有以下3个原因。●官方的Python包索引没有任何可用性保证。它由Python软件基金会运行，这要感谢大量的捐款。因此，它往往意味着网站可能会倒闭。你不希望由于PyPI的故障而中途停止部署或打包过程。●即使是不会公开发布的闭源代码，将Python编写的可复用组件正确打包也很有用。它简化了代码库，因为公司内用于不同项目的包不需要供应（vendored）
DAY3——PYTHON——复合类型之序列类型、映射类型和集合类型总结 .venn PYTHON学习 python 复合类型可变序列
序列类型序列类型是元素有序排列的数据结构，可通过索引访问元素。有三种基本序列类型：list,tuple和range对象；列表是可变的，支持增删改操作；元组是不可变的，创建后不能修改；列表（List）概念List（列表）是Python中一种有序、可变的数据结构，可以存储不同类型的元素。列表用方括号[]表示，元素之间用逗号分隔。my_list=[1,"apple",3.14,True]创建List列表
Python 高手编程系列三千三百五十三：十二要素应用
无痛部署的主要要求是确保构建应用的过程尽可能简单和流畅。这主要是清除障碍并鼓励成熟的做法。在有些组织中，只有特定的人负责开发（开发团队，Dev），而不同的人负责部署和维护执行环境（运营团队，Ops），那么遵守这些常见做法就特别重要。与服务器维护、监控、部署、配置等相关的所有任务都统称为运营（operations）。即使在某些组织中没有单独的运营团队，通常也只有一部分开发人员被授权执行部署任务并维护
Python 生物信息学秘籍第三版（四）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/9694cf42f7d741c69225ff1cf52b0efe译者：飞龙协议：CCBY-NC-SA4.0第十一章：生物信息学中的机器学习机器学习在许多不同的领域中都有应用，计算生物学也不例外。机器学习在该领域有着无数的应用，最古老且最为人熟知的应用之一就是使用主成分分析（PCA）通过基因组学研究种群结构。随着该领域的蓬勃发展，还有许多其他潜在的应
AI人工智能中Actor - Critic算法的深入解析与应用场景 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能中Actor-Critic算法的深入解析与应用场景关键词：Actor-Critic、强化学习、策略梯度、价值函数、深度强化学习、马尔可夫决策过程、A2C/A3C摘要：本文将深入解析Actor-Critic算法的核心原理，从基础概念到数学推导，再到实际应用场景。我们将通过生动的比喻解释这一强化学习中的重要算法，展示其Python实现代码，并探讨它在游戏AI、机器人控制等领域的应用。最后，
AI人工智能领域Actor - Critic算法的可视化分析 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能领域Actor-Critic算法的可视化分析关键词：Actor-Critic算法、强化学习、策略梯度、价值函数、可视化分析、神经网络、马尔可夫决策过程摘要：本文深入浅出地讲解Actor-Critic算法的核心原理，通过生活化的比喻和可视化分析，帮助读者理解这一强化学习中的重要算法。我们将从基础概念入手，逐步剖析算法架构，并通过Python代码实现和可视化演示，展示算法在实际问题中的应用
2022-03-23 成长_3a8a
2022年3月23日中原焦点团队刘永利分享923天。咨询伦理第1课学习笔记。第1课：绪论、价值观与多元文化。一、专业伦理的意义。专业伦理系指心理咨询师在执行业务时能够节制自己的专业特权和个人欲望，遵循伦理守则和执业标准，提供个案最好的专业服务，以增进个案的福祉。伦理可以分为个人伦理和专业伦理两种。专业伦理又可分为两大类，一类是强制性伦理，另一类是理想性伦理。强制性能力是最低标准，理想性伦理目前可能
python安装火山引擎volcengine-python-sdk环境遇到的问题
安装环境的时候遇到安装volcengine-python-sdk(setup.py)报错Buildingwheelforvolcengine-python-sdk(setup.py)...errorerror:subprocess-exited-with-error×pythonsetup.pybdist_wheeldidnotrunsuccessfully.│exitcode:1╰─>[3791
ROS2 视频采集节点实现 ZPC8210 ROS 音视频
一个完整的ROS2视频采集节点的实现，使用OpenCV进行视频捕获并通过ROS2发布图像消息。1.创建功能包首先创建一个新的ROS2功能包（如果还没有）：bashros2pkgcreatevideo_capture--build-typeament_python--dependenciesrclpysensor_msgscv_bridgeopencv-python2.实现视频采集节点在video_
深度优先搜索(DFS) vs 广度优先搜索(BFS)：核心区别与应用场景
#深度优先搜索(DFS)vs广度优先搜索(BFS)：核心区别与应用场景>关键词：深度优先搜索、广度优先搜索、图遍历、算法比较、应用场景>摘要：本文通过迷宫探险和消防灭火的生动比喻，揭示DFS与BFS的核心原理。结合Python代码示例和图解说明，深入解析两种算法的实现差异，并通过社交网络分析等实际案例展示它们的应用场景选择依据。##背景介绍###目的和范围本指南旨在帮助读者理解两种基础图遍历算法的
数据结构与算法里散列表的算法优化技巧数据结构与算法学习散列表算法数据结构 ai
数据结构与算法里散列表的算法优化技巧关键词：散列表、哈希冲突、负载因子、开放寻址法、链地址法、动态扩容、哈希函数优化摘要：本文将深入探讨散列表的核心原理与优化技巧，通过图书馆管理员的比喻揭示哈希冲突的本质，结合Python代码演示动态扩容策略与哈希函数优化方法，最后通过实际案例展示如何将查询速度提升300%。文章包含5个可视化流程图和3个完整代码实现。背景介绍目的和范围本文面向已掌握基础数据结构知
探索AI人工智能中遗传算法的进化奥秘 AI学长带你学AI 人工智能 ai
探索AI人工智能中遗传算法的进化奥秘关键词：遗传算法、自然选择、基因编码、适应度函数、群体进化、交叉变异、优化问题摘要：本文将用生物进化视角解读人工智能中的遗传算法原理。通过达尔文进化论的生活化比喻，结合Python代码实例演示如何模拟基因遗传、自然选择等过程，揭示遗传算法在路径规划、参数优化等场景的应用奥秘。最后探讨遗传算法的局限性与未来发展方向。背景介绍目的和范围本文旨在用通俗易懂的方式解析遗
深度剖析AI人工智能领域多模态大模型 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能 ai
深度剖析AI人工智能领域多模态大模型关键词：AI人工智能、多模态大模型、模型架构、算法原理、应用场景摘要：本文旨在对AI人工智能领域的多模态大模型进行深度剖析。首先介绍多模态大模型的背景知识，包括目的、预期读者等。接着阐述核心概念，分析其架构和原理，并给出相应的流程图。通过Python代码详细讲解核心算法原理和具体操作步骤，同时用数学模型和公式进一步阐释。在项目实战部分，给出实际案例及详细代码解读
Open AI在AI人工智能领域的创新之路 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能 ai
OpenAI在AI人工智能领域的创新之路关键词：OpenAI、人工智能、创新之路、技术突破、应用场景摘要：本文深入探讨了OpenAI在AI人工智能领域的创新之路。首先介绍了OpenAI的背景信息，包括其成立目的、发展历程等。接着详细阐述了OpenAI的核心概念，如强化学习、生成式对抗网络等，并通过示意图和流程图展示其原理和架构。然后讲解了相关核心算法原理，结合Python代码进行具体说明。同时，给
Python爬虫实战：研究psd-tools库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 psd-tools
一、引言1.1研究背景AdobePhotoshop是目前最流行的图像处理软件之一，其原生文件格式PSD（PhotoshopDocument）包含了丰富的图像信息和编辑历史。PSD文件不仅在设计领域广泛使用，还在数字营销、版权保护和安全分析等领域具有重要价值。然而，手动分析大量PSD文件是一项繁琐且耗时的工作，因此开发自动化的PSD文件分析工具具有重要的现实意义。1.2研究目的本文旨在开发一个基于P
QuACK：用纯 Python 把 H100 推到“光速” 吴脑的键客人工智能 python 开发语言 gpu算力
FlashAttention的共同作者TriDao与普林斯顿大学的两位博士生最近联合推出了一个名为QuACK的新内核库。这一创新的内核库引起了广泛关注，尤其是在高性能计算领域。QuACK的开发背景QuACK的开发完全基于Python和CuTe-DSL，令人瞩目的是，它不涉及任何CUDAC++代码。这一设计理念打破了传统的编程框架，使得开发者能够在更友好的环境中进行高效的GPU编程。性能优势在强大的
1、基础 a风风a
创建项目django-adminproject_namecdproject_namepythonmanage.pyrunserver0.0.0.0:8000#pythonmanage.py(查看可用命令)创建应用pythonmanage.pystartappapp_namesetting中的INSTALLED_APPS=[追加'app_name',cdapp_name编辑views.py进入项目文
底分型量化选股公式如何编写？掌握这些要点轻松选出潜力股
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
2025.06.11华为暑期实习机试真题【最大的矩形新游戏】Java/Python/C++/JS/C 实现 MISAYAONE python 华为 java c++华为暑期实习机试
目录题目思路Code题目小华之前玩过一个游戏，在横轴上放了n个相邻的矩形，每个矩形的宽度是1，而第i(1≤i≤n)个矩形的高度为h[i],这n个短形构成了一个直方图，在直方图中我留能够勾勒出来的矩形的最大面积。这个游戏小华已经玩得很腻了，于是小华就想增加一下难度，现在有1次交换任意2个矩形的操作，请问在交换后，能够勾勒出的最大的短形面积能达到多少呢?输入描述第-行包含一个整数n(2=h的矩形聚集在
第六：Python+ selenium自动化测试（练习一）卢卡平头哥 python selenium 开发语言
一.练习场景1.在某网页上有些字段或者关键字等信息是感兴趣的1.1.希望将其摘取出来，进行其他操作。但是这些字段可能在网页的不同地方2.例如：需要在关于百度页面-联系我们，摘取全部的邮箱二.思路拆分1.首先需要得到当前页面的source内容，就像打开页面，右键-查看页面源代码2.找出规律，通过正则表达式去摘取匹配的字段，存储到字典或者列表3.循环打印字典或列表中内容，用for语句实现三.实现相关方
Python在股票数据分析中的应用，如何通过代码实现精准预测股价走势？股票程序化交易接口量化交易股票API接口 Python股票量化交易数据分析 python 股票数据分析股价走势预测代码实现股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>数据获取与导入在股票数据分析中，首先要获取相关数据。Python有许多库可实现这一功能，比如pandas-datareader。使用它可以轻松从知名数据源如雅虎财经获取股票的历史价格、成交量等数据。只需简单几行代码，就能将特定股票在特
金融量化交易如何精准把握市场趋势？这些策略你不能错过！股票程序化交易接口量化交易股票API接口 Python股票量化交易金融金融量化交易市场趋势技术分析策略基本面分析策略股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>金融量化交易把握市场趋势的基础认知金融量化交易旨在通过数学模型和计算机算法来执行交易决策。市场趋势反映了市场价格的总体走向，量化交易与市场趋势紧密相连。量化交易借助数据和算法去捕捉市场趋势信号，以决定买卖时机。准确把握市场趋势能为量化
Python+Selenium自动化测试环境搭建步骤（selenium环境搭建）
一、自动化简介1.自动化测试概念：是把以人为驱动的测试转化为机器执行的一种过程，它是一种以程序测试程序的过程2.自动化测试分类：一般IT上所说的自动化测试是指功能自动化测试，通过编码的方式用一段程序来测试一个软件的功能，这样就可以重复执行程序来进行重复测试的目的。如果一个软件有小部分功能发生改变，只要修改一部分自动化测试代码，就可以重复对软件进行测试，从而提高测试效率。3.什么样的项目适合做自动化
为什么选择Selenium自动化测试？ AIZHINAN selenium 测试工具自动化测试 pytest python 职场和发展
选择Selenium作为自动化测试工具的主要原因包括其开源、跨平台、多语言支持和强大的生态系统等优势。以下是详细分析：软件测试-Selenium自动化测试教程，零基础小白也能快速入门！python+selenium1.开源免费零成本：Selenium是开源工具，无需支付许可费用，适合预算有限的团队。社区支持：活跃的开发者社区提供丰富的学习资源、插件和问题解决方案。2.跨平台&跨浏览器支持多浏览器：
学习 Python 爬虫需要哪些基础知识？广州山泉婚姻 python 爬虫
学习Python爬虫需要掌握一些基础技术和概念。1.Python基础语法这是最根本的前提，需要熟悉：-变量、数据类型（字符串、列表、字典等）-条件判断、循环语句-函数、类与对象-模块和包的使用（如import语句）2.网页基础了解网页的构成和工作原理：-HTML结构：能看懂标签、属性，知道如何定位内容（如div、span、a标签等）-CSS选择器：用于精准定位网页元素（如类选择器.class、ID
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

【学习笔记】Python 小练习—数据挖掘

聚类

回归

相关

你可能感兴趣的:(【学习笔记】Python 小练习—数据挖掘)