gagaki

机器学习实践———朴素贝叶斯、决策树

朴素贝叶斯分类器

与线性模型相似，相比起来训练速度更快，但是模型泛化能力稍差。高效的原因是通过查看每个特征来学习参数，从每个特征中收集简单的类别统计数据。

sklearn中实现了3种朴素贝叶斯分类器：

GuassianNB：高斯贝叶斯分类器，应用于任意连续数据。保存每个类别中每个特征的平均值和标准差。
BernoulliNB：伯努利贝叶斯分类器，输入数据是二分类数据。计算每个类别中每个特征不为0的元素个数。
MultinomialNB：多项式贝叶斯分类器，假定输入数据是计数数据。比如说一个词的出现次数。计算每个类别中每个特征的平均值。

BernoulliNB和MultinomialNB主要用在文本分类中。

具体可参考sklearn官方文档

决策树

决策树是从一层层的if/else问题中学习的，这些问题叫做测试。一系列问题可以表示为一棵决策树。

1、构造决策树

将所有数据当做一个根结点，通过测试对数据集进行划分。
若测试结果为真，将这个点分配到左边的结点，否则分配到右边。每个结点都包含一个测试。
对数据反复进行递归划分，直到每个叶结点只包含单一类别。若叶结点中数据点的目标值相同，则为纯叶结点。

2、控制决策树的复杂度

通常来说，如果叶结点都是纯的会导致模型非常复杂，因为它要去拟合每个数据，造成过拟合。
防止过拟合有两种常见的策略：

预剪枝：及早停止树的生长。可通过限制树的最大深度，限制叶结点的最大数目，规定一个结点中数据点的最小数目。
后剪枝：先构造树，随后删除或折叠信息少的结点。

sklearn实现决策树在DecisionTreeClassifier和DecisionTreeRegressor中。只实现了预剪枝，没有后剪枝。

from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_breast_cancer

cancer=load_breast_cancer()
X_train,X_test,y_train,y_test=train_test_split(cancer.data,cancer.target,stratify=cancer.target,random_state=42)

tree=DecisionTreeClassifier().fit(X_train,y_train)
print("train acc={}".format(tree.score(X_train,y_train)))
print("test acc={}".format(tree.score(X_test,y_test)))

输出：
train acc=1.0
test acc=0.9230769230769231

可以看到训练集上的精度是100%，这棵树直到划分到纯叶结点才停止的。
它对测试集的数据泛化能力不好，接下来通过限制树的深度来停止生长，避免过拟合问题。

tree=DecisionTreeClassifier(max_depth=4).fit(X_train,y_train)#将深度设为4，意味着只可以连续问4个问题。
print("train acc={:.3f}".format(tree.score(X_train,y_train)))
print("test acc={:.3f}".format(tree.score(X_test,y_test)))

输出：
train acc=0.988
test acc=0.944

3、决策树可视化

将决策树可视化有助于理解算法是如何预测的。

生成.dot文件

from sklearn.tree import export_graphviz#可视化树,生成一个.dot文件，保存图形的文本文件格式
export_graphviz(tree,out_file="tree.dot",class_names=["malignant","benign"],
                feature_names=cancer.feature_names,impurity=False,filled=True)

import graphviz
with open("tree.dot") as f:
    dot_graph=f.read()
graphviz.Source(dot_graph)

书上用这段代码实现可视化，不知道具体是怎么操作的，我用的是pycharm，直接运行后没有产生.png文件。于是在网上找了可视化方法。

生成dot文件后，在cmd命令下

将dot文件转化成pdf文件，打开这个pdf就可以看到生成的决策树。

4、树的特征重要性

可以利用一些有用的属性来总结树的工作原理。最常用的是特征重要性，每个特征分布在【0，1】之间，数值越大，说明该特征对树越重要。特征重要性的求和为1.

可视化特征重要性：

print("feacture importance:\n{}".format(tree.feature_importances_))
def plot_feature_importances_cancer(modle):
    n_feature=cancer.data.shape[1]#30个特征
    plt.barh(range(n_feature),modle.feature_importances_,align="center")
    plt.yticks(np.arange(n_feature),cancer.feature_names)
    plt.xlabel("feature importance")
    plt.ylabel("feature")
    plt.show()
plot_feature_importances_cancer(tree)

输出：
feacture importance:
[0.         0.01258462 0.         0.         0.         0.
 0.         0.0141577  0.         0.         0.         0.04839825
 0.         0.         0.0024156  0.         0.         0.
 0.01019737 0.         0.72682851 0.03323127 0.         0.
 0.         0.         0.018188   0.1221132  0.01188548 0.        ]

可以看到 worst radius特征最重要，所以当根结点的测试条件按它来在第一层划分时就已经将两个类别区分的很好了。

树的回归和分类是类似的，但是DecisionTreeRegressor不能外推，也不能在训练数据范围之外预测。（不能预测训练集外的数据，那他有什么用呢？）

在RAM数据集上对比DecisionTreeRegressor和LinearRegression。

import pandas as pd
from sklearn.tree import DecisionTreeRegressor
from sklearn.linear_model import LinearRegression

ram_prices=pd.read_csv("ram_price.csv")

data_train=ram_prices[ram_prices.date<2000]#将2000年前的数据作为训练集
data_test=ram_prices[ram_prices.date>=2000]

X_train=data_train.date[:,np.newaxis]#索引多维数组的某一列时，返回的仍然是列的结构

#print("Xtrain:{}".format(X_train))
y_train=np.log(data_train.price)#对价格取对数，使二者关系的线性更好。

tree=DecisionTreeRegressor().fit(X_train,y_train)
linear_reg=LinearRegression().fit(X_train,y_train)

X_all=ram_prices.date[:,np.newaxis]#对所有的数据进行预测
pre_tree=tree.predict(X_all)
pre_lin=linear_reg.predict(X_all)
#对数变换逆运算
price_tree=np.exp(pre_tree)
price_lin=np.exp(pre_lin)

plt.semilogy(data_train.date,data_train.price,label="tain data")
plt.semilogy(data_test.date,data_test.price,label="test data")
plt.semilogy(ram_prices.date,price_tree,label="Tree prediction")
plt.semilogy(ram_prices.date,price_lin,label="Linear prediction")
plt.legend()
plt.show()

从上图可以看出两者的差异：

在测试集上，线性回归可以较好的额拟合数据，预测结果，但是树没有给出结果。
在训练集上，树完美的拟合了每一个数据。

决策树不需要做数据预处理，它的主要缺点是容易过拟合，泛化性能很差，即使做了预剪枝。在大多数应用中，用集成树代替单棵树。

决策树集成

集成是合并多个机器学习模型来构建更强大模型方法。有两种集成模型被证明在大量的分类和回归数据集上是有效的，且都以决策树为基础。分别是随机森林和梯度提升决策树。

1、随机森林

本质上是很多树的集合，可以解决过拟合问题。
背后的思想：构造很多棵树，每棵树都可能会出现过拟合现象，但是以不同的方式过拟合，对这些树的结果取平均值可以降低过拟合。

森林中树的两种随机化方式：

选择构造树的数据点
选择每次划分测试的特征

构造随机森林：
先要确定构造树的棵树，然后对于每棵树：
对数据进行自助采样（bootstrap）。比如样本中有30个数据集点，随机抽取一个后放回，再随机抽取一个数据，使样本容量保持30个，如此共抽30次，产生一个与原数据集大小相同的新数据集。因为每次抽完数据点会放回，所以会造成有些数据的缺失，而有些数据重复。
将新数据集用来构建决策树。每个结点处，算法随机选择特征的一个子集，对其中一个特征寻找最佳测试。比如鸢尾花的4个特征['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']，将特征的个数设置为2，算法会随机选择两个特征，并对其中的一个特征寻找最佳测试。

这里有一个重要的参数，特征个数（max_features)。
如果它的个数等于总特征数，相当于特征选择过程没有添加随机性。
如果max_features=1，那么划分时只能对随机选择到的这个特征寻找测试。

因此（max_features)个数很大的话，树会相似，用最独特的特征可以拟合数据。若（max_features)较小，随机森林中的树差异会很大，为了很好的拟合数据，树的深度都要很大。

5棵树组成的随机森林应用到two_moon数据集

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_moons

X,y=make_moons(n_samples=100,noise=25,random_state=3)
X_train,X_test,y_train,y_test=train_test_split(X,y,stratify=y,random_state=42)

forest=RandomForestClassifier(n_estimators=5,random_state=2).fit(X_train,y_train)#5棵树
#树保存在estimator_属性中，将每棵树学到的决策边界可视化，将森林的预测可视化
fig,axes=plt.subplots(2,3,figsize=(20,10))

#enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，
# 同时列出数据和数据下标，一般用在 for 循环当中。
#ravel()方法将数组维度拉成一维数组
for i,(ax,tree) in enumerate(zip(axes.ravel(),forest.estimators_)):
    ax.set_title("Tree {}".format(i))
    mglearn.plots.plot_tree_partition(X_train,y_train,tree,ax)#划分树
mglearn.plots.plot_2d_separator(forest,X_train,fill=True,ax=axes[-1,-1],alpha=.4)#绘制分界线,ax=axes[-1,-1]????
axes[-1,-1].set_title("random forest")
mglearn.discrete_scatter(X_train[:,0],X_train[:,1],y_train)#画数据点
plt.show()

前5幅是森林中的树，最后一幅是平均后的随机森林决策边界。这5棵树的决策边界都大不相同，因为自助采样，一些点不在训练集中。

2、梯度提升回归树（梯度提升机）

采用连续的方式构造树，每棵树都试图纠正前一棵树的错误。与随机森林相比，对参数设置更加敏感，除了预剪枝和树的数量外，还有一个重要参数——学习率，控制纠正前一棵树错误的强度。

在乳腺癌数据集上应用梯度提升回归树，对比深度和学习率对模型的影响。GradientBoostingClassifier()默认使用100棵树，最大深度为3，学习率0.1.

from sklearn.ensemble import GradientBoostingClassifier
from sklearn.datasets import load_breast_cancer

cancer=load_breast_cancer()
X_train,X_test,y_train,y_test=train_test_split(cancer.data,cancer.target,random_state=0)

grbt=GradientBoostingClassifier(random_state=0).fit(X_train,y_train)
grbt1=GradientBoostingClassifier(random_state=0,max_depth=1).fit(X_train,y_train)#深度限制为1
grbt0=GradientBoostingClassifier(random_state=0,learning_rate=0.01).fit(X_train,y_train)#将学习率变为0.01

print("train acc: {:.3f}".format(grbt.score(X_train,y_train)))
print("test acc: {:.3f}\n".format(grbt.score(X_test,y_test)))
print("train acc: {:.3f}".format(grbt1.score(X_train,y_train)))
print("test acc: {:.3f}\n".format(grbt1.score(X_test,y_test)))
print("train acc: {:.3f}".format(grbt0.score(X_train,y_train)))
print("test acc: {:.3f}".format(grbt0.score(X_test,y_test)))

输出：
train acc: 1.000
test acc: 0.965

train acc: 0.991
test acc: 0.972

train acc: 0.988
test acc: 0.965

可以看出当使用默认值时，训练精度为1，所以很可能存在过拟合。所以为了降低过拟合，通过限制最大深度的方式来加强预剪枝，将max_depth设置为1，能缓解过拟合。减小树的深度提升了模型性能，降低学习率提高的泛化性能。

梯度提升决策树的主要缺点是要调参，主要参数有树的数量n_estimators和学习率learning_rate。

python 游戏开发cocos2d库安装与使用范哥来了 python cocos2d 开发语言
Cocos2d-x是一个广泛使用的开源游戏开发框架，支持多种编程语言，包括Python。对于Python开发者来说，通常使用的是Cocos2d-py或者更现代的Cocos2d-x的Python绑定版本。这里我将指导你如何安装和开始使用Cocos2d-py。安装步骤安装Python：确保你的系统上已经安装了Python3.x版本。你可以从Python官方网站下载最新版的Python。安装pip：pi
第十天-字符串：编程世界的文本基石大橙子房 ai python java
在编程的广阔领域中，字符串是极为重要的数据类型，它就像一座桥梁，连接着人类的自然语言和计算机能够理解与处理的数字信息。下面，让我们深入探索字符串的世界。一、字符串简介字符串是由零个或多个字符组成的有序序列，它在程序中用于表示文本信息。在Python语言环境下，创建字符串简洁直观，例如：str="HelloWorld"。这里，str作为字符串变量名，就如同给一个装着文本内容的盒子贴上了标签；Hell
使用LoRA微调LLaMA3 想胖的壮壮深度学习人工智能
使用LoRA微调LLaMA3的案例案例概述在这个案例中，我们将使用LoRA微调LLaMA3模型，进行一个文本分类任务。我们将使用HuggingFace的Transformers库来完成这个过程。步骤一：环境搭建安装必要的Python包pipinstalltransformersdatasetstorch配置GPU环境确保你的环境中配置了CUDA和cuDNN，并验证GPU是否可用。importtor
【python】可变、不可变数据类型 qianx77 python python numpy 开发语言
文章目录python可变、不可变数据类型一、什么是可变和不可变的数据类型？二、不可变类型1.数字2.字符3.元组三、可变类型4.列表需要注意的点5.集合5.字典6.补充-深拷贝和浅拷贝总结python可变、不可变数据类型用于记录python数据类型python我个人常用的数据就是数字、字符串、元组、列表、集合、字典，分为可变类型和不可变类型。一、什么是可变和不可变的数据类型？可变就是说在相同内存地
python orm框架sqlalchemy_Python的ORM框架SQLAlchemy入门教程 weixin_39758041 python orm框架sqlalchemy
SQLAlchemy的核心理念是，SQL数据库查询的数量级和特性关键于目标结合；而目标结合的抽象性又关键于表和行。一安裝SQLAlchemy编码以下:pipinstallsqlalchemy导进要是没有出错则安裝取得成功编码以下:importsqlalchemysqlalchemy.__version__‘0.9.1’二应用sqlalchemy对数据库操作1.界定元信息内容，关联到模块编码以下:(
python gridfs_【已解决】用Python去连接本地mongoDB去用GridFS保存文件 weixin_39622225 python gridfs
折腾：期间，命令行方式的mongofiles去putgetdeletedelete_id等，已经基本上搞清楚了。接着就是去用Python代码，通过driver：的方式，调用API，去保存数据了。pythonmongodbgridfs需要先安装：pymongo就是这些API了。通过：发现，对于此处：➜英语资源mongod--versiondbversionv3.6.3gitversion:9586e
Python 中的特殊注释及字符存储机制 svtvtvt python 开发语言 pycharm 数据结构
目录一、Python特殊注释及其作用1.'#!/usr/bin/python'（Shebang2.'#-*-coding:utf-8-*-'（字符编码声明）3.其他特殊注释二、Python中字符的存储机制1.计算机的最小存储单元2.常见字符编码方案3.Python中字符的存储三、中文乱码的原因及解决方法1.源文件的编码与Python的编码不一致2.编码与解码不一致3.终端或控制台编码问题4.操作系
Python的ORM框架SQLAlchemy入门教程 searchwang
SQLAlchemy是python操作数据库的一个库。能够进行orm映射，SQLAlchemy“采用简单的Python语言，为高效和高性能的数据库访问设计，实现了完整的企业级持久模型”SQLAlchemy的理念是，SQL数据库的量级和性能重要于对象集合；而对象集合的抽象又重要于表和行。一安装SQLAlchemy复制代码代码如下:pipinstallsqlalchemy导入如果没有报错则安装成功复制
【python】pathlib模块 m 宽 python
#!/usr/bin/envpython#coding:utf-8#In[2]:frompathlibimportPath#In[3]:#创建路径c_path=Path("C:/")print(c_path)#In[4]:#当前目录cwd=Path.cwd()print(cwd)#In[5]:#用户目录Path.home()#In[6]:#父目录cwd.parent#In[7]:#子目录fpath
斗地主老是输？一起用Python做个AI出牌器！姬姬姬姬姬姬 python 人工智能
前言最近在网上看到一个有意思的开源项目，基于快手团队开发的开源AI斗地主——DouZero做的一个“成熟”的AI，项目开源地址【https://github.com/tianqiraf/DouZero_For_HappyDouDiZhu–tianqiraf】。今天我们就一起来学习下是如何制作一个基于DouZero的出牌器，看看AI是如何来帮助斗地主的！一、核心功能设计首先这款出牌器是基于DouZe
深入解析Java跨平台原理 KBkongbaiKB java 开发语言
一、操作系统屏障的本质挑战源代码编译方式直接编译为机器码Windows的可执行文件.exeLinux的可执行文件.elfmacOS的可执行文件.machJava独特的中间格式字节码文件.classJVM虚拟机1.1传统语言的平台困局语言类型编译方式执行依赖跨平台能力C/C++直接生成机器码特定操作系统❌不可直接移植Python解释型执行Python解释器✅但性能较低Java字节码中间件JVM虚拟机
Python中的可变类型和不可变类型 svtvtvt python 开发语言
在Python中，数据类型可以分为可变类型（mutable）和不可变类型（immutable）。理解这两种类型的区别和特性对于编写高效、易于维护的代码至关重要。在本篇文章中，我们将详细探讨这两类数据类型的定义、行为以及它们之间的差异。目录一、概述二、不可变类型（ImmutableTypes）1.int（整数）2.float（浮点数）3.str（字符串）4.tuple（元组）5.frozenset（
python：一次简单的爬虫 wstkqzl python 爬虫开发语言
importrequestsimportparselimporttimefromparselimportSelector#第一章链接https://www.qu04.cc/book/45808/2.html#第二章链接https://www.qu04.cc/book/45808/3.html#小说目录：https://www.qu04.cc/book/45808/url="https://www.
pip install速度慢怎么解决滴答滴答滴嗒滴 pip python
如果您发现使用pipinstall安装Python包的速度很慢，可以尝试以下方法来解决：（1）更换镜像源：您可以使用国内的镜像源，通常国内镜像源的速度更快。例如，清华大学、阿里云、网易等都提供了Python镜像源。您可以通过在终端中运行以下命令来更改镜像源：pipconfigsetglobal.index-urlhttps://pypi.tuna.tsinghua.edu.cn/simple或者p
使用multiprocessing实现进程间共享内存培根芝士 Python python
在Python中，可以使用多种方法来实现几个进程之间的通信。简单消息传递：使用multiprocessing.Queue或multiprocessing.Pipe。共享简单数据：使用multiprocessing.Value或multiprocessing.Array。共享复杂数据：使用multiprocessing.Manager。进程间信号控制：使用multiprocessing.Event。
Python 机器学习基础之学习基础环境搭建仙魁XAN Python 机器学习基础+实战案例 python 学习开发语言机器学习 machine learning
Python机器学习基础之学习基础环境搭建目录Python机器学习基础之学习基础环境搭建一、简单介绍二、什么是机器学习三、python环境的搭建1、Python安装包下载2、这里以下载Python3.10.9为例3、安装Python3.10.94、检验python是否安装成功，win+R快捷打开运行，输入cmd，打开cmd四、Pycharm环境搭建1、下载Pycharm安装包2、安装Pycharm
【机器学习】主成分分析法（PCA）若兰幽竹机器学习机器学习信息可视化人工智能
【机器学习】主成分分析法（PCA）一、摘要二、主成分分析的基本概念三、主成分分析的数学模型五、主成分分析法目标函数公式推导（`梯度上升法`求解目标函数）六、梯度上升法求解目标函数第一个主成分七、求解前n个主成分及PCA在数据预处理中的处理步骤（后续实现）一、摘要本文主要讲述了主成分分析法（PCA）的原理和应用。PCA通过选择最重要的特征，将高维数据映射到低维空间，同时保持数据间的关系，实现降维和去
Win7 64 位 Vcode Python安装与环境配置 qq_40094167 机器学习 python 数据挖掘
一、对于win764位的Python版本，官网目前是Python3.8.10。千万不要装错哈哈二、Vcode版本，可以直接在官网或者360软件管家安装，都比较方便。但安装之前请先安装Python，然后安装Vcode。三、Vcode插件配置，本人插件配置多数是根据之前liunx系统配置的，里面许多关键字颜色和大小个人比较喜欢。@1codeRunner即代码运行@2RainbowBrackets彩虹花
大型语言模型：让Python更聪明的秘密武器 qq_39605374 语言模型 python 数据库 Python
Python是一种广泛使用的编程语言，而大型语言模型则为Python开发者提供了一个强大的工具。大型语言模型可以理解人类语言，并生成具有逻辑和连贯性的文本。它能够回答用户的问题、提供解决方案，并帮助开发者提高他们的编程技能。让我们来探索一下如何使用大型语言模型作为Python编程的秘密武器。大型语言模型可以通过使用Python编写的API进行访问。下面是一个简单的示例，演示了如何使用Python与
GEE下载REMA strip和mosaic数据的python脚本 WiIsonEdwards python windows linux
EarthEngineDataCatalog：https://developers.google.com/earth-engine/datasets/catalog搜索REMA：importeeimportgeemapimportosimportwarnings#忽略所有警告warnings.filterwarnings("ignore")#下载REMAStrips数据（2m和8m）defdown
华为OD机试题库清单以及考点说明，2025.3.16切换2025A卷（Python/JS/C/C++）哪吒搬砖工逆袭Java架构师华为od python javascript 2025A卷华为OD机试
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2024年8月14日，华为官方已经将华为OD机试（D卷）切换为E卷。目前正在考的是E卷，按照华为OD往常的操作，E卷题目是由往
华为OD机试 - 字符串分割转换（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od python javascript
一、题目描述给定一个非空字符串QS，其被N个‘;’分隔成N+1个子串，给定正整数数组K，要求除第一个子串外，其余的子串每K个字符组成新的子串，并‘-’分隔。对于新组成的每一个子串，如果它含有的小写字母比大写字母多，则将这个子串的所有大写字母转换为小写Q字母；反之，如果它含有的大写字母比小写字母多，则将这个子串的所有小写字母转换为大写字母；大小写字母的数量相等时，不做转换。二、输入描述输入为两行，第
Python 数据分析实战：电动汽车行业发展态势与市场策略洞察萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集与导入2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1市场规模与增长趋势2.4.2消费者需求分析2.4.3企业竞争格局2.4.4政策影响分析2.4.5构建消费者购买意愿预测模型三、主要的代码难点解析3.1数据收集与导入3.2数据清洗-缺失值处理3.3数据清洗-异常值处理3.4数据分析-消费者需求分析3.5数据分析-构建消费者购买意愿预测模型四、可
python实现http协议 ajie1117 python http 开发语言
在Python中，可以使用socket库实现一个简单的HTTP服务器和客户端，手动处理HTTP请求和响应。下面是一个Python版本的HTTP服务器和客户端示例。一、使用socket实现HTTP服务器HTTP服务器的基本原理是监听指定端口，等待客户端请求，解析HTTP请求，并返回HTTP响应。简单的HTTP服务器importsocketdefrun_http_server(host='127.0.
华为OD机试 - 日志采集系统（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述日志采集是运维系统的的核心组件。日志是按行生成，每行记做一条，由
用Python抓取网页标题：使用`requests`库的实用指南清水白石008 python Python题库 python 开发语言
用Python抓取网页标题：使用requests库的实用指南在数据获取的时代，网页抓取（WebScraping）成为了一项重要的技能。无论是获取新闻标题、产品价格，还是数据分析，网页抓取都能提供丰富的信息。本文将详细介绍如何使用Python的requests库编写一个简单的爬虫，抓取某个网站的标题。我们将通过实例和代码片段，使整个过程清晰易懂，帮助你快速上手网页抓取。一、了解网页抓取网页抓取是指通
Python从0到100（三十四）：Python中的urllib模块使用指南是Dream呀 python 开发语言
1.urllib模块概述在Python中，除了广泛使用的requests模块之外，urllib模块也是处理HTTP请求的重要工具。urllib模块在Python2中分为urllib和urllib2两个模块，而在Python3中，它们被合并为一个urllib模块。本文将重点介绍Python3中的urllib模块及其使用方法。2.urllib模块的基本方法介绍2.1urllib.request.url
python nginx部署_nginx部署python应用 weixin_39611070 python nginx部署
2.nginx配置文件如下：#位于/nginx/conf/nginx.conf#usernobody;worker_processes1;events{worker_connections1024;}http{includemime.types;default_typeapplication/octet-stream;sendfileon;keepalive_timeout185;server{l
python 使用Nginx和uWSGI来运行Python应用 weixin_33738555 运维 python 操作系统
参考：http://zmrenwu.com/post/20/uWSGI是一个Web应用服务器，它具有应用服务器，代理，进程管理及应用监控等功能。它支持WSGI协议，同时它也支持自有的uWSGI协议，该协议据说性能非常高，而且内存占用率低，为mod_wsgi的一半左右，我没有实测过。它还支持多应用的管理及应用的性能监控。虽然uWSGI本身就可以直接用来当Web服务器，但一般建议将其作为应用服务器配合
Python数据可视化与地理空间分析 CrMylive. 信息可视化 python 开发语言
一、引言数据可视化与地理空间分析是数据科学领域中的两个重要领域，其中数据可视化侧重于将数据转换成可视化的图表，而地理空间分析则关注于如何在地理空间内处理与分析数据。Python作为一种高效、灵活、易用的编程语言，近年来在数据科学领域越来越受到欢迎。本文将以Python为工具，在数据可视化与地理空间分析方面进行详细探讨，并给出一些相关实例。二、数据可视化数据可视化是指利用图表、图形和其他视觉元素来展
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option