陈胃痛

【OpenCV图像处理入门学习教程六】基于Python的网络爬虫与OpenCV扩展库中的人脸识别算法比较

OpenCV图像处理入门学习教程系列，上一篇第五篇：基于背景差分法的视频目标运动侦测

一、网络爬虫简介（Python3）

网络爬虫，大家应该不陌生了。接下来援引一些Jack-Cui在专栏《Python3网络爬虫入门》中的内容来帮助初学者理解。博客内容均仅用于学习交流，请勿用于任何商业用途！

网络爬虫，也叫网络蜘蛛（Web Spider）。它根据网页地址（URL）爬取网页内容，而网页地址（URL）就是我们在浏览器中输入的网站链接。比如：https://www.baidu.com/，它就是一个URL。

标准的爬虫架构如下：（摘自维基百科）

网络爬虫的主要工作流程：

（1）将种子链接加入到队列
（2）调度器从队列获取链接，执行爬虫访问该链接
（3）爬虫提取页面指定的新的链接，交付给队列（重复第二步），或者下载器（下载资源）

在讲解爬虫内容之前，我们需要先学习一项写爬虫的必备技能：审查元素（如果已掌握，可跳过此部分内容）。

1. 审查元素

在浏览器的地址栏输入URL地址，在网页处右键单击，找到检查，如下图所示：（不同浏览器的叫法不同，Chrome浏览器叫做检查，Firefox浏览器叫做查看元素，但是功能都是相同的）

我们可以看到，右侧出现了一大推代码，这些代码就叫做HTML。什么是HTML？举个容易理解的例子：我们的基因决定了我们的原始容貌，服务器返回的HTML决定了网站的原始容貌。

为啥说是原始容貌呢？因为人可以整容啊！扎心了，有木有？那网站也可以"整容"吗？可以！请看下图：

我能有这么多钱吗？显然不可能。我是怎么给网站"整容"的呢？就是通过修改服务器返回的HTML信息。我们每个人都是"整容大师"，可以修改页面信息。我们在页面的哪个位置点击审查元素，浏览器就会为我们定位到相应的HTML位置，进而就可以在本地更改HTML信息。

再举个小例子：我们都知道，使用浏览器"记住密码"的功能，密码会变成一堆小黑点，是不可见的。可以让密码显示出来吗？可以，只需给页面"动个小手术"！以淘宝为例，在输入密码框处右键，点击检查。

可以看到，浏览器为我们自动定位到了相应的HTML位置。将下图中的password属性值改为text属性值（直接在右侧代码处修改）：

就这样，浏览器"记住的密码"显现出来了：

说这么多，什么意思呢？浏览器就是作为客户端从服务器端获取信息，然后将信息解析，并展示给我们的。我们可以在本地修改HTML信息，为网页"整容"，但是我们修改的信息不会回传到服务器，服务器存储的HTML信息不会改变。刷新一下界面，页面还会回到原本的样子。这就跟人整容一样，我们能改变一些表面的东西，但是不能改变我们的基因。

2. 简单实例（Python3）

我对网络爬虫的简单理解，其实就是通过一个程序脚本（通常来说选择Python因为可用库非常多使得代码很简洁）模仿正常的用户浏览器去和服务器交互从而抓取到网页上的某些感兴趣的特定数据。

如果说上面的内容你都没有搞懂，那么没有关系，我们通过实战来解决问题。下面开始准备环境和工具~

网络爬虫的第一步就是根据URL，获取网页的HTML信息。在Python3中，可以使用urllib.request和requests进行网页爬取。

urllib库是python内置的，无需我们额外安装，只要安装了Python就可以使用这个库。
requests库是第三方库，需要我们自己安装。

requests库强大好用，所以本文使用requests库获取网页的HTML信息。requests库的github地址：https://github.com/requests/requests

（1）requests安装

在学习使用requests库之前，我们需要在电脑中安装好requests库。在cmd中，使用如下指令安装requests库：

pip install requests
easy_install requests

使用pip和easy_install都可以安装，二选一即可。

（2）简单实例

安装好requests库之后，我们先来大体浏览一下requests库的基础方法：

【OpenCV图像处理入门学习教程六】基于Python的网络爬虫与OpenCV扩展库中的人脸识别算法比较_第8张图片

官方中文教程地址：http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

requests库的开发者为我们提供了详细的中文教程，查询起来很方便。本文不会对其内容进行讲解，大家如果有任何疑问的话可以查找上面的官方中文教程加深理解~

3. 爬虫实战

因为本文这次要做的是OpenCV扩展库中的人脸识别算法比较，需要通过爬取较多的图片来进行训练和测试准确率，因此我选择去爬取百度图片的页面（百度图片会根据关键字先对各大网站内容进行一次爬取，再列出筛选出的结果），普通静态页面的爬取相对比较容易一些，直接可以通过GET方法得到大部分的页面上数据，但是主流图片搜索网页均为动态页面，需要解析 js 等脚本才能加载完整页面。百度图片采用的是瀑布流模式，需要解析Json，且有一定反爬措施。

此时有两种解决方案：①获取服务器 API，②使用 WebDriver 模拟浏览器操作

本文选择的是第二种方案，实现起来比较容易。目前的很多爬虫小工具也是采用的这种方案。

经过初步调试，已经可以爬取百度图片，部分参考代码（Python3）如下，相应位置有详细注释。整个工程文件见下载页面（爬虫代码放在了工程目录下）：

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import os
import re
import urllib
import json
import socket
import urllib.request
import urllib.parse
import urllib.error
# 设置超时
import time

timeout = 5
socket.setdefaulttimeout(timeout)

class Spider:
    # 休眠时长
    __time_sleep = 0.1
    __amount = 0
    __start_amount = 0
    __counter = 0
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}

    # 获取图片url内容等
    # t 下载图片时间间隔
    def __init__(self, t=0.1):
        self.time_sleep = t

    # 保存图片
    def __save_image(self, rsp_data, word):

        if not os.path.exists("./" + word):
            os.mkdir("./" + word)
        # 判断名字是否重复，获取图片长度
        self.__counter = len(os.listdir('./' + word)) + 1
        for image_info in rsp_data['imgs']:
            try:
                time.sleep(self.time_sleep)
                fix = self.__get_suffix(image_info['objURL'])# 获取后缀名
                urllib.request.urlretrieve(image_info['objURL'], './' + word + '/' + str(self.__counter) + str(fix))
            except urllib.error.HTTPError as urllib_err:
                print(urllib_err)
                continue
            except Exception as err:
                time.sleep(1)
                print(err)
                print("发生未知错误，放弃抓取")
                continue
            else:
                print("下载图片+1,已有" + word + str(self.__counter) + "张")
                self.__counter += 1
        return

    # 获取后缀名
    @staticmethod
    def __get_suffix(name):
        m = re.search(r'\.[^\.]*$', name)
        if m.group(0) and len(m.group(0)) <= 5:
            return m.group(0)
        else:
            return '.jpeg'

# =============================================================================
#     # 获取前缀
#     @staticmethod
#     def __get_prefix(name):
#         return name[:name.find('.')]
# =============================================================================

    # 开始获取
    def __get_images(self, word='apple'):
        search = urllib.parse.quote(word)
        # pn int 图片数（picture number）
        pn = self.__start_amount
        while pn < self.__amount:
            url = 'http://image.baidu.com/search/avatarjson?tn=resultjsonavatarnew&ie=utf-8&word=' + search + '&cg=girl&pn=' + str(
                pn) + '&rn=60&itg=0&z=0&fr=&width=&height=&lm=-1&ic=0&s=0&st=-1&gsm=1e0000001e'
            # 设置header防ban
            try:
                time.sleep(self.time_sleep)
                req = urllib.request.Request(url=url, headers=self.headers)
                page = urllib.request.urlopen(req)
                rsp = page.read().decode('unicode_escape')
            except UnicodeDecodeError as e:
                print(e)
                print('---UnicodeDecodeErrorurl:', url)
            except urllib.error.URLError as e:
                print(e)
                print("---urlErrorurl:", url)
            except socket.timeout as e:
                print(e)
                print("---socket timout:", url)
            else:
                # 解析json
                rsp_data = json.loads(rsp)
                self.__save_image(rsp_data, word)
                # 读取下一页
                print("下载下一页")
                pn += 60
            finally:
                page.close()
        print("下载任务结束")
        return

        """
        start方法：爬虫入口
        :param word: 需要抓取的关键词
        :param spider_page_num: 需要抓取数据页数 总抓取图片数量为 页数x60
        :param start_page:起始页数
        :return:
        """
    def start(self, word, spider_page_num=1, start_page=1):
        self.__start_amount = (start_page - 1) * 60
        self.__amount = spider_page_num * 60 + self.__start_amount
        self.__get_images(word)

使用以上小脚本，我们先分别爬取特朗普、奥巴马、希拉里三人的60张图片（后面人脸识别部分会用到），去掉爬取失败、不相关的以及多人的一些图片之后，再分别选取出30张图片作为训练图片，5张图片作为预测图片，定义第1类是特朗普，第2类是奥巴马，第3类是希拉里，进行分类训练预测计算准确率。

部分爬取的图片（处理前）：

二、OpenCV扩展库中的人脸识别算法介绍（LBP）

1. 人脸识别的简单流程一般包括：人脸检测、图像预处理、特征提取和人脸识别。下面分别进行介绍。
（1）人脸检测：使用Haar + adaboost算法，通过OpenCV人脸检测实现。
（2）图像预处理，一般对检测到的人脸图像作直方图或者滤波处理，以可以更好的提取特征。
（3）特征提取，通过提取人脸特征，然后对这些特征进行分类进而实现人脸识别，用于描述人脸的特征一般有LBP、Gabor、HOG和SIFT等，目前十分火热的卷积神经网络也是在提取特征。
（4）人脸识别，换句话说就是人脸分类器，将提取出的特征进行分类，一般的分类器包括欧式距离、马氏距离、SVM、贝叶斯分类器等等。

2. OpenCV中人脸识别相关类和函数
OpenCV自带的扩展库中有一个FaceRecognizer类，下面有3个人脸识别特征算法：Eigenfaces，Fisherfaces 和局部二值模式直方图 (LBPH)，这三个算法的工作原理及相互之间的区别可以阅读OpenCV文档及源码。接下来会通过人脸识别的准确率（样本不大）来简单比较一下Eigenfaces特征算法以及LBPH特征算法。

LBP特征的原理：

原始的LBP算法的基本思想是在3*3的窗口内，以窗口中心像素为阈值，将相邻的8个像素的灰度值与其进行比较，若周围像素值大于中心像素值，则该像素点的位置被标记为1，否则为0。这样，3*3邻域内的8个点经过比较可产生8位二进制数，如图1中00010011（通常转换为十进制数即LBP码，共256种），即得到该窗口中心像素点的LBP值，并用这个值来反映该区域的纹理信息。如下图所示：

通过对全局图像进行LBP特征提取得到LBP图，LBP特征图是不能直接来作人脸识别的，需要对LBP特征图进行分块并计算每个分块的直方图，通过直方图的统计信息进行识别，最后将各块的直方图首尾相连就得到一张图片最终的LBP特征描述向量。计算两张图片的LBP特征向量的相似度即可实现人脸识别。

OpenCV中LBPH人脸识别类如下进行创建：

Ptr LBPHRecog = createLBPHFaceRecognizer(1, 8 ,3, 3, 50);         //构造LBPH人脸识别类的对象并初始化

下面看一下构造函数的原型，进而解释一下参数的含义：

CV_EXPORTS_W Ptr createLBPHFaceRecognizer(int radius=1, int neighbors=8,  
                                                            int grid_x=8, int grid_y=8, double threshold = DBL_MAX);  

/*可以看到，参数是有默认值得，各个参数的含义如下：int radius = 1 ：中心像素点到周围像素点的距离，相邻像素距离为1，以此类推
int neighbors = 8 ：选取的周围像素点的个数
int grid_x= 8 ：将一张图片在x方向分成8块
int grid_y = 8 ：将一张图片在y方向分成8块
double threshold = DBL_MAX  ：LBP特征向量相似度的阈值，只有两张图片的相似度小于阈值才可认为识别有效，大于阈值则返回-1*/

构造好LBPH人脸识别的对象，下面分别来看看训练和识别的函数：

LBPHRecog->train(trainPic, labels);         //LBP人脸识别训练函数

训练函数参数中的trainPic是一个vector，所有需要训练的图片都被包含在内，labels也是vector，存储与trainPic中对应训练图片的名字，这样从trainPic中得到的与识别的图片最相似的图片的名字即可在labels中查找到。

result = LBPHRecog->predict(recogPic);//进行识别，并返回识别结果

返回的识别结果即是对应的labels中的名字。

三、基于Python的网络爬虫与OpenCV扩展库中的人脸识别算法比较

1. 分别爬取特朗普、奥巴马、希拉里三人的60张图片，去掉爬取失败、不相关的以及多人的一些图片之后，再分别选取出30张图片作为训练图片，5张图片作为预测图片，定义第1类是特朗普，第2类是奥巴马，第3类是希拉里，进行分类训练预测计算准确率。

处理前：

2. 从网络上爬取到的图片大小肯定是不一样的，而且一张图片大部分都是非感兴趣内容（人脸识别肯定只对人脸感兴趣啦），需要对输入算法模型的图片进行一系列的预处理，包括检测人脸部分、提取人脸部分、转灰度图像、修改成统一大小、对齐、归一化等操作，都可以通过OpenCV的一些库函数来完成。

处理后：

3.结果分析：

（1）Eigenfaces特征算法结果：

准确率：80.000%

错分图片如下：

（2）局部二值模式直方图 (LBPH)特征算法结果：

准确率：86.667%

错分图片如下：

四、代码解析

刚刚使用到的基于Python的网络爬虫与OpenCV扩展库中的人脸识别算法比较的代码如下：

IDE：Visual Studio 2013
语言：C++
依赖：OpenCV 2.4.9

其实这两种人脸识别的代码是一模一样的，只需要在识别特征的时候稍微修改函数参数即可：

	//FaceRecognition，默认LBPH算法，可以进入下面的Recognition函数源码修改
	Ptr model = Recognition(images, labels, testimages, testlabels);

部分参考代码如下，只有主函数的一部分，不包括类。相应位置有详细注释，整个工程文件见下载页面：

//FaceRecognition - Detect, Cut , Save, train and predict
//默认使用的是FaceRecognizer类的LBPH算法，如需修改算法请进入Prehelper.cpp的Recognition方法
//@Author : Witt

#include "opencv2/objdetect/objdetect.hpp"  
#include "opencv2/highgui/highgui.hpp"  
#include "opencv2/imgproc/imgproc.hpp"  

#include   
#include   
#include   
#include   
#include "BrowseDir.h"  
#include "StatDir.h"  
#include "Prehelper.h"  

using namespace std;
using namespace cv;

#define K 3  //有几类

int main(){
	char dir[256] = "你的工作路径\\FaceRecognition\\FaceRecognition\\TestAmerica\\";

	detectFaceAndCut(dir, K);	//仅先对数据做人脸检测、裁剪出人脸部分并覆盖保存在原路径，如已检测好的数据可以注释不执行

	vector images, testimages;	//训练图片, 用作预测图片
	vector labels, testlabels;	//训练图片的标签， 用作预测图片的标签

	//分别装载预处理过后的训练、预测图片与标签
	loadResizeAndTogray(dir, K, images, labels, testimages, testlabels, "train");
	loadResizeAndTogray(dir, K, images, labels, testimages, testlabels, "predict");

	//FaceRecognition，默认LBPH算法，可以进入下面的Recognition函数源码修改
	Ptr model = Recognition(images, labels, testimages, testlabels);

	//在数据集图片目录下生成model.out
	char* dirmodel = new char[256];
	strcpy(dirmodel, dir); strcat(dirmodel, "model.out");
	FILE* f = fopen(dirmodel, "w");
	fwrite(model, sizeof(model), 1, f);
	system("pause");
	return 0;
}

五、两种人脸识别算法的结果比较与总结

1. 在测试样本上的比较结果

通过对Eigenfaces特征算法结果和局部二值模式直方图 (LBPH)特征算法结果进行比较可以看到LBPH算法的效果会更好一些。实际在人脸识别中使用比较多的也是LBPH算法，对光照具有较强的鲁棒性，但是依然没有解决姿态和表情的问题。

2. 训练样本质量不够高

由于算法实现是调用已经封装好的库，因此实现起来主要的工作就是如何将从网络上爬取到的图片作为输入来进行训练以及测试准确率。而直接爬取的图片，有姿态、表情以及分辨率等问题，还需要人工标注进行第一步的处理。

3. 训练样本的预处理很重要

需要注意的是，无论是训练样本和要识别的样本，人脸用统一的尺寸，这样才能有好的效果，可以用Opencv中resize函数等进行这样的操作。对于同一张人脸，尽可能得获得不同角度的照片作为训练样本，特征算法模型才能更好地识别不同角度的人脸。

基于Python的网络爬虫与OpenCV扩展库中的人脸识别算法比较，整个工程文件见下载页面（资源描述页有小问题，不影响下载，特此更正资源描述是OpenCV2.4.9_基于Python的网络爬虫与OpenCV扩展库中的人脸识别算法比较）

在v1版本基础上加入了新的爬虫以及识别小程序的v2，整个工程文件见下载页面

python基础版课件_Python入门基础ppt课件.ppt 六间仓库的仓老师 python基础版课件
《Python入门基础ppt课件.ppt》由会员分享，可在线阅读，更多相关《Python入门基础ppt课件.ppt(30页珍藏版)》请在人人文库网上搜索。1、Python语言基础,1,Python诞生于20世纪90年代初，是一种解释型、面向对象、动态数据类型的高级程序设计语言，是最受欢迎的程序设计语言之一。这节课我们主要来介绍Python语言的基本情况和基础知识。,课程描述,2,课程知识点,1初识
Python从入门到实践电子书,python编程入门到实践pdf 小六oO 智能写作 python django 开发语言
《Python编程从入门到实践》txt下载在线阅读，求百度网盘云资源《Python编程》（[美]埃里克·马瑟斯（EricMatthes））电子书网盘下载免费在线阅读资源链接：链接：提取码：6vcz书名：Python编程作者：[美]埃里克·马瑟斯（EricMatthes）译者：袁国忠豆瓣评分：9.2出版社：人民邮电出版社出版年份：2020-10页数：476内容简介：本书是针对所有层次Python读者
【2025年春季】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽子凯哥 web安全学习安全 CTF夺旗赛网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15
Python（1）Python全方位指南：定义、应用与零基础入门实战一个天蝎座白勺程序猿 Python入门到精通 python 开发语言
背景：为什么Python成为开发者必备技能？‌Python自1991年发布以来，凭借‌“简单高效”‌的设计理念，成为全球增长最快的编程语言。根据TIOBE2023年榜单，Python稳居前三，其核心竞争力包括：‌开发效率高‌：代码量仅为Java的1/5，C++的1/10。‌跨领域通吃‌：从Web开发到AI训练，覆盖90%以上技术场景。‌企业级应用‌：YouTube用Python处理视频推荐，NAS
Python 赋能经济趋势与股票研究：数据驱动的投资洞察 Small踢倒coffee_氕氘氚笔记经验分享
在当今数据爆炸的时代，Python凭借其强大的数据处理能力和丰富的开源库，已成为经济趋势分析和股票研究的利器。本文将探讨如何利用Python进行以下方面的研究：**一、数据获取与清洗*****数据来源:*****财经数据API:**Tushare、AKShare、YahooFinance、AlphaVantage等提供丰富的股票、基金、宏观经济等数据。***网络爬虫:**使用BeautifulSo
突破反爬终极指南：如何用Python实现100%隐形数据抓取（附实战代码）煜bart 机器人人工智能 web3.py
引言：当爬虫遭遇铜墙铁壁2023年Q2最新统计显示，全球Top100网站中89%部署了AI驱动的反爬系统，传统爬虫存活率暴跌至17%。本文将揭秘一套基于深度伪装技术的爬虫方案，在最近三个月实测中保持100%成功率，成功突破Cloudflare、Distil等顶级防护系统。---###一、指纹伪装：让爬虫"隐身"的核心科技####1.1浏览器指纹深度克隆（代码实现）```pythonfromsele
Python自动化炒股：利用XGBoost和LightGBM进行股票市场预测的实战案例云策量化 Python自动化炒股量化投资量化软件 python 量化交易 QMT PTrade 量化炒股量化投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》Python自动化炒股：利用XGBoost和LightGBM进行股票市场预测的实战案例在当今快节奏的金融市场中，自动化交易和预测模型成为了投资者和交易者的重要工具。Python以其强大的数据处理能力和丰富的机器学习库，成为了实现这些模型的首选语言。本文将带你了解如何使用XGBoost和LightGBM这两个流行的机器学习算法来
python缩进几个空格-解析Python的缩进规则的使用 weixin_39962675
Python中的缩进（Indentation）决定了代码的作用域范围。这一点和传统的c/c++有很大的不同（传统的c/c++使用花括号{}符，python使用缩进空格）。每行代码中开头的空格数（whitespace）用于计算该行代码的缩进级别（Indentationlevel），注意一个Tab等于8个空格（Space），缩进级别为0表示无缩进空格。Python中的每一条语句都有一个缩进级别,并且缩
33.从入门到精通：Python3 正则表达式 re.match函数 re.search方法 re.match与re.search的区别摘星月为妆。 Python从入门到精通正则表达式
33.从入门到精通：Python3正则表达式re.match函数re.search方法re.match与re.search的区别Python3正则表达式re.match函数re.search方法re.match与re.search的区别Python3正则表达式在Python3中，可以使用re模块来进行正则表达式的匹配和处理。以下是一个简单的例子，说明如何使用re模块进行正则表达式匹配：import
Python与Web 3.0：重新定义数字身份验证的未来 Echo_Wish Python！实战！python 前端开发语言
Python与Web3.0：重新定义数字身份验证的未来随着Web3.0的迅猛发展，传统的身份验证方式正面临越来越大的挑战。从依赖中心化服务器存储用户数据，到如今去中心化、用户掌控数据的新时代，身份验证系统经历了前所未有的变革。而作为一个人工智能、区块链和Python技术的深度爱好者，我认为Python将成为构建Web3.0身份验证系统的重要工具。今天，我们就来聊聊如何结合Python与Web3.0
python中re.search()函数的用法前行的zhu pytorch 正则表达式正则表达式 python
说到使用正则匹配字符串，就不得不说三个常用的匹配检索方法：re.search(),re.match()和re.findall()。主要的区别是前两个方法只在目标字符串中匹配一次满足条件的正则表达式；而re.findall()方法匹配目标字符串中所有满足条件的正则表达式；另外re.match()只会匹配目标字符串开头是否满足正则表达式，若开头不满足则匹配失败，函数返回None；而re.search(
python 中 Re库函数 re.search() weixin_43964993 python python
re.search(pattern,string,flags=0)在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象pattern:正则表达式的字符串或原生字符串表示string:待匹配字符串flags:正则表达式使用时的控制标记常用标记说明re.I re.IGNORECASE忽略正则表达式的大小写，[A‐Z]能够匹配小写字符re.M re.MULTILINE正则表达式中的^操作
python中search用法_Python中的python re.search方法详解 weixin_39688856 python中search用法
re.search扫描整个字符串并返回第一个成功的匹配，若string中包含pattern子串，则返回Match对象，否则返回None，注意，如果string中存在多个pattern子串，只返回第一个。re.search()方法用来精确匹配并提取第一个符合规律的对象，而对象内容的提取则使用search方法的属性group()来实现。函数语法：re.search(pattern,string,fla
pandas 读写excel jimox_ai pandas
在Python中，使用Pandas库读写Excel文件是一个常见的操作。Pandas提供了`read_excel`和`to_excel`方法来分别实现读取和写入Excel文件的功能。以下是一些基本的示例：###读取Excel文件```pythonimportpandasaspd#读取Excel文件df=pd.read_excel('path_to_your_excel_file.xlsx')#显示
大话 Python：python 操作 excel 系列 -- pandas 读取、分析、保存 2401_84140734 程序员 python excel pandas
read_excel()直接读取excel文件df=pd.read_excel(‘C:/test.xlsx’)4，读取当前字段计算后生成新字段获取原有字段paymount值paymount=df[‘paymount’]业务计算（金额-10）paymount_new=paymount-10添加新字段paymount_newdf[‘paymount_new’]=paymount_new这个步骤可以加入
python简单案例代码,python案例讲解视频 2401_84471631 python
这篇文章主要介绍了python简单案例代码，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。Python是一种高级，解释性，交互式且面向对象的脚本语言。Python的设计具有很高的可读性。它使用英语作为关键字，相对于而其他语言则使用标点符号作为语句结束不同，是依靠缩进作为结束。并且其语法结构比其他语言精简。Python是Web开发，游戏开发
Python爬虫实战教程——如何爬取多个国家的实时汇率数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫 chrome 信息可视化
1.引言随着全球经济一体化，跨国交易和投资变得越来越普遍，实时汇率数据成为了金融领域和国际贸易中的关键数据。对于金融分析师、投资者或者是开发者来说，能够实时获取并分析汇率数据是至关重要的。本文将深入探讨如何使用Python爬虫技术抓取多个国家的实时汇率数据。我们将使用最新的技术和工具，介绍如何通过Python编写一个高效、可扩展的汇率数据爬虫。2.为什么需要实时汇率数据？汇率数据被广泛应用于以下几
漫画算法python篇pdf_用Python抓取漫画并制作mobi格式电子书 jian bao 漫画算法python篇pdf
想看某一部漫画，但是用手机看感觉屏幕太小，用电脑看吧有太不方面。正好有一部Kindle，决定写一个爬虫把漫画爬取下来，然后制作成mobi格式的电子书放到kindle里面看。本人对于Python学习创建了一个小小的学习圈子，为各位提供了一个平台，大家一起来讨论学习Python。欢迎各位到来Python学习群：943752371一起讨论视频分享学习。Python是未来的发展方向，正在挑战我们的分析能力
python的格式转换库_3个Python PDF库，提取信息、转换格式、分割剪裁有它就够了！... 来朝三博士 python的格式转换库
PDFMiner：PDFMiner是一个从PDF文档中提取信息的工具。与其他PDF相关的工具不同，它只用于获取和分析文本数据。PDFMiner能获取页面中文本的准确位置，以及字体或行等其他信息。它还有一个PDF转换器，可以将PDF文件转换成其他文本格式(如HTML)。还有一个可扩展的解析器PDF，可以用于文本分析以外的其他用途。(地址https://github.com/euske/pdfmine
安全物理环境 bubble87 安全
物理位置选择基本要求：机房应位于具有防震、防风和防雨能力的建筑内，需提供抗震设防审批文档。避免设置在建筑物顶层或地下室，否则需加强防水防潮措施。测评方法：核查建筑物抗震设防文档、屋顶/墙体/门窗的防雨渗漏情况。检查机房所在楼层是否为顶层或地下室（如机房位于三层和四层不在顶楼，符合要求）。物理访问控制（高风险项）基本要求：机房出入口应配置电子门禁系统（如指纹、密码、人脸识别），记录人员进出信息。测评
使用python去编写PDF转换成为EPUB以及MOBI工具 winfredzhang python pdf 转换 EPUB MOBI
在数字时代，PDF格式因其可靠性和跨平台特性成为了文档分享的标准。然而，当我们需要在电子阅读器上阅读这些文档时，转换为EPUB或MOBI格式会提供更好的阅读体验。今天，我们将深入分析一个使用Python和wxPython开发的PDF转换工具，探讨其实现原理和技术细节。C:\pythoncode\new\ConvertPdfToEpub.py需求分析在开始编码之前，让我们明确需求：用户友好的界面，允
Ubuntu安装开发者平台Backstage xuhss_com 计算机计算机
Python微信订餐小程序课程视频https://edu.csdn.net/course/detail/36074Python实战量化交易理财系统https://edu.csdn.net/course/detail/35475Ubuntu安装开发者平台Backstage什么是Backstage?Backstage是一个构建开发者门户的开源平台。通过支持一个集中的软件分类，Backstage可以保存
go python 比较 devops_5 大 DevOps 工具，你用过几个？ weixin_39692271 go python 比较 devops
DevOps的概念在软件开发行业中逐渐流行起来。越来越多的团队希望实现产品的敏捷开发，DevOps使一切成为可能。有了DevOps，团队可以定期发布代码、自动化部署、并将持续集成/持续交付作为发布过程的一部分。虽然DevOps背后有各种各样的概念，但幸好有一些工具可以让你更容易地理解和实现。在本文中，你将了解这些工具，并将它们作为软件发布/维护工具包工作的一部分开始使用。DevOps有很多可使用的
python中beautifulsoup怎么安装_Python3爬虫中Beautiful Soup库的安装方法是什么柳虎璐 Python3 BeautifulSoup 安装教程 lxml 爬虫
Python3爬虫中BeautifulSoup库的安装方法是什么发布时间：2020-08-0517:38:09来源：亿速云阅读：70作者：小新这篇文章将为大家详细讲解有关Python3爬虫中BeautifulSoup库的安装方法是什么，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。BeautifulSoup是Python的一个HTML或XML的解析库，我们可以用它
如何减少跨团队交付摩擦？——基于 DevOps 与敏捷的最佳实践网罗开发实战实战源码 devops 运维
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Python进行DevOps实践黑夜照亮前行的路 python devops 开发语言
使用Python进行DevOps实践可以涉及多个方面，从自动化部署、配置管理、监控到日志分析等等。下面是一些具体的方法和实践，展示如何使用Python在DevOps环境中进行工作：1.自动化部署使用Python编写自动化部署脚本，可以极大地提高部署效率。例如，可以使用fabric或paramiko等库来远程执行命令，或者使用Ansible这样的自动化工具，它本身使用Python编写，并提供了丰富的
批量安装 Python 库的脚本：提高python学习效率的第一步（附源码） TAGRENLA Interesting python project python 学习开发语言
批量安装Python库批量安装Python库的脚本：提高数据分析效率的一步（附源码）批量安装脚本前提条件使用pip：Python包管理工具批量安装脚本查看当前python解释器中安装的所有的库批量安装Python库的脚本：提高数据分析效率的一步（附源码）在现代数据分析领域，Python已成为一个不可或缺的工具。为了进行数据处理、分析、可视化和建模等任务，Python社区涌现出了众多强大的库和工具。
Python 简单后台项目的脚手架程序媛了了 python 开发语言
说明近期写了一个简单的项目，在后台运行获取网上的期货数据并保存到相应的数据库里。由于之前工作很多这种简单的类似调用接口或攫取数据的项目都是用Python来写，因此这次也继续用Python写。但是这次更换了几个包，此份文档简单来说明一下。依赖的包toml：用户解析配置文件，配置文件用的是toml格式。arrow：用于处理日期相关。loguru：用于日志处理。requests：用于http请求响应。p
构建我们的Python代码库依赖图 openwin_top python编程示例系列二 python 开发语言
构建我们的Python代码库依赖图作者：GeorgeFarcasiu,NoahKim,JaconBrugh,JiahaoLi,HudsonRiverTrading引言与我们在高频交易的根基保持一致，HudsonRiverTrading（HRT）行动迅速。与任何工程指标一样，速度有其权衡。在过去的五年中，由于一种通常更重视“足够好”而非“完美”的工程文化，一个鼓励团队间代码共享的协作工作环境，以及一
python 重构 Python 代码隔壁小红馆 python cpython python面试 python cpython
将for循环转换为list/dictionary/set表达式我们在时经常遇到的一个情况是，创建一个值的集合。比如我们创建一个列表，然后迭代地用值填充它，这里我们想创建一个立方数字的列表。大多数语言的标准方法如下：cubes=[]foriinrange(20):cubes.append(i**3)在Python中，我们可以使用列表表达式，生成需要的数据。就可以将代码简化为一行，省去定义列表，然后再
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f