胜天半月子

Python爬虫之数据解析/提取（二）

文章目录

前言
- 数据分析分类
- 数据解析原理概述
一、正则re进行数据解析
- 1.1 爬取糗事百科中糗图板块下所有的糗图图片⭐
二、bs4解析概述
- 2.1 获取整个标签
- 2.2 获取标签属性或者存储的文本内容
- 2.3 实战项目⭐
三、xpath解析基础⭐
- 3.1 xpath解析原理
- 3.2 案例讲解⭐
- - 3.2.1 爬取58二手房中的房源信息
  - 3.2.2 4k图片解析爬取
  - 3.2.3 全国城市名称爬取
  - 3.4 爬取站长之家免费建立模板并下载⭐⭐
总结
- 1. 正则findall()方法的使用
- 2. format()方法
- 3. re.S和re.M辨析
- 4. 爬取4k图片出现的乱码问题⭐

前言

爬虫在使用场景中的分类

通用爬虫
抓取系统重要组成部分。抓取的是一整张页面数据

聚焦爬虫⭐
是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。

增量式爬虫⭐
检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

数据分析分类

正则

bs4

xpath⭐

数据解析原理概述

聚焦爬虫

编码流程：

指定url

发起请求

获取响应数据

数据解析

持久化存储

原理概述概述

解析的局部文本内容都会再标签之间或者标签对应的属性中进行存储

进行指定标签定位

标签或者标签对应的属性中存储的数据值进行提取（解析）

一、正则re进行数据解析

1.1 爬取糗事百科中糗图板块下所有的糗图图片⭐

需求分析

先使用通用爬虫获取一整张页面，再使用聚焦爬虫获取图片内容

具体分析

拷贝最小的局部源码：

目的：提取div中的img标签中的src属性值提取出来

<div class="thumb">

<a href="/article/124250612" target="_blank">
<img src="//pic.qiushibaike.com/system/pictures/12425/124250612/medium/JRYLE3WRJZXI8KYH.jpg" alt="糗事#124250612" class="illustration" width="100%" height="auto">
</a>
</div>

编写正则

ex = '.*?# ()括号内容是我们想要的

代码编写

处理第一页数据：

获取图片路径并存储到列表

import requests
import re

if __name__ == '__main__':

    url = 'https://www.qiushibaike.com/imgrank/'

    headers = {
     
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
    }

    # 使用通用爬虫对url对应的一整张页面进行爬取
    # 一整张页面数据使用.text 进行获取
    page_text = requests.get(url=url, headers=headers).text

    # 使用聚焦爬虫将页面中所有的糗图进行解析/提取
    ex = '.*?'
    # 返回列表
    img_src_list = re.findall(ex,page_text,re.S)# re.S 叫做单行匹配  re.M 叫做多行匹配
    print(img_src_list)

['//pic.qiushibaike.com/system/pictures/12424/124248898/medium/9EBHN0P7Z704IRNA.jpg', '//pic.qiushibaike.com/system/pictures/12425/124250569/medium/IYVWM19GECVE35N6.jpg', '//pic.qiushibaike.com/system/pictures/12425/124251068/medium/T42KZBCK2BODVH9N.jpg', '//pic.qiushibaike.com/system/pictures/12425/124251038/medium/R1C15IV0JA3O5GK7.jpg', '//pic.qiushibaike.com/system/pictures/12423/124237042/medium/B7C6RN8FG1ECU4QO.jpg', '//pic.qiushibaike.com/system/pictures/12425/124250034/medium/70UZCFWLI4PL3937.jpg', '//pic.qiushibaike.com/system/pictures/12414/124148138/medium/IBZA9V3283IO5809.jpg', '//pic.qiushibaike.com/system/pictures/12423/124238731/medium/936HVUV7OOMN9L4P.jpg', '//pic.qiushibaike.com/system/pictures/12424/124241238/medium/WKQS193J9BDN9MEW.jpg', '//pic.qiushibaike.com/system/pictures/12424/124241248/medium/NP2I6R4SYNPQG3H9.jpg', '//pic.qiushibaike.com/system/pictures/12425/124251192/medium/HMIK71X9R6RZFNY1.jpg', '//pic.qiushibaike.com/system/pictures/12425/124250567/medium/EQWD2NB6B1TUFD21.jpg', '//pic.qiushibaike.com/system/pictures/12423/124239461/medium/I1MFATNSTI7XQP6V.jpg', '//pic.qiushibaike.com/system/pictures/12423/124238410/medium/YG8Z33RG54KR7OC2.jpg', '//pic.qiushibaike.com/system/pictures/12423/124236773/medium/JAPN635V0G2V2BLA.jpg', '//pic.qiushibaike.com/system/pictures/12423/124235383/medium/JI0L091QQVS7PQHO.jpg', '//pic.qiushibaike.com/system/pictures/12424/124247459/medium/EAEV8Z68C99FU12L.jpg', '//pic.qiushibaike.com/system/pictures/12423/124239804/medium/11DVRSZJQ78HNT8D.jpg', '//pic.qiushibaike.com/system/pictures/12425/124250516/medium/ZEKVE91EMMMJ3JTB.jpg', '//pic.qiushibaike.com/system/pictures/12423/124237782/medium/S0O4E74O52K5YZW3.jpg', '//pic.qiushibaike.com/system/pictures/12425/124251193/medium/VEP5BC2ZKRHYYOOT.jpg', '//pic.qiushibaike.com/system/pictures/12425/124251161/medium/3SXGPJXG5C13JBAU.jpg', '//pic.qiushibaike.com/system/pictures/12425/124250224/medium/MZQF7KXXBDHMUS13.jpg', '//pic.qiushibaike.com/system/pictures/12425/124251222/medium/TOT961UBURC8WKTA.jpg', '//pic.qiushibaike.com/system/pictures/12423/124239840/medium/0MHKXBDTU7XLMCYW.jpg']

通过分析上图列表中路径发现少了些许东西：
https://pic.qiushibaike.com/system/pictures/12425/124250612/medium/JRYLE3WRJZXI8KYH.jpg

修改后下载到指定文件夹

# 需求：爬取糗事百科中糗图板块下所有的糗图图片

import requests
import re
import os

if __name__ == '__main__':

    # 创建一个文件见  用来保存所有的图片
    if not os.path.exists('./qiutuLibs'):
        os.makedirs('./qiutuLibs')

    url = 'https://www.qiushibaike.com/imgrank/'

    headers = {
     
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
    }

    # 使用通用爬虫对url对应的一整张页面进行爬取
    # 一整张页面数据使用.text 进行获取
    page_text = requests.get(url=url, headers=headers).text

    # 使用聚焦爬虫将页面中所有的糗图进行解析/提取
    ex = '.*?'
    # 返回列表
    # findall()方法的使用见总结①
    img_src_list = re.findall(ex,page_text,re.S)# re.S 叫做单行匹配  re.M 叫做多行匹配
    print(img_src_list)

    # 单独便利列表 并做get请求
    for src in img_src_list:
        # 拼接出完整的图片地址
        src = 'https:' + src
        # 发起get请求  获取二进制图片数据
        img_data = requests.get(url=src,headers=headers).content
        # 生成图片名称  从原始切分出来
        # '//pic.qiushibaike.com/system/pictures/12417/124176031/medium/VC2AHAHUEUUX1KY3.jpg"'
        img_name = src.split('/')[-1] # 最后一个
        # 图片存储路径
        imgPath = './qiutuLibs/' + img_name
        with open(imgPath,'wb') as fp:
            fp.write(img_data)
            print(img_name,'下载成功')

处理第多页数据：
第一页：https://www.qiushibaike.com/imgrank/
（其实我们用这个url也是该页面：https://www.qiushibaike.com/imgrank/page/1/）
第二页：https://www.qiushibaike.com/imgrank/page/2/
第二页：https://www.qiushibaike.com/imgrank/page/3/

# 需求：爬取糗事百科中糗图板块下所有的糗图图片

import requests
import re
import os

if __name__ == '__main__':
    headers = {
     
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
    }
    # 创建一个文件见  用来保存所有的图片
    if not os.path.exists('./qiutuLibs'):
        os.makedirs('./qiutuLibs')

    # 设置一个通用url模板
    url = 'https://www.qiushibaike.com/imgrank/page/%d/'
    # 对1-13页做请求
    for pageNum in range(1,13):
        # 对应页码的url
        new_url= format(url%pageNum)

        # 使用通用爬虫对url对应的一整张页面进行爬取
        # 一整张页面数据使用.text 进行获取
        page_text = requests.get(url=url, headers=headers).text

        # 对每一页进行解析

        # 使用聚焦爬虫将页面中所有的糗图进行解析/提取
        ex = '.*?'
        # 返回列表
        img_src_list = re.findall(ex,page_text,re.S)# re.S 叫做单行匹配  re.M 叫做多行匹配
        # print(img_src_list)

        # 单独便利列表 并做get请求
        for src in img_src_list:
            # 拼接出完整的图片地址
            src = 'https:' + src
            # 发起get请求  获取二进制图片数据
            img_data = requests.get(url=new_url,headers=headers).content
            # 生成图片名称  从原始切分出来
            # '//pic.qiushibaike.com/system/pictures/12417/124176031/medium/VC2AHAHUEUUX1KY3.jpg"'
            img_name = src.split('/')[-1] # 最后一个
            # 图片存储路径
            imgPath = './qiutuLibs/' + img_name
            with open(imgPath,'wb') as fp:
                fp.write(img_data)
                print(img_name,'下载成功')

format()用法是重点，见总结

二、bs4解析概述

利用正则进行解析，即可以应用于Python语言中，也可以应用于其他语言中，而本节所讲解内容只能应用于Python语言

数据解析原理：

标签定位

提取标签、标签属性中存储的数据值

bs4数据解析原理：

实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中

通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据获取

环境安装

pip install bs4
BeautifulSoup对象存在于bs4模块中

pip install lxml
lxml是一种解析器，不仅在bs4中能用到，在xpath中也能用到

2.1 获取整个标签

如何例化BeautifulSoup对象？

f rom bs4 import BeautifulSoup

对象的实例化：（两种）①②

①：将本地的html文档中的数据加载到该对象中(文档下载)
fp = open('./test.html','r',encoding = 'utf-8')
soup = BeautifulSoup(fp,'lxml')
数据加载和对象实例化是同步实现的

②：将互联网上获取的页面源码加载到该对象中
page_text = response.text
soup = BeautifulSoup(page_text ,'lxml')

该对象中用于数据解析的方法和属性：⭐⭐

① soup.tagName：返回的是html中第一次出现的tagName标签

② soup.find()：

soup.find(‘tagName’)等同于soup.div

属性定位：可以根据具体的属性定位到属性对应的标签
print(soup.find(‘div’,class_/id/attr= ‘song’))
class加_ 防止与关键字class冲突

soup.find()只返回第一个符合条件的结果，所以soup.find()后面可以直接接.text或者get_text()来获得标签中的文本

③ soup.find_all()：用法同soup.find()但是返回列表

soup.find_all(‘tagName’)

属性定位：soup.find_all(‘a’,class_ = ‘du’)

④ soup.select(‘选择器’)：

（‘id，class，标签。。。选择器’）,返回的是一个列表

层级选择器 ：

一个层级>：通过>来不断剥离选择自己想要的

多级选择器：使用空格例如
与之间间隔

选择器知识会在总结章节做补充，我听到这里也挺蒙的，网页基本知识已经还给老师了

# 实例化 ①：
from bs4 import BeautifulSoup

if __name__ == '__main__':
	# 将本地的html文档中的数据加载到该对象中
	fp = open('./test.html','r',encoding = 'utf-8')
	soup = BeautifulSoup(fp,'lxml')
	# 打印出的就是原文档内容
	print(soup)

soup.tagName

print(soup.a)

print(soup.div)

soup.find()

soup.find(‘tagName’)

print(soup.find('div'))

soup.find(‘div’,class_= ‘song’)

# class加_ 防止与关键字class冲突
print(soup.find('div',class_= 'song'))

soup.find_all()

soup.find_all(‘a’)

# 返回的是列表
print(soup.find_all('a'))

soup.find_all(‘a’,class_ = ‘du’)

print(soup.find_all('a',class_ = 'du'))

soup.select()

soup.select(‘.tang’)：（‘id，class，标签。。。选择器’）

# 返回的是列表
print(soup.select('.tang'))

层级选择器

一级选择器

# > 表示一个层级: 即 一级一级往下剥离开来
print(soup.select('.tang > ul > li > a'))

print(soup.select('.tang > ul > li > a')[0])

多级选择器

使用空格 :例如
与之间间隔

2.2 获取标签属性或者存储的文本内容

获取标签的目的就是为了获取标签属性或者存储的文本内容，而2.1章节的内容很好的帮助我们解决了标签如何获取的步骤

获取标签之间的文本数据

soup.a.text/string/get_text()：定位到了a标签后直接使用相关属性或者方法获取文本
属性与方法之间的区别：

text/get_text()：可以获取某一个标签中所有的文本内容

string：只可以获取该标签下面直系的文本内容

获取标签中的属性值

2.3 实战项目⭐

需求：爬取三国演义小说的所有章节标题和章节内容
三国演义

需求分析

在当前页（图一）可以解析出章节的标题和和章节内容所对应的链接地址（通过链接可以跳转到文章内容）
是否是AJAX请求的判断在爬虫入门概念与硬核实战巩固（一）这一节中做了详细的介绍，在此不做赘述。

实战代码

我的代码一开始是乱码的(爬取首页数据和章节内容数据都是乱码)，代码中的print语句是调试的
出现乱码后，加入了这句话：
page_text = page_text.encode('iso-8859-1').decode("UTF-8")
你一开始可以不加，视频中也是没有加的，所以遇到问题具体分析

import requests
from bs4 import BeautifulSoup

# 需求：爬取三国演义小说的所有章节标题和章节内容

if __name__=='__main__':
    # 对首页的内容进行爬取
    headers = {
     
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
    }
    url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
    page_text = requests.get(url=url,headers=headers).text
    page_text = page_text.encode('iso-8859-1').decode("UTF-8")# 出现乱码加上这句
    #print(page_text)
    
    # 在首页解析出章节的标题和详情页的url
    # 1. 实例化BeautifulSoup对象，需要将页面源码数据加载到对象中
    soup = BeautifulSoup(page_text,'lxml')
    # 解析章节标题和详情页的url
    li_list = soup.select('.book-mulu > ul > li')# 返回的是一系列标签
    fp = open('./sanguo.txt','w',encoding='UTF-8')
    for li in li_list:
        title = li.a.string            # 获取了标签 即章节标题
        # print(li.a)
        detail_url = 'https://www.shicimingju.com'+li.a['href']# 获取属性值
        
        # 对详情页发起请求，解析出章节内容
        detail_page_text = requests.get(url=detail_url,headers=headers).text
        detail_page_text = detail_page_text.encode('iso-8859-1').decode("UTF-8")# 出现乱码加上这句
        
        # 解析出详情页的章节内容  。。。
        detail_soup = BeautifulSoup(detail_page_text,'lxml')
        dic_tag = detail_soup.find('div',class_ = 'chapter_content')
        content = dic_tag.text  # 或者dic_tag.get_text() 即章节内容
        
        # 至此 获得了 一个章节的标题和内容
        # 持久化存储
        fp.write(title+":"+content+"\n")
        print(title+'爬取成功！！')
    fp.close()

三、xpath解析基础⭐

3.1 xpath解析原理

实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中

调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获

环境安装

pip install lxml # 解析器

如何实例化对象？

将本地的html文档中的源码数据加载到etrr对象中：(本地文档下载)

etree.parse(filePath)

可以将互联网上的源码数据加载到该对象中

etree.HTML('page_text')

xpath(‘xapth表达式’)

xapth表达式

定位标签

/：表示的是从根节点开始定位。表示的是一个层级。

//：表示的是多个层级。可以表示从任意位置开始定位。

属性定位：

//div[@class = 'song'] {tag[@attrName = ‘attrValue’]}
r = tree.xpath(’//div[@class=“song”]’)# 可能定位到一个或者多个

索引定位：(索引从1开始)

r = tree.xpath(’//div[@class=“song”]/p[3]’)# 该div下有四个p 苏轼位于第三个

    # r = tree.xpath('/html/head/title')#第一个/表示根节点，其他/表示一个层级
    # print(r)# 
    # []
    
    # r = tree.xpath('/html/body/div')#第一个/表示根节点，其他/表示一个层级
    # print(r)
    # [, , ]

    # r = tree.xpath('/html//div')#第一个/表示根节点，//表示多个层级
    # print(r)
    # [, , ]   
    
    r = tree.xpath('//div')#//表示多个层级
    print(r)
    # [, , ]

获取标签文本内容

如何取文本？

例如：获取杜牧文本

<li><a href="http://www.dudu.com" class="du">杜牧</a></li>

/text()：获取的是标签中直系的文本内容

//text()：获取的是非直系的所有的文本内容

    # 获取文本内容    /text() 或者  //text()

    # 1. 杜牧
 --->直系文本
    # r = tree.xpath('//div[@class="tang"]//li[5]/a/text()')[0]# /text()取文本  返回的是列表
    # print(r)# ['杜牧']

    # 2. 度蜜月
  --> 通过获取文本  使用//
    # r = tree.xpath('//div[@class="tang"]//li[7]//text()')[0]
    # print(r)
    # r = tree.xpath('//li[7]//text()')[0]
    # print(r)

    r = tree.xpath('//div[@class="tang"]//text()')
    print(r)

如何取属性？

/@attrName：
r = tree.xpath(’//div[@class=“song”]/img/@src’)

3.2 案例讲解⭐

3.2.1 爬取58二手房中的房源信息

需求分析

爬取58二手房中的房源信息：58同城
需要通过抓包工具逐层解析出xpath表达式

视频教程和我写的有出入，可能当你看到这篇文章的时候，url也已经变化了，标签也变化了，所以你要具体问题具体分析

案例源码

import requests
from lxml import etree

if __name__ == '__main__':
    # 爬取页面源码数据
    headers = {
     
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
    }
    url = 'https://bj.58.com/ershoufang/?PGTID=0d100000-0000-1c69-0eaf-c4c0d938b9b6'
    page_text = requests.get(url=url,headers=headers).text


    # 1. 实例化etree对象并加载
    tree = etree.HTML(page_text)
    div_property_list =  tree.xpath('//section[@class="list"]/div')
    print(div_property_list)
    print('----------------------------------------------------------')
    fp = open('./58.txt','w',encoding='utf-8')
    # 页面数据局部解析
    for div_title in div_property_list:
        # ./表示  div[@class="property-content-title"]
        title = div_title.xpath('./a/div[2]/div/div/h3/text()')[0]# 我们要单独的从div_title中解析出h3标签
        print(title)
        fp.write(title+'\n')
    fp.close()

3.2.2 4k图片解析爬取

需求分析

链接：4k图片地址
获取img标签的src属性值获取图片，alt属性值作为图片名称

案例源码

这里展示的是完整没有错误的代码，但试想一下编写程序的过程不可能是一帆风顺的，因此我将本案例遇到的问题放在了总结中的第四小节

import requests
from lxml import etree
import os

if __name__ == '__main__':
    # 爬取页面源码数据
    headers = {
     
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
    }
    url = 'https://pic.netbian.com/4kmeinv/'
    
    response = requests.get(url=url,headers=headers)
    # 可以手动设置响应数据编码格式
    # response.encoding = 'utf-8'
    page_text = response.text

    # 数据解析
    # 获取img标签的src属性值获取图片，alt属性值作为图片名称
    tree = etree.HTML(page_text)
    li_list = tree.xpath('//div[@class="slist"]/ul/li')
    
    # 创建一个存储4k图片的文件夹
    if not os.path.exists('./picLibs'):
        os.mkdir('./picLibs')
    
    for li in li_list:
        img_src = 'https://pic.netbian.com' + li.xpath('./a/img/@src')[0]
        img_name = li.xpath('./a/img/@alt')[0] + '.jpg'
        # 通用处理中文乱码的方案
        img_name = img_name.encode('iso-8859-1').decode("gbk")
        # print(img_name,img_src)

        # 请求图片进行持久化存储
        img_data = requests.get(url=img_src,headers=headers).content
        img_path = './picLibs/'+img_name

        with open(img_path,'wb') as fp:
            fp.write(img_data)
            print(img_name,'下载成功！！！')

3.2.3 全国城市名称爬取

需求分析

全国城市名称

案例源码

方法一：

import requests
from lxml import etree

if __name__ == '__main__':
    # 爬取页面源码数据
    headers = {
     
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
    }
    url = 'https://www.aqistudy.cn/historydata/'
    
    response = requests.get(url=url,headers=headers)
    page_text = response.text

    tree = etree.HTML(page_text)
    all_city_names = []
    hot_li_list = tree.xpath('//div[@class="bottom"]/ul/li')
    
    # 方法一
    # 解析热门城市名称
    for li in hot_li_list:
        hot_city_name = li.xpath('./a/text()')[0]
        all_city_names.append(hot_city_name)

    city_names = tree.xpath('//div[@class="bottom"]/ul/div[2]/li')
    # 解析全部城市名称
    for li in city_names:
        city_name = li.xpath('./a/text()')[0]
        all_city_names.append(city_name)
    print(all_city_names,len(all_city_names))

上述用了两个for循环进行城市名称获取
思考：能不能用一个通用的xpath表达式一次性获取城市名称呢？
答案当然是可以的

方法二

import requests
from lxml import etree

if __name__ == '__main__':
    headers = {
     
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
    }
    url = 'https://www.aqistudy.cn/historydata/'
    
    response = requests.get(url=url,headers=headers)
    page_text = response.text

    tree = etree.HTML(page_text)
    # 想要解析热门城市和全部城市对应的a标签
    # 热门城市  //div[@class="buttom"]/ul/li/a
    # 全部城市  //div[@class="buttom"]/ul/div[2]/li/a

    # 用  按位或  使用
    a_list = tree.xpath('//div[@class="bottom"]/ul/li/a | //div[@class="bottom"]/ul/div[2]/li/a')
    
    all_city_names = []
    for a in a_list:
        city_name = a.xpath('./text()')[0]
        all_city_names.append(city_name)

    print(all_city_names,len(all_city_names))

两种方法的运行结果都如下图所示：

xpath表达式如何更加具有通用性？

在xpth表达式中使用管道符分割

作用：可以使管道符左右两侧的子xpath表达式同时生效或者一个生效

本例中：

热门城市： //div[@class=“buttom”]/ul/li/a

全部城市： //div[@class=“buttom”]/ul/div[2]/li/a

# 用  按位或  使用
a_list = tree.xpath('//div[@class="bottom"]/ul/li/a | //div[@class="bottom"]/ul/div[2]/li/a')

3.4 爬取站长之家免费建立模板并下载⭐⭐

需求分析

链接：免费模板

对页面数据的每一个模板的详情数据解析 —> 模板下载页的链接src

点击模板之后再解析下载地址对应的链接 —> 模板的压缩包下载链接href

对href发请求下载即可

数据持久化存储

由于一页的模板下载我的电脑就慢了，因此在此不做分页多页下载

案例源码

xpath解析案例-爬取免费简历模板.py

编程问题整理
结果展示

总结

1. 正则findall()方法的使用

想了解更多正则表达式的知识：⭐模式匹配与正则表达式

search()将返回一个Match对象，包含被查找字符串中的“第一次”匹配的文本
findall()方法将返回一组字符串列表（返回的是列表，列表内容是字符串），包含被查找字符串中的所有匹配

案例展示


>>> phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
>>> mo = phoneNumRegex.search('Cell: 415-555-9999 Work: 212-555-0000')
>>> mo.group()
'415-555-9999'

没有分组 —没有括号

findall()不是返回一个Match 对象，而是返回一个字符串列表（没有括号或只有一个括号），只要在正则表达式中没有分组。列表中的每个字符串都是一段被查找的文本，它匹配该正则表达式。

>>> phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') # has no groups
>>> phoneNumRegex.findall('Cell: 415-555-9999 Work: 212-555-0000')
['415-555-9999', '212-555-0000']

有分组 —有括号

有分组，那么findall()将返回元组的列表（多个括号[>1]的情况下）。每个元组表示一个找到的匹配，其中的项就是正则表达式中每个分组的匹配字符串

上述验证

>>> import re
# --------------只有一个括号和没有括号的情况相同-----------------------
# 1. 一个括号
>>> phoneNumRegex = re.compile(r'(\d\d\d-\d\d\d-\d\d\d\d)')
>>> phoneNumRegex.findall('Cell: 415-555-9999 Work: 212-555-0000')
['415-555-9999', '212-555-0000']
>>> phoneNumRegex = re.compile(r'(\d\d\d-\d\d\d)-\d\d\d\d')
>>> phoneNumRegex.findall('Cell: 415-555-9999 Work: 212-555-0000')
['415-555', '212-555']
# 2. 没有括号
>>> phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') # has no groups
>>> phoneNumRegex.findall('Cell: 415-555-9999 Work: 212-555-0000')
['415-555-9999', '212-555-0000']
-------------------------------------------------------------------------
# 3. 两个括号  返回的列表中含有元组
>>> phoneNumRegex = re.compile(r'(\d\d\d-\d\d\d)-(\d\d\d\d)')
>>> phoneNumRegex.findall('Cell: 415-555-9999 Work: 212-555-0000')
[('415-555', '9999'), ('212-555', '0000')]

# 4. 三个括号  返回的列表中含有元组
>>> phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)') # has groups
>>> phoneNumRegex.findall('Cell: 415-555-9999 Work: 212-555-0000')
[('415', '555', '1122'), ('212', '555', '0000')]

结论

如果调用在一个没有分组或只有一个分组的正则表达式上，例如：\d\d\d-\d\d\d-\d\d\d\d，方法
findall()将返回一个匹配字符串的列表，例如[‘415-555-9999’, ‘212-555-0000’]。

如果调用在一个有分组的正则表达式上，例如：(\d\d\d)-(\d\d\d)-(\d\d\d\d)，方法findall()将返回一个字符串的元组的列表（每个分组对应一个字符串）,例如[(‘415’,‘555’, ‘1122’), (‘212’, ‘555’, ‘0000’)]

使用findall()方法，无法使用group()函数

2. format()方法

# 方法一
url = 'https://www.qiushibaike.com/imgrank/page/%d/'
# 对1-13页做请求
for pageNum in range(1,3):
    # 对应页码的url
    new_url= format(url%pageNum)
    
# 方法二
>>> url = 'https://www.qiushibaike.com/imgrank/page/{id}/'
>>> for num in range(1,10):
...     newurl = url.format(id=num)
...     print(newurl)
...
https://www.qiushibaike.com/imgrank/page/1/
https://www.qiushibaike.com/imgrank/page/2/
https://www.qiushibaike.com/imgrank/page/3/
https://www.qiushibaike.com/imgrank/page/4/
https://www.qiushibaike.com/imgrank/page/5/
https://www.qiushibaike.com/imgrank/page/6/
https://www.qiushibaike.com/imgrank/page/7/
https://www.qiushibaike.com/imgrank/page/8/
https://www.qiushibaike.com/imgrank/page/9/

# 方法三
>>> url = 'https://www.qiushibaike.com/imgrank/page/{0}/'
>>> for num in range(1,10):
...     newurl = url.format(num)
...     print(newurl)
...
https://www.qiushibaike.com/imgrank/page/1/
https://www.qiushibaike.com/imgrank/page/2/
https://www.qiushibaike.com/imgrank/page/3/
https://www.qiushibaike.com/imgrank/page/4/
https://www.qiushibaike.com/imgrank/page/5/
https://www.qiushibaike.com/imgrank/page/6/
https://www.qiushibaike.com/imgrank/page/7/
https://www.qiushibaike.com/imgrank/page/8/
https://www.qiushibaike.com/imgrank/page/9/

3. re.S和re.M辨析

详情见：Python正则表达式里的单行re.S和多行re.M模式
原理：Python 正则表达式里的单行s和多行m模式⭐

一段多行文本，尽管在文本编辑器中显示为二维的形状，但是在正则表达式解析器看来，文件是一维的字符串。在碰到包含换行符的字符串时，有多种匹配模式，分别能得到不同的结果

4. 爬取4k图片出现的乱码问题⭐

¿ËÀÅ®Éñ½ÇÙ ³¤·¢ ÃÀÍÈ ºÃÉí²Ä Ô¡¸× 4kÃÀÅ®±ÚÖ½.jpg https://pic.netbian.com/uploads/allimg/210419/164241-16188217613da2.jpg
¿ËÀÅ®Éñ½ÇÙ Ô¡¸× ÃÀÍÈ ºÃ¿´È¹×Ó4kÃÀÅ®±ÚÖ½.jpg https://pic.netbian.com/uploads/allimg/210419/164138-1618821698f6b2.jpg
³¤·¢ÃÀÅ®¾Ó¼ÒÐ´Õæ4k±ÚÖ½3840x2160.jpg https://pic.netbian.com/uploads/allimg/191220/231329-15768548099602.jpg
......


前面出现乱码  ----原因？
分析发现：原始页面编码是gbk  <meta charset="gbk">

解决办法：
方法一：
    我们可以手动设置响应数据，使得VSCODE编码和响应数据编码相同
        response = requests.get(url=url,headers=headers)
        # 可以手动设置响应数据编码格式
        response.encoding = 'utf-8'
        page_text = response.text

        结果：可能起作用
        因为：数据有些可以是直接手动修改的，有些则不能直接编码的
        结果发现仍然存在乱码，但是另一方面也证明了设置编码格式是生效的
方法二：
        哪一块发生了乱码则单独对这一块进行编码
        # 通用处理中文乱码的方案
        img_name = img_name.encode('iso-8859-1').decode("gbk")

设置了响应数据编码后的结果：
设置通用处理方法后的结果：

你可能感兴趣的:(#,python爬虫,python,xpath,爬虫,request)

华为OD机试E卷 - 敏感字段加密（Java & Python& JS & C++ & C ）算法大师最新华为OD机试 java 华为od python javascript c语言 c++华为OD机试E卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述给定一个由多个命令字组成的命令字符串：1、字符串长度小于等于127字节，只包含大小写字母，数字，下划线和偶数个双引号；2、命令字之间以一个或多个下划线_进行分割；3、可以通过两个双引号””来标识包含下划线_的命令字或空命令字（仅包含两个双引号的命令字），双引号不会在命令字内部出现；请对指定索引的敏感字段进行加密，替换为
Python中字符串对齐方法详解 UkyzJava python java 数据库 Python
在Python中，有多种方法可以对字符串进行对齐操作，包括左对齐、右对齐和居中对齐。这些对齐方法可以让我们在输出字符串时使其在指定的宽度内对齐，使输出更加美观和易读。下面将介绍几种常用的字符串对齐方法，并提供相应的源代码示例。左对齐（LeftAlignment）：左对齐是指将字符串靠左边界对齐，剩余的空间用空格填充。在Python中，可以使用字符串的ljust()方法实现左对齐。该方法接受一个参数
降低Python版本的操作方法 CodeWG python 开发语言 Python
降低Python版本的操作方法Python是一种广泛使用的高级编程语言，但随着时间的推移，新版本的Python不断发布，其中引入了新的语法和功能。然而，有时候我们可能需要在旧版本的Python中运行代码，或者我们希望确保我们的代码与旧版本的Python兼容。本文将介绍如何降低Python版本以及相应的操作方法。确定当前Python版本在降低Python版本之前，我们首先需要确定当前Python的版
【华为OD-E卷 - 寻找最大价值的矿堆 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java javascript c++
【华为OD-E卷-寻找最大价值的矿堆100分（python、java、c++、js、c）】题目给你一个由‘0’(空地)、‘1’(银矿)、‘2’(金矿)组成的的地图，矿堆只能由上下左右相邻的金矿或银矿连接形成。超出地图范围可以认为是空地。假设银矿价值1，金矿价值2，请你找出地图中最大价值的矿堆并输出该矿堆的价值输入描述地图元素信息如：22220000000000011111地图范围最大300*300
uniapp 微信小程序点击按钮调用微信支付公孙元二微信支付微信小程序 uniapp
实现效果：点击按钮后唤起支付方式选择：在这里我选择“微信支付”输完成密码后完成支付：需求：计算金额和创建支付订单等操作都在后端完成，前端只要将后端传过来的签名、时间戳、随机字符串等参数传给微信的api，即可在小程序唤起支付弹窗。代码：//调用微信支付callPayMent(data){wx.requestPayment({//调起支付'timeStamp':data.timeStamp,'nonc
基于深度学习CNN网络 mini-xception网络实现构建一个完整的人脸表情检测_识别分类系统，包括训练、评估、前端和服务端代码计算机c9硕士算法工程师卷积神经网络深度学习 cnn 分类
人脸表情检测该项目已训练好网络模型，配置好环境即可运行使用，效果见图像，实现图像识别、摄像头识别、摄像头识别/识别分类项目-说明文档-UI界面-cnn网络项目基本介绍：【网络】深度学习CNN网络mini-xception网络【环境】python>=3.5tensorflow2opencvpyqt5【文件】训练预测全部源代码、训练好的模型、fer2013数据集、程序算法讲解文档【类别】对7种表情检测
程序代码篇---C&Python作用域 Ronin-Lotus 程序代码篇 c语言 python
文章目录前言第一部分：堆&栈1.堆区&栈区的区别2.堆存储&栈存储的优点3.全局/静态存储区4.代码区第二部分：C语言的作用域1.作用域分类（1）.在所有函数之外的全局变量（2）.在函数内或者块内的局部变量（3）.作为函数参数的形式参数2.数据初始化第三部分：Python作用域1.作用域的分类2.不同作用域的特点总结前言本章首先介绍了内存中的栈&堆，进而介绍了C语言&Python的作用域第一部分：
基于Python大数据的王者荣耀战队数据分析及可视化系统计算机学姐大数据精选实战项目源码 Python精选实战项目源码 Vue源码 1024程序员节 python 大数据数据分析数据挖掘 django vue.js
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示【2025最新】基于大数据+大屏可视化+Python+D
Python字符串对齐的几种方法、Python填充与对齐、Python中英文对齐五月天的尾巴 python python字符串对齐中英文对齐填充与对齐
文章目录一、简单字符串对齐1.1、使用str.ljust()、str.rjust()、str.center()方法进行对齐1.2、使用format()方法1.2.1、python2与3对齐与填充的区别1.3、f-string二、高级字符串对齐(中英文对齐)2.1、wcwidth库在Python中，我们经常会遇到需要对字符串进行对齐的情况，比如左对齐、右对齐或者居中对齐。这在处理文本输出、日志格式化
数据结构与算法（python）（数据结构）芃芃舒 python 数据结构开发语言
数据结构与算法（python）（数据结构）文章目录数据结构与算法（python）（数据结构）一、数据结构基本概念二、线性结构1.列表（顺序存储）2.栈3.队列4.栈和队列的应用：迷宫问题.5.链表（链式存储）6.哈希表三、树与二叉树1.树2.二叉树3.二叉搜索树4.AVL树5.B树总结一、数据结构基本概念数据结构是指相互之间存在着一种或多种关系的数据元素的集合和该集合中元素之间的关系组成。简单来说
python 3.12.7 降级到 3.10.0 做不做代码搬运工 python
先将Python3.12.7降级到3.10.0，然后将3.10.0版本设置为默认版本步骤一：要将Python从3.12.7降级到3.10.0，你可以使用以下方法：方法1：从Python官方网站下载并安装（推荐）前往Python3.10.0的下载页面。下载适合macOS的安装包（如.pkg文件），然后按照安装向导进行安装。安装完成后，使用以下命令来验证Python版本：/usr/local/bin/
华为OD机试E卷 --敏感字段加密--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 java python 华为od javascript c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述给定一个由多个命令字组成的命令字符串:1、字符串长度Q小于等于127字节，只包含大小写字母，数字，下划线和偶数个双引号;2、命令字之间以一个或多个下划线_进行分割;3、可以通过两个双引号""来标识包含下划线_的命令字或空命令字(仅包含两个双引号的命令字)，双引号不会在命令字内
Python操作word文档的全面方法总结与对比极客代码玩转Python python word 开发语言
在Python中操作Word文档是一项常见的任务，特别是在办公自动化和数据处理领域。本文将详细总结和对比几种常用的Python库和方法，包括它们的优缺点、适用场景以及具体的代码示例。我们将深入探讨每种方法的具体功能和使用技巧，帮助你更好地理解和选择合适的方法。1.python-docx概述：python-docx是一个用于创建和修改MicrosoftWord文档（.docx格式）的Python库。
Python 潮流周刊#78：async/await 是糟糕的设计（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，1则音视频，全文2200字。以下是本期摘要：文章&教程①游乐场智慧：线程击败Async/Await②Python真的很慢吗？③DjangoAsync：准备好用于生
Python 潮流周刊#79：Python 的元数据困境（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，2则热门讨论，全文2200字。以下是本期摘要：文章&教程①约束是好的：Python的元数据困境②TalkPython网站用Quart重写了③Python不仅是胶水
Python 潮流周刊#83：uv 的使用技巧（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，2则热门讨论，全文2300字。以下是本期摘要：文章&教程①UV的使用技巧②用pyinfra和ChimeraLinux开发一个小型CDN③高效的Python开发者工
Python 潮流周刊#65：CSV 有点糟糕（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，全文2000字。以下是本期摘要：文章&教程①CSV有点糟糕。DSV有点不错②用Scrapy和Playwright实现无限滚动页面的抓取③用Python作测试（第9
golang map m0_46521579 C++golang 开发语言后端
Go语言中的map是一种内置的数据结构，用于存储键值对（key-valuepairs）。它类似于其他语言中的字典（Python）、哈希表（Java）或关联数组（PHP）。map提供了高效的查找、插入和删除操作，是Go语言中非常常用的数据结构之一。（1）键值对存储：map存储的是一组键值对，键（key）和值（value）可以是任意类型。（2）键的唯一性：map中的键必须是唯一的，不能重复。（3）无序
基于微信小程序的健身房预约管理系统计算机学姐微信小程序源码微信小程序小程序 spring boot vue.js java mysql 后端
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示基于微信小程序+Java+SpringBoot+Vue+
python调用阿里云通义千问（q-wen-max)API-创建智能体Agent Cachel wood LLM和AIGC java 开发语言 python scrapy 阿里云云计算数据库
文章目录AssistantAPI简介创建和使用AssistantAPI1、调用AssistantAPI夸克搜索回答问题2、Agent智能体构建AssistantAPI简介百炼AssistantAPI能够让用户定制化构建一个assistant，这个assistant支持多种不同的指令（instruction）和描述（prompt），并且可以使用各类工具插件（plugins）和调用已选择的API来回答
第二课堂笔记——大语言模型 skna_ 笔记语言模型人工智能
part1——qwen在这一部分中需要完成初步运行通义千问，流式输出与在网页窗口进行对话。1.环境准备首先配置满足需求的环境。配置环境代码中：!pipinstalltransformers==4.37.0-U用于安装或更新Python的transformers库到特定版本4.37.0。‌这里的-U参数表示如果已安装transformers库，‌则将其更新到指定的版本。‌!pipinstallstr
Python 遍历文件夹下的文件码破苍穹其他
importosdeffindAllFile(base):forroot,ds,fsinos.walk(base):forfinfs:fullname=os.path.join(root,f)yieldfullnamedefmain():base='data\\user00'#当前的相对目录foriinfindAllFile(base):if"sensor_log_0"ini:print(i)if
Python100道练习题 Taichi呀 python python 开发语言
Python100道练习题BIlibili1、两数之和num1=20num2=22result=num1+num2print(result)2、一百以内的偶数list1=[]foriinrange(1,100):ifi%2==0:list1.append(i)print(list1)3、一百以内的奇数#方法一list1=[]foriinrange(1,100):ifi%2!=0:list1.app
Python调用通义千问qwen2.5模型步骤我就是全世界 python 人工智能
Qwen2.5模型简介1.1模型概述Qwen2.5是阿里云推出的一款超大规模语言模型，它基于阿里巴巴达摩院在自然语言处理领域的研究和积累。Qwen2.5系列模型采用了更先进的算法和优化的模型结构，能够更准确地理解和生成自然语言、代码、表格等文本。除了基本的文本生成和问答能力，Qwen2.5还支持更多的定制化需求，可以针对不同场景和应用进行扩展和定制，提供更加个性化的服务和解决方案。1.2模型特点Q
【2024年华为OD机试】 (B卷,100分)- 流水线（Java & JS & Python&C/C++）妄北y 算法汇集总结华为od java javascript 游戏 C++c语言 python
一、问题描述题目描述一个工厂有m条流水线，来并行完成n个独立的作业，该工厂设置了一个调度系统，在安排作业时，总是优先执行处理时间最短的作业。现给定流水线个数m，需要完成的作业数n，每个作业的处理时间分别为t1,t2,...,tn。请你编程计算处理完所有作业的耗时为多少？当n>m时，首先处理时间短的m个作业进入流水线，其他的等待，当某个作业完成时，依次从剩余作业中取处理时间最短的进入处理。输入描述第
基于python的时空地理加权回归（GTWR）模型有梦想的Frank博士数据处理数据分析回归空间分析时空异质性
一、时空地理加权回归（GTWR）模型时空地理加权回归（GTWR）模型是由美国科罗拉多州立大学的AndyLiaw、StanleyA.Fiel和MichaelE.Bock于2008年提出的一种高级空间统计分析方法。它是在传统地理加权回归（GWR）模型的基础上发展起来的，通过结合时间和空间两个维度，提供了一种更为灵活和精确的时空数据分析手段。背景和发展传统的地理加权回归（GWR）模型主要关注地理空间上的
基于Python读取ZIP和TAR格式压缩包教程袁袁袁袁满 Python实用技巧大全 python 前端开发语言 ZIP和TAR格式 Python读取压缩包
在数据处理和文件管理中，压缩包（如ZIP、TAR等格式）的使用非常普遍。Python提供了多种库来读取和处理这些压缩包。本文将介绍如何使用Python的内置库和第三方库来读取ZIP和TAR格式的压缩包。1、读取ZIP文件Python的zipfile模块提供了处理ZIP文件的功能。以下是一个简单的示例，展示如何读取ZIP文件并提取其中的内容。步骤1：导入zipfile模块pythonimportzi
python 手动安装第三方库 xiongerbuer python python 库
1.下载对应操作系统的安装包，如lxml包官网有下载，网上也有很多下载地址2.安装wheelpipinstallwheel3.安装lxmlpipinstallF:\Downloads\lxml-3.6.0-cp35-cp35m-win32.whl
Python调用.dll文件,报错FileNotFoundError: Could not find module ‘xx\....\xx.dll 腿。 python 经验分享开发语言
一、代码及报错详情fromctypesimportCDLLimportosdll_path=r"path_to_your_dll\name.dll"#替换为实际的DLL文件路径tmp=CDLL(dll_path)Traceback(mostrecentcalllast):self._handle=_dlopen(self._name,mode)FileNotFoundError:Couldnotf
windows平台定时杀掉Chrome浏览器少陽君 python windows chrome python
在Windows系统上，你可以使用Python脚本配合系统的计划任务功能来实现每天晚上9点自动结束谷歌浏览器的进程。以下是具体步骤：1.编写Python脚本编写一个脚本来查找并结束Chrome的进程：这个是kill线程importosimportsignalimportpsutildefkill_chrome():forprocessinpsutil.process_iter(attrs=['pi
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc