zuoyan zhang

python爬虫课程笔记

11 Oct 2020

国庆长假公司上了一个新项目，一直没有休息，10月9号开了爬虫班，事情真是一大堆。开班典礼和第一节课还是挺简单的，代码都没敲。第一节课主要讲了端口的概念，通讯协议，数据拆包，数据封包，HTTPS，HTTP的请求与相应，HTTP请求示例，爬虫的优势和爬虫的分类。

第二节课

开始敲代码了。 get和post，url的组成（尤其是16进制的汉字编码）user-agent，爬虫和反爬虫机制。refer 状态码，抓包工具，下面是重点：urllib.request， urlopen，request（），read（） urllib.parse urlencode 和decode

import requests

url=‘https://ss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy/it/u=2534506313,1688529724&fm=26&gp=0.jpg’

req = requests.get(url)

fn=open(“code.png”,“wb”)

fn.write(req.content)

fn.close()

#方式一

import requests

url = ‘https://ss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy/it/u=2534506313,1688529724&fm=26&gp=0.jpg’

req = requests.get(url)

fn = open(‘code.png’,‘wb’)

fn.write(req.content)

fn.close()

#方式1.1

with open(“code2.jpg”,“wb”) as f:

f.write(req.content)

#方式二

from urllib import request

url=‘https://ss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy/it/u=2534506313,1688529724&fm=26&gp=0.jpg’

request.urlretrieve(url,“code3.png”)

import urllib.request

# #获取相应对象urlopen() 不支持重构user-agent

# response = urllib.request.urlopen(“https://www.baidu.com”)

# #用read（）把对象的内容读取出来

# #decode() byte数据类型转化为str， encode 把str数据转为bytes数据

# html=response.read().decode(“utf-8”)

# print(type(html),html)

url=“https://www.baidu.com”

# headers 里建议加cookie

# headers={“User-Agent: Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Mobile Safari/537.36”}

headers = {

‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36’

}

# # 创建了请求的对象

req = urllib.request.Request(url,headers=headers)

#获取相应对象urlopen

res = urllib.request.urlopen(req)

html = res.read().decode(“utf-8”)

#print(html)

print(res.getcode()) # 返回状态码

print(res.geturl()) #返回我们实际请求的url

海贼王的16进制编码：%E6%B5%B7%E8%B4%BC%E7%8E%8B。 3个% 是一个汉字

#url=“https://www.baidu.com/s?wd=%E6%B5%B7%E8%B4%BC%E7%8E%8B”
import urllib.parse
import urllib.request

te={“wd”:“海贼王”}

result=urllib.parse.urlencode(te)

print(result) # 打印结果就是海贼王的16进制编码

#搜索一个内容，把这个数据保存到本地html
baseurl=“https://www.baidu.com/s?”

key=input(“请输入要搜索的内容：”)
#进行编码
w= {“wd”:key}
k=urllib.parse.urlencode(w)

#拼接url
url=baseurl+k
#print(url)
headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36’,
‘cookie’:‘BAIDUID=BD7E1E18524FFC27F134FC0750F2A3B8:FG=1; BIDUPSID=BD7E1E18524FFC27F134FC0750F2A3B8; PSTM=1588334179; BDUSS=3psc29UUUl0Yy14MkF6MFRXMmR0dVRjejc5MDlsQ2tEY2lqajc1NHY1NWNKdnRlRVFBQUFBJCQAAAAAAAAAAAEAAABvEP03d2FycmVuenp5AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAFyZ015cmdNeM; BDUSS_BFESS=3psc29UUUl0Yy14MkF6MFRXMmR0dVRjejc5MDlsQ2tEY2lqajc1NHY1NWNKdnRlRVFBQUFBJCQAAAAAAAAAAAEAAABvEP03d2FycmVuenp5AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAFyZ015cmdNeM; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; delPer=0; PSINO=3; BDRCVFR[tox4WRQ4-Km]=mk3SLVN4HKm; BDRCVFR[-pGxjrCMryR]=mk3SLVN4HKm; BDRCVFR[CLK3Lyfkr9D]=mk3SLVN4HKm; H_PS_PSSID=32814_32617_1443_32788_7544_32705_32230_7517_32116_32719_22159’
}
req = urllib.request.Request(url,headers=headers)
res = urllib.request.urlopen(req)
html=res.read().decode(“utf-8”)

写入文件

with open(“search.html”,“w”,encoding=“utf-8”) as f:
f.write(html)

#wd=方式
baseurl = ‘https://www.baidu.com/s?wd=’

key = input(‘请输入你要搜索的内容:’)

k = urllib.parse.quote(key)

url = baseurl + k

headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36’,‘Cookie’:‘BIDUPSID=23F0C104655E78ACD11DB1E20FA56630; PSTM=1592045183; BD_UPN=12314753; sug=0; sugstore=0; ORIGIN=0; bdime=0; BAIDUID=23F0C104655E78AC9F0FB18960BCA3D3:SL=0:NR=10:FG=1; BDUSS=ldxR1FyQ2FEaVZ5UWFjTDlRbThVZHJUQTY1S09PSU81SXlHaUpubVpEY0FMakZmRVFBQUFBJCQAAAAAAAAAAAEAAADzvSajSjdnaGgAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAChCV8AoQlfb; BDUSS_BFESS=ldxR1FyQ2FEaVZ5UWFjTDlRbThVZHJUQTY1S09PSU81SXlHaUpubVpEY0FMakZmRVFBQUFBJCQAAAAAAAAAAAEAAADzvSajSjdnaGgAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAChCV8AoQlfb; MCITY=-158%3A; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; BD_HOME=1; delPer=0; BD_CK_SAM=1; PSINO=6; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; BDRCVFR[tox4WRQ4-Km]=mk3SLVN4HKm; BDRCVFR[-pGxjrCMryR]=mk3SLVN4HKm; BDRCVFR[CLK3Lyfkr9D]=mk3SLVN4HKm; COOKIE_SESSION=204_0_5_9_4_6_0_0_5_4_0_0_533_0_0_0_1602246393_0_1602250500%7C9%2369429_193_1601361993%7C9; H_PS_PSSID=32757_32617_1428_7566_7544_31660_32723_32230_7517_32116_32718; H_PS_645EC=ab4cD3QpA7yZJBKDrrzZqesHzhDrwV%2BYww0WVHtmGJ3Adcj0qvjZIVV%2F9q4’
}

创建请求对象

req = urllib.request.Request(url,headers=headers)

获取响应对象

res = urllib.request.urlopen(req)

读取响应对象

html = res.read().decode(‘utf-8’)

写入文件

with open(‘搜索3.html’,‘w’,encoding=‘utf-8’) as f:
f.write(html)
爬虫第二节有代码的课程，总第三节课。
时间过得真快，加上开班典礼，爬虫都上了4节课了。
本节课主要讲了urllib.parse 模块的用法，常用方法，get和post两种请求方式。
然后用代码，函数，类三种方式写了同一种代码。最后介绍了比较简单使用的request模块，响应方法，request设置代理，SSL。爬虫的代码比数据分析的长太多。估计一个笔记都写不完。
import urllib.request
import urllib.parse

headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36’
}

主体架构 get 的特点，查询参数在url 地址中显示。post在request方法中添加data参数，表单数据。

#post查询参数和需要提交数据是隐藏在form表单里，不会在url地址上显示出来
#以bytes类型提交，不能是str
name=input(“请输入贴吧的名字：”)
begin=int(input(“请输入起始页：”))
end=int(input(“请输入结束页：”))
#从新赋值
kw={“kw”:name}
kw=urllib.parse.urlencode(kw)
#拼接url 发请求，获相应
for i in range(begin, end+1):
pn=(i-1)*50
#print(pn) “https://tieba.baidu.com/f?kw=%???&pn=0”
baseurl=“https://tieba.baidu.com/f?”
url=baseurl+kw+"&pn="+str(pn)
#print(url)
#发起请求
req=urllib.request.Request(url,headers=headers)
res=urllib.request.urlopen(req)
html=res.read().decode(‘utf-8’)
#写入文件
filename=“第”+str(i)+“页.html”
with open(filename,‘w’,encoding=‘utf-8’) as f:
f.write(html)
import urllib.request
import urllib.parse

def readpage(url):
headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36’
}
req=urllib.request.Request(url,headers=headers)
res=urllib.request.urlopen(req)
html=res.read().decode(‘utf-8’)
return html

def writepage(filename,html):
with open(filename,‘w’,encoding=‘utf-8’) as f:
f.write(html)

主函数

def main():

name=input("请输入贴吧的名字：")
begin=int(input("请输入起始页："))
end=int(input("请输入结束页："))
#从新赋值
kw={"kw":name}
kw=urllib.parse.urlencode(kw)

for i in range(begin, end+1):
    pn=(i-1)*50
    #print(pn) "https://tieba.baidu.com/f?kw=%???&pn=0"
    baseurl="https://tieba.baidu.com/f?"
    url=baseurl+kw+"&pn="+str(pn)
#调用函数
    html=readpage(url)
    filename="第"+str(i)+"页.html"
    writepage(filename,html)

if name == “main”:
main()
import urllib.request
import urllib.parse

class BaiduSpider():
#把常用的不变的，放到init方法里面
def init(self):

    self.headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'
    }
    self.baseurl="https://tieba.baidu.com/f?"




def readpage(self,url):
    req = urllib.request.Request(url, headers=self.headers)
    res = urllib.request.urlopen(req)
    html = res.read().decode('utf-8')
    return html

def writepage(self,filename,html):
    with open(filename, 'w', encoding='utf-8') as f:
        f.write(html)
        print("write succussfully")

def main(self):
    name = input("请输入贴吧的名字：")
    begin = int(input("请输入起始页："))
    end = int(input("请输入结束页："))
    # 从新赋值
    kw = {"kw": name}
    kw = urllib.parse.urlencode(kw)


    for i in range(begin, end + 1):
        pn = (i - 1) * 50
        # print(pn) "https://tieba.baidu.com/f?kw=%???&pn=0"
        #baseurl = "https://tieba.baidu.com/f?"
        url = self.baseurl + kw + "&pn=" + str(pn)
        # 调用函数
        html = self.readpage(url)
        filename = "第" + str(i) + "页.html"
        self.writepage(filename, html)

if name == “main”:
#我们要调用main()方法，就需要实例化类
spider=BaiduSpider()
spider.main()
import urllib.request
import urllib.parse
import json

key=input(“请输入你要翻译的内容：”)
#拿到form表单的数据
data={
‘i’: key,
‘from’: ‘AUTO’,
‘smartresult’: ‘dict’,
‘client’: ‘fanyideskweb’,
‘salt’: ‘15880623642174’,
‘sign’: ‘c6c2e897040e6cbde00cd04589e71d4e’,
‘ts’: ‘1588062364217’,
‘bv’: ‘42160534cfa82a6884077598362bbc9d’,
‘doctype’: ‘json’,
‘version’: ‘2.1’,
‘keyfrom’: ‘fanyi.web’,
‘action’: ‘FY_BY_CLICKBUTTION’
}

data=urllib.parse.urlencode(data) #把data做编码转换

data=bytes(data,“utf-8”) # 做字节强制转换

url=“http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule”

headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36’
}

req=urllib.request.Request(url,data=data,headers=headers)
res=urllib.request.urlopen(req)
html=res.read().decode(“utf-8”)
#print(html)

#把json类型的字符串，转换成python数据类型的字典
r_dict=json.loads(html)
#print(type(r_dict),r_dict)
r=r_dict[‘translateResult’][0][0][‘tgt’]
print®

import requests

headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36’
}
#发送请求
response= requests.get(‘https://qq.yh31.com/zjbq/2920180.html’,headers=headers)

#打印相应对象
#print(response)
#print(response.text) # 返回的是str类型的数据。text本身是方法，

这里做装饰器，所以不用加（）注意这里有乱码, 解析的时候，去解码库里猜一个解码方式

#print(response.content) #返回字节流数据

#解决乱码1- 最本质的方法
#print(response.content.decode(‘utf-8’))

#第二种解码
response.encoding=‘utf-8’
print(response.text)

import requests
import json

key=input(“请输入你要翻译的内容：”)

data={
‘i’: key,
‘from’: ‘AUTO’,
‘smartresult’: ‘dict’,
‘client’: ‘fanyideskweb’,
‘salt’: ‘15880623642174’,
‘sign’: ‘c6c2e897040e6cbde00cd04589e71d4e’,
‘ts’: ‘1588062364217’,
‘bv’: ‘42160534cfa82a6884077598362bbc9d’,
‘doctype’: ‘json’,
‘version’: ‘2.1’,
‘keyfrom’: ‘fanyi.web’,
‘action’: ‘FY_BY_CLICKBUTTION’
}

url=“http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule”

headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36’
}

res=requests.post(url,data=data,headers=headers)
res.encoding=‘utf-8’
html=res.text
print(html)

import requests

#打印相应对象
#print(response)
#print(response.text) # 返回的是str类型的数据。text本身是方法，

这里做装饰器，所以不用加（）注意这里有乱码, 解析的时候，去解码库里猜一个解码方式

#print(response.content) #返回字节流数据

#解决乱码1- 最本质的方法
#print(response.content.decode(‘utf-8’))

#第二种解码
response.encoding=‘utf-8’
print(response.text)

第四节课，我正好在外地，完美的错过了讲课。今天才看录播。主要讲了cookie，通过在客户端记录信息来确定用户身份。session保持会话。这里举了12306的例子，非常难，需要对链接，图片进行处理，因为用的少，我也没有练习源代码。
之后讲了正则表达式，他的应用场景为爬虫和表单验证。match（）参数的含义，元字符。
import requests

url=“https://www.zhihu.com/hot”

headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36’,
‘Cookie’: ‘_zap=2b2da192-4a19-494c-ad1f-5958d7e7c2ed; d_c0=“AJCcbXXNNBGPTkkYDJqqrnc1aAb2_C-bCsw=|1588381296”; _ga=GA1.2.1921282150.1588381305; _xsrf=Bzdm8qxmJxdew35etcYJLyGZ4bnXKbTk; capsion_ticket=“2|1:0|10:1602914462|14:capsion_ticket|44:YmQzZWY3OWUzMWZkNDZhMTljOGU1Mzg1NmMxMDc2ZjQ=|74f0c75f6fe930b0c1b846c6f10fe2e40e3cfdf6ea208e1bee57b37c2f20959b”; Hm_lvt_98beee57fd2ef70ccdd5ca52b9740c49=1601782524,1601782524,1601792284,1602914461; Hm_lpvt_98beee57fd2ef70ccdd5ca52b9740c49=1602914461; SESSIONID=PExwgztMg8NTHEIPaHNXFdNcmFUpNlmyRzAqHhR4Tuh; KLBRSID=53650870f91603bc3193342a80cf198c|1602914463|1602914461; JOID=VV4QBE7Zoo5GnXawfdlxkT-vC81uiOT0M_gNxzK8m8MQ1zH4LkQrBBmedLF9WUyPnHvzeZ8hPSWlMF-7pG5tJEY=; osd=Ul0dBE3eoYNGnnGzcNlyljyiC85pi-n0MP8OyjK_nMAd1zL_LUkrBx6debF-Xk-CnHj0epIhPiKmPV-4o21gJEU=’
}

res=requests.get(url,headers=headers)

print(res.text)

import requests

def query():
headers = {
‘User-Agent’:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36’,
‘Cookie’:’_uab_collina=159411739915355684359315; JSESSIONID=2CA548ACBAE3C9D5A89DEC11B114092C; tk=ozQ_C6DmGnfgkG6vVrIbf14VPmvctqELdZ3A_Q36w1w0; _jc_save_wfdc_flag=dc; BIGipServerotn=1307574794.50210.0000; BIGipServerpool_passport=283378186.50215.0000; RAIL_EXPIRATION=1603212845478; RAIL_DEVICEID=pwI3nLwCVl1tmaCqFY91TAPCGiPP1DvQ4ZZuyh9EoopLY3yIsXiOGZZi-JsbiazprFnKYmYXbLq8fzIxltxY-G7qJC8xekxUVfTWMfwVOS2LYogIbdwsZhZnJVHBOO7_GqRaxm5Ht9PLTgXkMYZACGTyxitObYXu; route=c5c62a339e7744272a54643b3be5bf64; _jc_save_toDate=2020-10-17; _jc_save_toStation=%u8D35%u9633%2CGIW; _jc_save_fromDate=2020-10-30; uKey=2bdff5e6696c3bf98d33828e2ccd10506890ad368d3f4da37deba18de81c3717; current_captcha_type=Z; _jc_save_fromStation=%u5408%u80A5%2CHFH’
}

response=requests.get("https://kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date=2020-10-30&leftTicketDTO.from_station=HFH&leftTicketDTO.to_station=GIW&purpose_codes=ADULT",headers=headers)

print(response.content.decode("utf-8"))

query()
import re

#match(pattern,string,flag=0) 第一个pattern 正则表达式，如果匹配成功，返回一个
#match对象，如果匹配失败则返回一个none。第二个string，表示要匹配的字符串
#第三个flag=0 标志位，用于控制正则表达式的匹配方式，是否区分大小写，是否换行匹配
pattern=‘python’
s=‘python and java’

result=re.match(pattern,s)

if result:
#print(result)
print(result.group())
print(result.start())
print(result.end())
print(result.span())
else:
print(“no data was found”)
#。小数点可以匹配除了换行(\n)的任意一个字符
re.match(r’a.c’,‘avc’)
re.match(r’a.c’,‘avc’).group()
re.match(r’a.c’,‘a你c’).group()
#re.match(r’a.c’,‘a你好c’).group()
re.match(r’a|c’,‘a’).group()
re.match(r’a|c’,‘c’).group()
re.match(r’a|c’,‘ac’).group()
#re.match(r’a|b’,‘cba’).group() 不可以因为 match只找开头的
re.search(r’a|b’,‘cba’).group()

#匹配字符集中的一个字符
re.match(r’[abc]’,‘b’).group()
#re.match(r’[abc]2’,‘a’).group()
re.match(r’速度与激情[12345678]’,‘速度与激情12’).group()

#【^】对字符集取反
re.match(r’速度与激情[^12345678]’,‘速度与激情0’).group()
re.match(r’速度与激情[^12345678]’,‘速度与激情01’).group()

定义【】的一个字符区间例如【1-3】【a-b】

re.match(r’速度与激情[1-8]’,‘速度与激情7’).group()
re.match(r’速度与激情[a-z]’,‘速度与激情w’).group()
#re.match(r’速度与激情[a-z]’,‘速度与激情W’).group()

#\ 对紧跟其后的一个字符进行转义
re.match(r’速度.与激情[a-z]’,‘速度.与激情w’).group()
re.match(r’速度.与激情[a-z]’,‘速度.与激情w’).group() # 注意这里的反斜杠

2020年10月18，今天周末，终于有时间把周五的课补习一下。
正则表达式第二节课。都是小的知识点，内容比较繁琐，用了jupyter加pycharm来教学。讲了对字符串做的一种逻辑过滤，应用场景为爬虫和表单验证，普通字符，元字符，预定义匹配字符集 \w, \d \s。重复匹配，非贪婪匹配，re模块常用的方法，match，search，compile，findall，split,sub 分组功能。特殊场景表达式

#\d 匹配0-9 中任意一个数字
re.match(r’123’,‘123’).group()
re.match(r’[1]23’,‘123’).group()
re.match(r’[123]’,‘123’).group()
re.match(r’\d’,‘123’).group()

#\w 可以匹配 0-9 A-Z a-z _汉字中任意一个
re.match(r’\w’,‘a123’).group()
re.match(r’\w’,‘0123’).group()
re.match(r’\w’,’_0123’).group()
re.match(r’\w’,‘你0123’).group()

#\s 制表符可以匹配空格，table 换页等空白字符的任意一个
re.match(r’\s’,’ ‘).group()
re.match(r’\s’,’\t’).group()
re.match(r’速度与激情\d’,‘速度与激情7’).group()
re.match(r’速度与激情\w’,‘速度与激情7’).group()
re.match(r’速度与激情\w’,‘速度与激情a’).group()
re.match(r’速度与激情\s’,‘速度与激情 1’).group()
#/D 是\d 的反集，非数字的任意一个字符
re.match(r’速度与激情\D’,‘速度与激情啊’).group()
#/W 是\w 的反集
re.match(r’速度与激情\W’,‘速度与激情$’).group()

重复匹配， {n} 表示重复n次

re.match(r’\d{3}’,‘999’).group()
re.match(r’\d{11}’,‘18519018835’).group()

重复匹配， {m,n} 表示重复至少m次，最多 n次

re.match(r’\d{3,4}-\d{7,8}’,‘0123-1234567’).group()
re.match(r’\d{3,4}-\d{7,8}’,‘012-1234567’).group()
re.match(r’\d{3,4}-\d{7,8}’,‘012-12345678’).group()
#{m,} 表示重复至少m次
re.match(r’\d{3,}-\d{7,8}’,‘01234-12345678’).group()

?表示一个字符出现0次或者1次

re.match(r’w[a-z]’,‘wedco’).group()
re.match(r’w[a-z]?’,‘wedco’).group()
re.match(r’w[a-z]?’,‘w’).group()

+ 匹配前一个字符出现1次或者无限次，至少得有1次

re.match(r’w[a-z]+’,‘wedco’).group()
re.match(r’w[a-z]+’,‘we’).group()
#re.match(r’w[a-z]+’,‘w’).group()

* 表达式出现0次到任意次

html_content=’’’ fasgsgggga
fasfgsdgs
fjtgitykiyuuyl
gdhdhjht
gfsdgsdg
‘’’
re.match(r’.’,html_content).group()
re.match(r’.’,html_content,re.S).group()

贪婪匹配

import re
s=r’

abc

bcd

’
#需求匹配
#ptn=’

’ #贪婪匹配
ptn=’

’ #非贪婪匹配
r=re.match(ptn,s)
print(r.group())

import re
#匹配数据第一个参数，正则表达式的模板，第二个参数为数据（列表）
def fn(ptn,lst):
for x in lst:
result=re.match(ptn,x)
if result:
print(x,“it matches”,‘the results are:’, result.group())
else:
print(x,‘match fails’)

lst=[“abc1”,“ab”,“aba”,“abbcd”,“other”]

#匹配除了换行任意一个字符

ptn=‘ab.’

lst=[“man”,“mbn”,“mdn”,“mon”,“nba”]

匹配【】中的字符

ptn=“m[abcd]n”

#lst=[“py2”,“py3”,“other”,“pyxxx”,“nba”]

匹配\d

#ptn=“py\d”

匹配\D

#ptn=“py\D”

#lst=[“hello world”,“hellodajia”,“hello,world”,“pyxxx”,“nba”]
#匹配 \s 空白
#ptn=‘hello\sworld’

#匹配 \S 非空白
#ptn=‘hello\Sworld’

#\w 匹配
#lst=[“1-age”,“a-age”,"#-age-","_-age",“美-age”]

#ptn=’\w-age’
#\W 匹配非单词字符
#ptn=’\W-age’

#*匹配一个字符，出现0次或者无限次

lst=[“hello”,“abc”,“xxx”,“h”,“美-age”]

ptn=‘h[a-z]*’

#+ 匹配前一个字符出现1次或者无限次

lst=[“hello”,“abc”,“xxx”,“h”,“美-age”]

ptn=‘h[a-z]+’

匹配一个字符出现m次

lst=[“hello”,“python”,"$%&@",“123456”,“美12-age”,“美12_age”]

ptn="[\w]{6}"

#{m,n} 匹配字符出现m到n次

lst=[“abcd”,“python”,"$%&@","_xxx123",“12345678”]

ptn="[\w]{3,7}"

#{m,}

lst=[“ab”,“python”,"+$%&@","_xxx123",“123456789999”]

#ptn="[\w]{3,}"

ptn="\w{3,}" # 不加中括号也可以

lst=[“[email protected]”,“[email protected]”,“[email protected]”,"_xxx123",“12345678”]
#tn="[\w][email protected]"
#ptn="\[email protected]" # 不加中括号也可以
#ptn="\[email protected]$" #qq.com 就结束了
ptn="\[email protected]?"

fn(ptn,lst)

import re
text=“apple price is $99,orange price is $88”

#需求；寻找￥99 和￥88 .+表示匹配任意无限多个字符
#result=re.search(’.+$\d+.+$\d+’,text) #匹配所有
result=re.search(’.+($\d+).+($\d+)’,text)
#print(result.group())

print(result.group(1)) #获取第一个分组里面的内容

print(result.group(2)) #获取第2个分组里面的内容

print(result.group(0)) #默认是0，所以省略，提取全部

print(result.groups()) #获取所有的分组

pat=re.compile(r’abc’)
pat.match(‘abc123’)
pat.match(‘abc123’).group()

pat=re.compile(r’abc’)
pat.match(‘ABC123’)
#pat.match(‘ABC123’).group() #匹配不到

pat=re.compile(r’abc’,re.I)
pat.match(‘ABC123’).group() #可以匹配
#search在文本里查找
re.search(r’abc’,‘123abcfmaingjshkaiuhabc900’).group()
#findall 返回一个匹配列表，并且匹配所有的没有group属性
re.findall(r’abc’,‘123abcfmaingjshkaiuhabc900’)
re.findall(r’Abc’,‘123abcfmaingjshkaiuhabc900’) #返回空列表
s=“8+7*5+6/3”
re.findall(r’\d{1,}’,s)
re.findall(r’\d+’,s)
re.split(r’[+*/]’,s)
re.split(r’[+*/]’,s,maxsplit=2)
s=‘i am jerry i am very handsome! i like you’
r=re.sub(r’i’,‘I’,s) # 把小i替换成大i
r

10月20的课程代码比较少，就是做了正则表达式的练习以及xml的一些应用。

在百度图片里爬取图片，首先把index改成flip，这样下面就会出现页面

import requests
import re

url=“http://pic.feizl.com/upload/allimg/170614/1QR95224-5.jpg”

with open(“1.jpg”,‘wb’) as f:

r=requests.get(url)

f.write(r.content)

1 拿到目标url地址，2 拿到网页源码 3 拿到所有的图片url地址 4 保存图片

url=“https://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1603249247805_R&pv=&ic=&nc=1&z=&hd=&latest=©right=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&ctd=1603249247806%5E00_2543X1297&sid=&word=%E7%BE%8E%E5%A5%B3”

headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36’,
‘Cookie’:‘BAIDUID=BD7E1E18524FFC27F134FC0750F2A3B8:FG=1; BIDUPSID=BD7E1E18524FFC27F134FC0750F2A3B8; PSTM=1588334179; BDUSS=3psc29UUUl0Yy14MkF6MFRXMmR0dVRjejc5MDlsQ2tEY2lqajc1NHY1NWNKdnRlRVFBQUFBJCQAAAAAAAAAAAEAAABvEP03d2FycmVuenp5AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAFyZ015cmdNeM; BDUSS_BFESS=3psc29UUUl0Yy14MkF6MFRXMmR0dVRjejc5MDlsQ2tEY2lqajc1NHY1NWNKdnRlRVFBQUFBJCQAAAAAAAAAAAEAAABvEP03d2FycmVuenp5AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAFyZ015cmdNeM; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; delPer=0; PSINO=3; H_PS_PSSID=32814_1443_32872_32705_32230_7517_32116_22159; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; BA_HECTOR=2k2la4al8h21alavai1fov8db0l; BDRCVFR[dG2JNJb_ajR]=mk3SLVN4HKm; userFrom=www.baidu.com; BDRCVFR[-pGxjrCMryR]=mk3SLVN4HKm; BDRCVFR[tox4WRQ4-Km]=mk3SLVN4HKm; BDRCVFR[CLK3Lyfkr9D]=mk3SLVN4HKm’

}

r=requests.get(url,headers=headers)
ret=r.text
#print(ret)
result=re.findall(’“objURL”:"(.*?)"’,ret)
#print(result)

for i in result:
#获取图片的名字,后10位
name=i[-10:]
#处理图片的名字，因为有的图片自带/放不进去img文件夹
name=re.sub("/","",name)
print(name)
#解决图片格式问题
end=re.search(r’(.jpg|.png|.jpeg|.gif)$’,name) # r要放在（）外面
if end==None:
name=name+’.jpg’

with open('img/'+name,'wb') as f:  #保存在当前目录，img文件夹下
    #网络问题通过异常进行处理
    try:
        r=requests.get(i)
    except Exception as e:
        print(e)
    #r=requests.get(i)
    f.write(r.content)

文档节点， JK rowing 元素节点 lang=‘eng’ 为属性节点

常用节点选择工具 chrome插件 xpath helper

#XML path language 通过元素和属性进行导航【】谓语，用来查找某个特定的节点或者包含某个特定值的节点
#一般谓语被嵌在【】

import lxml

print(“hello”)

from lxml import etree

wb_data = “”"

first item
second item
third item
fourth item
fifth item

“”"

#把wb data变成element 对象
html_element=etree.HTML(wb_data)

#print(html_element)

result=etree.tostring(html_element)

r=result.decode()

#print(result) 打印的比较乱

print(type®,r)

#获取li 标签下面的a标签的href
links=html_element.xpath("//li/a/@href")
print(links)
#获取a标签下面的文本数据
result=html_element.xpath(’//li/a/text()’)
print(result)
#把获取到的数据组合到字典中一一对应

for link in links:
d={}
d[‘href’]=link
#获取下标索引值
#print(links.index(link))
d[‘title’]=result[links.index(link)]
print(d)

10月22的课程讲了csv的读写，换行
介绍了bs4，源码分析，使用，tag标签，navigablestring，comment，遍历文档树，遍历子节点

#csv的读写
import csv

titles=(‘name’,‘age’,‘height’)
persons=[(‘张三’,20,175),(‘李四’,22,178),(‘王五’,30,180),]

一行一行的写

with open(“person.csv”,“w”,encoding=“utf-8”) as f:

writer=csv.writer(f)

writer.writerow(titles)

for data in persons:

writer.writerow(data)

#一次写多行

with open(“person.csv”,“w”,encoding=“utf-8”,newline="") as f:

#加入newline=“” 就没有空行了

writer=csv.writer(f)

writer.writerow(titles)

writer.writerows(persons)

#第二种方式

persons=[

{‘name’:‘张三’,‘age’:‘20’,‘height’:‘175’},

{‘name’:‘李四’,‘age’:‘20’,‘height’:‘175’},

{‘name’:‘王五’,‘age’:‘20’,‘height’:‘175’},

]

with open(“person.csv”,“w”,encoding=“utf-8”,newline="") as f:

writer=csv.DictWriter(f,titles)

writer.writeheader()

writer.writerows(persons)

with open(“person.csv”,“r”,encoding=“utf-8”) as f:

reader=csv.reader(f)

for i in reader:

print(i)

第二种读取方式

with open(“person.csv”,“r”,encoding=“utf-8”) as f:
reader=csv.DictReader(f)
for i in reader:
print(i[“name”])

爬取每部电影的名字，评分，引言，详情页的url ，10页，然后把数据保存到csv中

xpath //div[@class=“info”]

//div[@class=“info”]/div[@class=‘hd’]/a/span[@class=‘title’]

#//div[@class=“info”]/div[@class=‘hd’]/a/span[@class=‘title’]/text()

#第二页：https://movie.douban.com/top250?start=25&filter=
#第三页：https://movie.douban.com/top250?start=50&filter=
#规律（page-1)*25
import requests
from lxml import etree
import csv

#测试连接

url=“https://movie.douban.com/top250?start=0&filter=”

headers = {

‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36’,

‘Cookie’:‘DSID=AAO-7r5nXMym6lqYC0CQuKHfBMYUuFyKgO5zR8YXBDICiw_TMfaKmRajdoYbdQ2z15T2UoQ3R4fu_NLNptnImDvDKE5Gg3rxw1y7Kcp3XmRIriGCQdbMLjU; id=2289b75107c40002||t=1602377859|et=730|cs=002213fd489ca8a8699c62b057’

}

response=requests.get(url,headers=headers)

print(response.text)

doubanurl=“https://movie.douban.com/top250?start={}&filter=”
#获取网页源码

def getSource(url):
headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36’,
‘Cookie’:‘DSID=AAO-7r5nXMym6lqYC0CQuKHfBMYUuFyKgO5zR8YXBDICiw_TMfaKmRajdoYbdQ2z15T2UoQ3R4fu_NLNptnImDvDKE5Gg3rxw1y7Kcp3XmRIriGCQdbMLjU; id=2289b75107c40002||t=1602377859|et=730|cs=002213fd489ca8a8699c62b057’
}
response=requests.get(url,headers=headers)
response.encoding=‘utf-8’
return response.text
#解析数据电影的名字，评分，引言，详情页
def getEveryItem(source):

html_element=etree.HTML(source)
movieItemList=html_element.xpath('//div[@class="info"]')
#保存字典数据
movieList=[]
# 保存电影详情数据
for eachMovie in movieItemList:
    movieDict={}

    title=eachMovie.xpath("div[@class='hd']/a/span[ @class='title']/text()")
    otherTitle=eachMovie.xpath("div[@class='hd']/a/span[ @class='other']/text()")
    link = eachMovie.xpath('div[@class="hd"]/a/@href')[0]
    star = eachMovie.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()')[0]  #a[0]取值，就没有中括号了
    quote = eachMovie.xpath('div[@class="bd"]/p[@class="quote"]/span/text()')

    #引言，有的就取，没有就不取
    if quote:
        quote=quote[0]
    else:
        quote=''
    # 处理电影格式
    movieDict['title']="".join(title+otherTitle)
    movieDict['url']=link
    movieDict['star']=star
    movieDict['quote']=quote
    movieList.append(movieDict)
    print(movieList)
return movieList

保存数据

def writeData(movieList):
with open(“douban.csv”, “w”, encoding=“utf-8”, newline="") as f:
writer=csv.DictWriter(f,fieldnames=[‘title’,‘star’,‘quote’,‘url’])
writer.writeheader()
for each in movieList:
writer.writerow(each)
#执行程序
if name==‘main’:
movieList=[]
for i in range(10):
#获取每一页的url
pageLink=doubanurl.format(i*25)
#获取每一页的源码：
source=getSource(pageLink)
#解析数据 movielist=movielist+geteveryitem
movieList+=getEveryItem(source)

#写入数据
writeData(movieList)

#import bs4
#tag 标签
#comment 注释

navigable string 可导航的字符串

from bs4 import BeautifulSoup

html_doc = “”"

The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well.

...

"""

soup=BeautifulSoup(html_doc,features=“lxml”)
#print(soup)
#print(soup.prettify()) #漂亮的打印

print(soup.title)

print(soup.title.name)

print(soup.title.string)

print(soup.p)

r=soup.find_all(“p”)

print(len®)

links=soup.find_all(‘a’)

for link in links:

#print(link)

print(link.get(‘href’))

soup=BeautifulSoup(html_doc,‘lxml’)

print(type(soup.title))

print(type(soup.p))

print(type(soup.a))

print(soup.title.name)

print(soup.p.name)

print(soup.p.attrs)

print(soup.p.string) #找文本

print(type())

#遍历文档树 contents 返回一个所有子节点列表，children 返回一个子节点的迭代器
#descendants 返回一个生成器遍历子子孙孙
from bs4 import BeautifulSoup
html_doc = “”"

The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well.

...

"""

soup=BeautifulSoup(html_doc,‘lxml’)

head_tag=soup.head

print(head_tag.contents)

print(head_tag.children)

for i in head_tag.children:

print(i)

for x in soup.descendants:
print(’----------’)
print(x)

周六的课程，代码都比较简单，主要是联系find findall， select的使用，BS确实好用啊
from bs4 import BeautifulSoup
html_doc = “”"

The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well.

...

""" soup=BeautifulSoup(html_doc,"lxml")

string 获取标签里面的内容，strings返回是一个生成器对象，用来获取多个标签内容

#stripped_string 和string 基本一致，但是他可以把多余的空格去掉

title_tag=soup.title

print(title_tag)

print(title_tag.string)

head_tag=soup.head

print(head_tag.string)

html_tag=soup.html

print(html_tag.string)

s=soup.strings

for i in s:

print(i)

s=soup.stripped_strings

#print(s)

for i in s:

print(i)

#parent 直接获得父节点
#parents获取所有的父节点

title_tag=soup.title

print(title_tag.parent)

#print(soup.html.parent)

a_tag=soup.a

# print(a_tag.parents)

for p in a_tag.parents:

print§

print(’-’*50)

next_sibling 下一个兄弟节点。previous_sibling 上一个兄弟节点

#next_siblings 下一个兄弟所有节点。previous_siblings 上一个兄弟所有节点
html=‘bbbccc’
soup2=BeautifulSoup(html,‘lxml’)

print(soup2)

print(soup2.prettify())

b_tag=soup2.b

print(b_tag)

print(b_tag.next_sibling)

print(b_tag.previous_sibling)

a_tag=soup.find(id=‘link3’)
#print(a_tag)
for x in a_tag.previous_siblings:
print(x)
from bs4 import BeautifulSoup
html_doc = “”"

The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well.

...

""" soup=BeautifulSoup(html_doc,"lxml") #此时此刻的这个a就代表的是字符串过滤器 # a_tag=soup.find('a') # 找到第一个A(符合标准的数据） # print(a_tag)

a_tags=soup.find_all(‘a’) # 找到第一个A

print(a_tags)

#列表过滤器，我要找a标签和p标签

print(soup.find_all([‘p’,‘a’])) # 以列表的形式返回所有的搜索到的标签数据

print(soup.find_all([‘title’,‘b’]))

‘’’
find_all()方法以列表形式返回所有的搜索到的标签数据
find()方法返回搜索到的第一条数据
‘’’
from bs4 import BeautifulSoup

html = “”"

职位名称	职位类别	人数	地点	发布时间
22989-金融云区块链高级研发工程师（深圳）	技术类	1	深圳	2017-11-25
22989-金融云高级后台开发	技术类	2	深圳	2017-11-25
SNG16-腾讯音乐运营开发工程师（深圳）	技术类	2	深圳	2017-11-25
SNG16-腾讯音乐业务运维工程师（深圳）	技术类	1	深圳	2017-11-25
TEG03-高级研发工程师（深圳）	技术类	1	深圳	2017-11-24
TEG03-高级图像算法研发工程师（深圳）	技术类	1	深圳	2017-11-24
TEG11-高级AI开发工程师（深圳）	技术类	4	深圳	2017-11-24
15851-后台开发工程师	技术类	1	深圳	2017-11-24
15851-后台开发工程师	技术类	1	深圳	2017-11-24
SNG11-高级业务运维工程师（深圳）	技术类	1	深圳	2017-11-24

"""

soup = BeautifulSoup(html,‘lxml’)
#获取tr标签

print(soup.tr)

print(soup.find(‘tr’))

trs=soup.find_all(‘tr’)

for tr in trs:

print(tr)

print(’-’*50)

#2获取第二个tr标签
#tr=soup.find_all(‘tr’,limit=2)
#tr=soup.find_all(‘tr’,limit=2)[1]

tr=soup.findAll(‘tr’) # findAll=find_all

tr=soup.findAll(‘tr’,limit=2)

print(tr)

#3获取所有class等于even的tr标签

trs=soup.findAll(‘tr’,class_=‘even’) #因为class是关键字，所以不能直接用

for tr in trs:

print(tr)

print(’-’*50)

trs=soup.find_all(‘tr’,attrs={‘class’:‘even’}) #attrs字典格式，无需特殊处理class

for tr in trs:

print(tr)

print(’-’*50)

4 将所有ID等于test class 等于test的a标签提取出来

r=soup.find_all(‘a’,id=‘test’,class_=‘test’)

for a in r:

print(a)

#5 获取所有A标签里面的href属性
a=soup.find_all(‘a’)
for i in a:
href=i[‘href’]
#href=i.attrs[‘href’] # 第二种写法
print(href)

#6 获取所有的职位信息（文本数据）
trs=soup.find_all(‘tr’)[1:] #从第二个tr开始
for tr in trs:
tds=tr.find_all(‘td’)
jobname=tds[0].string #通过string来取值
print(jobname)

from bs4 import BeautifulSoup
html_doc = “”"

The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well.

...

""" soup=BeautifulSoup(html_doc,"lxml")

#1通过标签查找
#print(soup.select(‘a’))
#2通过类名来进行查找,则’.sister’=class=“sister”
#print(soup.select(’.sister’))
#3通过ID查找
#print(soup.select(’#link1’))

4组合查找

#print(soup.select(‘p #link1’))
#print(soup.select(‘head>title’))

5 通过属性查找

#print(soup.select(‘a[href=“http://example.com/elsie”]’))#外层为单引号里面则为双引号
#6 获取内容
print(soup.select(‘title’)[0].get_text()) #列表，首先要通过[]取值，才能使用方法
print(soup.select(‘title’)[0].string) #法2

编程序以复习为主

from bs4 import BeautifulSoup

html = “”"

职位名称	职位类别	人数	地点	发布时间
22989-金融云区块链高级研发工程师（深圳）	技术类	1	深圳	2017-11-25
22989-金融云高级后台开发	技术类	2	深圳	2017-11-25
SNG16-腾讯音乐运营开发工程师（深圳）	技术类	2	深圳	2017-11-25
SNG16-腾讯音乐业务运维工程师（深圳）	技术类	1	深圳	2017-11-25
TEG03-高级研发工程师（深圳）	技术类	1	深圳	2017-11-24
TEG03-高级图像算法研发工程师（深圳）	技术类	1	深圳	2017-11-24
TEG11-高级AI开发工程师（深圳）	技术类	4	深圳	2017-11-24
15851-后台开发工程师	技术类	1	深圳	2017-11-24
15851-后台开发工程师	技术类	1	深圳	2017-11-24
SNG11-高级业务运维工程师（深圳）	技术类	1	深圳	2017-11-24

"""

soup = BeautifulSoup(html,‘lxml’)

#1 获取所有的tr标签

trs=soup.select(‘tr’)

print(trs)

#2 获取第二个tr标签

tr=soup.select(‘tr’)[1]

print(tr)

#3 获取所有class等于even的tr标签

trs=soup.select(’.even’)

print(trs)

#4 获取所有a标签的href属性

alst=soup.select(‘a’)

for a in alst:

href=a[‘href’]

print(href)

#5 获取所有的职位信息（文本信息）
trs=soup.select(‘tr’)
for tr in trs:
info=list(tr.stripped_strings) #如果只用string则换行tr.stripped_strings
#或者tr.strings均为生成器类型
print(info)

from bs4 import BeautifulSoup
html_doc = “”"

The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well.

...

""" soup=BeautifulSoup(html_doc,"lxml")

#1 先找到

tag_p=soup.p

print(tag_p)

tag_p.name=‘w’ # 修改标签名称

tag_p[‘class’]=‘content’

print(tag_p)

#------------

tag_p=soup.p

print(tag_p)

tag_p.string=‘亲爱的同学们’

print(tag_p.string)

tag_p=soup.p

tag_p.append(‘you need python’) # 添加字符串

print(tag_p)

r=soup.find(class_=‘title’)
#print®
r.decompose()
print(soup)

爬虫代码实在是太长了，这是本博客最后一次更新，而后见python爬虫课程笔记续。这节课主要讲了一个案例，然后梳理了爬虫的思路：准备url（页面明确和页码不明确）向url发起请求，添加随机UA，cookie，使用代理IP提取数据，确定数据位置（数据在不在当前url）提取的方式 xpath,bs
4,正则表达式。保存数据，数据库

a=[‘1’,‘2’,‘3’]

b=’-’.join(a)

print(b)

c=‘hello’

d=’*’.join©

print(d)

天气数据的爬取，需求：爬取全国的城市以及对应的温度（省会，直辖市），保存到csv中

#http://www.weather.com.cn/textFC/hb.shtml 华北
#http://www.weather.com.cn/textFC/hb.shtml 东北
import requests
import csv
from bs4 import BeautifulSoup

#定义表头
titles=(‘city’,‘temp’)
#定义一个函数来解析网页
def pares_page(url):
headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36’

}
response=requests.get(url,headers=headers)
#print(response.text)
text=response.content.decode('utf-8') #解决乱码问题
#soup=BeautifulSoup(text,'lxml')
#pip install html5lib
soup = BeautifulSoup(text, 'html5lib')
# 网页解析
 #找conMidtab标签
conMidtab=soup.find('div',class_='conMidtab')
# 找table标签
tables=conMidtab.find_all('table')

#保存数据
lst=[]

for table in tables:
    #print(table)
    #print('-'*50)
    #找到所有的tr标签，过滤掉前2个
    trs=table.find_all('tr')[2:]
    for index,tr in enumerate(trs):
        #print(tr)
        tds=tr.find_all('td')
        city_td=tds[0]
        if index==0:
            city_td=tds[1]
        info={}
        city=list(city_td.stripped_strings)[0] #找城市
        tds = tr.find_all('td')
        temp_td = tds[-2]
        temp= list(temp_td.stripped_strings)[0]  # 找温度

        info['city']=city
        info['temp'] = temp
        lst.append(info)
        print('city:', city, 'temp:', temp)
return lst
   # break  #先打印北京的数据

def writeData(lst):
with open(‘citytemp.csv’,‘w’,encoding=‘utf-8’,newline=’’) as f:
writer=csv.DictWriter(f,titles)
writer.writeheader()
writer.writerows(lst)

def main():
lst=[]
#url=‘http://www.weather.com.cn/textFC/hb.shtml’
#url = ‘http://www.weather.com.cn/textFC/db.shtml’
#url=‘http://www.weather.com.cn/textFC/gat.shtml’
urls=[‘http://www.weather.com.cn/textFC/hb.shtml’,‘http://www.weather.com.cn/textFC/db.shtml’,‘http://www.weather.com.cn/textFC/gat.shtml’]
for url in urls:
lst+=pares_page(url)
#pares_page(url)
writeData(lst)

if name==‘main’:
main()
#下载工具的链接 phantomjs
#Mirror index of http://chromedriver.storage.googleapis.com/86.0.4240.22/
#http://npm.taobao.org/mirrors/chromedriver
from selenium import webdriver
#加载驱动
driver=webdriver.PhantomJS(executable_path=‘D:\Program Files\PyCharm Community Edition 2020.1.2\phantomjs.exe’)
#目前已经被弃用，但是很多老的项目还是用

#打开百度
driver.get(‘https://www.baidu.com/’)
#定位操作并输入内容，通过send_keys
driver.find_element_by_id(‘kw’).send_keys(‘python’) #输入框
driver.find_element_by_id(‘su’).click()
#print(driver.page_source) #查看源码
print(driver.current_url) #查看当前url
#截屏
driver.save_screenshot(‘baidu.png’)

你可能感兴趣的:(Python,python,大数据)

Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
力扣 160 - Intersection of Two Linked Lists. (相交链表) Python双指针小杨快没头发了 Leetcode 刷题
力扣160-IntersectionofTwoLinkedLists.(相交链表)Python双指针原题地址：https://leetcode.com/problems/intersection-of-two-linked-lists/Giventheheadsoftwosinglylinked-listsheadAandheadB,returnthenodeatwhichthetwolistsi
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
VSCode python 遇到的问题：vscode can't open file '': [Errno 2] No such file or dire... weixin_33984032 python 开发工具 json
代码很简单，就两行：importpandasaspdimportnetCDF4asncdataset=nc.Dataset('20150101.nc')环境：在VSCode中左下角把原环境的Python3.6.532-bit切换为Anaconda中的Python3.6.564-bit('base':conda)过程中有两种错误：（忘记截图了，都是历史记录中的google网页搜索栏找到的搜索记录）1
【测试工程师必备！】VS Code好用插件FastPytestRunner 花小田 pytest vscode
你是否还在为PythonTestExplorerforVisualStudioCode以下痛点焦头烂额？•测试扫描慢到怀疑人生，每次启动都要等待5分钟•调试时总是找不到断点入口，配置项复杂到崩溃•传统测试工具无法满足大规模测试需求•每次切换项目都要重新配置测试环境FastPytestRunner——专为测试工程师量身打造的极速测试利器来了！️实战进阶技巧：✅配置黄金法则：{"pytestRunne
如何用 Python 实现树结构不辉放弃 python 开发语言
一、树结构基础认知1.1树的四大特征层级关系：父子节点的从属关系唯一根节点：访问起点无循环：从根到叶的路径不形成环N叉分支：每个节点可有多个子节点1.2核心组件解析classTreeNode:def__init__(self,data):self.data=data#节点存储的数据self.children=[]#子节点容器（多叉树特性）defadd_child(self,node):self.c
Python 用户账户(让用户拥有自己的数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
Python 用户账户(让用户能够输入数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
安卓编译安装python_一文了解如何在安卓系统上安装Pydroid 3并进行编码 weixin_39916681 安卓编译安装python
由于Pydroid3集成开发环境(IDE)，因此可以用Python进行可移植的编码。Pydroid是Python3的极简解释器，可让您执行较小的项目并在Android设备上进行最少的编码。如果您还想在没有PC的任何地方学习Python编程，同时在Android上为Python复制PC平台，那么Pydroid3是一个不错的应用程序。无论您是Python编程的新手还是专家，让我们看看使用Pydroid
python为什么需要文本编辑器-推荐几款高效的Python文本编辑器| 高效的文本编辑器的特点是什么... weixin_39991305
我们都知道程序员花费大量的时间在编写、阅读和编辑代码上，因此一定要使用高效的文本编辑器才能够提高并很好的完成工作的效率和保证工作的质量。什么是高效的文本编辑器呢？除了自己用的得心应手外，小编认为还应该包含以下几个特点：·突出代码的结构，让你在编写代码时就能够发现常见的bug；·包含自动缩进功能；·显示代码长度的标志；·用于执行常见操作的快捷键；如果你是编程新手小白，小u非常建议你使用具备上述功能而
一文读懂Python列表（5）跟着杰哥学Python python
列表让你能够在一个地方存储成组的信息，其中可以只包含几个元素，也可以包含数百万个元素，列表是新手可直接使用的最强大的Python功能之一。一、列表是什么1.列表由按顺序排列的元素组成，用[]表示列表，用逗号分隔元素2.举例：bicycles=['trek','cannondale','redline','specialized']二、列表的索引1.第一个列表元素的索引为0，而不是12.举例：三、访
一文读懂Python异常（16）跟着杰哥学Python python
Python程序执行期间发生的错误叫做异常，如果你编写了处理异常的代码，程序将继续执行；如果未编写处理异常的代码，程序将停止，并返回一条traceback，其中包含异常的报告。通常使用try-except代码块来处理异常。一、try-except代码块1、如果try代码块的代码运行起来没问题，则跳过except代码块；如果try代码块的代码导致了错误，则运行except代码块。2、举例二、try-
一文读懂Python之random模块（31）跟着杰哥学Python python
random模块是Python的内置标准库，用于生成各类随机数，可以用作生成网站初始登录密码和随机验证码。一、random模块简介random模块可以生成随机数，包括随机整数、浮点数、随机元素等。二、random模块相关概念随机数：是指在一定范围内随机产生的数，每个数被选中的概率相等。随机数最重要的特性是其后产生的数与前面的数毫无关系，即随机性、不可预测性和不可重现性。三、random模块常用方法
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
应用-构建并优化 Python 的 Rust 扩展李星星BruceL 自动化测试 python rust 开发语言
目录构建并优化Python的Rust扩展如果你的Python代码运行速度不够快，你可以选择使用编译语言来编写更快的扩展。本文将重点介绍Rust，它具有以下优势：现代工具链，包括名为crates.io的包仓库和内置的构建工具（cargo）。出色的Python集成和工具支持。Rust的Python支持包是PyO3。对于打包，你可以使用setuptools-rust来与现有的setuptools项目集成
超详细Python教程——初识Python 月流霜 python 数据库服务器
初识Python温馨提示：2018年创建这个仓库的时候，关于Python语言基础这个部分的内容写得相对是比较粗糙，对粗学者可能不是那么友好。如果你正好是一名初学者，建议你移步到我的另一个仓库Python-for-Freshmen-2023，这个仓库对初学者更加友好，对应的内容，大家也可以在我的知乎专栏“从零开始学Python”中找到，点击进入传送门。Python简介Python的历史1989年圣诞
Python自制文本编辑器 Xiaoqing461 python 开发语言
Python自制文本编辑器。随便写的半成品fromtkinterimport*fromtkinterimportfiledialog,messageboxclassFindWindow:def__init__(self,parent):self.parent=parentself.find_window=Toplevel(parent)self.find_window.title("Find")s
【地图 Map3d】——2 花花 Show Python pyecharts—从0到精通信息可视化数据分析 python
解锁数据可视化的魔法钥匙——pyecharts实战指南在这个数据为王的时代，每一次点击、每一次交易、每一份报告背后都隐藏着无尽的故事与洞察。但你是否曾苦恼于如何将这些冰冷的数据转化为直观、吸引人的视觉盛宴？欢迎来到《pyecharts图形绘制大师班》在这里，你将不再受限于单调的表格和图表，而是学会如何运用pyecharts这一强大的Python数据可视化库，将复杂的数据转化为令人惊叹的交互式图形。
python垃圾分类游戏_垃圾分类就要来了？教你使用Python轻松完成垃圾分类 weixin_39627390 python垃圾分类游戏
从7月1日起，上海市正式实施《上海市生活垃圾管理条例》。条例规定，个人混合投放垃圾今后可最高罚200元，单位混装混运，最高可罚至5万元，而且违规还将会列入征信，堪称“史上最严垃圾分类措施”。相信最近一段时间大家已经被上海的小伙伴们因为垃圾分类的困扰而刷屏了，就在大家还在一片“与我无瓜”中暗自庆幸时，现实给了我们一击：该来的总要来，谁都逃不过去。其实，在我国垃圾分类的举措要从2000年开始，但效果并
灰狼优化算法（Grey Wolf Optimization, GWO）及其 Python 代码追蜻蜓追累了算法 python github pycharm jupyter matlab numpy
灰狼优化算法（GreyWolfOptimization,GWO）是一种基于灰狼社会行为觅食过程而设计的优化算法。其基本原理是模拟灰狼群体中个体的协作和竞争行为，以迭代更新的方式寻找最优解。灰狼优化算法涉及三种灰狼的角色：alpha（α）、beta（β）和delta（δ），它们分别代表群体中的优势个体。算法包括初始化灰狼位置、计算适应度值、更新灰狼位置等步骤。以下是一个简单的Python示例代码，实
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
编译QT5.15.2 qtwebengine模块以支持mp4 m0_74822999 qt 开发语言
由于版权限制，Qt官方无法在其二进制包中提供某些解码器，这导致QtWebEngine无法支持一些常见的视频格式（如MP4）。为了解决这一问题，我们可以通过重新编译QtWebEngine来集成所需的解码器一、编译准备1.获取源码qtwebengine-everywhere-src-5.15.2.zip2.编译环境Python2.7.5:Python2.7.5Perl:StrawberryPerlfo
Python多进程Logging ftpeak Python python linux 开发语言 logging
多个进程的logging向同一个.log文件写入是一套Python程序被多次启动时（多进程启动）无法回避的问题。一个进程的程序正在向.log文件写入的同时，另一个进行启动的程序也需要向同一个.log文件写入，会产生异常吗？答案是：会的！直接写入存在的问题如果多个进程直接使用Python的logging模块向同一个文件写入日志，可能会出现日志内容混乱、数据丢失等问题。这是因为多个进程同时访问和修改文
Tenacity（Python的坚韧重试库） ftpeak Python python 开发语言网络爬虫
概述Tenacity是一个基于Apache2.0协议的通用重试库，用Python编写，旨在简化向任何代码添加重试逻辑的过程。它起源于已停止维护的retrying库的分叉版本。Tenacity不兼容retrying的API，但新增了大量功能并修复了长期存在的错误。文档：Tenacity—Tenacitydocumentation主页：https://github.com/jd/tenacity核心功
Pyhton安装PyQT6 三口一个桃 python pyqt
Windows系统使用CMD命令安装，对于系统中有多个版本python的，在安装pyqt6/pyqt5时需要针对每个python版本单独安装。安装准备过程：①Win+R打开CMD命令行窗口②输入命令：python--version查看当前python版本是否是自己需要安装pyqt6/5的的版本，若是则执行第③步，若不是则执行下述操作：打开电脑环境变量设置(自行百度)--点击系统变量中的Path项-
WHAM 人体3d重建部署笔记 AI算法网奇深度学习宝典 3d 笔记
目录依赖项：mmpose的依赖项：demo脚本WHAM:ReconstructingWorld-groundedHumanswithAccurate3DMotion2024依赖项：pipinstallmmposemmpose的依赖项：mmcv>=2.0.0,=3.0.0,=0.4.0,<1.0.0demo脚本Youcantrywithoneexamplarvideo:pythondemo.py--
探索未来技术前沿：FastAPI火箭-boilerplate，打造高性能API的超级引擎！黎杉娜Torrent
探索未来技术前沿：FastAPI火箭-boilerplate，打造高性能API的超级引擎！fastapi-rocket-boilerplateFastAPIRocketBoilerplatetobuildanAPIbasedinPythonwithitsmostmoderntechnologies!项目地址:https://gitcode.com/gh_mirrors/fa/fastapi-roc
Python Flask教程 cunchi4221 python java web ajax vue ViewUI
WelcometoPythonFlasktutorial.Inpreviouslessonwehavelearntaboutpythonlambda.PythonflaskisanAPIthathelpsustobuildwebbasedapplicationinpython.Let’sgetstartedwithpythonflasktutorialforbeginnersnow.欢迎使用Pyt
python --桌面开发pyqt安装（mac 环境） Xiao_Qiang_ python
纪录下，在安装pyqt的时候花了些时间，现在纪录下参考http://www.noktec.be/python/how-to-install-pyqt4-on-osx步骤DownloadtheSIPpackage(snapshotforOSx)DownloadthePyQtpackage(snapshotforOSx)DownloadQtInstallQtInstallSIPInstallPyQta
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

python爬虫课程笔记

11 Oct 2020

第二节课

import requests

url=‘https://ss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy/it/u=2534506313,1688529724&fm=26&gp=0.jpg’

req = requests.get(url)

fn=open(“code.png”,“wb”)

fn.write(req.content)

fn.close()

#方式一

import requests

url = ‘https://ss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy/it/u=2534506313,1688529724&fm=26&gp=0.jpg’

req = requests.get(url)

fn = open(‘code.png’,‘wb’)

fn.write(req.content)

fn.close()

with open(“code2.jpg”,“wb”) as f:

f.write(req.content)

#方式二

from urllib import request

url=‘https://ss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy/it/u=2534506313,1688529724&fm=26&gp=0.jpg’

request.urlretrieve(url,“code3.png”)

# #获取相应对象urlopen() 不支持重构user-agent

# response = urllib.request.urlopen(“https://www.baidu.com”)

# #用read（）把对象的内容读取出来

# #decode() byte数据类型转化为str， encode 把str数据转为bytes数据

# html=response.read().decode(“utf-8”)

# print(type(html),html)

url=“https://www.baidu.com”

# headers 里建议加cookie

# headers={“User-Agent: Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Mobile Safari/537.36”}

headers = {

‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36’

}

# # 创建了请求的对象

req = urllib.request.Request(url,headers=headers)

#获取相应对象urlopen

res = urllib.request.urlopen(req)

html = res.read().decode(“utf-8”)

#print(html)

print(res.getcode()) # 返回状态码

print(res.geturl()) #返回我们实际请求的url

海贼王的16进制编码：%E6%B5%B7%E8%B4%BC%E7%8E%8B。 3个% 是一个汉字

te={“wd”:“海贼王”}

result=urllib.parse.urlencode(te)

print(result) # 打印结果就是海贼王的16进制编码

写入文件

创建请求对象

获取响应对象

读取响应对象

写入文件

主体架构 get 的特点，查询参数在url 地址中显示。post在request方法中添加data参数，表单数据。

主函数

这里做装饰器，所以不用加（）注意这里有乱码, 解析的时候，去解码库里猜一个解码方式

这里做装饰器，所以不用加（）注意这里有乱码, 解析的时候，去解码库里猜一个解码方式

定义【】的一个字符区间 例如【1-3】 【a-b】

重复匹配， {n} 表示重复n次

重复匹配， {m,n} 表示重复至少m次，最多 n次

?表示一个字符出现0次或者1次

+ 匹配前一个字符出现1次或者无限次，至少得有1次

* 表达式出现0次到任意次

贪婪匹配

lst=[“abc1”,“ab”,“aba”,“abbcd”,“other”]

#匹配除了换行任意一个字符

ptn=‘ab.’

lst=[“man”,“mbn”,“mdn”,“mon”,“nba”]

匹配【】中的字符

ptn=“m[abcd]n”

匹配\d

匹配\D

lst=[“hello”,“abc”,“xxx”,“h”,“美-age”]

ptn=‘h[a-z]*’

lst=[“hello”,“abc”,“xxx”,“h”,“美-age”]

ptn=‘h[a-z]+’

匹配一个字符出现m次

lst=[“hello”,“python”,"$%&@",“123456”,“美12-age”,“美12_age”]

ptn="[\w]{6}"

lst=[“abcd”,“python”,"$%&@","_xxx123",“12345678”]

ptn="[\w]{3,7}"

lst=[“ab”,“python”,"+$%&@","_xxx123",“123456789999”]

定义【】的一个字符区间例如【1-3】【a-b】