Beautiful Soup库的理解:
Beautiful Soup库是解析、遍历、维护“标签树”的功能库,对应一个HTML/XML文档的全部内容
BeautifulSoup类的基本元素:
Tag 标签,最基本的信息组织单元,分别用<>和>标明开头和结尾;
Name 标签的名字,…
的名字是'p',格式:.name;
Attributes 标签的属性,字典形式组织,格式:.attrs;
NavigableString 标签内非属性字符串,<>…>中字符串,格式:.string;
Comment 标签内字符串的注释部分,一种特殊的Comment类型;
# 导入bs4库
from bs4 import BeautifulSoup
import requests # 抓取页面
r = requests.get('https://python123.io/ws/demo.html') # Demo网址
demo = r.text # 抓取的数据
demo
# 解析HTML页面
soup = BeautifulSoup(demo, 'html.parser') # 抓取的页面数据;bs4的解析器
# 有层次感的输出解析后的HTML页面
print(soup.prettify())
.prettify()可用于标签,方法:
.prettify()
Python 3.x默认支持编码是utf‐8,解析无障碍
HTML基本格式:<>…>
构成了所属关系,形成了标签的树形结构
所有儿子节点存入列表
(…) 等价于
.find_all(…)如果出现乱码,要先查看原来的解码方式,print(r.encoding).对乱码进行还原,按照其错误的解码方式编码,还原成错误解码前的样子,再使用正确的 utf-8解码。
r = requests.get('http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html')
demo = r.text
# print(r.encoding)
demo = demo.encode('ISO-8859-1')
demo.decode('utf-8')
soup = BeautifulSoup(demo,'html.parser')
soup.prettify()
从网络上获取大学排名网页内容
r = requests.get('http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html')
demo = r.text
# print(r.encoding)
demo = demo.encode('ISO-8859-1')
demo.decode('utf-8')
soup = BeautifulSoup(demo,'html.parser')
# soup.prettify()
messages = soup.tbody.find_all('tr','alt')
ans = []
i = 0
for i,message in enumerate(messages):
# print(message.contents)
# print(message.find('td').string)
# print(message.find('td').find_next_sibling('td').string)
# print(message.find('td').find_next_sibling('td').find_next_sibling('td').string)
# print(message.find('td').find_next_sibling('td').find_next_sibling('td').find_next_sibling('td').string)
if i < 30:
temp = []
temp.append(message.find('td').string)
temp.append(message.find('td').find_next_sibling('td').string)
temp.append(message.find('td').find_next_sibling('td').find_next_sibling('td').find_next_sibling('td').string)
ans.append(temp)
else:
break
print(ans)
import requests
from bs4 import BeautifulSoup
import bs4
def getHTMLText(url):
try:
r = requests.get(url,timeout = 30)
print(r.raise_for_status())
r.encoding = r.apparent_encoding
return r.text
except:
return ''
def fillUnivList(ulist,html):
soup = BeautifulSoup(html,'html.parser')
for tr in soup.find('tbody').children:
if isinstance(tr,bs4.element.Tag):
tds = tr('td')
ulist.append([tds[0].string, tds[1].string, tds[3].string])
def printUnivList(ulist, num=20):
tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"
print(tplt.format('排名', '学校名称', '总分', chr(12288)))
for i in range(num):
u = ulist[i]
print(tplt.format(u[0], u[1], u[2], chr(12288)))
u_info = [] # 存储爬取结果的容器
url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html'
html = getHTMLText(url)
fillUnivList(u_info, html)
printUnivList(u_info, num=30)
学习xpath,使用lxml+xpath提取内容。
使用xpath提取丁香园论坛的回复内容。
XPath使用路径表达式在XML文档中选取节点。节点是通过沿着路径选取的。下面列出了最常用的路径表达式:
nodename 选取此节点的所有子节点。
/ 从根节点选取。
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
. 选取当前节点。
… 选取当前节点的父节点。
@ 选取属性。
/text() 提取标签下面的文本内容
详细学习:https://www.cnblogs.com/gaojun/archive/2012/08/11/2633908.html
导入库:from lxml import etree
lxml将html文本转成xml对象
用户名称:tree.xpath(’//div[@class=“auth”]/a/text()’)
回复内容:tree.xpath(’//td[@class=“postbody”]’) 因为回复内容中有换行等标签,所以需要用string()来获取数据。
Xpath中text(),string(),data()的区别如下:
导入库:from lxml import etree
lxml将html文本转成xml对象
用户名称:tree.xpath(’//div[@class=“auth”]/a/text()’)
回复内容:tree.xpath(’//td[@class=“postbody”]’) 因为回复内容中有换行等标签,所以需要用string()来获取数据。
Xpath中text(),string(),data()的区别如下:
# 导入库
from lxml import etree
import requests
url = "http://www.dxy.cn/bbs/thread/626626#626626"
req = requests.get(url)
html = req.text
# html
tree = etree.HTML(html)
# tree
user = tree.xpath('//div[@class="auth"]/a/text()')
print(user)
content = tree.xpath('//td[@class="postbody"]')
results = []
for i in range(0, len(user)):
print(user[i].strip()+":"+content[i].xpath('string(.)').strip())
# print("*"*80)
# 因为回复内容中有换行等标签,所以需要用string()来获取数据
results.append(user[i].strip() + ": " + content[i].xpath('string(.)').strip())
# 打印爬取的结果
for i,result in zip(range(0, len(user)),results):
print("user"+ str(i+1) + "-" + result)
print("*"*100)
典型的搜索和替换操作要求您提供与预期的搜索结果匹配的确切文本。虽然这种技术对于对静态文本执行简单搜索和替换任务可能已经足够了,但它缺乏灵活性,若采用这种方法搜索动态文本,即使不是不可能,至少也会变得很困难。
通过使用正则表达式,可以:
- 测试字符串内的模式。
例如,可以测试输入字符串,以查看字符串内是否出现电话号码模式或信用卡号码模式。这称为数据验证。
- 替换文本。
可以使用正则表达式来识别文档中的特定文本,完全删除该文本或者用其他文本替换它。
- 基于模式匹配从字符串中提取子字符串。
可以查找文档内或输入域内特定的文本。
可以使用正则表达式来搜索和替换标记。
正则表达式语法由字符和操作符构成:
.
表示任何单个字符
[ ]
字符集,对单个字符给出取值范围 ,如[abc]
表示a、b、c,[a‐z]
表示a到z单个字符
[^ ]
非字符集,对单个字符给出排除范围 ,如[^abc]
表示非a或b或c的单个字符
*
前一个字符0次或无限次扩展,如abc* 表示 ab、abc、abcc、abccc等
+
前一个字符1次或无限次扩展 ,如abc+ 表示 abc、abcc、abccc等
?
前一个字符0次或1次扩展 ,如abc? 表示 ab、abc
|
左右表达式任意一个 ,如abc|def 表示 abc、def
{m}
扩展前一个字符m次 ,如ab{2}c表示abbc
{m,n}
扩展前一个字符m至n次(含n) ,如ab{1,2}c表示abc、abbc
^
匹配字符串开头 ,如^abc表示abc且在一个字符串的开头
$
匹配字符串结尾 ,如abc$表示abc且在一个字符串的结尾
( )
分组标记,内部只能使用 | 操作符 ,如(abc)表示abc,(abc|def)表示abc、def
\d
数字,等价于[0‐9]
\w
单词字符,等价于[A‐Za‐z0‐9_]
re.sub(pattern, repl, string, count=0, flags=0)
flags : 正则表达式使用时的控制标记:
[A‐Z]
能够匹配小写字符.*
Re库默认采用贪婪匹配,即输出匹配最长的子串*?
只要长度输出可能不同的,都可以通过在操作符后增加?变成最小匹配# 导入包
import requests
import re
def getHTMLText(url):
"""
请求获取html,(字符串)
:param url: 爬取网址
:return: 字符串
"""
try:
# 添加头信息,
kv = {
'cookie':'_samesite_flag_=true; cookie2=1f0edcfb33cb1702e5245acc8e74cd5e; t=83e74524f31741a421abf7531261bbd0; _tb_token_=ebdb836ffe67e; cna=V1BzFpdM0wMCATrCqFGPOzV1; sgcookie=EmaWF%2F03kKPUjOlRWENX0; unb=2126547308; uc3=nk2=F5RMECb3hGhVOA%3D%3D&lg2=UtASsssmOIJ0bQ%3D%3D&id2=UUkM8VrEfX%2BJww%3D%3D&vt3=F8dBxGR1SmblnHi2pUw%3D; csg=4152c503; lgc=tb99933355; cookie17=UUkM8VrEfX%2BJww%3D%3D; dnk=tb99933355; skt=9eb4c01a607c2525; existShop=MTU4NzY0MjkzMw%3D%3D; uc4=id4=0%40U2uAh66ENDSFlDn5l39UyBIAOfU0&nk4=0%40FY4HVZQ9DA01J9ejbr8td0ZWvZMt; tracknick=tb99933355; _cc_=W5iHLLyFfA%3D%3D; _l_g_=Ug%3D%3D; sg=584; _nk_=tb99933355; cookie1=VALYdBQLFf66%2BXx%2F52LjOGtZ7V%2BcCyTF%2FtMW5v5sIkY%3D; enc=qNLw5fUFJdX%2FSFOigEmc%2B6xqyqn6I0EpSyaZ4HnmmerR8dRqIxMQWqj%2FiN1IR7j6EYWYzv8cIC4RJqQqr3Zcmw%3D%3D; JSESSIONID=962D93948B53629A5B8E7E6978A413B7; tfstk=cIq5BJ04oQA7E8qy0W6qzOt79rmFZHYj3HG4FrFNYvP1VSw5ietZ1xJoEItxWx1..; uc1=cookie16=VT5L2FSpNgq6fDudInPRgavC%2BQ%3D%3D&cookie21=V32FPkk%2FgihF%2FS5nr3O5&cookie15=W5iHLLyFOGW7aA%3D%3D&existShop=false&pas=0&cookie14=UoTUPcqYhgFvKg%3D%3D; mt=ci=119_1; v=0; thw=cn; hng=CN%7Czh-CN%7CCNY%7C156; isg=BHp6khwQ8FQiTXzjrTmF2kJqy6CcK_4FXXkqiIRzmY3YdxixbrrRFRfFx0MMZ3ad; l=eBO_185lQc-_g2cyBO5ZPurza7PFeIRbzsPzaNbMiIHca66RTF1SHNQccmvH7dtbgtCxpexzH_ziuREv8Zadg2HvCbKrCyConxvO.',
'user-agent': 'Mozilla/5.0'
}
r = requests.get(url, timeout=30, headers=kv)
# r = requests.get(url, timeout=30)
# print(r.status_code)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "爬取失败"
def parsePage(glist, html):
'''
解析网页,搜索需要的信息
:param glist: 列表作为存储容器
:param html: 由getHTMLText()得到的
:return: 商品信息的列表
'''
try:
# 使用正则表达式提取信息
price_list = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)
name_list = re.findall(r'\"raw_title\"\:\".*?\"', html)
for i in range(len(price_list)):
price = eval(price_list[i].split(":")[1]) #eval()在此可以去掉""
name = eval(name_list[i].split(":")[1])
glist.append([price, name])
except:
print("解析失败")
def printGoodList(glist):
tplt = "{0:^4}\t{1:^6}\t{2:^10}"
print(tplt.format("序号", "商品价格", "商品名称"))
count = 0
for g in glist:
count = count + 1
print(tplt.format(count, g[0], g[1]))
# 根据页面url的变化寻找规律,构建爬取url
goods_name = "书包" # 搜索商品类型
start_url = "https://s.taobao.com/search?q=" + goods_name
info_list = []
page = 3 # 爬取页面数量
count = 0
for i in range(page):
count += 1
try:
url = start_url + "&s=" + str(44 * i)
html = getHTMLText(url) # 爬取url
parsePage(info_list, html) #解析HTML和爬取内容
print("\r爬取页面当前进度: {:.2f}%".format(count * 100 / page), end="") # 显示进度条
except:
continue
printGoodList(info_list)