爬虫_2

最近工作的事情比较多,只是简单的把程序看了一遍,周六再尝试一下其他购物网站的爬取。

from bs4 import BeautifulSoup
import requests # 抓取页面

r = requests.get('https://python123.io/ws/demo.html') # Demo网址
demo = r.text  # 抓取的数据
demo
'This is a python demo page\r\n\r\n

The demo python introduces several python courses.

\r\n

Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:\r\nBasic Python and Advanced Python.

\r\n'
soup = BeautifulSoup(demo, 'html.parser')
print(soup.prettify())

 
  
   This is a python demo page
  
 
 
  

The demo python introduces several python courses.

Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses: Basic Python and Advanced Python .

soup.a
Basic Python
soup.title
This is a python demo page
soup.a.name
'a'
soup.a.parent.name
'p'
tag = soup.a
print(tag.attrs)
print(tag.attrs['class'])
print(type(tag.attrs))
{'href': 'http://www.icourse163.org/course/BIT-268001', 'class': ['py1'], 'id': 'link1'}
['py1']

print(soup.a.string)
print(type(soup.a.string))
Basic Python

print(type(soup.p.string))

print(soup.a.prettify())

 Basic Python

newsoup = BeautifulSoup('中文', 'html.parser')
print(newsoup.prettify())

 中文

print(soup.contents)# 获取整个标签树的儿子节点
[This is a python demo page

The demo python introduces several python courses.

Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses: Basic Python and Advanced Python.

]
for child in soup.body.children:#遍历儿子节点
    print(child)

The demo python introduces several python courses.

Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses: Basic Python and Advanced Python.

print(soup.a.next_sibling.next_sibling)#a标签的下一个标签的下一个标签
Advanced Python
print(soup.a.previous_sibling.previous_sibling)
None
for sibling in soup.a.next_siblings:#遍历后续节点
    print(sibling)
 and 
Advanced Python
.
soup.find_all('a')
[Basic Python,
 Advanced Python]
soup.find_all(['a', 'p'])
[

The demo python introduces several python courses.

,

Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses: Basic Python and Advanced Python.

, Basic Python, Advanced Python]
soup.find_all("p","course")
[

Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses: Basic Python and Advanced Python.

]
soup.find_all('p',recursive=False)
[]
# import requests
# from bs4 import BeautifulSoup
# import bs4
# r = requests.get('http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html') # Demo网址
# demo = r.text  # 抓取的数据
# demo
# soup = BeautifulSoup(demo, 'html.parser')
# print(soup.prettify())
# import requests
# from bs4 import BeautifulSoup
# import bs4
# r = requests.get('http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html') # Demo网址
# demo = r.text  # 抓取的数据
# demo
# demo1 = r.content
# demo1.decode('ISO-8859-1')
# soup = BeautifulSoup(demo1, 'html.parser')
# print(soup.prettify())
print(soup.div.string)
None
# aa =soup.find_all("tr","alt")
# print(aa)
# aa = soup.find('tbody').children
for  tr in soup.find('tbody').children:
    if isinstance(tr, bs4.element.Tag):
        tds = tr('td')
        print(tds[0].string,tds[1].string,tds[3].string)
1 清华大学 94.6
2 北京大学 76.5
3 浙江大学 72.9
4 上海交通大学 72.1
5 复旦大学 65.6
6 中国科学技术大学 60.9
7 华中科技大学 58.9
7 南京大学 58.9
9 中山大学 58.2
10 哈尔滨工业大学 56.7
11 北京航空航天大学 56.3
12 武汉大学 56.2
13 同济大学 55.7
14 西安交通大学 55.0
15 四川大学 54.4
16 北京理工大学 54.0
17 东南大学 53.6
18 南开大学 52.8
19 天津大学 52.3
20 华南理工大学 52.0
21 中南大学 50.3
22 北京师范大学 49.7
23 山东大学 49.1
23 厦门大学 49.1
25 吉林大学 48.9
26 大连理工大学 48.6
27 电子科技大学 48.4
28 湖南大学 48.1
29 苏州大学 47.3
30 西北工业大学 46.7
31 中国人民大学 46.1
32 华东师范大学 46.0
33 南京航空航天大学 44.8
34 对外经济贸易大学 44.7
35 南方科技大学 44.6
36 华东理工大学 44.5
37 重庆大学 44.4
38 南京理工大学 44.3
39 北京科技大学 43.9
40 东北大学 43.7
41 上海大学 43.4
42 北京邮电大学 42.9
42 上海财经大学 42.9
42 中国农业大学 42.9
45 武汉理工大学 42.8
46 北京交通大学 42.6
46 华中师范大学 42.6
48 西安电子科技大学 42.1
49 中央财经大学 41.8
50 北京化工大学 41.7
51 暨南大学 41.5
52 东华大学 41.4
52 兰州大学 41.4
52 中南财经政法大学 41.4
55 宁波诺丁汉大学 40.3
56 哈尔滨工程大学 40.1
56 华北电力大学 40.1
58 深圳大学 40.0
59 江南大学 39.6
59 南京师范大学 39.6
61 北京工业大学 39.5
62 福州大学 39.4
63 北京外国语大学 39.3
63 北京语言大学 39.3
63 中国地质大学(武汉) 39.3
66 西南交通大学 39.2
67 华中农业大学 39.1
67 中国海洋大学 39.1
69 南京农业大学 39.0
70 上海外国语大学 38.8
71 中国矿业大学 38.6
72 中国地质大学(北京) 38.5
73 东北财经大学 38.2
73 西南财经大学 38.2
73 西南大学 38.2
76 东北师范大学 38.1
76 南京邮电大学 38.1
76 中国政法大学 38.1
79 河海大学 38.0
80 南京信息工程大学 37.9
81 西北农林科技大学 37.8
82 中国石油大学(华东) 37.4
83 合肥工业大学 37.3
84 陕西师范大学 37.2
85 华南师范大学 37.1
85 江苏大学 37.1
87 南京工业大学 37.0
87 中国石油大学(北京) 37.0
89 西北大学 36.9
89 浙江工业大学 36.9
91 北京林业大学 36.8
91 湖南师范大学 36.8
91 浙江师范大学 36.8
94 首都师范大学 36.4
95 汕头大学 36.3
96 中国传媒大学 36.2
97 杭州电子科技大学 36.1
98 扬州大学 36.0
99 安徽大学 35.9
100 华侨大学 35.7
101 宁波大学 35.4
101 首都经济贸易大学 35.4
101 西交利物浦大学 35.4
104 燕山大学 35.3
105 湖北大学 35.2
106 长安大学 35.1
106 上海理工大学 35.1
108 大连海事大学 35.0
108 广东外语外贸大学 35.0
108 太原理工大学 35.0
111 广东工业大学 34.8
111 南京财经大学 34.8
111 浙江理工大学 34.8
114 河北工业大学 34.7
115 华东政法大学 34.6
115 湘潭大学 34.6
115 浙江财经大学 34.6
115 中国矿业大学(北京) 34.6
119 青岛大学 34.5
120 上海师范大学 34.2
121 南京审计大学 34.1
122 华南农业大学 34.0
123 江西财经大学 33.9
123 辽宁大学 33.9
123 中央民族大学 33.9
126 武汉工程大学 33.8
126 郑州大学 33.8
128 杭州师范大学 33.6
128 上海对外经贸大学 33.6
130 上海海事大学 33.4
131 山东师范大学 33.3
131 武汉科技大学 33.3
133 北京第二外国语学院 33.2
133 广西大学 33.2
133 云南大学 33.2
133 浙江工商大学 33.2
137 山西大学 33.1
138 东北农业大学 33.0
139 广州大学 32.7
139 黑龙江大学 32.7
139 南昌大学 32.7
139 天津财经大学 32.7
143 东北林业大学 32.5
143 河南大学 32.5
145 河北大学 32.4
146 江苏师范大学 32.3
147 济南大学 32.0
147 山东财经大学 32.0
149 山东科技大学 31.9
150 长沙理工大学 31.7
151 西南政法大学 31.4
152 渤海大学 31.3
152 重庆工商大学 31.3
152 福建师范大学 31.3
152 天津师范大学 31.3
156 曲阜师范大学 31.2
156 三峡大学 31.2
158 北京工商大学 31.1
158 西安理工大学 31.1
158 浙江农林大学 31.1
161 广西师范大学 31.0
161 温州大学 31.0
163 湖北工业大学 30.9
163 四川农业大学 30.9
165 重庆邮电大学 30.8
165 河北师范大学 30.8
165 河南师范大学 30.8
168 北京体育大学 30.7
168 常州大学 30.7
168 天津工业大学 30.7
171 石家庄铁道大学 30.6
172 中国计量大学 30.4
173 海南大学 30.3
173 江苏科技大学 30.3
175 安徽财经大学 30.2
175 北京建筑大学 30.2
175 中南民族大学 30.2
178 安徽工业大学 30.1
178 北京物资学院 30.1
178 南通大学 30.1
178 内蒙古大学 30.1
178 中国人民公安大学 30.1
183 青岛科技大学 30.0
183 西南石油大学 30.0
185 武汉纺织大学 29.9
185 中国民航大学 29.9
187 华北理工大学 29.8
187 南京林业大学 29.8
187 西安建筑科技大学 29.8
190 北方工业大学 29.7
190 河北科技大学 29.7
190 上海电力大学 29.7
193 安徽师范大学 29.6
193 哈尔滨师范大学 29.6
193 湖南农业大学 29.6
193 上海海洋大学 29.6
193 上海立信会计金融学院 29.6
193 四川师范大学 29.6
199 辽宁工业大学 29.5
200 沈阳航空航天大学 29.4
201 湖南工业大学 29.3
202 江西师范大学 29.2
202 西华师范大学 29.2
204 福建农林大学 29.1
204 天津理工大学 29.1
206 安徽农业大学 29.0
206 兰州交通大学 29.0
206 陕西科技大学 29.0
209 集美大学 28.9
210 长春理工大学 28.8
210 重庆交通大学 28.8
210 中南林业科技大学 28.8
213 重庆师范大学 28.7
213 湖南科技大学 28.7
213 江汉大学 28.7
216 成都理工大学 28.6
216 河南理工大学 28.6
216 辽宁师范大学 28.6
219 南华大学 28.5
220 长江大学 28.4
220 重庆理工大学 28.4
220 武汉轻工大学 28.4
220 云南师范大学 28.4
224 闽南师范大学 28.3
224 山西财经大学 28.3
226 河南工业大学 28.2
226 湖州师范学院 28.2
226 西安邮电大学 28.2
229 广西民族大学 28.1
229 湖北经济学院 28.1
229 山西师范大学 28.1
229 苏州科技大学 28.1
229 天津科技大学 28.1
234 湖北第二师范学院 28.0
234 吉林师范大学 28.0
234 郑州师范学院 28.0
237 哈尔滨理工大学 27.9
237 河北农业大学 27.9
237 吉首大学 27.9
240 北京信息科技大学 27.8
240 西北师范大学 27.8
240 浙江外国语学院 27.8
240 中北大学 27.8
244 贵州大学 27.7
244 湖南商学院 27.7
246 河南财经政法大学 27.6
246 淮北师范大学 27.6
246 沈阳农业大学 27.6
246 浙江海洋大学 27.6
250 东莞理工学院 27.5
250 湖北师范大学 27.5
250 昆明理工大学 27.5
250 西南民族大学 27.5
254 上海第二工业大学 27.4
254 上海应用技术大学 27.4
256 绍兴文理学院 27.3
257 东北电力大学 27.2
257 桂林电子科技大学 27.2
257 浙江传媒学院 27.2
260 河北经贸大学 27.1
260 河南农业大学 27.1
262 东北石油大学 27.0
262 石河子大学 27.0
264 兰州理工大学 26.9
265 广西财经学院 26.8
265 西安工业大学 26.8
265 浙江科技学院 26.8
268 安徽理工大学 26.7
268 大连民族大学 26.7
268 新疆大学 26.7
268 烟台大学 26.7
268 延边大学 26.7
273 长沙学院 26.6
273 大连交通大学 26.6
275 吉林财经大学 26.5
275 青岛理工大学 26.5
275 上海工程技术大学 26.5
275 西安科技大学 26.5
279 长春工业大学 26.4
279 桂林理工大学 26.4
279 河南科技大学 26.4
279 淮阴师范学院 26.4
279 西南科技大学 26.4
284 佛山科学技术学院 26.3
284 南京工程学院 26.3
284 宁夏大学 26.3
287 广东技术师范大学 26.2
287 河北工程大学 26.2
287 黄冈师范学院 26.2
287 南京晓庄学院 26.2
287 沈阳建筑大学 26.2
287 西安工程大学 26.2
293 大理大学 26.1
293 大连大学 26.1
295 湖北民族大学 25.9
295 华东交通大学 25.9
295 嘉兴学院 25.9
295 闽江学院 25.9
295 青海大学 25.9
300 大连工业大学 25.8
300 河北地质大学 25.8
300 天津商业大学 25.8
300 玉林师范学院 25.8
300 中国人民武装警察部队学院 25.8
305 北京印刷学院 25.7
305 广东金融学院 25.7
305 南宁师范大学 25.7
305 沈阳师范大学 25.7
305 厦门理工学院 25.7
310 成都信息工程大学 25.5
310 沈阳工业大学 25.5
310 云南财经大学 25.5
313 安徽建筑大学 25.4
313 哈尔滨商业大学 25.4
313 黑龙江工程学院 25.4
313 湖北工程学院 25.4
313 江苏理工学院 25.4
313 郑州轻工业大学 25.4
319 长春师范大学 25.3
319 湖南第一师范学院 25.3
319 吉林农业大学 25.3
319 太原科技大学 25.3
319 太原师范学院 25.3
324 常熟理工学院 25.2
324 广东石油化工学院 25.2
324 海南师范大学 25.2
324 华北水利水电大学 25.2
324 宁波工程学院 25.2
324 西安石油大学 25.2
324 西华大学 25.2
331 河北科技师范学院 25.1
331 湖南城市学院 25.1
331 内蒙古工业大学 25.1
331 山东农业大学 25.1
331 延安大学 25.1
336 大连海洋大学 25.0
336 广东第二师范学院 25.0
336 河北北方学院 25.0
336 五邑大学 25.0
336 西安财经大学 25.0
341 重庆文理学院 24.9
341 贵州师范学院 24.9
343 宝鸡文理学院 24.8
343 南昌航空大学 24.8
343 山西大同大学 24.8
343 山西农业大学 24.8
343 信阳师范学院 24.8
348 广东海洋大学 24.7
349 湖南工程学院 24.6
350 山东理工大学 24.5
351 北华航天工业学院 24.4
351 湖北汽车工业学院 24.4
351 湖南理工学院 24.4
351 浙江大学城市学院 24.4
355 聊城大学 24.3
355 中国民用航空飞行学院 24.3
357 安徽工程大学 24.2
357 北华大学 24.2
357 辽宁工程技术大学 24.2
357 南阳师范学院 24.2
357 盐城师范学院 24.2
362 成都大学 24.1
362 福建工程学院 24.1
362 陕西理工大学 24.1
365 兰州城市学院 24.0
365 鲁东大学 24.0
365 武汉体育学院 24.0
365 徐州工程学院 24.0
369 黑龙江科技大学 23.9
369 湖北科技学院 23.9
369 湖北文理学院 23.9
372 北京联合大学 23.8
372 江苏第二师范学院 23.8
372 江西科技师范大学 23.8
372 江西理工大学 23.8
372 齐齐哈尔大学 23.8
372 韶关学院 23.8
372 西安文理学院 23.8
379 长春大学 23.7
379 洛阳理工学院 23.7
379 山东建筑大学 23.7
382 沈阳理工大学 23.6
382 盐城工学院 23.6
384 北京农学院 23.5
384 河南科技学院 23.5
384 洛阳师范学院 23.5
384 内江师范学院 23.5
384 沈阳化工大学 23.5
384 忻州师范学院 23.5
384 运城学院 23.5
391 甘肃农业大学 23.4
391 广东财经大学 23.4
391 湖南财政经济学院 23.4
391 湖南文理学院 23.4
391 金陵科技学院 23.4
391 岭南师范学院 23.4
391 内蒙古农业大学 23.4
391 齐鲁工业大学 23.4
391 上海电机学院 23.4
391 上海体育学院 23.4
401 辽宁科技大学 23.3
401 青岛农业大学 23.3
401 新疆师范大学 23.3
401 仲恺农业工程学院 23.3
405 安康学院 23.2
405 赣南师范大学 23.2
405 淮海工学院 23.2
405 临沂大学 23.2
405 泉州师范学院 23.2
405 唐山学院 23.2
405 通化师范学院 23.2
412 北京服装学院 23.1
412 合肥学院 23.1
412 江西农业大学 23.1
412 沈阳大学 23.1
416 湖北理工学院 23.0
416 淮阴工学院 23.0
416 曲靖师范学院 23.0
419 安庆师范大学 22.9
419 惠州学院 22.9
419 佳木斯大学 22.9
422 鞍山师范学院 22.8
422 衡阳师范学院 22.8
422 沈阳工程学院 22.8
422 石家庄学院 22.8
422 四川轻化工大学 22.8
422 肇庆学院 22.8
428 黄山学院 22.7
428 皖西学院 22.7
430 安阳师范学院 22.6
430 北京石油化工学院 22.6
430 龙岩学院 22.6
430 内蒙古科技大学 22.6
434 河南工程学院 22.5
434 天津城建大学 22.5
436 北部湾大学 22.4
437 长江师范学院 22.3
437 吉林化工学院 22.3
437 吉林建筑大学 22.3
437 景德镇陶瓷大学 22.3
437 云南民族大学 22.3
442 辽宁石油化工大学 22.2
443 广西科技大学 22.1
443 哈尔滨学院 22.1
443 山东工商学院 22.1
443 太原工业学院 22.1
443 郑州航空工业管理学院 22.1
448 常州工学院 22.0
448 重庆科技学院 22.0
448 华北科技学院 22.0
448 廊坊师范学院 22.0
448 内蒙古民族大学 22.0
448 西南林业大学 22.0
448 咸阳师范学院 22.0
448 湘南学院 22.0
448 云南农业大学 22.0
457 北方民族大学 21.9
458 贵州师范大学 21.8
458 天津农学院 21.8
460 福建江夏学院 21.7
460 合肥师范学院 21.7
460 青海师范大学 21.7
463 重庆第二师范学院 21.6
463 丽水学院 21.6
463 南昌工程学院 21.6
463 齐鲁师范学院 21.6
463 天津职业技术师范大学 21.6
463 新乡学院 21.6
469 内蒙古师范大学 21.5
469 渭南师范学院 21.5
471 河南牧业经济学院 21.4
471 井冈山大学 21.4
473 韩山师范学院 21.3
473 河南城建学院 21.3
473 贺州学院 21.3
473 西北民族大学 21.3
473 邢台学院 21.3
478 安阳工学院 21.2
478 贵州财经大学 21.2
478 河西学院 21.2
478 昆明学院 21.2
478 乐山师范学院 21.2
483 山东交通学院 21.1
483 玉溪师范学院 21.1
485 东华理工大学 21.0
485 嘉应学院 21.0
485 荆楚理工学院 21.0
485 商洛学院 21.0
489 贵州民族大学 20.8
489 黑龙江八一农垦大学 20.8
489 绵阳师范学院 20.8
489 牡丹江师范学院 20.8
489 浙江万里学院 20.8
494 防灾科技学院 20.6
494 宜宾学院 20.6
494 中原工学院 20.6
497 周口师范学院 20.4
498 重庆三峡学院 20.3
498 济宁学院 20.3
498 泰山学院 20.3
498 西安航空学院 20.3
498 浙江水利水电学院 20.3
503 辽东学院 20.1
503 新疆农业大学 20.1
505 滨州学院 20.0
506 长春工程学院 19.9
507 赤峰学院 19.8
507 南阳理工学院 19.8
509 成都工业学院 19.6
509 四川文理学院 19.6
509 天水师范学院 19.6
512 黄淮学院 19.5
512 铜陵学院 19.5
514 湖南工学院 19.4
514 湖南科技学院 19.4
514 九江学院 19.4
514 邵阳学院 19.4
514 许昌学院 19.4
519 西藏大学 19.3
520 桂林航天工业学院 19.2
520 衢州学院 19.2
520 商丘师范学院 19.2
520 铜仁学院 19.2
524 红河学院 19.0
524 怀化学院 19.0
524 塔里木大学 19.0
527 池州学院 18.9
528 滁州学院 18.8
529 安徽科技学院 18.7
529 贵阳学院 18.7
529 潍坊学院 18.7
529 宜春学院 18.7
533 淮南师范学院 18.6
534 楚雄师范学院 18.3
534 贵州理工学院 18.3
536 巢湖学院 18.2
537 德州学院 18.0
538 攀枝花学院 17.9
539 伊犁师范大学 17.7
539 榆林学院 17.7
541 陇东学院 17.5
542 西京学院 17.3
543 邯郸学院 17.2
544 海南热带海洋学院 17.1
544 莆田学院 17.1
544 枣庄学院 17.1
547 浙江树人学院 16.7
548 平顶山学院 16.0
549 湖南涉外经济学院 15.5
from lxml import etree
import requests

url = "http://www.dxy.cn/bbs/thread/626626#626626"
req = requests.get(url)
html = req.text
tree = etree.HTML(html) 
tree

user = tree.xpath('//div[@class="auth"]/a/text()')
# print(user)
content = tree.xpath('//td[@class="postbody"]')
results = []
for i in range(0, len(user)):
    results.append(user[i].strip() + ":  " + content[i].xpath('string(.)').strip())
for i,result in zip(range(0, len(user)),results):
    print("user"+ str(i+1) + "-" + result)
    print("*"*100)
user1-楼医生:  我遇到一个“怪”病人,向大家请教。她,42岁。反复惊吓后晕厥30余年。每次受响声惊吓后发生跌倒,短暂意识丧失。无逆行性遗忘,无抽搐,无口吐白沫,无大小便失禁。多次跌倒致外伤。婴儿时有惊厥史。入院查体无殊。ECG、24小时动态心电图无殊;头颅MRI示小软化灶;脑电图无殊。入院后有数次类似发作。请问该患者该做何诊断,还需做什么检查,治疗方案怎样?
****************************************************************************************************
user2-lion000:  从发作的症状上比较符合血管迷走神经性晕厥,直立倾斜试验能协助诊断。在行直立倾斜实验前应该做常规的体格检查、ECG、UCG、holter和X-ray胸片除外器质性心脏病。贴一篇“口服氨酰心安和依那普利治疗血管迷走性晕厥的疗效观察”作者:林文华 任自文 丁燕生http://www.ccheart.com.cn/ccheart_site/Templates/jieru/200011/1-1.htm
****************************************************************************************************
user3-xghrh:  同意lion000版主的观点:如果此患者随着年龄的增长,其发作频率逐渐减少且更加支持,不知此患者有无这一特点。入院后的HOLTER及血压监测对此患者只能是一种安慰性的检查,因在这些检查过程中患者发病的机会不是太大,当然不排除正好发作的情况。对此患者应常规作直立倾斜试验,如果没有诱发出,再考虑有无可能是其他原因所致的意识障碍,如室性心动过速等,但这需要电生理尤其是心腔内电生理的检查,毕竟是有一种创伤性方法。因在外地,下面一篇文章可能对您有助,请您自己查找一下。心理应激事件诱发血管迷走性晕厥1例 ,杨峻青、吴沃栋、张瑞云,中国神经精神疾病杂志, 2002 Vol.28 No.2
****************************************************************************************************
user4-keys:  该例不排除精神因素导致的,因为每次均在受惊吓后出现。当然,在作出此诊断前,应完善相关检查,如头颅MIR(MRA),直立倾斜试验等。
****************************************************************************************************
import requests
import re
def getHTMLText(url):
    """
    请求获取html,(字符串)
    :param url: 爬取网址
    :return: 字符串
    """
    try:
        # 添加头信息,
        kv = {
            'cookie': '_samesite_flag_=true; cookie2=1d3d99731fd7d8f36f663d95c1f06eba; t=b907ad37b2c0966cce1226e293cff125; _tb_token_=701eda37455e7; cna=Rmx2FeJWYX0CAXWDdWSyyyla; sgcookie=EwC2qLg9nrv6N6nxW4mec; unb=850220538; uc3=id2=W8zLpM8cR0Ea&lg2=URm48syIIVrSKA%3D%3D&vt3=F8dBxGR1TQh1re33wco%3D&nk2=sylAHTV0440E; csg=ffc08f3c; lgc=%5Cu5C0F2%5Cu5B69%5Cu5F73%5Cu4E8D; cookie17=W8zLpM8cR0Ea; dnk=%5Cu5C0F2%5Cu5B69%5Cu5F73%5Cu4E8D; skt=0d086135fa1916fc; existShop=MTU4NzY1NDI0NQ%3D%3D; uc4=nk4=0%40sVbg0wd0f9Vw3PvaxR%2FJ%2F70Ls1I%3D&id4=0%40We84tuj%2Bq8W4kcfLLoZ22t0FlSs%3D; publishItemObj=Ng%3D%3D; tracknick=%5Cu5C0F2%5Cu5B69%5Cu5F73%5Cu4E8D; _cc_=VT5L2FSpdA%3D%3D; _l_g_=Ug%3D%3D; sg=%E4%BA%8D89; _nk_=%5Cu5C0F2%5Cu5B69%5Cu5F73%5Cu4E8D; cookie1=URtFe27j5ZoeXTZpbJNon29iJUbduvh8KaFFToIJvqU%3D; enc=%2Bq0xXHXPwp5S190eQOfLmdexWMCDpVjFrV2JzdK8WKTLdSN5q2zqLfs%2F%2FooGhumC70biLzylN2oE6%2F2AXdMVbw%3D%3D; tfstk=cw-RBvTW7jclYM9P7H3cA53hQwHGZehdG813vvNoNsfo_OrdiWtMXF_iP9NRDxC..; hng=CN%7Czh-CN%7CCNY%7C156; thw=cn; mt=ci=24_1; v=0; uc1=cookie16=WqG3DMC9UpAPBHGz5QBErFxlCA%3D%3D&cookie21=VT5L2FSpccLuJBreK%2BBd&cookie15=VT5L2FSpMGV7TQ%3D%3D&existShop=false&pas=0&cookie14=UoTUPcqZekaOtw%3D%3D; isg=BI6OVYhMXFg7luols3ZKkKzL32RQD1IJwszibrjX-hFMGy51IJ-iGTTZU0d3GEoh; l=eBStihUHvv_uVybkBOfaFurza77OSIRYYuPzaNbMiT5PO_CB59YVWZjjTRL6C3GVh6ByR3JMwUXJBeYBqQAonxv92j-la_kmn',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.113 Safari/537.36'
        }
        r = requests.get(url, timeout=30, headers=kv)
        # r = requests.get(url, timeout=30)
        # print(r.status_code)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "爬取失败"
def parsePage(glist, html):
    '''
    解析网页,搜索需要的信息
    :param glist: 列表作为存储容器
    :param html: 由getHTMLText()得到的
    :return: 商品信息的列表
    '''
    try:
        # 使用正则表达式提取信息
        price_list = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)
        name_list = re.findall(r'\"raw_title\"\:\".*?\"', html)
        for i in range(len(price_list)):
            price = eval(price_list[i].split(":")[1])  #eval()在此可以去掉""
            name = eval(name_list[i].split(":")[1])
            glist.append([price, name])
    except:
        print("解析失败")
def printGoodList(glist):
    tplt = "{0:^4}\t{1:^6}\t{2:^10}"
    print(tplt.format("序号", "商品价格", "商品名称"))
    count = 0
    for g in glist:
        count = count + 1
        print(tplt.format(count, g[0], g[1]))
    # 根据页面url的变化寻找规律,构建爬取url
goods_name = "书包"  # 搜索商品类型
start_url = "https://s.taobao.com/search?q=" + goods_name
info_list = []
page = 3  # 爬取页面数量    
count = 0
for i in range(page):
    count += 1
    try:
        url = start_url + "&s=" + str(44 * i)
        html = getHTMLText(url)  # 爬取url
        parsePage(info_list, html) #解析HTML和爬取内容
        print("\r爬取页面当前进度: {:.2f}%".format(count * 100 / page), end="")  # 显示进度条
    except:
        continue
爬取页面当前进度: 100.00%
printGoodList(info_list)
 序号 	 商品价格 	   商品名称   
 1  	138.00	电脑包大书包大学生女生背包大双肩包大容量
 2  	59.00 	双肩包男士大容量旅行电脑背包时尚潮流高中初中学生书包女大学生
 3  	149.00	鳄鱼男士双肩包商务休闲电脑帆布背包旅游旅行包时尚潮流学生书包
 4  	99.90 	迪卡侬户外双肩背包男女休闲双肩包运动学生小书包轻便10L QUBP
 5  	249.90	迪卡侬旗舰店新款大容量双肩背包户外运动防水书包休闲男女TRD
 6  	279.00	Jordan 官方 AIR JORDAN 双肩包 书包背包
 CW7699
 7  	689.00	背包双肩包男士商务旅行背包防盗电脑包休闲书包男多功能大旅游包
 8  	669.00	kipling女士帆布背包2020年新款时尚简约休闲潮流书包双肩包|ROSE
 9  	899.00	【买1送1】Fion/菲安妮大牌双肩包女 2020新款印花背包旅行书包
 10 	139.00	安踏背包休闲包 2020新款潮流休闲运动背包学生书包电脑包旅行包
 11 	998.00	Herschel Little America经典色旅游双肩包男女士背包书包10020
 12 	408.00	李宁CF溯系列双肩包敦煌拓男包女包2020新款学生书包运动包
 13 	288.00	【新品】JanSport杰斯伯双肩包女大学生书包男休闲背包4QUT04S
 14 	358.00	JanSport旗舰店官网女双肩背包学生书包电脑包男背包 3P6X008
 15 	479.00	Fjallraven/瑞典北极狐双肩包kanken书包女电脑旅行背包官方23510
 16 	179.00	安踏双肩包2020潮牌大容量旅行背包男休闲简约学生书包运动背包男
 17 	1098.00	Herschel Dawson大号时尚双肩包 Surplus系列休闲背包书包10649
 18 	409.00	初弎牛仔善恶 学生书包街头潮流男女时尚休闲双肩包男士背包41413
 19 	219.00	NIKE耐克双肩包男包女包2020春季新款户外运动包学生书包旅行背包
 20 	139.00	阿迪达斯双肩背包男包女包2020夏季新款运动电脑包学生书包FQ5261
 21 	299.00	Viney真皮双肩包2020年新款韩版百搭书包韩版原宿ulzzang双肩背包
 22 	69.90 	大脸兔牛津布双肩包女2020新款韩版尼龙百搭旅行防水超轻背包书包
 23 	189.00	阿迪达斯双肩包男女2020新款初中生高中学生书包大容量背包DT8638
 24 	119.00	特步男女双肩包2020夏季新款大容量书包百搭潮流男士女士运动背包
 25 	199.00	瑞士军士刀双肩包男大容量休闲商务旅行电脑背包男士初中学生书包
 26 	175.00	不莱玫迪士尼米奇双肩包新款韩版高中复古背包大容量学生帆布书包
 27 	149.00	阿迪达斯NEO男女包2020运动包初中小学生书包旅行双肩背包FM6771
 28 	129.00	uek小学生书包男孩女生一三五 六年级护脊双肩6-12岁轻便减压儿童
 29 	255.00	Viney双肩包包2020新款潮真皮时尚背包女大容量书包韩版百搭女包
 30 	438.00	tigerfamily小学生书包1-3年级男女孩儿童书包减负护脊背包6周岁
 31 	299.00	【直营】Adidas双肩包男女CL AOP运动休闲舒适学生书包背包FM6896
 32 	178.00	迪士尼小学生书包女童1-3-4一三年级冰雪奇缘女孩减负儿童双肩包6
 33 	498.00	Tiger Family护脊减负书包 小学生3-5年级儿童女12周岁男童背包
 34 	69.00 	牛津布双肩包女2020新款潮韩版时尚百搭大学生书包旅行帆布小背包
 35 	79.00 	电脑包男双肩包商务笔记本背包男士大容量15.6寸旅行出差休闲书包
 36 	179.00	PUMA彪马双肩包男包女包2020新款运动包学生书包潮休闲包旅行背包
 37 	259.00	Hype双肩包少女渐变小清新背包简约时尚百搭ins风潮牌大学生书包
 38 	419.00	Fjallraven/北极狐双肩包kanken mini 迷你情侣书包背包女23561
 39 	889.00	kipling男女大容量电脑背包2020年新款时尚书包旅行双肩包|SEOUL
 40 	149.00	PUMA彪马背包2020新款女包双肩包拎包休闲小包PU小书包076960-02
 41 	970.00	Gaston Luga瑞典潮牌背包男双肩包女大容量旅行包休闲书包电脑包
 42 	149.00	PUMA彪马官网旗舰双肩包男包女包2020新款初中高中学生书包电脑包
 43 	175.00	不莱玫迪士尼合作款书包女韩版高中百搭ins双肩包时尚可爱小背包
 44 	899.00	挪威官方正品Beckmann小学生书包女男儿童护脊减压背包1-3年级
 45 	149.00	PUMA彪马官网正品双肩包背包初中高中学生书包旅游包休闲运动包潮
 46 	219.00	PUMA彪马双肩包男包女包2019新款运动包休闲背包学生书包074706
 47 	115.00	kk树书包小学生女孩6-12岁儿童一二三到六年级女童双肩包护脊减负
 48 	268.00	BOPAI博牌电脑背包男户外旅行休闲双肩包商务书包出差多功能男包
 49 	115.00	kk树书包小学生女孩6-12岁儿童一二三到六年级女童双肩包护脊减负
 50 	268.00	BOPAI博牌电脑背包男户外旅行休闲双肩包商务书包出差多功能男包
 51 	129.00	小米双肩包书包男女笔记本电脑包时尚潮流旅行背包
 52 	408.00	FILA斐乐小学生书包大容量男女童背包2020春新款儿童双肩包3M反光
 53 	219.00	Hype双肩包男女背包2020新款韩版时尚百搭ins高中校园大学生书包
 54 	1588.00	【GPS定位】英国AnythingStudio小学生书包 儿童女进口英伦日本风
 55 	399.00	FILA斐乐童装旗舰店儿童双肩包小学生书包男童女童低年级背包新款
 56 	229.00	迪士尼商店 冰雪奇缘艾莎公主小学生书包儿童书包双肩包女童书包
 57 	129.00	七匹狼双肩包男大容量背包书包新款超大商务休闲旅行笔记本电脑包
 58 	99.90 	迪卡侬旗舰店双肩包户外登山包背包男旅行女大容量轻便书包QUBP
 59 	159.90	迪卡侬运动双肩包电脑背包书包男女健身包旅行包休闲商务新款FICA
 60 	698.00	Herschel Retreat春夏新色旅游双肩包男女士书包背包百搭10066
 61 	288.00	JanSport杰斯伯旗舰店双肩背包男高中背包书包休闲运动包4QUT77R
 62 	288.00	【新品】JanSport杰斯伯双肩包女学生书包电脑包休闲背包4QUT5L8
 63 	498.00	Herschel City中号校园双肩包男书包背包潮牌女 ins 百搭10486
 64 	179.00	安踏双肩包2020男士旅行大容量时尚潮流高中初中学生书包运动背包
 65 	869.00	kipling男女大容量电脑包2020新款时尚书包旅行包双肩包|SO BABY
 66 	378.00	tigerfamily儿童书包小学生一年级1-3 女男6岁耐磨减负护脊双肩包
 67 	159.00	安踏背包2020春季新款运动户外时尚男旅行包防水学生书包双肩包
 68 	159.00	NIKE耐克双肩包儿童包2020夏季新款小学生书包运动包背包潮BA5559
 69 	589.00	kipling女士多背法背包2020年新款时尚潮简约书包双肩包|IVES系列
 70 	226.00	真皮双肩包女2020年新款书包女百搭大容量头层牛皮女士软皮背包潮
 71 	699.00	北极狐laptop笔记本电脑包13/15/17英寸男女手提双肩背包学生书包
 72 	188.00	优仅ALLJOINT儿童书包可爱幼儿园双肩甜甜圈彩虹幼儿背包女童包包
 73 	289.00	Viney双肩包女韩版百搭ins原宿大容量百搭背包书包时尚简约双肩包
 74 	479.00	Fjallraven/北极狐书包kanken双肩包女户外包运动背包男23510
 75 	218.00	【直营】Puma彪马女包双肩包运动包学生书包休闲包背包076944-02
 76 	149.00	花花公子男士背包2020年新款商务电脑双肩包高中学生大容量书包
 77 	319.00	NIKE耐克双肩包2020夏季新款男包女包学生书包运动包背包潮BA6097
 78 	389.00	朱丹推荐诺狐书包小学生女孩一二三到六年级护脊减负儿童双肩背包
 79 	499.00	FION/菲安妮新款双肩包旅行包 女士印花背包青年防水名牌书包小包
 80 	488.00	香港tigerfamily小学生护脊书包 男女5-9年级初中学生减负双肩包
 81 	998.00	Fion/菲安妮休闲双肩包潮流学生书包 2020新款女包尼龙黑色旅行包
 82 	2598.00	【亚洲限定款】天使之翼SEIBAN 日本保税护脊减负小学生粉色书包
 83 	899.00	[2020新款]挪威Beckmann小学生书包女男儿童护脊减压背包1-3年级
 84 	188.00	迪士尼拉杆书包小学生女童3-6年级公主3轮爬楼女孩两用儿童双肩包
 85 	49.90 	ins书包女韩版高中原宿ulzzang初中生中学生百搭泫雅大容量双肩包
 86 	1169.00	ergobag德国儿童减负护脊护肩书包中小学生书包男女1-5年级
 87 	195.02	国家地理背包女运动户外时尚双肩包男牛津布旅行防水学生情侣书包
 88 	499.00	日本进口卡芙露书包小学生1-3年级6儿童轻便减负护脊男女双肩背包
 89 	98.00 	迪士尼小学生书包女童1-3-4三四年级冰雪奇缘女孩儿童减负双肩包6
 90 	139.00	瑞士军士刀双肩包男大容量瑞士军刀旅行电脑背包男士初中学生书包
 91 	299.00	CHARLES&KEITH女包CK2-80840173-1粗链条翻盖单肩情书包婚包
 92 	499.00	Samsonite/新秀丽双肩包包2020新款 书包女ins风背包旅行包TQ4
 93 	49.90 	ins书包女韩版高中原宿ulzzang初中生中学生百搭泫雅大容量双肩包
 94 	139.00	阿迪达斯学生书包男女包初中高中大学生电脑包运动双肩背包FI7968
 95 	115.00	KK剑桥树书包小学生男孩一二三到六年级儿童6-12岁男童双肩包减负
 96 	86.00 	迪士尼书包男小学生1-3-6三到六4年级儿童双肩护脊减负轻便背包女
 97 	178.00	书包ins韩版原宿ulzzang初中高中大学生百搭森系背包网红双肩包女
 98 	299.00	BOPAI博牌双肩包男商务休闲简约大容量背包时尚书包15.6寸电脑包
 99 	59.80 	儿童书包小学生男女一二三到六年级韩版减负护脊贵族书包轻便防水
100 	103.50	瑞士军刀双肩包男背包休闲商务旅行大容量瑞士书包高中生电脑男士
101 	169.00	【直营】adidas阿迪达斯大童 K CL IN 红色DW4259 双肩儿童书包
102 	229.00	朱尔防盗双肩包女2020新款时尚牛津布女士背包百搭书包帆布女包包
103 	59.90 	森马双肩包女大学生轻便简约书包韩版高中休闲旅行背包男时尚潮流
104 	249.00	90分牛津帆布包休闲双肩包男时尚潮流背包书包男女韩版百搭电脑包
105 	185.00	不莱玫背包女双肩包韩版旅行包高中百搭大容量学生书包男时尚潮流
106 	149.00	华为旗下荣耀亲选双肩包书包背包男女学生商务大学生大容量防水
107 	76.00 	儿童书包小学生女一二三到六年级韩版减负护脊男孩轻便防水书包
108 	219.00	NIKE耐克双肩包男包女包官网旗舰高中初中运动包学生书包旅行背包
109 	798.00	Samsonite/新秀丽儿童书包小学生男孩女孩儿童轻便双肩背包  HB5
110 	798.00	ito双肩包男商务设计师电脑包女皮质背包书包ins韩版原宿ulzzang
111 	299.90	迪卡侬休闲旅行包出差大容量户外防雨罩男女书包登山包双肩包FOR3
112 	49.90 	迪卡侬 双肩背包书包小双肩包旅行包学生休闲包男户外包女20L SOL
113 	358.00	JanSport旗舰店官网双肩背包女学生书包电脑包男背包 3P6X04V
114 	598.00	Herschel Dawson 双肩包男书包女ins风潮牌街头背包欧美10233
115 	288.00	【新品】JanSport杰斯伯双肩包女学生书包男背包运动休闲背包4QUT
116 	698.00	Herschel Retreat经典色时尚潮流男女双肩包书包背包潮牌10066
117 	698.00	kipling女大容量背包春夏新品时尚简约潮流休闲书包双肩包|MATTA
118 	398.00	安踏中国对背包男潮牌2020春季新款大容量书包学生旅行运动双肩包
119 	698.00	kipling男女款大容量轻便帆布包简约复古休闲潮书包双肩包|MICAH
120 	398.00	安踏中国英雄双肩包潮牌街头嘻哈情侣双肩包男女时尚潮流书包背包
121 	149.00	PUMA彪马双肩包2020夏季新款马卡龙初中高中学生书包运动包背包潮
122 	168.00	迪士尼小学生书包男童女童1-3-4一三四年级蜘蛛侠儿童减负双肩包6
123 	78.00 	迪士尼小学生书包1-3-6三年级男童美国队长蜘蛛侠男孩儿童双肩包8
124 	599.00	Fion/菲安妮时尚潮流双肩包女 小怪兽可爱学生书包简约女士小背包
125 	799.00	FION菲安妮双肩包女潮流女式旅行包 时尚书包防水女士背包妈妈包
126 	209.00	EVB新款双肩包女韩版潮电脑背包旅行运动初高中小大学生书包男
127 	239.00	Skechers斯凯奇男女同款双肩背包书包LOGO刺绣运动休闲包L120U021
128 	109.00	babycare宝宝入园书包婴 幼儿园小书包3岁男女儿童防走失背包可爱
129 	229.00	NIKE耐克双肩包2020新款男包女包高中大学生书包大容量运动包背包
130 	399.00	UNIKER初中学生拉杆书包可爬楼梯大轮子30升高中男女孩儿童拉杆包
131 	169.00	小米 米兔儿童书包 6-12岁男女小学生潮双肩背包幼儿园大容量背包
132 	469.00	Doughnut Macaroon粉彩背包旅行书包户外学生双肩包女新款
133 	2180.00	FREITAG F49 FRINGE 双肩包 旅行背包书包 瑞士环保潮流包
134 	378.00	tigerfamily书包小学生男孩1-3-6年级 初高中儿童护脊减负背包女
135 	139.00	花花公子男士双肩包时尚潮流个性大学生书包休闲旅行电脑迷彩背包
136 	199.00	PUMA彪马官网正品双肩包男包女包2020春季新款运动包学生书包背包


你可能感兴趣的:(爬虫_2)