胖虎卖汤圆

爬虫入门task2：bf4、xpath、正则表达式

二、学习内容

2.1 Beautiful Soup库入门

学习beautifulsoup基础知识。
使用beautifulsoup解析HTML页面。
- Beautiful Soup 是一个HTML/XML 的解析器，主要用于解析和提取 HTML/XML 数据。
- 它基于HTML DOM 的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。
- BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持 lxml 的 XML解析器。
- 虽然说BeautifulSoup4 简单容易比较上手，但是匹配效率还是远远不如正则以及xpath的，一般不推荐使用，推荐正则的使用。

第一步：pip install beautifulsoup4 ，万事开头难，先安装 beautifulsoup4，安装成功后就完成了第一步。
第二步：导入from bs4 import BeautifulSoup
第三步：创建 Beautiful Soup对象 soup = BeautifulSoup(html，‘html.parser’)

2.1.1 Beautiful Soup库的基本元素

Beautiful Soup库的理解：
Beautiful Soup库是解析、遍历、维护“标签树”的功能库，对应一个HTML/XML文档的全部内容
BeautifulSoup类的基本元素:
- Tag 标签，最基本的信息组织单元，分别用<>和标明开头和结尾；
- Name 标签的名字，… 的名字是'p'，格式：.name;
- Attributes 标签的属性，字典形式组织，格式：.attrs;
- NavigableString 标签内非属性字符串，<>…中字符串，格式：.string;
- Comment 标签内字符串的注释部分，一种特殊的Comment类型;

序号	解析库	使用方法	优势	劣势
1	Python标准库	BeautifulSoup(html,’html.parser’)	Python内置标准库；执行速度快	容错能力较差
2	lxml HTML解析库	BeautifulSoup(html,’lxml’)	速度快；容错能力强；支持XML格式	需要安装，需要C语言库
3	lxml XML解析库	BeautifulSoup(html,[‘lxml’,’xml’])	速度快；容错能力强；	需要C语言库
4	htm5lib解析库	BeautifulSoup(html,’htm5llib’)	以浏览器方式解析，最好的容错性	速度慢

# 导入bs4库
from bs4 import BeautifulSoup
import requests # 抓取页面

r = requests.get('https://python123.io/ws/demo.html') # Demo网址
demo = r.text  # 抓取的数据
demo

'This is a python demo page\r\n\r\nThe demo python introduces several python courses.
\r\nPython is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:\r\nBasic Python and Advanced Python.\r\n'

# 解析HTML页面
soup = BeautifulSoup(demo, 'lxml')  # 抓取的页面数据；bs4的解析器
# 有层次感的输出解析后的HTML页面
print(soup.prettify())


 
  
   This is a python demo page
  
 
 
  
   
    The demo python introduces several python courses.
   
  
  
   Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
   
    Basic Python
   
   and
   
    Advanced Python
   
   .

`1）标签，用soup.访问获得:`

当HTML文档中存在多个相同对应内容时，soup.返回第一个

soup.a # 访问标签a

Basic Python

soup.title

This is a python demo page

soup.a.next_sibling.next_sibling #兄弟结点

Advanced Python

`2）标签的名字:每个都有自己的名字，通过soup..name获取，字符串类型`

soup.a.name

'a'

soup.a.parent.name

'p'

soup.p.parent.name

'body'

`3)标签的属性,一个可以有0或多个属性，字典类型,soup..attrs`

tag = soup.a
print(tag.attrs)
print(tag.attrs['class'])
print(type(tag.attrs))

{'href': 'http://www.icourse163.org/course/BIT-268001', 'class': ['py1'], 'id': 'link1'}
['py1']

`4)Attributes:标签内非属性字符串,格式：soup..string, NavigableString可以跨越多个层次`

print(soup.a.string)
print(type(soup.a.string))

Basic Python

`5）NavigableString:标签内字符串的注释部分，Comment是一种特殊类型(有-->)`

print(type(soup.p.string))

6) .prettify()为HTML文本<>及其内容增加更加’\n’,有层次感的输出

.prettify()可用于标签，方法：.prettify()

print(soup.prettify())


 
  
   This is a python demo page
  
 
 
  
   
    The demo python introduces several python courses.
   
  
  
   Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
   
    Basic Python
   
   and
   
    Advanced Python
   
   .

print(soup.a.prettify())


 Basic Python

7)bs4库将任何HTML输入都变成utf‐8编码

Python 3.x默认支持编码是utf‐8,解析无障碍

newsoup = BeautifulSoup('中文', 'html.parser')
print(newsoup.prettify())


 中文

2.1.2 基于bs4库的HTML内容遍历方法

HTML基本格式:<>…构成了所属关系，形成了标签的树形结构

标签树的下行遍历
- .contents 子节点的列表，将所有儿子节点存入列表
- .children 子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
- .descendants 子孙节点的迭代类型，包含所有子孙节点，用于循环遍历
标签树的上行遍
- .parent 节点的父亲标签
- .parents 节点先辈标签的迭代类型，用于循环遍历先辈节点
标签树的平行遍历
- .next_sibling 返回按照HTML文本顺序的下一个平行节点标签
- .previous_sibling 返回按照HTML文本顺序的上一个平行节点标签
- .next_siblings 迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
- .previous_siblings 迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

详见：https://www.cnblogs.com/mengxiaoleng/p/11585754.html#_label0

标签树的下行遍历

import requests
from bs4 import BeautifulSoup

r=requests.get('http://python123.io/ws/demo.html')
demo=r.text
soup=BeautifulSoup(demo,'html.parser')

print(soup.contents)# 获取整个标签树的儿子节点

[This is a python demo page

The demo python introduces several python courses.
Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
Basic Python and Advanced Python.
]

print(soup.body.contents)#返回标签树的body标签下的节点

['\n', The demo python introduces several python courses.
, '\n', Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
Basic Python and Advanced Python., '\n']

print(soup.head)#返回head标签

This is a python demo page

for child in soup.body.children:#遍历儿子节点
    print(child)

The demo python introduces several python courses.


Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
Basic Python and Advanced Python.

for child in soup.body.descendants:#遍历子孙节点
    print(child)

The demo python introduces several python courses.
The demo python introduces several python courses.
The demo python introduces several python courses.


Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
Basic Python and Advanced Python.
Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:

Basic Python
Basic Python
 and 
Advanced Python
Advanced Python
.

标签树的上行遍历

soup.title.parent

This is a python demo page

soup.title.parent.parent

This is a python demo page

The demo python introduces several python courses.
Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
Basic Python and Advanced Python.

soup.parent

for parent in soup.a.parents: # 遍历先辈的信息
    if parent is None:
        print(parent)
    else:
        print(parent.name)

p
body
html
[document]

标签树的平行遍历

注意：

标签树的平行遍历是有条件的
平行遍历发生在同一个父亲节点的各节点之间
标签中的内容也构成了节点

print(soup.a.next_sibling)#a标签的下一个标签

and

print(soup.a.next_sibling.next_sibling)#a标签的下一个标签的下一个标签

Advanced Python

print(soup.a.previous_sibling)#a标签的前一个标签

Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:

print(soup.a.previous_sibling.previous_sibling)#a标签的前一个标签的前一个标签

None

for sibling in soup.a.next_siblings:#遍历后续节点
    print(sibling)

 and 
Advanced Python
.

for sibling in soup.a.previous_sibling:#遍历之前的节点
    #print(sibling)
    pass

2.1.3 基于bs4库的HTML内容的查找方法

<>.find_all(name, attrs, recursive, string, **kwargs)
- 参数：
- ∙ name : 对标签名称的检索字符串
- ∙ attrs: 对标签属性值的检索字符串，可标注属性检索
- ∙ recursive: 是否对子孙全部检索，默认True
- ∙ string: <>…中字符串区域的检索字符串
  - 简写：
  - (…) 等价于 .find_all(…)
  - soup(…) 等价于 soup.find_all(…)
扩展方法：
- <>.find() 搜索且只返回一个结果，同.find_all()参数
- <>.find_parents() 在先辈节点中搜索，返回列表类型，同.find_all()参数
- <>.find_parent() 在先辈节点中返回一个结果，同.find()参数
- <>.find_next_siblings() 在后续平行节点中搜索，返回列表类型，同.find_all()参数
- <>.find_next_sibling() 在后续平行节点中返回一个结果，同.find()参数
- <>.find_previous_siblings() 在前序平行节点中搜索，返回列表类型，同.find_all()参数
- <>.find_previous_sibling() 在前序平行节点中返回一个结果，同.find()参数

import requests
from bs4 import BeautifulSoup

r = requests.get('http://python123.io/ws/demo.html')
demo = r.text
soup = BeautifulSoup(demo,'html.parser')

# name : 对标签名称的检索字符串
soup.find_all('a')

[Basic Python,
 Advanced Python]

soup.find_all(['a', 'p'])

[The demo python introduces several python courses.,
 Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
 Basic Python and Advanced Python.,
 Basic Python,
 Advanced Python]

# attrs: 对标签属性值的检索字符串，可标注属性检索
soup.find_all("p","course")

[Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
 Basic Python and Advanced Python.]

soup.find_all(id="link1") # 完全匹配才能匹配到

[Basic Python]

soup.find_all(id="link") # 完全匹配才能匹配到

[]

#  recursive: 是否对子孙全部检索，默认True
soup.find_all('p',recursive=False)

[]

# string: <>…中字符串区域的检索字符串
soup.find_all(string = "Basic Python") # 完全匹配才能匹配到

['Basic Python']

2.1.4 实战：中国大学排名定向爬取

爬取url：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html
爬取思路：
1. 从网络上获取大学排名网页内容
2. 提取网页内容中信息到合适的数据结构（二维数组）-排名，学校名称，总分
3. 利用数据结构展示并输出结果

# 导入库
import pandas as pd
import requests
from bs4 import BeautifulSoup
import bs4

1. 从网络上获取大学排名网页内容

url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html'
headers = {
     
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}
res = requests.get(url, headers=headers)
res.encoding = 'utf-8'
text = res.text

soup = BeautifulSoup(text, 'html.parser')

2. 提取网页内容中信息到合适的数据结构（二维数组）

查看网页源代码，观察并定位到需要爬取内容的标签；
使用bs4的查找方法提取所需信息-‘排名，学校名称，总分’

data = {
     '排名' : [], '学校' : [], '省市' : [], '总分' : [], '指标（生源质量）' : []}
soup = BeautifulSoup(text, 'html.parser')
for i in soup.find_all("tr")[1:]: 
    i = i.td
    data['排名'].append(i.contents[0])
    i = i.next_sibling
    data['学校'].append(i.div.contents[0])
    i = i.next_sibling
    data['省市'].append(i.contents[0])
    i = i.next_sibling
    data['总分'].append(i.contents[0])
    i = i.next_sibling
    data['指标（生源质量）'].append(i.contents[0])
res = pd.DataFrame(data)
res.to_csv('rank_school.csv', index=0, encoding='utf_8_sig')
res.head()

	排名	学校	省市	总分	指标（生源质量）
0	1	清华大学	北京	94.6	100.0
1	2	北京大学	北京	76.5	95.2
2	3	浙江大学	浙江	72.9	84.2
3	4	上海交通大学	上海	72.1	91.1
4	5	复旦大学	上海	65.6	91.6

2.2 学习xpath

2.2.1 学习目标：

学习xpath，使用lxml+xpath提取内容。
使用xpath提取丁香园论坛的回复内容。

抓取丁香园网页：http://www.dxy.cn/bbs/thread/626626#626626 。

2.2.2 Xpath常用的路径表达式：

XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。
在XPath中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。
XML文档是被作为节点树来对待的。

XPath使用路径表达式在XML文档中选取节点。节点是通过沿着路径选取的。下面列出了最常用的路径表达式：
nodename 选取此节点的所有子节点。
/ 从根节点选取。
// 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
. 选取当前节点。
… 选取当前节点的父节点。
@ 选取属性。
/text() 提取标签下面的文本内容
- 如：
- /标签名逐层提取
- /标签名提取所有名为<>的标签
- //标签名[@属性=“属性值”] 提取包含属性为属性值的标签
- @属性名代表取某个属性名的属性值
详细学习：https://www.cnblogs.com/gaojun/archive/2012/08/11/2633908.html

2.2.3 使用lxml解析

导入库：from lxml import etree
lxml将html文本转成xml对象
- tree = etree.HTML(html)
用户名称：tree.xpath(’//div[@class=“auth”]/a/text()’)
回复内容：tree.xpath(’//td[@class=“postbody”]’) 因为回复内容中有换行等标签，所以需要用string()来获取数据。
- string()的详细见链接：https://www.cnblogs.com/CYHISTW/p/12312570.html
Xpath中text()，string()，data()的区别如下：
- text()仅仅返回所指元素的文本内容。
- string()函数会得到所指元素的所有节点文本内容，这些文本讲会被拼接成一个字符串。
- data()大多数时候，data()函数和string()函数通用，而且不建议经常使用data()函数，有数据表明，该函数会影响XPath的性能。

2.2.4 实战：爬取丁香园-用户名和回复内容

爬取思路：
1. 获取url的html
2. lxml解析html
3. 利用Xpath表达式获取user和content
4. 保存爬取的内容

# 导入库
from lxml import etree
import requests

url = "http://www.dxy.cn/bbs/thread/626626#626626"

1. 获取url的html

req = requests.get(url)
html = req.text
# html

2. lxml解析html

tree = etree.HTML(html) 
tree

3. 利用Xpath表达式获取user和content（完成xpath的语句）

user = tree.xpath('//div[@class="auth"]/a/text()')
print(user)
content = tree.xpath('//td[@class="postbody"]')
print(content)

['楼医生', 'lion000', 'xghrh', 'keys']
[, , , ]

4. 保存爬取的内容

results = []
for i in range(0, len(user)):
    print(user[i].strip()+":"+content[i].xpath('string(.)').strip())
    # print("*"*80)
    # 因为回复内容中有换行等标签，所以需要用string()来获取数据
    results.append(user[i].strip() + ":  " + content[i].xpath('string(.)').strip())

楼医生:我遇到一个“怪”病人，向大家请教。她，42岁。反复惊吓后晕厥30余年。每次受响声惊吓后发生跌倒，短暂意识丧失。无逆行性遗忘，无抽搐，无口吐白沫，无大小便失禁。多次跌倒致外伤。婴儿时有惊厥史。入院查体无殊。ECG、24小时动态心电图无殊；头颅MRI示小软化灶；脑电图无殊。入院后有数次类似发作。请问该患者该做何诊断，还需做什么检查，治疗方案怎样？
lion000:从发作的症状上比较符合血管迷走神经性晕厥，直立倾斜试验能协助诊断。在行直立倾斜实验前应该做常规的体格检查、ECG、UCG、holter和X-ray胸片除外器质性心脏病。贴一篇“口服氨酰心安和依那普利治疗血管迷走性晕厥的疗效观察”作者：林文华 任自文 丁燕生http://www.ccheart.com.cn/ccheart_site/Templates/jieru/200011/1-1.htm
xghrh:同意lion000版主的观点：如果此患者随着年龄的增长，其发作频率逐渐减少且更加支持，不知此患者有无这一特点。入院后的HOLTER及血压监测对此患者只能是一种安慰性的检查，因在这些检查过程中患者发病的机会不是太大，当然不排除正好发作的情况。对此患者应常规作直立倾斜试验，如果没有诱发出，再考虑有无可能是其他原因所致的意识障碍，如室性心动过速等，但这需要电生理尤其是心腔内电生理的检查，毕竟是有一种创伤性方法。因在外地，下面一篇文章可能对您有助，请您自己查找一下。心理应激事件诱发血管迷走性晕厥1例 ，杨峻青、吴沃栋、张瑞云，中国神经精神疾病杂志， 2002 Vol.28 No.2
keys:该例不排除精神因素导致的，因为每次均在受惊吓后出现。当然，在作出此诊断前，应完善相关检查，如头颅MIR(MRA),直立倾斜试验等。

# 打印爬取的结果
for i,result in zip(range(0, len(user)),results):
    print("user"+ str(i+1) + "-" + result)
    print("*"*100)

user1-楼医生:  我遇到一个“怪”病人，向大家请教。她，42岁。反复惊吓后晕厥30余年。每次受响声惊吓后发生跌倒，短暂意识丧失。无逆行性遗忘，无抽搐，无口吐白沫，无大小便失禁。多次跌倒致外伤。婴儿时有惊厥史。入院查体无殊。ECG、24小时动态心电图无殊；头颅MRI示小软化灶；脑电图无殊。入院后有数次类似发作。请问该患者该做何诊断，还需做什么检查，治疗方案怎样？
****************************************************************************************************
user2-lion000:  从发作的症状上比较符合血管迷走神经性晕厥，直立倾斜试验能协助诊断。在行直立倾斜实验前应该做常规的体格检查、ECG、UCG、holter和X-ray胸片除外器质性心脏病。贴一篇“口服氨酰心安和依那普利治疗血管迷走性晕厥的疗效观察”作者：林文华 任自文 丁燕生http://www.ccheart.com.cn/ccheart_site/Templates/jieru/200011/1-1.htm
****************************************************************************************************
user3-xghrh:  同意lion000版主的观点：如果此患者随着年龄的增长，其发作频率逐渐减少且更加支持，不知此患者有无这一特点。入院后的HOLTER及血压监测对此患者只能是一种安慰性的检查，因在这些检查过程中患者发病的机会不是太大，当然不排除正好发作的情况。对此患者应常规作直立倾斜试验，如果没有诱发出，再考虑有无可能是其他原因所致的意识障碍，如室性心动过速等，但这需要电生理尤其是心腔内电生理的检查，毕竟是有一种创伤性方法。因在外地，下面一篇文章可能对您有助，请您自己查找一下。心理应激事件诱发血管迷走性晕厥1例 ，杨峻青、吴沃栋、张瑞云，中国神经精神疾病杂志， 2002 Vol.28 No.2
****************************************************************************************************
user4-keys:  该例不排除精神因素导致的，因为每次均在受惊吓后出现。当然，在作出此诊断前，应完善相关检查，如头颅MIR(MRA),直立倾斜试验等。
****************************************************************************************************

2.3 学习正则表达式 re

2.3.1 为什么使用正则表达式？

典型的搜索和替换操作要求您提供与预期的搜索结果匹配的确切文本。虽然这种技术对于对静态文本执行简单搜索和替换任务可能已经足够了，但它缺乏灵活性，若采用这种方法搜索动态文本，即使不是不可能，至少也会变得很困难。

通过使用正则表达式，可以：

- 测试字符串内的模式。
    例如，可以测试输入字符串，以查看字符串内是否出现电话号码模式或信用卡号码模式。这称为数据验证。
- 替换文本。
    可以使用正则表达式来识别文档中的特定文本，完全删除该文本或者用其他文本替换它。
- 基于模式匹配从字符串中提取子字符串。
    可以查找文档内或输入域内特定的文本。

可以使用正则表达式来搜索和替换标记。

使用正则表达式的优势是什么？简洁

正则表达式是用来简洁表达一组字符串的表达式
正则表达式是一种通用的字符串表达框架
正则表达式是一种针对字符串表达“简洁”和“特征”思想的工具
正则表达式可以用来判断某字符串的特征归属

正则表达式在文本处理中十分常用：

同时查找或替换一组字符串
匹配字符串的全部或部分(主要)

2.3.2 正则表达式语法

正则表达式语法由字符和操作符构成:

常用操作符
- . 表示任何单个字符
- [ ] 字符集，对单个字符给出取值范围，如[abc]表示a、b、c，[a‐z]表示a到z单个字符
- [^ ] 非字符集，对单个字符给出排除范围，如[^abc]表示非a或b或c的单个字符
- * 前一个字符0次或无限次扩展，如abc* 表示 ab、abc、abcc、abccc等
- + 前一个字符1次或无限次扩展，如abc+ 表示 abc、abcc、abccc等
- ? 前一个字符0次或1次扩展，如abc? 表示 ab、abc
- | 左右表达式任意一个，如abc|def 表示 abc、def
- {m} 扩展前一个字符m次，如ab{2}c表示abbc
- {m,n} 扩展前一个字符m至n次（含n），如ab{1,2}c表示abc、abbc
- ^ 匹配字符串开头，如^abc表示abc且在一个字符串的开头
- $ 匹配字符串结尾，如abc$表示abc且在一个字符串的结尾
- ( ) 分组标记，内部只能使用 | 操作符，如(abc)表示abc，(abc|def)表示abc、def
- \d 数字，等价于[0‐9]
- \w 单词字符，等价于[A‐Za‐z0‐9_]

2.3.3 正则表达式re库的使用

调用方式：import re
re库采用raw string类型表示正则表达式，表示为：r’text’，raw string是不包含对转义符再次转义的字符串;

re库的主要功能函数：

re.search() 在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象
- re.search(pattern, string, flags=0)
re.match() 从一个字符串的开始位置起匹配正则表达式，返回match对象
- re.match(pattern, string, flags=0)
re.findall() 搜索字符串，以列表类型返回全部能匹配的子串
- re.findall(pattern, string, flags=0)
re.split() 将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
- re.split(pattern, string, maxsplit=0, flags=0)
re.finditer() 搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象
- re.finditer(pattern, string, flags=0)
re.sub() 在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串
- re.sub(pattern, repl, string, count=0, flags=0)
- flags : 正则表达式使用时的控制标记：
  - re.I --> re.IGNORECASE : 忽略正则表达式的大小写，[A‐Z]能够匹配小写字符
  - re.M --> re.MULTILINE : 正则表达式中的^操作符能够将给定字符串的每行当作匹配开始
  - re.S --> re.DOTALL : 正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符

re库的另一种等价用法（编译）

regex = re.compile(pattern, flags=0)：将正则表达式的字符串形式编译成正则表达式对象

re 库的贪婪匹配和最小匹配

.* Re库默认采用贪婪匹配，即输出匹配最长的子串
*? 只要长度输出可能不同的，都可以通过在操作符后增加?变成最小匹配

2.3.4 实战：淘宝商品比价定向爬虫

爬取网址：https://s.taobao.com/search?q=书包&js=1&stats_click=search_radio_all%25
爬取思路：
1. 提交商品搜索请求，循环获取页面
2. 对于每个页面，提取商品名称和价格信息
3. 将信息输出到屏幕上

# 导入包
import requests
import re

1. 提交商品搜索请求，循环获取页面

def getHTMLText(url):
    """
    请求获取html，（字符串）
    :param url: 爬取网址
    :return: 字符串
    """
    try:
        # 添加头信息,
        kv = {
     
            'cookie': 'cna=FQ6bFUy7VysCAcrO0Z/oOegQ; thw=cn; _samesite_flag_=true; cookie2=191b29a86a432b0492bb74fa22bb3862; t=d9dabb64e2c99e4b141c6fc76f7f8dba; _tb_token_=e36ede550e830; sgcookie=EIq805RvnotbZAssy%2FVSx; unb=2961883452; uc3=nk2=GgW6V27uSw%3D%3D&id2=UUGk3%2FwLdp%2FKmw%3D%3D&vt3=F8dBxGR1SdDTfSo20fg%3D&lg2=WqG3DMC9VAQiUQ%3D%3D; csg=fd34e7d8; lgc=yndlcxd; cookie17=UUGk3%2FwLdp%2FKmw%3D%3D; dnk=yndlcxd; skt=f311dec7dddc96e8; existShop=MTU4NzYxMzA3Nw%3D%3D; uc4=nk4=0%40GIn%2FUxQvM8FFHSUQeJ5vKc4%2B&id4=0%40U2OT74%2FMK7XZjHgM9nG1pYpLjyUe; tracknick=yndlcxd; _cc_=Vq8l%2BKCLiw%3D%3D; _l_g_=Ug%3D%3D; sg=d25; _nk_=yndlcxd; cookie1=WqUOz2JF7OhGqXmqRNgJoTDwXuhJfvZEObuBXJQ5OeA%3D; enc=hOUab%2BC%2F07zBT5Eh9WHW5JJy6CSOkJ9yvS6rwJ14cYtQ13vouWed%2F3UgK1hzpLg9v3bv%2BJ%2BWaqjcVhqO89CqBg%3D%3D; tfstk=cimABJNFPQA0blM48cLufMUPIg9hZwWYstNOXd1b9s8eqjsOidonv2aHlR5Y2LC..; mt=ci=14_1; v=0; hng=CN%7Czh-CN%7CCNY%7C156; alitrackid=localhost; lastalitrackid=localhost; uc1=cookie14=UoTUPcqd8L0gxg%3D%3D&cookie16=WqG3DMC9UpAPBHGz5QBErFxlCA%3D%3D&existShop=false&cookie21=U%2BGCWk%2F7pY%2FF&cookie15=URm48syIIVrSKA%3D%3D&pas=0; JSESSIONID=ACEAA02C4025BC4D86311F2A2F986864; isg=BBMTRDaKSZtfVAUft1MKSBH1opc9yKeKx0MPPcUxIDJpRDLmTZxV2jXWfrQqZP-C; l=eBOdkAbrQyzfiR7sBO5iRK9hRpbOqIOb8sPPl_fm3IHca61ctFg15NQccM2WSdtjgtfEXetyIQLleRHBPizdg2HvCbKrCyCkDY96-',
            'user-agent': 'Mozilla/5.0'
        }
        r = requests.get(url, timeout=30, headers=kv)
        # r = requests.get(url, timeout=30)
        # print(r.status_code)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "爬取失败"

2. 对于每个页面，提取商品名称和价格信息（完成正则表达式语句）

def parsePage(glist, html):
    '''
    解析网页，搜索需要的信息
    :param glist: 列表作为存储容器
    :param html: 由getHTMLText()得到的
    :return: 商品信息的列表
    '''
    try:
        # 使用正则表达式提取信息
        #商品价格
        price_list = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)
        #商品名称
        name_list = re.findall(r'\"raw_title\"\:\".*?\"', html)
        for i in range(len(price_list)):
            price = eval(price_list[i].split(":")[1])  #eval（）在此可以去掉""
            name = eval(name_list[i].split(":")[1])
            glist.append([price, name])
    except:
        print("解析失败")

3. 将信息输出到屏幕上

def printGoodList(glist):
    tplt = "{0:^4}\t{1:^6}\t{2:^10}"
    print(tplt.format("序号", "商品价格", "商品名称"))
    count = 0
    for g in glist:
        count = count + 1
        print(tplt.format(count, g[0], g[1]))

# 根据页面url的变化寻找规律，构建爬取url
goods_name = "书包"  # 搜索商品类型
start_url = "https://s.taobao.com/search?q=" + goods_name
info_list = []
page = 3  # 爬取页面数量

count = 0
for i in range(page):
    count += 1
    try:
        url = start_url + "&s=" + str(44 * i)
        html = getHTMLText(url)  # 爬取url
        parsePage(info_list, html) #解析HTML和爬取内容
        print("\r爬取页面当前进度: {:.2f}%".format(count * 100 / page), end="")  # 显示进度条
    except:
        continue

爬取页面当前进度: 100.00%

#printGoodList(info_list)

你可能感兴趣的:(python,python)

Codeforces Round 971 (Div. 4) ABCD题详细题解(C++,Python) 多思考少编码 Codeforces div3 +div4题解算法 c++python 算法竞赛 codeforces
前言:本文为CodeforcesRound971(Div.4)ABCD题的题解，包含C++,Python语言描述，觉得有帮助或者写的不错可以点个赞比赛打了没一半突然unrated了就不是很想继续写了,早起写个题解(之前的div3也没复盘，哎真菜)目录题A:题目大意和解题思路:代码(C++):代码(Python):题B:题目大意和解题思路:代码(C++):代码(Python):题C:题目大意和解题思
Python酷库之旅-第三方库Pandas(049) 神奇夜光杯 python pandas 开发语言标准库及第三方库人工智能 excel 学习与成长
目录一、用法精讲176、pandas.Series.rank方法176-1、语法176-2、参数176-3、功能176-4、返回值176-5、说明176-6、用法176-6-1、数据准备176-6-2、代码示例176-6-3、结果输出177、pandas.Series.sem方法177-1、语法177-2、参数177-3、功能177-4、返回值177-5、说明177-6、用法177-6-1、数据准
Jupyter Notebook 与 PyTorch 配置教程如若123 jupyter pytorch ide
JupyterNotebook与PyTorch配置教程安装build-essential：sudoaptinstallbuild-essential安装编译软件所需的基本工具。安装Python3.8：sudoaptinstallpython3.8如果未安装Python3.8，执行此命令进行安装。下载Miniconda：wgethttps://repo.anaconda.com/miniconda/
fuadmin jcsx 开源学习 django vue.js
fu-admin-web采用VUE3，TS开发。fu-admin-backend采用Python，Django和Django-Ninija开发。数据库支持MySql，SqlServer，Sqlite。‍‍前端采用VbenAdmin、Vue3、AntDesignVue。后端采用Python语言Django框架以及强大的DjangoNinja。支持加载动态权限菜单，多方式轻松权限控制。Vue2项目移步
scikit-learn安装梁伟静 scikit-learn python
问题：importscikit-learn时遇到如下报错：ImportError:DLLloadfailedwhileimporting_arpack:Thespecifiedprocedurecouldnotbefound.可能原因：python、numpy、scipy和scikit-learn之间的版本出现冲突解决方案：1）卸载numpy、scipy、scikit-learncondaunin
python中函数的定义 xuwentao！！ python
python内部中函数一般定义的方式是：deffunc(a,*args,**kwargs):pass所以在外面调用的时候需要小心的，如果有字典对象传进去需要注意func(a,dict)会报错的，函数会把这个dict当作一个元祖来处理了，但是你想传入字典，所以这里需要解包处理，让函数明白你传入的是一个字典：func(a,**dict)所以在调用函数的时候需要想想是否需要解包处理
paddleseg推理预测文件解析predict.py weightOneMillion 图像分割每天一篇PaddleSeg 学习 python 人工智能
1预测命令格式predict.py脚本是专门用来可视化预测案例的，命令格式如下所示：pythonpredict.py\--configconfigs/quick_start/bisenet_optic_disc_512x512_1k.yml\--model_pathoutput/iter_1000/model.pdparams\--ima
python之函数的定义徐jiankang python基础日常总结 python 开发语言
博主简介：原互联网大厂tencent员工，网安巨头Venustech员工，阿里云开发社区专家博主，微信公众号java基础笔记优质创作者，csdn优质创作博主，创业者，知识共享者,欢迎关注，点赞，收藏。目录一、背景二、函数的定义三、参考四、总结一、背景实际开发过程中，经常会遇到很多完全相同或者非常相似的操作，这时，可以将实现类似操作的代码封装为函数，然后在需要的地方调用该函数。这样不仅可以实现代
深入浅出 Python 函数：编写、使用与高级特性详解田猿笔记 python 开发语言函数
引言在Python编程的世界中，函数堪称构建复杂逻辑和模块化程序的基础砖石。它能够帮助程序员组织代码、避免重复，并通过封装逻辑提高代码的可读性和可维护性。本文旨在全方位解析Python函数的核心概念，包括基础定义、文档化、默认参数、可选参数、解包参数、关键字仅参数、注解、可调用性检查、函数名称获取、匿名函数（lambda表达式）、生成器以及装饰器等多种实用特性。一、函数基础与文档化defexamp
Ubuntu python 升级 bianjingshan linux Python
1.安装新版本pythonsudoapt-getinstallpython3python3被安装在/usr/local/lib路径，到此目录下查看python3的版本号，例如python3.52.删除/usr/bin路径下的pythonlink文件cd/usr/binsudorm-rfpython3.重新建立连接sudoln-s/usr/bin/python3.5/usr/bin/python4.
如何在 Ubuntu 20.04 或 22.04 上安装 Python 3 百川Cs 计算机基础 ubuntu python linux pip conda
以下是关于如何在Ubuntu20.04或22.04上安装Python3的详细步骤。Python是一种广泛使用的编程语言，适用于自动化、数据分析、机器学习等领域。Ubuntu系统通常预装了Python3，但如果需要安装或升级到最新版本，可以按照以下方法操作。检查系统是否已安装Python3打开终端（快捷键：Ctrl+Alt+T）。输入以下命令检查是否已安装Python3：python3--versi
Python pywinauto PC端自动化测试核心代码封装类《代码爱好者》 ChatGPT python 自动化测试框架 python windows
PythonpywinautoPC端自动化测试核心代码封装类以下是一个基于pywinauto的自动化测试核心代码封装类的完整代码实例，其中包含多个函数实例并加上中文注释方案1importpywinautoimporttimeclassPywinautoWrapper:def__init__(self,app_path):"""初始化函数，传入应用程序的路径"""self.app_path=app_
PySide6与PyQt5的区别大乔乔布斯 pyqt python qt
虽然PySide6和PyQt5的功能和API十分相似，但由于它们分别是基于不同版本的Qt和由不同的团队维护，是两个不同的Python绑定库，分别用于与Qt库进行交互，可能会在一些细节上表现出差异，一些关键区别：1.维护和授权PySide6:由TheQtCompany官方维护。使用LGPL授权，这意味着你可以在开源和闭源项目中免费使用它（遵守LGPL条款）。版本号与Qt本身一致，PySide6对应于
MySQL 拆分字符串函数Split 大乔乔布斯 mysql 数据库
MYSQL目前没有Hive或者Java。python这列直接split的函数，需要自己定义一个，复制代码，一键使用CREATEDEFINER=`root`@`localhost`FUNCTION`func_split_str`(xVARCHAR(255),--字符串delimVARCHAR(12),--分隔符posINT--按分隔浮拆分后的第几个结果，从1开始数)RETURNSvarchar(25
TypeError: ‘str‘ object is not callable的几种情况及解决办法兔兔爱学习兔兔爱学习 pandas python 机器学习深度学习人工智能
TypeError:‘str’objectisnotcallable的几种情况及解决办法第一个可能，定义了一个str的变量，这个和Python自带函数str的命名冲突了，所以发生这个错误。确实，这是一个情况。这种情况的解决办法就是：严格遵守命名规范，避免命名冲突。第二个可能，是字符串后面加了括号调用的缘故。这一般是由于不了解，对某个对象的细节不清楚，错把属性看成了函数。
Python:实现similarity search相似性搜索算法(附完整源码) 源代码大师 python算法完整教程 python 机器学习
Python:实现similaritysearch相似性搜索算法from__future__importannotationsimportmathimportnumpyasnpdefeuclidean(input_a:np.ndarray,input_b:np.ndarray)->
解锁 Python 与 MySQL 交互密码：全方位技术解析与实战攻略秋夜Autumn python MySQL
目录一、引言二、环境准备2.1安装MySQL2.2安装Python及相关库2.2.1使用mysql-connector-python2.2.2使用pymysql三、基本连接与操作3.1连接到MySQL数据库3.2创建游标对象3.3执行SQL查询3.3.1查询单条记录3.3.2查询多条记录3.4插入数据3.5更新数据3.6删除数据3.7关闭连接四、错误处理五、高级操作5.1使用事务5.2处理大型结果
Python Pandas数据清洗与处理大数据张老师 Python程序设计 python pandas 开发语言
PythonPandas数据清洗与处理在进行数据分析时，原始数据往往包含了许多不完整、不准确或者冗余的信息。数据清洗与处理的任务就是将这些杂乱无章的数据清理干净，确保数据的准确性和一致性，从而为后续的分析工作打下坚实的基础。Pandas提供了强大的工具来帮助我们清洗和处理数据，尤其是在处理Series和DataFrame时，它能够高效地进行数据的筛选、填充、删除、替换等操作。本节将通过一些常见的数
成功使用devpi搭建PyPI缓存源，建立内网python安装包服务器（通过代理上网） jcsx 基础运维知识库开源学习 python pip nginx
前言缓存源和镜像源的区别：缓存源：初始状态为空。下载请求的软件包没有缓存，则回源到设置的上游镜像源，然后该软件包会被缓存。如果请求的软件包已经被缓存，则直接从本地缓存返回用户。下载速度：第一次速度=通过外网从上游镜像源下载的速度；之后的速度=内网带宽速度。磁盘空间：少。初始时只保存了软件包索引，随着使用过程，软件包被缓存，磁盘占用逐渐变大。镜像源：初始状态含有所有软件包，并且定时与上游镜像源同步。
Python接口自动化测试框架（实战篇）-- Jenkins持续集成职说测试 python jenkins ci/cd 自动化测试接口自动化测试
文章目录一、前言二、[Jenkins](https://www.jenkins.io/)2.1、环境搭建2.2、插件准备2.3、创建job2.4、小结2.5、构建策略2.6、报告展示2.7、扩展三、总结一、前言温馨提示：在框架需要集成jenkins的时候，一定要注意环境切换问题，如果jenkins和开发环境是同样的系统且都有python环境，基本不用太担心代码的移植问题，如果是跨平台了，那么需要注
python实战项目34：基于flask的天气数据可视化系统1.0 wp_tao Python副业接单实战项目 flask 信息可视化 python
基于flask的天气数据可视化系统1.0一、效果展示二、flask简介三、图表绘制四、前端页面编写五、完整代码一、效果展示该flask项目相对简单入门，使用了flask框架、bootstrap前端技术，数据使用的是上一篇scrapy爬取城市天气数据中爬取到的数据。二、flask简介Flask是一个基于Python的Web开发框架，它以灵活、微框架著称，基于werkzeug的轻量级web框架，可提高
Jira用例自动去除summary重复用例吾爱乐享 w w w w .f e n
title:Jira用例自动去除summary重复用例tags:-jira-pythoncategories:-python一、背景与需求二、解决方案思路三、实施步骤本文永久更新地址:在使用Jira进行项目管理时，测试用例的维护至关重要。随着项目推进，用例数量增多，可能会出现summary重复的情况，手动排查费时费力，因此实现自动去除重复用例功能意义重大。一、背景与需求项目团队在Jira中积累了大
RPA与Python 空着
部分朋友可能是了解Python的。Python这两年，火的两点，就是聚焦于两个场景：数据抓取和办公自动化。那么Python算RPA吗？RPA是一种概念，依托于这个概念诞生了很多产品。而Python是一种计算机语言，Python不仅仅可以做RPA概念范围内的东西，还可以做其他东西。但是，Python做数据抓取也好，做办公自动化也好，他都是聚焦于具体的场景本身。而并非聚焦于RPA概念上的。所以，很少见
Python爬虫技术第12节设置headers和cookies hummhumm python 爬虫开发语言 django flask java spring
在使用Python进行网络爬虫开发时，经常需要模拟浏览器行为，这包括设置请求头（headers）和处理cookies。下面我将详细介绍如何在Python中使用requests库来设置headers和处理cookies。设置HeadersHeaders包含了客户端发送给服务器的信息，比如用户代理（User-Agent）、接受的内容类型（Accept）、语言偏好（Accept-Language）等。设
Python爬虫技术第16节 XPath hummhumm python 爬虫开发语言 flask java maven java-ee
XPath是一种在XML文档中查找信息的语言，尽管XML和HTML在语法上有区别，但XPath同样适用于HTML文档的解析，尤其是在使用如lxml这样的库时。XPath提供了一种强大的方法来定位和提取XML/HTML文档中的元素和属性。XPath基础XPath表达式由路径表达式组成，它们指定了文档中的位置。下面是一些基本的XPath语法：根节点：/表示绝对路径的开始，指向文档的根节点。//表示从当
【实践】Python实现气象数据分析与可视化大数据张老师 Python程序设计信息可视化 python 数据分析可视化
一、项目需求在本节中，我们将明确“气象数据分析与可视化”项目的需求，定义项目的功能和目标，为后续的实现奠定基础。通过本项目，读者将学习如何使用Python的各种数据处理和可视化工具来分析和展示气象数据，从而掌握数据处理与可视化的核心技能。1.项目目标“气象数据分析与可视化”项目的目标是通过对历史气象数据的处理和分析，生成直观的图表和统计结果，帮助用户理解气象趋势并预测未来变化。项目的主要功能如下：
证券量化交易选择合适的编程语言 jcsx 量化 numpy pandas pyqt servlet javascript
在证券量化交易中，选择合适的编程语言至关重要，因为它直接影响到开发效率、运行速度和策略的灵活性。常用的编程语言有几个，它们各自有不同的优势和应用场景。以下是一些在量化交易中常用的编程语言：PythonPython是目前量化交易中最流行的编程语言之一，特别是在金融数据分析和模型开发中，广泛被使用。Python的流行主要有以下原因：数据处理能力：Python有非常强大的数据处理库，如pandas（数据
基于 Jenkins 的测试报告获取与处理并写入 Jira Wiki 的技术总结吾爱乐享 w w w w .f e n
title:基于Jenkins的测试报告获取与处理并写入JiraWiki的技术总结tags:-jenkins-pythoncategories:-jenkins在软件开发的持续集成与持续交付（CI/CD）流程里，及时、准确地获取并分析测试报告对保障软件质量至关重要。本文将详细阐述如何借助Jenkins搭建自动化系统，实现批量触发测试任务、获取测试报告关键信息并写入JiraWiki的全流程自动化，为
已解决python 的SyntaxError ：invalid syntax异常正确解决办法，亲测有效，嘿嘿嘿代码无疆 Python python 开发语言
文章目录问题分析报错原因解决思路解决方法示例1：拼写错误示例2：缺少符号示例3：错误的缩进示例4：错误的语句结构SyntaxError:invalidsyntax异常是Python中最常见的错误之一，它表示代码中存在语法错误。这种错误通常发生在Python解释器无法理解你的代码时，比如因为拼写错误、缺少符号、错误的缩进、不正确的语句结构等。问题分析当Python解释器报告SyntaxError:i
【Python篇】从零到精通：全面分析Scikit-Learn在机器学习中的绝妙应用半截诗 Python python 机器学习 scikit-learn 人工智能深度学习数据分析随机森林
文章目录从零到精通：全面揭秘Scikit-Learn在机器学习中的绝妙应用前言第一部分：深入了解Scikit-Learn的基础知识1.什么是Scikit-Learn？2.安装Scikit-Learn3.Scikit-Learn中的基本构件4.数据集的加载与探索5.数据预处理标准化数据6.构建和训练机器学习模型构建逻辑回归模型7.模型评估与验证混淆矩阵第二部分：深入理解Scikit-Learn的高级
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

爬虫入门task2：bf4、xpath、正则表达式

二、学习内容

2.1 Beautiful Soup库入门

2.1.1 Beautiful Soup库的基本元素

1）标签，用soup.访问获得:

2）标签的名字:每个都有自己的名字，通过soup..name获取，字符串类型

3)标签的属性,一个可以有0或多个属性，字典类型,soup..attrs

4)Attributes:标签内非属性字符串,格式：soup..string, NavigableString可以跨越多个层次

5）NavigableString:标签内字符串的注释部分，Comment是一种特殊类型(有-->)

6) .prettify()为HTML文本<>及其内容增加更加’\n’,有层次感的输出

.prettify()可用于标签，方法：.prettify()

7)bs4库将任何HTML输入都变成utf‐8编码

Python 3.x默认支持编码是utf‐8,解析无障碍

2.1.2 基于bs4库的HTML内容遍历方法

标签树的下行遍历

标签树的上行遍历

标签树的平行遍历

2.1.3 基于bs4库的HTML内容的查找方法

2.1.4 实战：中国大学排名定向爬取

1. 从网络上获取大学排名网页内容

2. 提取网页内容中信息到合适的数据结构（二维数组）

2.2 学习xpath

2.2.1 学习目标：

2.2.2 Xpath常用的路径表达式：

2.2.3 使用lxml解析

2.2.4 实战：爬取丁香园-用户名和回复内容

1. 获取url的html

2. lxml解析html

3. 利用Xpath表达式获取user和content（完成xpath的语句）

4. 保存爬取的内容

2.3 学习正则表达式 re

2.3.1 为什么使用正则表达式？

使用正则表达式的优势是什么？ 简洁

正则表达式在文本处理中十分常用：

2.3.2 正则表达式语法

2.3.3 正则表达式re库的使用

re库的主要功能函数：

re库的另一种等价用法（编译）

re 库的贪婪匹配和最小匹配

2.3.4 实战：淘宝商品比价定向爬虫

1. 提交商品搜索请求，循环获取页面

2. 对于每个页面，提取商品名称和价格信息（完成正则表达式语句）

3. 将信息输出到屏幕上

你可能感兴趣的:(python,python)

`1）标签，用soup.访问获得:`

`2）标签的名字:每个都有自己的名字，通过soup..name获取，字符串类型`

`3)标签的属性,一个可以有0或多个属性，字典类型,soup..attrs`

`4)Attributes:标签内非属性字符串,格式：soup..string, NavigableString可以跨越多个层次`

`5）NavigableString:标签内字符串的注释部分，Comment是一种特殊类型(有-->)`

使用正则表达式的优势是什么？简洁