陪伴is最长情的告白

python学习——xpath

回顾

5种反爬机制
- robots.txt：反爬机制，防君子不防小人
- UA检测：UA伪装
- 数据加密
- 图片懒加载
- 代理ip
requests模块爬取流程：
- 指定url
- 发起请求
- 获取页面数据
- 数据解析
- 持久化存储
bs4解析：
- 环境安装：bs4、lxml解析器
- 实例化bs对象，将页面源码数据加载到该对象中
- 定位标签
  - find('a',class_='xxx')
  - findall()
  - select()
    - 大于号，一个层级
    - 空格，多个层级
- 将标签中的文本内容获取
  - string 返回标签下文本内容
  - text 返回标签下所有字标签问本内容
  - get_text()
  - 获取属性
    - a['href']

xpath使用（【重点】xpath表达式）

环境安装：pip install lxml
解析原理：
- 获取页面源码数据
- 实例化一个etree的对象，并且将页码源数据加载到该对象中
- 调用该对象的xpath方法进行制定标签的定位
- 【注意】xpath函数必须结合着xpath表达式进行标签定位和内容捕获
将html文档或xml文档转换成一个etree对象，然后调用对象中的方法查找指定的节点
- 本地文件：tree = etree.parse(文件名）
```
   tree.xpath('xpath表达式')
```
- 网络数据：tree = etree.HTML(网页内容字符串)
```
   tree.xpath('xpath表达式')
```

xpath表达式

/ 层级之间的关系
- / 相当于bs4中select中的>
- // 相当于bs4-select中的空格
举例：
- /html/head/title 从根目录开始找，html下的 head标签下的 title标签
- //head/title 先找到当前源码中所有的head标签，在找到head标签下的title标签
- //title 找到所有title标签
- 属性定位：
  - //div[@class='song'] 定位所有class属性值为song的div标签；[]中必须跟@符号,属性名称前必须有@【语法结构】,返回的是列表
- 层级&索引定位：
  - //div[@class='tang']/ul/li[2]/a 定位所有class属性值为tong的div直系标签 ul标签下的第二个li标签下的直系字标签 a标签；
- 逻辑运算：
  - //a[@href='' and @class='du'] 定位所有href属性值为空且class属性值为du的所有a标签
- 模糊匹配：
  - //div[contain(@class,'ng')] 定位class属性值包含ng的所有div标签
  - //div[start-with(@class,'ta)] 定位class属性值以ta开头的所有div标签
- 取文本
  - 表示获取某个标签下的文本内容
  - 表示获取某个标签下的文本内容和所有子标签下的文本内容
  - //div[@class='song']/p[1]/text() 获取class属性值为song的所有div标签下的第一个p字标签包含的文本
  - //div[@class='tang]//text() 获取class属性值为tang的所有div标签下的所有文本，及其字标签下的所有文本，返回的是列表，列表里有多个列表元素
- 取属性
  - //div[@class='tang']//li[2]/a/@href 返回属性对应的属性值

案例：获取58二手房相关房源信息

In [1]:

import requests
from lxml import etree url = 'https://bj.58.com/beijingzhoubian/ershoufang/?PGTID=0d30000c-0000-1175-8e33-a6e941f8aff5&ClickID=1' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER' } # 获取源码数据 page_text = requests.get(url=url,headers=headers).text # 实例化etree对象 tree = etree.HTML(page_text) # 调用xpath方法,后去li标签列表 li_list = tree.xpath('//ul[@class="house-list-wrap"]/li') fp = open('58.csv','w',encoding='utf-8') #遍历列表 for li in li_list: # .开头的意思：进行局部页面解析;./开头表示从li标签开始解析 title = li.xpath('./div[2]/h2/a/text()')[0] price = li.xpath('./div[3]//text()') #将价格的三个列表拼接为字符串 price = ''.join(price) fp.write(title+':'+price+'\n') fp.close() print('over')

over

案例：获取图片

In [27]:

import requests
from lxml import etree import os import urllib url = 'http://pic.netbian.com/4kmeinv/' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER' } response = requests.get(url=url,headers=headers) #response.encoding = 'utf-8' if not os.path.exists('./imgs'): os.mkdir('./imgs') page_text = response.text tree = etree.HTML(page_text) li_list = tree.xpath('//dic[@class="slist"]/ul/li') # //dic[@class="slist"]//li for li in li_list: img_name = li.xpath('./a/b/text()')[0] # 处理中文乱码 img_name = img_name.encode('iso-8859-1').decode('gbk') img_url = 'http://pic.netbian.com' + li.xpath('./a/img/@src')[0] img_path = './imgs/' + img_name + '.jpg' urllib.request.urlretrieve(url=img_url,filename=img_path) print(img_path,'下载成功')

案例：煎蛋网中图片数据：http://jandan.net/ooxx

第三种反爬机制：数据加密

In [6]:

import requests
from lxml import etree import base64 import urllib headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER' } url = 'http://jandan.net/ooxx' page_text = requests.get(url=url,headers=headers).text tree = etree.HTML(page_text) img_hash_list = tree.xpath('//span[@class="img-hash"]/text()') for img_hash in img_hash_list: img_url = 'http:' + base64.b64decode(img_hash).decode() img_name = img_url.split('/')[-1] urllib.request.urlretrieve(url=img_url,filename=img_name)

爬取站长素材中的简历模板

In [12]:

import requests
from lxml import etree import random headers = { 'Connection':'close',# 当请求成功后，马上断开该次请求（及时释放请求池中的资源）） 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER' } url = 'http://sc.chinaz.com/jianli/free-%d.html' for page in range(1,4): if page == 1: new_url = 'http://sc.chinaz.com/jianli/free.html' else: new_url = format(url%page) response = requests.get(url=new_url,headers=headers) response.encoding = 'utf-8' page_text = response.text tree = etree.HTML(page_text) div_list = tree.xpath('//div[@id="container"]/div') for div in div_list: detail_url = div.xpath('./a/@href')[0] name = div.xpath('./a/img/@alt')[0] detail_page = requests.get(url=detail_url,headers=headers).text tree = etree.HTML(detail_page) download_list = tree.xpath('//div[@class="clearfix mt20 downlist"]/ul/li/a/@href') download_url = random.choice(download_list) data = requests.get(url=download_url,headers=headers).content file_name = name + '.rar' with open(file_name,'wb') as fp: fp.write(data) print(file_name,'下载成功')

机械电子工程师简历模板.rar 下载成功
设计师英文简历模板下载.rar 下载成功
化妆师个人简历范文.rar 下载成功

---------------------------------------------------------------------------
OSError                                   Traceback (most recent call last)
E:\Anaconda3\lib\socket.py in readinto(self, b)
 588 try: --> 589 return self._sock.recv_into(b)  590 except timeout: OSError: [WinError 10051] 向一个无法连接的网络尝试了一个套接字操作。 During handling of the above exception, another exception occurred: KeyboardInterrupt Traceback (most recent call last)  in   26 download_list = tree.xpath('//div[@class="clearfix mt20 downlist"]/ul/li/a/@href')  27 download_url = random.choice(download_list) ---> 28 data = requests.get(url=download_url,headers=headers).content  29 file_name = name + '.rar'  30 with open(file_name,'wb') as fp: E:\Anaconda3\lib\site-packages\requests\api.py in get(url, params, **kwargs)  73  74 kwargs.setdefault('allow_redirects', True) ---> 75 return request('get', url, params=params, **kwargs)  76  77 E:\Anaconda3\lib\site-packages\requests\api.py in request(method, url, **kwargs)  58 # cases, and look like a memory leak in others.  59 with sessions.Session() as session: ---> 60 return session.request(method=method, url=url, **kwargs)  61  62 E:\Anaconda3\lib\site-packages\requests\sessions.py in request(self, method, url, params, data, headers, cookies, files, auth, timeout, allow_redirects, proxies, hooks, stream, verify, cert, json)  531 }  532 send_kwargs.update(settings) --> 533 resp = self.send(prep, **send_kwargs)  534  535 return resp E:\Anaconda3\lib\site-packages\requests\sessions.py in send(self, request, **kwargs)  684  685 if not stream: --> 686 r.content  687  688 return r E:\Anaconda3\lib\site-packages\requests\models.py in content(self)  826 self._content = None  827 else: --> 828 self._content = b''.join(self.iter_content(CONTENT_CHUNK_SIZE)) or b''  829  830 self._content_consumed = True E:\Anaconda3\lib\site-packages\requests\models.py in generate()  748 if hasattr(self.raw, 'stream'):  749 try: --> 750 for chunk in self.raw.stream(chunk_size, decode_content=True):  751 yield chunk  752 except ProtocolError as e: E:\Anaconda3\lib\site-packages\urllib3\response.py in stream(self, amt, decode_content)  492 else:  493 while not is_fp_closed(self._fp): --> 494 data = self.read(amt=amt, decode_content=decode_content)  495  496 if data: E:\Anaconda3\lib\site-packages\urllib3\response.py in read(self, amt, decode_content, cache_content)  440 else:  441 cache_content = False --> 442 data = self._fp.read(amt)  443 if amt != 0 and not data: # Platform-specific: Buggy versions of Python.  444 # Close the connection when no data is returned E:\Anaconda3\lib\http\client.py in read(self, amt)  445 # Amount is given, implement using readinto  446 b = bytearray(amt) --> 447 n = self.readinto(b)  448 return memoryview(b)[:n].tobytes()  449 else: E:\Anaconda3\lib\http\client.py in readinto(self, b)  489 # connection, and the user is reading more bytes than will be provided  490 # (for example, reading in 1k chunks) --> 491 n = self.fp.readinto(b)  492 if not n and b:  493 # Ideally, we would raise IncompleteRead if the content-length E:\Anaconda3\lib\socket.py in readinto(self, b)  587 while True:  588 try: --> 589 return self._sock.recv_into(b)  590 except timeout:  591 self._timeout_occurred = True KeyboardInterrupt:

【重点】

问题：往往在进行大量请求发送的时候，经常会报出这样一个错误：HTTPConnectionPool（host:XX）Max retries exceeded with url.
原因：
- 1.每次数据传输前客户端要和服务器简历TCP连接，为节省传输消耗，默认为keep-alive,即连接一次，传输多次，然而如果连接迟迟不断开的话，连接池满后则无法产生新的连接对象，导致请求无法发送。
- 2.ip被封
- 3.请求频率太频繁
解决：如果下列解决未生效，则可以尝试再次执行程序（因为第一次运行Connection可能不生效）
- 1.设置请求头中的Connection的值为close，表示每次请求成功后断开连接
- 2.更换请求ip（使用非常简单，之间直接在get/post请求中加个参数）
- 3.每次请求之间使用sleep进行等待间隔【不推荐，影响效率】

解析所有城市名称 https://www.aqistudy.cn/historydata/

In [16]:

import requests
from lxml import etree import random headers = { 'Connection':'close',# 当请求成功后，马上断开该次请求（及时释放请求池中的资源）） 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER' } url = 'https://www.aqistudy.cn/historydata/' page_text = requests.get(url=url,headers=headers).text tree = etree.HTML(page_text) li_list = tree.xpath('//div[@class="bottom"]/ul/li | //div[@class="bottom"]/ul/div[2]/li') for li in li_list: city_name = li.xpath('./a/text()')[0] print(city_name)

北京
上海
广州
深圳
杭州
天津
成都
南京
西安
武汉
阿坝州
安康
阿克苏地区
阿里地区
阿拉善盟
阿勒泰地区
安庆
安顺
鞍山
克孜勒苏州
安阳
蚌埠
白城
保定
北海
宝鸡
北京
毕节
博州
白山
百色
保山
白沙
包头
保亭
本溪
巴彦淖尔
白银
巴中
滨州
亳州
长春
昌都
常德
成都
承德
赤峰
昌吉州
五家渠
昌江
澄迈
重庆
长沙
常熟
楚雄州
朝阳
沧州
长治
常州
潮州
郴州
池州
崇左
滁州
定安
丹东
东方
东莞
德宏州
大理州
大连
大庆
大同
定西
大兴安岭地区
德阳
东营
黔南州
达州
德州
儋州
鄂尔多斯
恩施州
鄂州
防城港
佛山
抚顺
阜新
阜阳
富阳
抚州
福州
广安
贵港
桂林
果洛州
甘南州
固原
广元
贵阳
甘孜州
赣州
广州
淮安
海北州
鹤壁
淮北
河池
海东地区
邯郸
哈尔滨
合肥
鹤岗
黄冈
黑河
红河州
怀化
呼和浩特
海口
呼伦贝尔
葫芦岛
哈密地区
海门
海南州
淮南
黄南州
衡水
黄山
黄石
和田地区
海西州
河源
衡阳
汉中
杭州
菏泽
贺州
湖州
惠州
吉安
金昌
晋城
景德镇
金华
西双版纳州
九江
吉林
即墨
江门
荆门
佳木斯
济南
济宁
胶南
酒泉
句容
湘西州
金坛
鸡西
嘉兴
江阴
揭阳
济源
嘉峪关
胶州
焦作
锦州
晋中
荆州
库尔勒
开封
黔东南州
克拉玛依
昆明
喀什地区
昆山
临安
六安
来宾
聊城
临沧
娄底
乐东
廊坊
临汾
临高
漯河
丽江
吕梁
陇南
六盘水
拉萨
乐山
丽水
凉山州
陵水
莱芜
莱西
临夏州
溧阳
辽阳
辽源
临沂
龙岩
洛阳
连云港
莱州
兰州
林芝
柳州
泸州
马鞍山
牡丹江
茂名
眉山
绵阳
梅州
宁波
南昌
南充
宁德
内江
南京
怒江州
南宁
南平
那曲地区
南通
南阳
平度
平顶山
普洱
盘锦
蓬莱
平凉
莆田
萍乡
濮阳
攀枝花
青岛
琼海
秦皇岛
曲靖
齐齐哈尔
七台河
黔西南州
清远
庆阳
钦州
衢州
泉州
琼中
荣成
日喀则
乳山
日照
韶关
寿光
上海
绥化
石河子
石家庄
商洛
三明
三门峡
山南
遂宁
四平
商丘
宿迁
上饶
汕头
汕尾
绍兴
三亚
邵阳
沈阳
十堰
松原
双鸭山
深圳
朔州
宿州
随州
苏州
石嘴山
泰安
塔城地区
太仓
铜川
屯昌
通化
天津
铁岭
通辽
铜陵
吐鲁番地区
铜仁地区
唐山
天水
太原
台州
泰州
文昌
文登
潍坊
瓦房店
威海
乌海
芜湖
武汉
吴江
乌兰察布
乌鲁木齐
渭南
万宁
文山州
武威
无锡
温州
吴忠
梧州
五指山
西安
兴安盟
许昌
宣城
襄阳
孝感
迪庆州
锡林郭勒盟
厦门
西宁
咸宁
湘潭
邢台
新乡
咸阳
新余
信阳
忻州
徐州
雅安
延安
延边州
宜宾
盐城
宜昌
宜春
银川
运城
伊春
云浮
阳江
营口
榆林
玉林
伊犁哈萨克州
阳泉
玉树州
烟台
鹰潭
义乌
宜兴
玉溪
益阳
岳阳
扬州
永州
淄博
自贡
珠海
湛江
镇江
诸暨
张家港
张家界
张家口
周口
驻马店
章丘
肇庆
中山
舟山
昭通
中卫
张掖
招远
资阳
遵义
枣庄
漳州
郑州
株洲

反爬机制：图片懒加载

src属性下有两种图片地址：src/src2，当图片出现在可视化窗口中时出现src，为图片真正地址；当图片不在可视化范围中时图片url为src2；而src2为错误地址，所以当使用爬虫时，出现的是错误的src2地址，所以爬取不到图片。

设置请求的代理IP

使用方法：
- 直接在get/post请求中加入proxies={'类型':'ip'}
- 代理ip的类型必须和请求url的协议头保持一致
提供代理ip的网站：
- www.goubanjia.com
- 快代理
- 西祠代理
每种代理ip分两种类型：http/https
代理池 [dic1,dic2,dic3...] proxies=

In [24]:

import requests

url = 'https://www.baidu.com/s?wd=ip'

page_text = requests.get(url=url,headers=headers,proxies={'https':'36.111.140.6:8080'}).text with open('./ip.html','w',encoding='utf-8') as fp: fp.write(page_text)

Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML代码，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML中提取出所需的数据，如文
python学习第七节：正则表达式一只会敲代码的小灰灰 python学习 python 学习正则表达式
python学习第七节：正则表达式正则表达式基本上在所有开发语言中都会使用到，在python中尤为重要。当我们使用python开发爬虫程序将目标网页扒下来之后我们要从网页中解析出我们想要的信息，这个时候就需要正则表达式去进行匹配。importrere的常量re模块中有9个常量，常量的值都是int类型！（知道就行）修饰符描述re.l使匹配对大小写不敏感re.L做本地化识别(locale-aware)
Python学习指南——1.常用库说明 r135792uuuu python-机器学习 python
说在前面在开发之前，要去python库官网上查看是否有帮助的库。结合百度和pypi.org网站直接寻找需要的库。库安装方法：1pip安装2.文件安装：UCI页面需要https://www.lfd.uci.edu/~gohlke/pythonlibs或者conda提供的那些网站也行。文件安装：下载UCI、whl文件之后，又要使用pipinstall文件来安装放到lib文件夹vscode特殊：通常把要
Python学习笔记-Day05 snape00
Python学习笔记Day_05-构造程序逻辑作者的话学完前面的几个章节后，我觉得有必要在这里带大家做一些练习来巩固之前所学的知识，虽然迄今为止我们学习的内容只是Python的冰山一角，但是这些内容已经足够我们来构建程序中的逻辑。对于编程语言的初学者来说，在学习了Python的核心语言元素（变量、类型、运算符、表达式、分支结构、循环结构等）之后，必须做的一件事情就是尝试用所学知识去解决现实中的问题
BeautifulSoup 和 Xpath 的性能比较木语沉心
一些说明:其实这篇文章并不是为了比较出结论，因为结论是显而易见的.性能比较Xpath必然是要比BeautifulSoup在时间和空间上都要性能更好一些。其中理由有很多，其中一个很明显的是BeautifulSoup在构建一个对象的时候需要传入一个参数以指定解析器，而在它支持的众多的解析器中，lxml是性能最佳的，那么BeautifulSoup对象的各种方法可以理解为是对lxml的封装，换句话说，Be
小猿圈python学习-内置函数小猿圈IT教育
Python的len为什么你可以直接用？肯定是解释器启动时就定义好了内置参数详解https://docs.python.org/3/library/functions.html?highlight=built#ascii每个函数的作用我都帮你标好了abs#求绝对值all#ReturnTrueifbool(x)isTrueforallvaluesxintheiterable.Iftheiterabl
python学习笔记第5节-类和函数梁鋐俐
我们在前面的学习中学会了一个叫type（）的函数，用它来判断变量的类型，变量和它当下存储的数据绑定在一起。例如a=[4,5,6,7]print(type(a)）输出a=range（10，20，2）print（type（a））输出a=Trueprint（type（a））输出a={‘a54’：56}print（type（a））输出a={‘a54’，56}print（type（a））输出a=‘tyuio
Python学习笔记--列表、字典、集合、元组小黄酥 Python python 学习笔记
Python学习笔记43-列表#列表主要是用来存储多个数据.列表是有序的集合list_1=[]#创建一个空的列表list_2=[12,34,56,True,'abc']#创建一个列表#列表的访问，通过下标访问列表中的元素，下标默认从0开始，0表示第一个元素，-1表示最后一个元素list_3=[1,2,3,False,True,'abc']print(list_3[0])#1print(list_3
「python学习——小白篇」python函数中不定长参数的写法小天真_5eeb
那么作为新手该如何上手这门语言？一切不敲代码的学编程手段都是扯淡先来给大家来一个福利吧！python语法入门视频免费共享出来加q-u-n--227+435+450获取
python学习——conda install Python库时报PackagesNotFoundError:的错误的解决方案，很实用 _Oak_Tree_ python基础 python
安装完成Anaconda之后，我们可以在AnacondaPrompt交互式窗口中通过“condainstall库名称”实现Python库的安装，但是有时候在运用该命令进行安装时会提示PackagesNotFoundError:Thefollowingpackagesarenotavailablefromcurrentchannels:的错误，现在以Pydap库的安装为例，提供在Windows系统下
Python学习：执行系统shell命令 chaos-god python python shell
1.问题python可以作为shell替代，代码比较直观，易于维护。python支持调用外部shell命令。不过，这个问题没有看上去简单，要完美的解决此问题，比较复杂，就连标准库也不见得处理得很好。2.方案2.1.方案一首先最简单的方法就是调用system方法，直接执行系统shell命令，代码如下：importosos.system('ls-l')system主要问题，就是无法获取shell命令的
25道Python练手题（附详细答案），赶紧收藏！Python入门|Python学习豆本-豆豆奶 python 学习数据挖掘开发语言爬虫人工智能
题目1：水仙花数水仙花数（Narcissisticnumber）也被称为超完全数字不变数（pluperfectdigitalinvariant,PPDI）、自恋数、自幂数、阿姆斯壮数或阿姆斯特朗数（Armstrongnumber）水仙花数是指一个3位数，它的每个位上的数字的3次幂之和等于它本身。例如：1^3+5^3+3^3=153。foriinrange(100,1000):i1=i//100#取
JDom解析xml文件的java.lang.NoClassDefFoundError问题轻口味常见问题 xml exception encoding class list thread
java代码为：importjava.io.IOException;importjava.util.List;importorg.jdom.Document;importorg.jdom.Element;importorg.jdom.JDOMException;importorg.jdom.input.SAXBuilder;importorg.jdom.xpath.XPath;publicclas
第五章 SqlSession 的创建过程 flying jiang MyBatis 3源码深度解析 java tomcat mybatis
在MyBatis3中，SqlSession的创建过程涉及到对MyBatis配置文件的解析，这通常是通过XPath（XMLPathLanguage）来完成的。XPath是一种在XML文档中查找信息的语言，MyBatis使用它来解析配置文件（如mybatis-config.xml）中的元素和属性。以下是SqlSession创建过程中XPath使用的简要概述：读取配置文件：MyBatis首先需要读取其配
python学习笔记08_赋值运算、逻辑运算、表达式、短路原则 flamingocc
python笔记081.赋值运算符num+=1等价于num=num+1num-=1等价于num=num-1num*=1等价于num=num*1num/=1等价于num=num/1num//2等价于num=num//2num%=2等价于num/2的余数num**2等价于num=num*num2.逻辑运算符逻辑运算符包含：not、and、or2.1and的用法：(且、并且)写法：条件1and条件2eg
Python学习笔记（三）：列表的定义、访问及修改 RANDY_Sw Python入门 python
今天学习了有关列表的定义、访问及修改的方法，在此整理一下。列表的定义与访问name_list=['zhangsan','lisi','wangwu']#创建一个列表name_list[0]='xiaobai'#修改列表中的单个元素print(name_list)#遍历的方式打印列表1foriteminname_list:print(item)#遍历的方式打印列表2i=0foriinrange(le
【语句】如何将列表拼接成字符串并截取20个字符后面的青龙摄影 javascript html 前端
base_info="".join(tree.xpath('/html/head/script[4]/text()'))[20:]以下是对这个语句的详细讲解：tree.xpath('/html/head/script[4]/text()')部分：tree：通常是一个已经构建好的HTML文档树对象，它是通过相关的HTML解析库（比如lxml）对HTML文档进行解析后得到的。/html/head/sc
基础爬虫 requests selenium aiohttp BeautifulSoup pyQuery Xpath&CssSelector 肯定是疯了
http://47.101.52.166/blog/back/python/%E7%88%AC%E8%99%AB.html请求requestsseleniumaiohttp*处理BeautifulSouppyQueryXpath&CssSelector*存储pymysqlPyMongoredisaiomysql*Scrapy
Python学习2：一定要注意用pycharm创建Python package和Pythonfile而不是普通路径和文件土小帽软件测试 Python学习
2019年5月7日23:30:02今天久违地再续上断了好久差点又半途而废的Python基础，结果跟着写继承，明明引入了父类，可还是运行报错，下面父类是Person，子类是Student，模块文件名小写。person文件：classPerson(object):def__init__(self,name,age):self.name=nameself.age=agedefrun(self):prin
Linux中检查网络问题的常用命令程序员喵哥 Linux 网络 linux php 服务器运维
更多Python学习内容：ipengtao.com在Linux系统中，网络问题是常见的挑战之一。无论是服务器管理员还是普通用户，都可能遇到各种网络故障，如连接问题、DNS解析问题、网络延迟等。为了快速诊断和解决这些问题，掌握一些常用的网络故障排查命令是至关重要的。本文将介绍一些在Linux系统中常用的网络故障排查命令，并提供详细的示例代码，方便更好地理解和应用这些命令。ping命令ping命令是最
python web自动化 gaoguide2015 自动化脚本 web html
1.python爬虫之模拟登陆csdn(登录、cookie)http://blog.csdn.net/yanggd1987/article/details/52127436?locationNum=32、xml解析：Python网页解析：BeautifulSoup与lxml.html方式对比（xpath）lxml库速度快，功能强大，推荐。http://blog.sina.com.cn/s/blog
python安全渗透笔记红云谈安全 python编程学习 python 安全
Python学习python常见错误UnicodeDecodeError:‘gbk’codeccan’tdecodebyte0x8cinposition22:illegalmultibytesequence//打开的文件未编码encoding='UTF-8'expectedanindentedblock未缩进，ifforcontinue又进入一次新的循环%将其他变量置入字符串特定位置以生成新字符串
Pyhton抓取BOSS直聘职位描述和数据清洗，很简单没有那么难嗨学编程
一、抓取详细的职位描述信息详情页分析Python学习资料或者需要代码、视频加Python学习群：960410445在详情页中，比较重要的就是职位描述和工作地址这两个由于在页面代码中岗位职责和任职要求是在一个div中的，所以在抓的时候就不太好分，后续需要把这个连体婴儿，分开分析。爬虫用到的库使用的库有：requestsBeautifulSoup4pymongoPython代码代码easy，初学者都能
【Python报错】已解决FileNotFoundError: [Errno 2] No such file or directory: PosixPath(‘xxx‘) 云天徽上 python chrome numpy pandas 机器学习
解决Python报错：FileNotFoundError:[Errno2]Nosuchfileordirectory:PosixPath(‘xxx’)在Python编程中，处理文件和目录是一项常见的任务。然而，当你尝试打开一个不存在的文件时，可能会遇到FileNotFoundError:[Errno2]Nosuchfileordirectory:PosixPath('xxx')的错误。本文将介绍这
Python基础（十二）：字典的详细讲解 m0_60707685 程序员 python 学习面试
感谢每一个认真阅读我文章的人，看着粉丝一路的上涨和关注，礼尚往来总是要有的：①2000多本Python电子书（主流和经典的书籍应该都有了）②Python标准库资料（最全中文版）③项目源码（四五十个有趣且经典的练手项目及源码）④Python基础入门、爬虫、web开发、大数据分析方面的视频（适合小白学习）⑤Python学习路线图（告别不入流的学习）网上学习资料一大堆，但如果学到的知识不成体系，遇到问题
Python基础（十五）：推导式的讲解_python基础(十五) 推导式的讲解 m0_60707685 程序员 python 学习面试
（1）Python所有方向的学习路线（新版）这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。最近我才对这些路线做了一下新的更新，知识体系更全面了。（2）Python学习视频包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门
python爬虫面试真题及答案_Python面试题爬虫篇(附答案) 朴少 python爬虫面试真题及答案
0|1第一部分必答题注意：第31题1分，其他题均每题3分。1，了解哪些基于爬虫相关的模块？-网络请求：urllib，requests，aiohttp-数据解析：re，xpath，bs4，pyquery-selenium-js逆向：pyexcJs2，常见的数据解析方式？-re、lxml、bs43，列举在爬虫过程中遇到的哪些比较难的反爬机制？-动态加载的数据-动态变化的请求参数-js加密-代理-coo
socket网络编程python_python学习-socket网络编程张文岳
作业：多用户在线的FTP程序要求：用户加密认证允许同时多用户登录每个用户有自己的家目录，且只能访问自己的家目录对用户进行磁盘配额，每个用户的可用空间不同允许用户在ftpserver上随意切换目录允许用户查看当前目录下文件允许上传和下载文件，保证文件一致性文件传输过程中显示进度条附加功能：支持文件的断点续传(仅下载)README###功能实现作业：开发一个支持多用户在线的FTP程序要求：用户加密认证
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

python学习——xpath

回顾

xpath使用（【重点】xpath表达式）

xpath表达式

案例：获取58二手房相关房源信息

案例：获取图片

案例：煎蛋网中图片数据：http://jandan.net/ooxx

爬取站长素材中的简历模板

解析所有城市名称 https://www.aqistudy.cn/historydata/

反爬机制：图片懒加载

设置请求的代理IP

你可能感兴趣的:(python学习——xpath)