Kosmoo

python中用xpath解析网页的基本方法

1. 背景

目前爬虫解析网页的技术有：Json, 正则表达式，BeautifulSoup，PyQuery，XPath
XPath 教程官方文档：

http://www.w3school.com.cn/xpath/index.asp

2. XPath简述

2.1. 什么是XPath？

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。

2.2. XPath 开发工具

1.开源的XPath表达式编辑工具: XMLQuire(XML格式文件可用)
2.Chrome插件 XPath Helper
3.Firefox插件 XPath Checker

2.3. XPath语法的解析库 —— lxml库

lxml 是一个HTML/XML的解析器，主要的功能是解析和提取 HTML/XML 数据，我们可以利用XPath语法，来快速的定位特定元素以及节点信息。
lxml和正则一样，也是用 C 实现的，是一款高性能的 Python HTML/XML 解析器。
lxml python 官方文档： http://lxml.de/index.html
安装lxml库：需要安装C语言库，可使用 pip 安装：pip install lxml （或通过wheel方式安装）

3. 什么是XML？

XML 指可扩展标记语言（EXtensible Markup Language）
XML 是一种标记语言，很类似 HTML
XML 的设计宗旨是传输数据，而非显示数据
XML 的标签需要我们自行定义。
XML 被设计为具有自我描述性。
XML 是 W3C 的推荐标准
XML 官方文档：http://www.w3school.com.cn/xml/index.asp

3.1. XML 和 HTML 的区别

数据格式	描述	设计目标
XML	Extensible Markup Language （可扩展标记语言）	被设计为传输和存储数据，其焦点是数据的内容。
HTML	HyperText Markup Language （超文本标记语言）	显示数据以及如何更好显示数据。
HTML DOM	Document Object Model for HTML (文档对象模型)	通过 HTML DOM，可以访问所有的 HTML 元素，连同它们所包含的文本和属性。可以对其中的内容进行修改和删除，同时也可以创建新的元素。

3.2. XML文档示例

可以在 http://www.w3school.com.cn/example/xmle_examples.asp 找到很多XML文档示例。



<bookstore> 

  <book category="cooking"> 
    <title lang="en">Everyday Italiantitle>  
    <author>Giada De Laurentiisauthor>  
    <year>2005year>  
    <price>30.00price> 
  book>  

  <book category="children"> 
    <title lang="en">Harry Pottertitle>  
    <author>J K. Rowlingauthor>  
    <year>2005year>  
    <price>29.99price> 
  book>  

  <book category="web"> 
    <title lang="en">XQuery Kick Starttitle>  
    <author>James McGovernauthor>  
    <author>Per Bothnerauthor>  
    <author>Kurt Cagleauthor>  
    <author>James Linnauthor>  
    <author>Vaidyanathan Nagarajanauthor>  
    <year>2003year>  
    <price>49.99price> 
  book> 

  <book category="web" cover="paperback"> 
    <title lang="en">Learning XMLtitle>  
    <author>Erik T. Rayauthor>  
    <year>2003year>  
    <price>39.95price> 
  book> 

bookstore>

3.3. HTML DOM 结构

HTML DOM 定义了访问和操作 HTML 文档的标准方法。DOM 将 HTML 文档表达为树结构。

3.4. XML的节点关系

3.4.1. 约定

3.4.2. 关系

父（Parent）：
- 每个元素以及属性都有一个父。
- 上图中book元素是 title，author（多个），year ， price 元素的父辈。
子（Children）：
- 元素节点可有零个、一个或多个孩子元素。
- 上图中，title，author，year，price元素都是 book元素的子：
兄弟（Sibling）：
- 上图中，title，author，year，price元素都是兄弟。
祖先（Ancestor）：
- 某节点的父辈、父辈的父辈，往上递推。
- 上图中，title元素的祖先是 book元素。
后代（Descendant）：
- 某节点的子，子的子，往后递推。
- 上图中，book元素的后代是title元素。

4. XPath基本语法

# http://blog.csdn.net/zheng12tian/article/details/40617303
# XPath 基础表达式：
/node         表示在xml文档的根目录查找结点名称为node的结点
./node        表示在当前结点下查找结点名称为node的结点
//node        表示在xml文档中递归查找结点名称为node的节点
//*       表示在xml文档中查询所有的结点，但是排除文本节点
//node()          表示在xml文档中查询所有结点，包含文本节点
//text()          表示在xml文档中递归查找所有的文本节点
//*/text()[contains(., 'test')]       表示在xml文档中递归查找所有结点，条件为该结点的文本节点包含"test"
//node[@id]       表示在xml文档中递归查找结点名称为node的结点，条件为该结点必须含有id属性
//node[id]        表示在xml文档中递归查找结点名称为node的结点，条件为该结点必须含有结点名称为id的结点
//nodes[node/id]          表示递归查找nodes结点，条件为nodes结点下必须有node结点，且node结点下必须有id结点
//nodes[@id]/node[id]         表示递归查找含有id属性的nodes结点下的node结点，条件为node结点下必须含有id结点
//nodes[@id]/node[0]          表示递归查找含有id属性的nodes结点下的第一个node结点
//nodes[@id]/node[last()]         表示递归查找含有id属性的nodes结点下的最后一个node结点
//nodes/node[position() < 4]          表示递归查找nodes结点下索引小于4的node结点
//nodes[@id]/node[position() < last()]        递归查找含有id属性的nodes结点下除最后一个结点外的node结点
/nodes/child::node()[name()='node']       表示查找nodes结点下结点名称为node的子结点
/nodes/child::node        等同于/nodes/node表示查找nodes下的node子结点
/nodes/node/attribute::id         等同于/nodes/node/@id表示查找nodes结点下的node结点的id属性
//nodes[@id='1001']/node[starts-with(@id, '1')]       表示查找id属性为1001的nodes结点下的id属性以1开头的node结点
//@*[ends-with(., '1')]       表示查找以1结尾所有属性
(//* | //@*)[substring(name(), 1, 5) = 'class']       查找所有结点名称或属性名称的1到5之间的字符等于'class'的结点
//node[@attr!='-2' and @attr!='2']        查找所有node节点，其attr属性不等于2和-2

# XPath 文档轴用途： 
self                选择当前节点
parent              选择当前节点的父节点
child               选择当前节点的所有子节点
attribute           选择当前节点的所有属性
ancestor            选择当前节点的所有祖先，包括父节点、父节点的父节点等等
ancestor-or-self    选择当前节点的祖先以及当前节点本身
descendant          选择当前节点的所有后代，包括子节点、子节点的子节点等等
descendant-or-self  选择当前节点的后代以及当前节点本身
preceding           选择整个文档中出现在当前节点前面的所有节点
preceding-sibling   选择文档中出现在当前节点前面的所有同胞节点（即与当前节点同级的节点）
following           选择整个文档中出现在当前节点后面的所有节点
following-sibling   选择文档中出现在当前节点后面的所有同胞节点（即与当前节点同级的节点）
namespace           选择当前节点的所有名称空间节点

5. 一些实际案例

5.1. 寻找页面通用地址，进行翻页

def parseResponse(self, response):
    pageUrl = response.xpath('//*[@id="pagn"]//a/@href').extract_first(default = '')
    # 去掉不必要的内容，以便达到更好的去重效果
    followUrl = re.sub(r'&qid=.+&spIA=.+', '', pageUrl, count=1)
    # numberRes = ['1', '2', '3', '95']
    numberRes = response.xpath('string(//*[@id="pagn"])').re(r'\d+')  # numberRes 重要，所以要确保正确得到总页数

    for page in range(1, int(numberRes [-1]) + 1):
        yield response.follow(
            # 按照page值构造其他页链接
            url = re.sub(r'page=\d+', f'page={page}', followUrl, count = 1),
            meta = {'dont_redirect': True},
            callback = self.parseNextPage,
            errback = self.error
        )

5.2. 结合re使用

# 获取搜索结果数
countRes = response.xpath('//*[@id="s-result-count"]/text()').re_first(r'[0-9,]+ of ([0-9,]+)', '0').replace(',', '')
count = int(countRes)
# count = 1699

5.3. 寻找相似性，利用starts-with用法全部提取

所有商品列表

# 全部以相同的字符result_开始
# 解决方法: 用starts-with(@属性名称, 属性相同的部分)

liRes = response.xpath('//li[starts-with(@id,"result_")]')

标题

title = listElem.xpath('.//a[@title]/@title').extract_first()

评分

avgStar = listElem.xpath('string(//*[@name=$val])', val = asin).extract_first(default='0')

评论数

totalReviews = listElem.xpath('//*[@name=$val]/following-sibling::a/text()', val = asin).extract_first(default='0')

价格

price = listElem.xpath('.//span[@aria-label]/@aria-label | .//span[contains(.,"$")]/text()').extract_first(default='0')

商标：brand，直接通过chrome工具解析出来

brand = listElem.xpath('string(div/div/div/div[2]/div[last()-1]/div[2])').extract_first(default='')

搜索结果序号

resultID = int(listElem.xpath('@id').re_first(r'result_(\d+)'))

图片链接

image_url = listElem.xpath('.//img/@src').extract_first()

卖家总数

listElem.xpath('.//*[contains(.,"offer")]//text()').extract()

# 获取搜索列表下，每个商品的唯一标识号，标题
liRes = response.xpath('//li[starts-with(@id,"result_")]')
if liRes:
    for listElem in liRes:
        # 商品唯一标识号
        # It returns None if no element was found
        asin = listElem.xpath('@data-asin').extract_first()
        # 标题
        title = listElem.xpath('.//a[@title]/@title').extract_first()
        # 评分
        avgStar = listElem.xpath('string(//*[@name=$val])', val = asin).extract_first(default='0')
        # 评论数
        totalReviews = listElem.xpath('//*[@name=$val]/following-sibling::a/text()', val = asin).extract_first(default='0')
        # 价格， contains(.,"$")中的.代表text
        price = listElem.xpath('.//span[@aria-label]/@aria-label | .//span[contains(.,"$")]/text()').extract_first(default='0')
        # 商标，chrome工具的结果是：//*[@id="result_1"]/div/div/div/div[2]/div[1]/div[2]/span[2]
        # 然后进行改造
        brand = listElem.xpath('string(div/div/div/div[2]/div[last()-1]/div[2])').extract_first(default='')
        # 搜索结果序号
        resultID = int(listElem.xpath('@id').re_first(r'result_(\d+)'))
        # 图片链接
        image_url = listElem.xpath('.//img/@src').extract_first()
        # 卖家总数
        sellerNum = 0
        for eachOfferText in listElem.xpath('.//*[contains(.,"offer")]//text()').extract():
            result = re.findall(r'(\d+)\s.*?offer', eachOfferText)
            if result:
                sellerNum = sum(int(num) for num in result)

5.4. 利用string(.)获取某个标签下连续的一句话

# 标签套标签，一句话分散在几个标签中，如何提取成一句完整的话？
# 解决方法: string(.)
from lxml import etree

html = '''

    我左青龙,
    
        右白虎,
        上朱雀,
            下玄武.
        
        老牛在当中,
    
    龙头在胸口.

'''

selector = etree.HTML(html)
data = selector.xpath('//div[@id="class3"]')[0]
allText = data.xpath('string(.)')  # 实际上是去除了div中间的其他标签
print(f"allText = {allText}")
textRes = allText.replace('\n', '').replace(' ', '')
print(f"textRes = {textRes}")

# 输出结果:
allText = 
    我左青龙,

        右白虎,
        上朱雀,
            下玄武.

        老牛在当中,

    龙头在胸口.

textRes = 我左青龙,右白虎,上朱雀,下玄武.老牛在当中,龙头在胸口.

5.5. 价格：文本模糊匹配，并利用上下文关系获取信息

# --- 价格 price1 : with deal  or  sale  or  price
# 发现价格的数据紧跟在这几个字串后面
priceInfoRes = response.xpath("//div[@id='price']//text()").extract()
priceInfoResLst = []
for priceInfo in priceInfoRes:
    priceInfoStripLower = priceInfo.strip().lower()
    if priceInfoStripLower != '':
        priceInfoResLst.append(priceInfoStripLower)
priceIdx = 0
# elemIdx = 0
for elemIdx in range(0, len(priceInfoResLst)):
    elem = priceInfoResLst[elemIdx].strip().lower()
    if (elem == 'sale:') or (elem == 'with deal:') or (elem == 'price:'):
        priceIdx = elemIdx + 1
        break
if (priceIdx != 0) and (priceIdx < len(priceInfoResLst)):
    price1 = priceInfoResLst[priceIdx].strip()
else:
    price1 = ''

if price1 != '':
    # 处理价格：price = $64.32'
    priceRe = re.search(r'([\d\.]+)', price1)
    priceFloat = float(priceRe.group(1)) if priceRe else 0.0
    detailParseResults['price1'] = priceFloat
else:
    detailParseResults['price1'] = 0.0

5.6. 模糊匹配，以及特征提取

item = {}
#--- 解析小品类信息category：
unicorn = response.xpath('string(//*[contains(.,"Best Sellers Rank")])').extract_first(default='')
rankResults = re.findall(r'#([0-9,]+)\s+in\s+(.+)[^\.#]\s', unicorn)

isHasRank = False
# 解析topRank和 topCategory信息
topRank = 0
topCategory = 'unknown'
if len(rankResults) > 0:
    # 说明是大品类信息
    if rankResults[0][1].find(' > ') == -1:
        topRank = int(rankResults[0][0].replace(',', '').strip())
        categoryLst = rankResults[0][1].split('>')
        topCategory = reCategory = ''
        if len(categoryLst) > 0:
            reCategory = re.search(r"(.*?)\(", categoryLst[-1])
            if not reCategory:
                reCategory = categoryLst[-1]
            else:
                reCategory = reCategory.group(1)
            topCategory = reCategory.strip()

    if isHasRank == True:
        startIndex = 1
    else:
        startIndex = 0
    item['topRank'] = topRank
    item['topCategory'] = topCategory

    smallCategoryIndex = 1
    for i in range(startIndex, len(rankResults)):
        item[f"rank{smallCategoryIndex}"] = int(rankResults[i][0].replace(',', '').strip())

        smallCategoryLst = rankResults[i][1].split('>')
        smallCategory = reSmallCategory = ''
        if len(smallCategoryLst) > 0:
            reSmallCategory = re.search(r"(.*?)\(", smallCategoryLst[-1])
            if not reSmallCategory:
                reSmallCategory = smallCategoryLst[-1]
            else:
                reSmallCategory = reSmallCategory.group(1)
            smallCategory = reSmallCategory.strip()
        item[f"category{smallCategoryIndex}"] = smallCategory
        smallCategoryIndex += 1

解析结果

5.7. 筛选属性的组合操作

# 属性的联合操作
price = response.xpath('//*[@id="priceblock_ourprice" or @id="priceblock_saleprice"]/text()').extract_first(default = '0')
title = response.xpath('string(//*[@id="productTitle" or contains(@class,"product-title")])').extract_first()

Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
第二十 python基础--语句九樱MOL
目录具体内容1：if语句的使用格式判断语句2：if-else的使用格式3：if-elif-else的使用格式4：if嵌套1：while循环的格式循环语句2：while循环嵌套3：for循环的格式一、判断语句在程序中如果某些条件满足，才能做某件事情，而不满足时不允许做，这就是所谓的判断1.1if语句的使用格式if要判断的条件:条件成立时，要做的事情案例:判断年纪，如果age大于18，输入成年age=
Python入门之Lesson2:Python基础语法小熊同学哦 Python入门课程 python 开发语言算法数据结构青少年编程
目录前言一.介绍1.变量和数据类型2.常见运算符3.输入输出4.条件语句5.循环结构二.练习三.总结前言欢迎来到《Python入门》系列博客的第二课。在上一课中，我们了解了Python的安装及运行环境的配置。在这一课中，我们将深入学习Python的基础语法，这是编写Python代码的根基。通过本节内容的学习，你将掌握变量、数据类型、运算符、输入输出、条件语句等Python编程的基础知识。一.介绍1
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
【Python基础】Python迭代器与生成器（两种强大工具）姑苏老陈 Python编程入门 python 开发语言 python迭代器与生成器
本文收录于《Python编程入门》专栏，从零基础开始，分享一些Python编程基础知识，欢迎关注，谢谢！文章目录一、前言二、迭代器2.1创建迭代器2.2自定义迭代器2.3处理大型文件三、生成器四、生成器表达式五、实际应用案例5.1数据库查询5.2网络数据流处理六、总结一、前言在Python中，迭代器与生成器是两种非常强大的工具，它们可以帮助我们有效地处理大量数据，特别是在需要逐个访问元素的情况下。
【Python爬虫】百度百科词条内容 PokiFighting 数据处理 python 爬虫开发语言
词条内容我这里随便选取了一个链接，用的是FBI的词条importurllib.requestimporturllib.parsefromlxmlimportetreedefquery(url):headers={'user-agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
10个高效的Python爬虫框架，你用过几个？进击的C语言 python
小型爬虫需求，requests库+bs4库就能解决；大型爬虫数据，尤其涉及异步抓取、内容管理及后续扩展等功能时，就需要用到爬虫框架了。下面介绍了10个爬虫框架，大家可以学习使用！1.Scrapyscrapy官网：https://scrapy.org/scrapy中文文档：https://www.osgeo.cn/scrapy/intro/oScrapy是一个为了爬取网站数据，提取结构性数据而编写的
一张图让你清晰认识Python（附基本语法总结）进击的C语言数据库服务器运维 python
一张图认识Python（附基本语法总结）一张图带你了解Python，更快入门，一张图认识Python（附基本语法总结）Python基础语法总结：1.Python标识符在Python里，标识符有字母、数字、下划线组成。在Python中，所有标识符可以包括英文、数字以及下划线(_)，但不能以数字开头。Python中的标识符是区分大小写的。以下划线开头的标识符是有特殊意义的。以单下划线开头_foo的代表
python爬虫(5)之CSDN It is a deal️ 小项目 python json 爬虫
CSDN的爬虫相对于doubatop250更加简单，一般只需要title和url即可下面是相关的代码：#爬虫之csdn#分析urlhttps://www.csdn.net/api/articles?type=more&category=python&shown_offset=0（firstpage）#https://www.csdn.net/api/articles?type=more&categ
Python——爬虫星和月 python
当编写一个Python爬虫时，你可以使用BeautifulSoup库来解析网页内容，使用requests库来获取网页的HTML代码。下面是一个简单的示例，演示了如何获取并解析网页内容：importrequestsfrombs4importBeautifulSoup#发送HTTP请求获取网页内容url='https://www.example.com'#要爬取的网页的URLresponse=requ
面试 Python 基础八股文十问十答第一期程序员小白条面试八股文系列面试 python 职场和发展八股文项目实战 Python爬虫
面试Python基础八股文十问十答第一期作者：程序员小白条，个人博客相信看了本文后，对你的面试是有一定帮助的！关注专栏后就能收到持续更新！⭐点赞⭐收藏⭐不迷路！⭐1）Python的基本数据类型Python的基本数据类型包括：整数（int）：表示整数值，如1、2、-3等。浮点数（float）：表示带有小数点的数值，如1.5、3.14等。字符串（str）：表示文本数据，用单引号（‘）或双引号（"）括起
基于Python爬虫四川成都二手房数据可视化系统设计与实现(Django框架) 研究背景与意义、国内外研究现状_django商品房数据分析论文(1) 莫莫Android开发信息可视化 python 爬虫
3.国外研究现状在国外，二手房数据可视化也是一个热门的研究领域。以美国为例，有很多公司和网站提供了专门的二手房数据可视化工具，如Zillow、Redfin等。这些工具通常提供房价趋势图、房价分布图、房源信息等功能，帮助用户更好地了解房市动态。综上所述，虽然国内外在二手房数据可视化方面已经有了一些研究成果，但对于四川成都地区的二手房市场还没有相关的研究和可视化系统。因此，本研究旨在设计并实现一个基于
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
python requests下载网页_python爬虫 requests-html的使用 weixin_39600319 python requests下载网页
一介绍Python上有一个非常著名的HTTP库——requests，相信大家都听说过，用过的人都说非常爽！现在requests库的作者又发布了一个新库，叫做requests-html，看名字也能猜出来，这是一个解析HTML的库，具备requests的功能以外，还新增了一些更加强大的功能，用起来比requests更爽！接下来我们来介绍一下它吧。#官网解释'''Thislibraryintendsto
解决“Python中 pip不是内部或外部命令，也不是可运行的程序或批处理文件”的方法。 གཡུ ། Python 常规问题 python pip 机器学习自然语言处理
解决‘Python中pip不是内部或外部命令，也不是可运行的程序或批处理文件。’的方法1、pip是什么？pip是一个以Python计算机程序语言写成的软件包管理系统，他可以安装和管理软件包，另外不少的软件包也可以在“Python软件包索引”中找到。它可以通过cmd（命令提示符）非常方便地下载和管理Python第三方库，比如，Python爬虫中常见的requests库等。但是我们在使用cmd运行pi
Python基础和变量使用不屈的铝合金边学边记-Python python
1.基础了解1.1运行方式Python有多种运行方式，以下是几种常见的执行Python代码的方法：交互式解释器：打开终端或命令提示符，输入python或python3（取决于你的系统配置），即可进入Python交互模式。你可以直接输入代码并立即看到结果。脚本文件执行：将Python代码保存到一个.py扩展名的文件中，例如hello.py。然后在终端或命令行中，通过pythonhello.py或py
python爬虫的urlib知识梳理卑微小鹿爬虫
1:urlib.request.urlopen发送请求getpost网络超时timeout=0.1网络请求模拟一个浏览器所发送的网络请求创建requestrequest头信息➕host/IP➕验证➕请求方式cookice客户返回响应数据所留下来的标记代理ipUrlib.request.proxyhander字典类型异常处理codereasonhearders拆分URLurlpaseurlsplit
Python基础朵&朵 python 开发语言
1.命名方法大驼峰：所有单词的首字母均大写小驼峰：第一个单词的首字母小写，其他单词的首字母小写变量：字母、数字、下划线组成，不能以数字开头，不能使用内置关键字，区分大小写2.多种变量输出方式查看类型：type(变量名)字符转义：\例如原本的\t表示一个tab键，\\t表示\t只作为了一个字符串打印出来而非一个tab键类型有：整型int、单精度浮点型float、双精度浮点型double、字符串str
Python爬虫入门实战：抓取CSDN博客文章 A Bug's Code Journey 爬虫 python
一、前言在大数据时代，网络上充斥着海量的信息，而爬虫技术就是解锁这些信息宝库的钥匙。Python，以其简洁易读的语法和强大的库支持，成为编写爬虫的首选语言。本篇博客将从零开始，带你一步步构建一个简单的Python爬虫，抓取CSDN博客的文章标题和链接。二、环境准备在开始之前，确保你的环境中安装了Python和以下必要的库：1.requests：用于发送HTTP请求2.BeautifulSoup：用
python基础：sort()函数 Galaxy.404 Python基础 python 开发语言
有字典内容classCount为：{'no':5,'yes':9}使用sort可以对其进行转化：sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)classCount.items()这一部分将字典classCount转换为一个由键值对组成的可迭代对象，每个项都是一个元组(key,va
Python爬虫——Selenium方法爬取LOL页面张小生180 python 爬虫 selenium
文章目录Selenium介绍用Selenium方法爬取LOL每个英雄的图片及名字Selenium介绍Selenium是一个用于自动化Web应用程序测试的工具，但它同样可以被用来进行网页数据的抓取（爬虫）。Selenium通过模拟用户在浏览器中的操作（如点击、输入、滚动等）来与网页交互，并可以捕获网页的渲染结果，这对于需要JavaScript渲染的网页特别有用。安装Selenium首先，你需要安装S
Python爬虫如何搞定动态Cookie？小白也能学会！图灵学者 python精华 python 爬虫 github
目录1、动态Cookie基础1.1Cookie与Session的区别1.2动态Cookie生成原理2、requests.Session方法2.1Session对象保持2.2处理登录与Cookie刷新2.3长连接与状态保持策略3、Selenium结合ChromeDriver实战3.1安装配置Selenium3.2动态抓取&处理Cookie4、requests-Session结合Selenium技巧4
Python爬虫基础知识板栗妖怪 python 爬虫开发语言
(未完成)爬虫概念爬虫用于爬取数据，又称之为数据采集程序爬取数据来源于网络，网络中数据可以是有web服务器、数据库服务器、索引库、大数据等等提供爬取数据是公开的、非盈利。python爬虫使用python编写的爬虫脚本可以完成定时、定量、指定目标的数据爬取。主要使用多（单）线程/进程、网络请求库、数据解析、数据储存、任务调度等相关技术。爬虫和web后端服务关系爬虫使用网络请求库，相当于客户端请求，w
Python基础教程： json序列化详细用法介绍 2401_84569545 程序员 python 学习面试
文末有福利领取哦~一、Python所有方向的学习路线Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。二、Python必备开发工具三、Python视频合集观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。四、实战案例光学理论是没用的，要学会跟着
Python办公自动化所需要掌握的Python基础知识苏卡不列-python Python python 开发语言数据分析自动化办公自动化
掌握基本语法是熟练使用Python语言进行自动化办公的必要前提。本文主要介绍要用到的Python编程基础知识，主要涉及Python的数据类型、变量、程序流程控制、函数、类、模块和包等内容。很多人为了图快，在学习Python语言时一上来就学习数据分析、机器学习。其实这些技术的基石是Python语言中最简单的基础知识。所以要老老实实打牢基础，这样才能看得懂那些深奥而复杂的源代码，在以后学习Python
python基础：pkl格式文件 Galaxy.404 Python基础 python
一、pkl格式文件简介pkl格式文件，全称pickle，Python中一种用于序列化对象的文件格式。以字典（dict）、数据框（DataFrame）或任何其他数据类型的形式作为数据集使用的时候，可能希望将它们保存到文件中，以便以后可以使用它们或将它们发送给其他人。这就是Python的pickle模块的用途：它将对象序列化，以便将它们保存到文件中，并在以后再次加载到程序中。Pickling允许将py
Python基础：在python中一定要会的知识点-字典的增，删，改，查_python字典的增删改查安卓开发top 程序员 python 学习面试
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化学习资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！dic={“六月”:99,“七月”:“99”}字典
Python基础木啊木啊木 python jvm 开发语言
Python_name_javastring和字符串区别深浅拷贝内存池垃圾回收机制引用增减垃圾回收引用计数标记清除分代回收缓存机制池机制free_list装饰器迭代器提高运行效率的方法函数传递方式name当一个Python文件作为主程序运行时，name__属性的值将被设置为__main。这提供了一种方式，通过判断__name__来执行特定的代码块。如果一个Python文件被其他文件导入，name_
30道Python基础练习题程序媛学姐 Python python 服务器开发语言
大家好，我是程序媛学姐，今天为大家梳理了30道Python基础练习题，方便大家学习参考。1.编写一个程序，输出"Hello,World!"这个程序的目标是简单地输出一条消息，即"Hello,World!"。在Python中，可以使用print语句来实现这个功能。示例代码：#输出"Hello,World!"print("Hello,World!")在上面的示例代码中，print("Hello,Wor
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

python中用xpath解析网页的基本方法

1. 背景

2. XPath简述

2.1. 什么是XPath？

2.2. XPath 开发工具

2.3. XPath语法的解析库 —— lxml库

3. 什么是XML？

3.1. XML 和 HTML 的区别

3.2. XML文档示例

3.3. HTML DOM 结构

3.4. XML的节点关系

3.4.1. 约定

3.4.2. 关系

4. XPath基本语法

5. 一些实际案例

5.1. 寻找页面通用地址，进行翻页

5.2. 结合re使用

5.3. 寻找相似性，利用starts-with用法全部提取

5.4. 利用string(.)获取某个标签下连续的一句话

5.5. 价格：文本模糊匹配，并利用上下文关系获取信息

5.6. 模糊匹配，以及特征提取

5.7. 筛选属性的组合操作

你可能感兴趣的:(python基础,python爬虫)