ChanZany

Python爬虫的数据提取,一篇博客就搞定啦!

数据提取

XPath语法和lxml模块

XPath

什么是XPath

xpath(XML Path Language) 是一门在XML和HTML文档中查找信息的语言，可以用来在XML和HTML文档中对元素和属性进行遍历

XPath开发工具

Chrome插件XPath Helper。
Firefox插件Try XPath。

XPath语法

选取节点：

XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

表达式	描述	示例	结果
nodename	选取此节点的所有子节点	bookstore	选取bookstore下所有的子节点
/	如果是在最前面，代表从根节点选取。否则选择某节点下的某个节点	/bookstore	选取根元素下所有的bookstore节点
//	从全局节点中选择节点，随便在哪个位置	//book	从全局节点中找到所有的book节点
@	选取某个节点的属性	//book[@price]	选择所有拥有price属性的book节点
.	当前节点	./a	选取当前节点下的a标签

谓语：

谓语用来查找某个特定的节点或者包含某个指定的值的节点，被嵌在方括号中。
在下面的表格中，我们列出了带有谓语的一些路径表达式，以及表达式的结果：

路径表达式	描述
/bookstore/book[1]	选取bookstore下的第一个子元素
/bookstore/book[last()]	选取bookstore下的倒数第二个book元素。
bookstore/book[position()< 3]	选取bookstore下前面两个子元素。
//book[@price]	选取所有拥有price属性的book元素
//book[@price=10]	选取所有属性price等于10的book元素
//book[contains(@price,10)]	模糊匹配，选取所有拥有price属性的,而且该price属性值包含10的book元素

通配符

*表示通配符。

通配符	描述	示例	结果
*	匹配任意节点	/bookstore/*	选取bookstore下的所有子元素。
@*	匹配节点中的任何属性	//book[@*]	选取所有带有属性的book元素。

选取多个路径：

通过在路径表达式中使用“|”运算符，可以选取若干个路径。
示例如下：

//bookstore/book | //book/title
# 选取所有book元素以及book元素下所有的title元素

运算符：

运算符	描述	实例	返回值
\|	计算两个节点集	//book \| //cd	返回所有拥有 book 和 cd 元素的节点集
+	加法	6 + 4	10
-	减法	6 - 4	2
*	乘法	6 * 4	24
div	除法	8 div 4	2
=	等于	price=9.80	如果 price 是 9.80，则返回 true。如果 price 是 9.90，则返回 false。
!=	不等于	price!=9.80	如果 price 是 9.90，则返回 true。如果 price 是 9.80，则返回 false。
<	小于	price<9.80	如果 price 是 9.00，则返回 true。如果 price 是 9.90，则返回 false。
<=	小于或等于	price<=9.80	如果 price 是 9.00，则返回 true。如果 price 是 9.90，则返回 false。
>	大于	price>9.80	如果 price 是 9.90，则返回 true。如果 price 是 9.80，则返回 false。
>=	大于或等于	price>=9.80	如果 price 是 9.90，则返回 true。如果 price 是 9.70，则返回 false。
or	或	price=9.80 or price=9.70	如果 price 是 9.80，则返回 true。如果 price 是 9.50，则返回 false。
and	与	price>9.00 and price<9.90	如果 price 是 9.80，则返回 true。如果 price 是 8.50，则返回 false。
mod	计算除法的余数	5 mod 2	1

实例：

//dl[@class = 'job_detail' and @id='job_detail']

对应查找到的div:

总结

使用方式

使用//获取整个页面中的html元素，然后写标签名，再然后写谓词进行提取目标信息。比如：

//div[@class='job_detail']

需要注意的知识点

/和//的区别:/代表只获取子节点。//获取子孙节点。一般使用//居多，视具体需要决定使用哪种选择
contains:有时候某个属性中包含了多个值，那么可以使用contains()函数。进行模糊选择。如：
```
//div[contains(@class,'job_detail','job-location')]
```
谓词中的下标是从1开始，不是从0开始的，如选择当前html页面中body的第一个div:
```
/html/body/div[1]
```

lxml库

lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。

lxml和正则一样，也是用 C 实现的，是一款高性能的 Python HTML/XML 解析器，我们可以利用之前学习的XPath语法，来快速的定位特定元素以及节点信息。

lxml python 官方文档：http://lxml.de/index.html

需要安装C语言库，可使用 pip 安装：pip install lxml

基本使用：

我们可以利用他来解析HTML代码，并且在解析HTML代码的时候，如果HTML代码不规范，他会自动的进行补全。示例代码如下：

# 使用 lxml 的 etree 库
from lxml import etree 

text = '''

    
         first item
         second item
         third item
         fourth item
         fifth item # 注意，此处缺少一个  闭合标签
     
 
'''

#利用etree.HTML，将字符串解析为HTML文档
html = etree.HTML(text) 

# 按字符串序列化HTML文档
result = etree.tostring(html) 

print(result)

输入结果如下：

<html><body>
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first itema>li>
         <li class="item-1"><a href="link2.html">second itema>li>
         <li class="item-inactive"><a href="link3.html">third itema>li>
         <li class="item-1"><a href="link4.html">fourth itema>li>
         <li class="item-0"><a href="link5.html">fifth itema>li>
ul>
 div>
body>html>

可以看到。lxml会自动修改HTML代码。例子中不仅补全了li标签，还添加了body，html标签。

从文件中读取html代码：

除了直接使用字符串进行解析，lxml还支持从文件中读取内容。我们新建一个hello.html文件：


<div>
    <ul>
         <li class="item-0"><a href="link1.html">first itema>li>
         <li class="item-1"><a href="link2.html">second itema>li>
         <li class="item-inactive"><a href="link3.html"><span class="bold">third itemspan>a>li>
         <li class="item-1"><a href="link4.html">fourth itema>li>
         <li class="item-0"><a href="link5.html">fifth itema>li>
     ul>
 div>

然后利用etree.parse()方法来读取文件。示例代码如下：

from lxml import etree

# 读取外部文件 hello.html
html = etree.parse('hello.html')
result = etree.tostring(html, pretty_print=True)

print(result)

输入结果和之前是相同的。

在使用lxml解析html代码时需要注意的点

解析html字符串：使用lxml.etree.HTML进行解析，并且通过etree.tostring将解析的内容转换为字符串。直接解析出来的字符串会有编码问题，所以需要编码处理:
```
def parse_text(text):
    htmlElement = etree.HTML(text)
    print(etree.tostring(htmlElement,encoding='utf-8').decode('utf-8')) # 需要
```

解析html文件，使用lxml.etree.parse进行解析，这个函数默认使用的解析器是XML解析器，所以如果碰到一些不规范的html代码的时候会解析错误:

lxml.etree.XMLSyntaxError: Opening and ending tag mismatch: input line 52 and div, line 68, column 23

这时候需要自己创建HTMLParser，即HTML解析器，并且在parse方法中指定该HTML解析器：

def parse_excepted_file(file_name):
    # 当解析的内容有缺失的时候，可以手动设置解析器来解决报错
    parser = etree.HTMLParser(encoding='utf-8') # 定义HTML解析器
    htmlElement=etree.parse(file_name,parser=parser) # parser默认为xml的解析器，我们手动更改为Html的解析器
    print(etree.tostring(htmlElement,encoding='utf-8').decode('utf-8'))

在lxml中使用XPath语法：

获取所有li标签：

 from lxml import etree

 html = etree.parse('hello.html')
 print type(html)  # 显示etree.parse() 返回类型

 result = html.xpath('//li')

 print(result)  # 打印标签的元素集合

获取所有li元素下的所有class属性的值：

 from lxml import etree

 html = etree.parse('hello.html')
 result = html.xpath('//li/@class')

 print(result)

获取li标签下href为www.baidu.com的a标签：

 from lxml import etree

 html = etree.parse('hello.html')
 result = html.xpath('//li/a[@href="www.baidu.com"]')

 print(result)

获取li标签下所有span标签：

 from lxml import etree

 html = etree.parse('hello.html')

 #result = html.xpath('//li/span')
 #注意这么写是不对的：
 #因为 / 是用来获取子元素的，而  并不是  的子元素，所以，要用双斜杠

 result = html.xpath('//li//span')

 print(result)

获取li标签下的a标签里的所有class：

 from lxml import etree

 html = etree.parse('hello.html')
 result = html.xpath('//li/a//@class')

 print(result)

获取最后一个li的a的href属性对应的值：

 from lxml import etree

 html = etree.parse('hello.html')

 result = html.xpath('//li[last()]/a/@href')
 # 谓语 [last()] 可以找到最后一个元素

 print(result)

获取倒数第二个li元素的内容：

 from lxml import etree

 html = etree.parse('hello.html')
 result = html.xpath('//li[last()-1]/a')

 # text 方法可以获取元素内容
 print(result[0].text)

获取倒数第二个li元素的内容的第二种方式：

 from lxml import etree

 html = etree.parse('hello.html')
 result = html.xpath('//li[last()-1]/a/text()')

 print(result)

练习：

使用xpath爬取腾讯招聘网信息。要求为获取每个职位的详情信息。

"""
可以使用两种方式记录相关信息：
1. 字典+列表：被注释的部分
2. 列表+字典：选中的方案
"""
# job_dict = {"job_title":[],"job_detail":[],"job_department":[],"job_location":[],"job_publish_time":[]}
positions=[]
recruit_list = html.xpath("//div[@class = 'recruit-list']")
for recruit in recruit_list:
    # 在//之前加一个点，代表是在当前元素下获取
    title = recruit.xpath(".//h4[@class='recruit-title']//text()")[0] # 注意获取到的html元素集合的第一个元素
    detail = recruit.xpath(".//p[@class='recruit-text']//text()")[0]
    department = recruit.xpath(".//span[3]//text()")[0]
    location = recruit.xpath(".//span[2]//text()")[0]
    publish_time = recruit.xpath(".//span[4]//text()")[0]
    # for i,j,k,z,w in zip(title,detail,department,location,publish_time):
    #     job_dict["job_title"].append(i)
    #     job_dict["job_detail"].append(j)
    #     job_dict["job_department"].append(k)
    #     job_dict["job_location"].append(z)
    #     job_dict["job_publish_time"].append(w)
    position={
        'job_title':title,
        'job_detail':detail,
        'job_department':department,
        'job_location':location,
        'job_publish_time':publish_time
    }
    positions.append(position)

# print("*"*25+"title"+"*"*25)
# print(job_dict["job_title"])
# print("*"*25+"detail"+"*"*25)
# print(job_dict["job_detail"])
# print("*"*25+"location"+"*"*25)
# print(job_dict["job_location"])
# print("*"*25+"department"+"*"*25)
# print(job_dict["job_department"])
# print("*"*25+"publish_time"+"*"*25)
# print(job_dict["job_publish_time"])

for p in positions:
    print(p)

相关腾讯招聘网的html:

<div data-v-288d7ecc="" class="correlation-degree">
  <div data-v-288d7ecc="" class="recruit-wrap recruit-margin">
    
    <div data-v-288d7ecc="" class="recruit-list">
      <a data-v-288d7ecc="" class="recruit-list-link">
        <h4 data-v-288d7ecc="" class="recruit-title">CSIG17-AI开放平台高级测试工程师h4>
        <p data-v-288d7ecc="" class="recruit-tips">
          <span data-v-288d7ecc="">CSIGspan>|
          <span data-v-288d7ecc="">深圳,中国span>|
          <span data-v-288d7ecc="">技术span>|
          
          <span data-v-288d7ecc="">2020年04月25日span>p>
        <p data-v-288d7ecc="" class="recruit-text">负责腾讯云叮当语音助手相关ToB业务质量保障工作及叮当开放平台质量保障工作，腾讯云叮当开放平台对外输出腾讯在AI领域特别是人机对话场景中的各项领先技术，在各种行业方向上和多家优质企业进行了深度的合作，包括腾讯车联网，智能家居，智能音箱，智能穿戴，智能机器人，文旅等领域都有合作。具体工作内容如下： 1、负责腾讯云叮当开放平台的质量保障及ToB业务定制需求的质量保障工作，负责全流程质量管控，包括参与需求分析，帮助完善需求与开发设计实现，合理设计测试计划，实施测试活动，跟进缺陷，协助研发分析定位问题； 2、负责产品相关的测试方案，测试工具平台，后台服务的接口自动化测试以及自动化监控用例建设,自动化测试架构设计及实现工作； 3、保证被测系统的质量，并通过测试流程和方法创新，提升研发的质量和效率 4、担任测试架构师角色，推动产品代码可测性建设及产品架构可测试性拆解，应用并落地分层测试相关技术,对后台服务进行代码审查，实施灰盒、白盒测试方法挖掘问题。 腾讯云叮当参考网址：dingdang.qq.comp>a>
      <div data-v-114c7c2f="" data-v-288d7ecc="" class="recruit-share">
        <div data-v-114c7c2f="" class="recruit-content">
          <span data-v-114c7c2f="" class="share">span>
          <span data-v-114c7c2f="" class="share-text">分享span>
          <div data-v-114c7c2f="" id="share-detail" class="share-list">
            <div data-v-114c7c2f="" class="share-title">分享div>
            <div data-v-114c7c2f="" class="close-btn">div>
            <div data-v-114c7c2f="" id="1167336852961628160" class="qr-code" style="display: none;">div>
            <ul data-v-114c7c2f="" class="share-gound">
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon qq">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="javascript:;" class="share-icon wechat">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon micro-blog">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon in">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon facebook">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon twitter">a>
              li>
            ul>
            <div data-v-114c7c2f="" class="link-wrapper">
              <div data-v-114c7c2f="" class="link-text">岗位链接div>
              <div data-v-114c7c2f="" class="link-ground">
                <input data-v-114c7c2f="" readonly="readonly" id="" class="link input-text">
                <div data-v-114c7c2f="" class="copy">复制链接div>div>
            div>
          div>
        div>
      div>
      <div data-v-288d7ecc="" class="recruit-collection">
        <span data-v-288d7ecc="" class="icon-collection">span>
        <span data-v-288d7ecc="" class="collection-text">收藏span>div>
    div>
    <div data-v-288d7ecc="" class="recruit-list">
      <a data-v-288d7ecc="" class="recruit-list-link">
        <h4 data-v-288d7ecc="" class="recruit-title">36960-推荐架构后台开发工程师（北京）h4>
        <p data-v-288d7ecc="" class="recruit-tips">
          <span data-v-288d7ecc="">PCGspan>|
          <span data-v-288d7ecc="">北京,中国span>|
          <span data-v-288d7ecc="">技术span>|
          <span data-v-288d7ecc="">2020年04月25日span>p>
        <p data-v-288d7ecc="" class="recruit-text">负责腾讯视频主app各场景、矩阵产品推荐系统的后台服务架构设计和实现, 建设高效/灵活/易用的统一融合的综合视频推荐架构；负 责各场景框架后台优化与技术探索;p>a>
      <div data-v-114c7c2f="" data-v-288d7ecc="" class="recruit-share">
        <div data-v-114c7c2f="" class="recruit-content">
          <span data-v-114c7c2f="" class="share">span>
          <span data-v-114c7c2f="" class="share-text">分享span>
          <div data-v-114c7c2f="" id="share-detail" class="share-list">
            <div data-v-114c7c2f="" class="share-title">分享div>
            <div data-v-114c7c2f="" class="close-btn">div>
            <div data-v-114c7c2f="" id="1253971408753532928" class="qr-code" style="display: none;">div>
            <ul data-v-114c7c2f="" class="share-gound">
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon qq">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="javascript:;" class="share-icon wechat">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon micro-blog">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon in">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon facebook">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon twitter">a>
              li>
            ul>
            <div data-v-114c7c2f="" class="link-wrapper">
              <div data-v-114c7c2f="" class="link-text">岗位链接div>
              <div data-v-114c7c2f="" class="link-ground">
                <input data-v-114c7c2f="" readonly="readonly" id="" class="link input-text">
                <div data-v-114c7c2f="" class="copy">复制链接div>div>
            div>
          div>
        div>
      div>
      <div data-v-288d7ecc="" class="recruit-collection">
        <span data-v-288d7ecc="" class="icon-collection">span>
        <span data-v-288d7ecc="" class="collection-text">收藏span>div>
    div>
    <div data-v-288d7ecc="" class="recruit-list">
      <a data-v-288d7ecc="" class="recruit-list-link">
        <h4 data-v-288d7ecc="" class="recruit-title">25926-NLP算法高级工程师（深圳）h4>
        <p data-v-288d7ecc="" class="recruit-tips">
          <span data-v-288d7ecc="">IEGspan>|
          <span data-v-288d7ecc="">深圳,中国span>|
          <span data-v-288d7ecc="">技术span>|
          
          <span data-v-288d7ecc="">2020年04月25日span>p>
        <p data-v-288d7ecc="" class="recruit-text">负责腾讯游戏中恶意内容的分析与对抗； 负责上下文语义理解、内容理解和行为理解、情感分析等内容分析与挖掘；p>a>
      <div data-v-114c7c2f="" data-v-288d7ecc="" class="recruit-share">
        <div data-v-114c7c2f="" class="recruit-content">
          <span data-v-114c7c2f="" class="share">span>
          <span data-v-114c7c2f="" class="share-text">分享span>
          <div data-v-114c7c2f="" id="share-detail" class="share-list">
            <div data-v-114c7c2f="" class="share-title">分享div>
            <div data-v-114c7c2f="" class="close-btn">div>
            <div data-v-114c7c2f="" id="1253957413631959040" class="qr-code" style="display: none;">div>
            <ul data-v-114c7c2f="" class="share-gound">
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon qq">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="javascript:;" class="share-icon wechat">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon micro-blog">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon in">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon facebook">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon twitter">a>
              li>
            ul>
            <div data-v-114c7c2f="" class="link-wrapper">
              <div data-v-114c7c2f="" class="link-text">岗位链接div>
              <div data-v-114c7c2f="" class="link-ground">
                <input data-v-114c7c2f="" readonly="readonly" id="" class="link input-text">
                <div data-v-114c7c2f="" class="copy">复制链接div>div>
            div>
          div>
        div>
      div>
      <div data-v-288d7ecc="" class="recruit-collection">
        <span data-v-288d7ecc="" class="icon-collection">span>
        <span data-v-288d7ecc="" class="collection-text">收藏span>div>
    div>
    <div data-v-288d7ecc="" class="recruit-list">
      <a data-v-288d7ecc="" class="recruit-list-link">
        <h4 data-v-288d7ecc="" class="recruit-title">29777-企业数据智能高级研发工程师h4>
        <p data-v-288d7ecc="" class="recruit-tips">
          <span data-v-288d7ecc="">CSIGspan>|
          <span data-v-288d7ecc="">深圳,中国span>|
          <span data-v-288d7ecc="">技术span>|
          
          <span data-v-288d7ecc="">2020年04月25日span>p>
        <p data-v-288d7ecc="" class="recruit-text">1、负责能源、工业、交通、传媒、运营商、终端等泛企业行业的数据智能产品研发； 2、设计并实现面向以上行业的数据智能产品，包括私有云和公有云版本； 3、打造面向以上行业的智慧大脑，提供一体化的数据中台和AI中台，快速构建行业应用，提升企业竞争力；p>a>
      <div data-v-114c7c2f="" data-v-288d7ecc="" class="recruit-share">
        <div data-v-114c7c2f="" class="recruit-content">
          <span data-v-114c7c2f="" class="share">span>
          <span data-v-114c7c2f="" class="share-text">分享span>
          <div data-v-114c7c2f="" id="share-detail" class="share-list">
            <div data-v-114c7c2f="" class="share-title">分享div>
            <div data-v-114c7c2f="" class="close-btn">div>
            <div data-v-114c7c2f="" id="1253914711825588224" class="qr-code" style="display: none;">div>
            <ul data-v-114c7c2f="" class="share-gound">
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon qq">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="javascript:;" class="share-icon wechat">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon micro-blog">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon in">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon facebook">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon twitter">a>
              li>
            ul>
            <div data-v-114c7c2f="" class="link-wrapper">
              <div data-v-114c7c2f="" class="link-text">岗位链接div>
              <div data-v-114c7c2f="" class="link-ground">
                <input data-v-114c7c2f="" readonly="readonly" id="" class="link input-text">
                <div data-v-114c7c2f="" class="copy">复制链接div>div>
            div>
          div>
        div>
      div>
      <div data-v-288d7ecc="" class="recruit-collection">
        <span data-v-288d7ecc="" class="icon-collection">span>
        <span data-v-288d7ecc="" class="collection-text">收藏span>div>
    div>
    <div data-v-288d7ecc="" class="recruit-list">
      <a data-v-288d7ecc="" class="recruit-list-link">
        <h4 data-v-288d7ecc="" class="recruit-title">CSIG07-游戏加速后台开发工程师（深圳）h4>
        <p data-v-288d7ecc="" class="recruit-tips">
          <span data-v-288d7ecc="">CSIGspan>|
          <span data-v-288d7ecc="">深圳,中国span>|
          <span data-v-288d7ecc="">技术span>|
          
          <span data-v-288d7ecc="">2020年04月25日span>p>
        <p data-v-288d7ecc="" class="recruit-text">负责游戏加速产品智能加速后台业务系统的设计与开发； 负责游戏加速产品智能加速网络平台的架构设计与优化； 负责游戏加速产品运营系统的设计与优化；p>a>
      <div data-v-114c7c2f="" data-v-288d7ecc="" class="recruit-share">
        <div data-v-114c7c2f="" class="recruit-content">
          <span data-v-114c7c2f="" class="share">span>
          <span data-v-114c7c2f="" class="share-text">分享span>
          <div data-v-114c7c2f="" id="share-detail" class="share-list">
            <div data-v-114c7c2f="" class="share-title">分享div>
            <div data-v-114c7c2f="" class="close-btn">div>
            <div data-v-114c7c2f="" id="1123176283514081280" class="qr-code" style="display: none;">div>
            <ul data-v-114c7c2f="" class="share-gound">
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon qq">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="javascript:;" class="share-icon wechat">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon micro-blog">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon in">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon facebook">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon twitter">a>
              li>
            ul>
            <div data-v-114c7c2f="" class="link-wrapper">
              <div data-v-114c7c2f="" class="link-text">岗位链接div>
              <div data-v-114c7c2f="" class="link-ground">
                <input data-v-114c7c2f="" readonly="readonly" id="" class="link input-text">
                <div data-v-114c7c2f="" class="copy">复制链接div>div>
            div>
          div>
        div>
      div>
      <div data-v-288d7ecc="" class="recruit-collection">
        <span data-v-288d7ecc="" class="icon-collection">span>
        <span data-v-288d7ecc="" class="collection-text">收藏span>div>
    div>
    <div data-v-288d7ecc="" class="recruit-list">
      <a data-v-288d7ecc="" class="recruit-list-link">
        <h4 data-v-288d7ecc="" class="recruit-title">CSIG07-云平台安全工程师（北京）h4>
        <p data-v-288d7ecc="" class="recruit-tips">
          <span data-v-288d7ecc="">CSIGspan>|
          <span data-v-288d7ecc="">北京,中国span>|
          <span data-v-288d7ecc="">技术span>|
          
          <span data-v-288d7ecc="">2020年04月25日span>p>
        <p data-v-288d7ecc="" class="recruit-text">负责公有云和专有云场景下的边界安全产品研发； 参与建设云平台的流量安全解决方案；p>a>
      <div data-v-114c7c2f="" data-v-288d7ecc="" class="recruit-share">
        <div data-v-114c7c2f="" class="recruit-content">
          <span data-v-114c7c2f="" class="share">span>
          <span data-v-114c7c2f="" class="share-text">分享span>
          <div data-v-114c7c2f="" id="share-detail" class="share-list">
            <div data-v-114c7c2f="" class="share-title">分享div>
            <div data-v-114c7c2f="" class="close-btn">div>
            <div data-v-114c7c2f="" id="1123176404893044736" class="qr-code" style="display: none;">div>
            <ul data-v-114c7c2f="" class="share-gound">
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon qq">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="javascript:;" class="share-icon wechat">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon micro-blog">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon in">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon facebook">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon twitter">a>
              li>
            ul>
            <div data-v-114c7c2f="" class="link-wrapper">
              <div data-v-114c7c2f="" class="link-text">岗位链接div>
              <div data-v-114c7c2f="" class="link-ground">
                <input data-v-114c7c2f="" readonly="readonly" id="" class="link input-text">
                <div data-v-114c7c2f="" class="copy">复制链接div>div>
            div>
          div>
        div>
      div>
      <div data-v-288d7ecc="" class="recruit-collection">
        <span data-v-288d7ecc="" class="icon-collection">span>
        <span data-v-288d7ecc="" class="collection-text">收藏span>div>
    div>
    <div data-v-288d7ecc="" class="recruit-list">
      <a data-v-288d7ecc="" class="recruit-list-link">
        <h4 data-v-288d7ecc="" class="recruit-title">CSIG07-基础安全威胁情报分析师h4>
        <p data-v-288d7ecc="" class="recruit-tips">
          <span data-v-288d7ecc="">CSIGspan>|
          <span data-v-288d7ecc="">深圳,中国span>|
          <span data-v-288d7ecc="">技术span>|
          
          <span data-v-288d7ecc="">2020年04月25日span>p>
        <p data-v-288d7ecc="" class="recruit-text">1.负责基础情报的生产和运营，以打造业界的领先威胁情报能力，服务于内外部产品 2.负责基础情报衍生产品的开发、运营和商业化p>a>
      <div data-v-114c7c2f="" data-v-288d7ecc="" class="recruit-share">
        <div data-v-114c7c2f="" class="recruit-content">
          <span data-v-114c7c2f="" class="share">span>
          <span data-v-114c7c2f="" class="share-text">分享span>
          <div data-v-114c7c2f="" id="share-detail" class="share-list">
            <div data-v-114c7c2f="" class="share-title">分享div>
            <div data-v-114c7c2f="" class="close-btn">div>
            <div data-v-114c7c2f="" id="1123176419774435328" class="qr-code" style="display: none;">div>
            <ul data-v-114c7c2f="" class="share-gound">
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon qq">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="javascript:;" class="share-icon wechat">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon micro-blog">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon in">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon facebook">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon twitter">a>
              li>
            ul>
            <div data-v-114c7c2f="" class="link-wrapper">
              <div data-v-114c7c2f="" class="link-text">岗位链接div>
              <div data-v-114c7c2f="" class="link-ground">
                <input data-v-114c7c2f="" readonly="readonly" id="" class="link input-text">
                <div data-v-114c7c2f="" class="copy">复制链接div>div>
            div>
          div>
        div>
      div>
      <div data-v-288d7ecc="" class="recruit-collection">
        <span data-v-288d7ecc="" class="icon-collection">span>
        <span data-v-288d7ecc="" class="collection-text">收藏span>div>
    div>
    <div data-v-288d7ecc="" class="recruit-list">
      <a data-v-288d7ecc="" class="recruit-list-link">
        <h4 data-v-288d7ecc="" class="recruit-title">CSIG07-高级网络安全开发工程师h4>
        <p data-v-288d7ecc="" class="recruit-tips">
          <span data-v-288d7ecc="">CSIGspan>|
          <span data-v-288d7ecc="">深圳,中国span>|
          <span data-v-288d7ecc="">技术span>|
          
          <span data-v-288d7ecc="">2020年04月25日span>p>
        <p data-v-288d7ecc="" class="recruit-text">1 负责云防火墙的规划和研发 2. 参与云防火墙衍生品的规划和研发 3. 参与云上网络安全涉及的网络架构调优规划与设计p>a>
      <div data-v-114c7c2f="" data-v-288d7ecc="" class="recruit-share">
        <div data-v-114c7c2f="" class="recruit-content">
          <span data-v-114c7c2f="" class="share">span>
          <span data-v-114c7c2f="" class="share-text">分享span>
          <div data-v-114c7c2f="" id="share-detail" class="share-list">
            <div data-v-114c7c2f="" class="share-title">分享div>
            <div data-v-114c7c2f="" class="close-btn">div>
            <div data-v-114c7c2f="" id="1158581313884655616" class="qr-code" style="display: none;">div>
            <ul data-v-114c7c2f="" class="share-gound">
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon qq">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="javascript:;" class="share-icon wechat">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon micro-blog">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon in">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon facebook">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon twitter">a>
              li>
            ul>
            <div data-v-114c7c2f="" class="link-wrapper">
              <div data-v-114c7c2f="" class="link-text">岗位链接div>
              <div data-v-114c7c2f="" class="link-ground">
                <input data-v-114c7c2f="" readonly="readonly" id="" class="link input-text">
                <div data-v-114c7c2f="" class="copy">复制链接div>div>
            div>
          div>
        div>
      div>
      <div data-v-288d7ecc="" class="recruit-collection">
        <span data-v-288d7ecc="" class="icon-collection">span>
        <span data-v-288d7ecc="" class="collection-text">收藏span>div>
    div>
    <div data-v-288d7ecc="" class="recruit-list">
      <a data-v-288d7ecc="" class="recruit-list-link">
        <h4 data-v-288d7ecc="" class="recruit-title">CSIG07-安全技术高级工程师（北京）h4>
        <p data-v-288d7ecc="" class="recruit-tips">
          <span data-v-288d7ecc="">CSIGspan>|
          <span data-v-288d7ecc="">北京,中国span>|
          <span data-v-288d7ecc="">技术span>|
          
          <span data-v-288d7ecc="">2020年04月25日span>p>
        <p data-v-288d7ecc="" class="recruit-text">1）客户现场威胁（包括APT攻击）挖掘、分析、溯源、取证 2）对安全事件进行应急响应，并输出解决方案 3）联动云端安全大脑全局把控互联网安全威胁p>a>
      <div data-v-114c7c2f="" data-v-288d7ecc="" class="recruit-share">
        <div data-v-114c7c2f="" class="recruit-content">
          <span data-v-114c7c2f="" class="share">span>
          <span data-v-114c7c2f="" class="share-text">分享span>
          <div data-v-114c7c2f="" id="share-detail" class="share-list">
            <div data-v-114c7c2f="" class="share-title">分享div>
            <div data-v-114c7c2f="" class="close-btn">div>
            <div data-v-114c7c2f="" id="1123177750727757824" class="qr-code" style="display: none;">div>
            <ul data-v-114c7c2f="" class="share-gound">
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon qq">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="javascript:;" class="share-icon wechat">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon micro-blog">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon in">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon facebook">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon twitter">a>
              li>
            ul>
            <div data-v-114c7c2f="" class="link-wrapper">
              <div data-v-114c7c2f="" class="link-text">岗位链接div>
              <div data-v-114c7c2f="" class="link-ground">
                <input data-v-114c7c2f="" readonly="readonly" id="" class="link input-text">
                <div data-v-114c7c2f="" class="copy">复制链接div>div>
            div>
          div>
        div>
      div>
      <div data-v-288d7ecc="" class="recruit-collection">
        <span data-v-288d7ecc="" class="icon-collection">span>
        <span data-v-288d7ecc="" class="collection-text">收藏span>div>
    div>
    <div data-v-288d7ecc="" class="recruit-list">
      <a data-v-288d7ecc="" class="recruit-list-link">
        <h4 data-v-288d7ecc="" class="recruit-title">35948-AI数据推荐算法研究员h4>
        <p data-v-288d7ecc="" class="recruit-tips">
          <span data-v-288d7ecc="">CSIGspan>|
          <span data-v-288d7ecc="">深圳,中国span>|
          <span data-v-288d7ecc="">技术span>|
          
          <span data-v-288d7ecc="">2020年04月25日span>p>
        <p data-v-288d7ecc="" class="recruit-text">1. 基于海量数据，利用机器学习和数据挖掘方法，为智能推荐、在线推荐等业务提供模型与策略，提升服务性能； 2. 负责相应AI模型设计，研发适合在推荐业务中使用的AI模型、算法和工具； 3. 理解并分析相关产品现状，为产品研发和运营提供决策支持。p>a>
      <div data-v-114c7c2f="" data-v-288d7ecc="" class="recruit-share">
        <div data-v-114c7c2f="" class="recruit-content">
          <span data-v-114c7c2f="" class="share">span>
          <span data-v-114c7c2f="" class="share-text">分享span>
          <div data-v-114c7c2f="" id="share-detail" class="share-list">
            <div data-v-114c7c2f="" class="share-title">分享div>
            <div data-v-114c7c2f="" class="close-btn">div>
            <div data-v-114c7c2f="" id="1198201914349588480" class="qr-code" style="display: none;">div>
            <ul data-v-114c7c2f="" class="share-gound">
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon qq">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="javascript:;" class="share-icon wechat">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon micro-blog">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon in">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon facebook">a>
              li>
              <li data-v-114c7c2f="" class="share-item">
                <a data-v-114c7c2f="" href="" target="_blank" class="share-icon twitter">a>
              li>
            ul>
            <div data-v-114c7c2f="" class="link-wrapper">
              <div data-v-114c7c2f="" class="link-text">岗位链接div>
              <div data-v-114c7c2f="" class="link-ground">
                <input data-v-114c7c2f="" readonly="readonly" id="" class="link input-text">
                <div data-v-114c7c2f="" class="copy">复制链接div>div>
            div>
          div>
        div>
      div>
      <div data-v-288d7ecc="" class="recruit-collection">
        <span data-v-288d7ecc="" class="icon-collection">span>
        <span data-v-288d7ecc="" class="collection-text">收藏span>div>
    div>
  div>
div>

总结

lxml结合xpath注意事项：

使用XPath语法，应该使用Element.xpath(xpath语法)方法。来执行xpath的选择。

parser = etree.HTMLParser(encoding='utf-8')
html = etree.parse("tencent.html",parser=parser)
divs = html.xpath("//div") # xpath函数返回的是一个列表
for div in divs:
    print(etree.tostring(div,encoding='utf-8').decode('utf-8'))

xpath函数返回来的永远是一个列表。必要时候需要用下标0进行提取元素
```
p2 = html.xpath("//p[2]")[0] #获取第二个p标签
```

某个标签的属性可以通过tagname/@tag_prpperty来获取：
```
href=html.xpath("//a/@href") # 获取a标签的href属性值
```

获取某个标签下的文本，可以通过xpath中的text()函数：

title = recruit.xpath(".//h4[@class='recruit-title']//text()")[0] # 注意获取到的html元素集合的第一个元素

如果想要在某个标签下，再执行xpath,来进一步提取数据，那么应该使用.来代表是在当前标签下子元素：

for recruit in recruit_list:
    # 在//之前加一个点，代表是在当前HtmlElement下获取
    title = recruit.xpath(".//h4[@class='recruit-title']//text()")[0] # 注意获取到的html元素集合的第一个元素
    detail = recruit.xpath(".//p[@class='recruit-text']//text()")[0]

实战：

使用requests和xpath爬取正在上映的豆瓣电影

示例代码如下：

import requests
from lxml import etree

# 1.将目标网站上的html页面抓取下来
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.36'
}
url = 'https://movie.douban.com/cinema/nowplaying/chengdu/'

response = requests.get(url=url,headers=headers)
# response.text 返回的是一个经过解码后的字符串，是str(unicode)类型
# response.content 返回的是一个原生的字符串，是bytes类型，在后期需要encode/decode处理为str
text = response.text

# 2. 将抓取下来的数据根据一定的规则进行提取
movies = []
html=etree.HTML(text=text)
ul = html.xpath("//ul[@class='lists']")[1] # 正在上映和即将上映的电影列表都是由来包裹的
# print(ul)
lis = ul.xpath("./li")
for li in lis:
    title = li.xpath("@data-title")[0]
    score = li.xpath("@data-score")[0]
    duration = li.xpath("@data-duration")[0]
    region = li.xpath("@data-region")[0]
    director = li.xpath("@data-director")[0]
    actors = li.xpath("@data-actors")[0]
    post = li.xpath(".//img/@src")[0]
    movie = {
        'title':title,
        'score':score,
        'duration':duration,
        'region':region,
        'director':director,
        'actors':actors,
        'post':post
    }
    movies.append(movie)

print(movies)

电影天堂爬取2020新片精品

code:

from lxml import etree
import requests

BASE_DOMAIN = "https://dytt8.net"  # 全局域名
HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.36"
}


def get_detail_urls(url):
    """
    获取每页包含的电影的详情所在链接url
    """
    response = requests.get(url, headers=HEADERS)
    # request库，默认使用自己猜测的编码方式将抓取下来的网页进行解码，然后存储到text属性上
    # 在电影天堂的网页中，因为编码方式和request库猜测的不同，所以会产生乱码，要使用content并指定编码方式对其解码来解决乱码问题
    text = response.content.decode('gbk',
                                   errors='ignore')  # 发现除了第一页html的编码方式是gbk,其他页的编码都是gb,所以出错了,添加参数errors='ignore'解决问题
    html = etree.HTML(text)
    detail_urls = html.xpath("//table[@class='tbspan']//a/@href")
    # index = 0
    # for detail_url in detail_urls:
    #     # print("https://dytt8.net"+detail_url)
    #     detail_urls[index] = BASE_DOMAIN + detail_url
    #     index+=1
    detail_urls = map(lambda url: BASE_DOMAIN + url, detail_urls)  # 对detail_urls的每一项都执行lambda匿名函数,等同于上面的for代码
    return detail_urls


def parse_detail_page(url):
    """解析详情页面"""
    movie = {}
    response = requests.get(url, headers=HEADERS)
    text = response.content.decode('gbk', errors='ignore')
    html = etree.HTML(text)
    # 电影标题
    title = html.xpath("//*[@id='header']/div/div[3]/div[3]/div[1]/div[2]/div[1]/h1/font/text()")[0]
    movie["title"] = title
    # 电影缩略图海报
    cover = html.xpath("//div[@id='Zoom']//img/@src")[0]
    movie["cover"] = cover
    # 相关信息
    infos = html.xpath("//div[@id='Zoom']//text()")
    # print(info)
    for index, info in enumerate(infos):
        if info.startswith("◎年　　代"):
            info = info.replace("◎年　　代", "").strip()
            movie["year"] = info
        elif info.startswith("◎产　　地"):
            info = info.replace("◎产　　地", "").strip()
            movie["country"] = info
        elif info.startswith("◎类　　别"):
            info = info.replace("◎类　　别", "").strip()
            movie["category"] = info
        elif info.startswith("◎豆瓣评分"):
            info = info.replace("◎豆瓣评分", "").strip()
            movie["score"] = info
        elif info.startswith("◎片　　长"):
            info = info.replace("◎片　　长", "").strip()
            movie["duration"] = info
        elif info.startswith("◎导　　演"):
            info = info.replace("◎导　　演", "").strip()
            movie["director"] = info
        elif info.startswith("◎主　　演"):
            info = info.replace("◎主　　演", "").strip()
            actors = [info]
            for x in range(index + 1, len(infos)):
                actor = infos[x].strip()
                if actor.startswith("◎标　　签"):
                    break
                actors.append(actor)
            # print(actors)
            movie['actors'] = actors
        elif info.startswith("◎简　　介"):
            info = info.replace("◎简　　介","").strip()
            for x in range(index+1,len(infos)):
                profile = infos[x].strip()
                if profile.startswith("【下载地址】") or profile.startswith("◎获奖情况"):
                    break
                # print(profile)
                movie['profile']=profile
    # 下载链接
    download_url = html.xpath("//td[@bgcolor='#fdfddf']/a/@href")
    movie['download_url']=download_url

    return movie

def spider():
    base_url = "https://dytt8.net/html/gndy/dyzz/list_23_{}.html"  # {}字符串占位符
    movies=[]
    for i in range(1, 8):  # 暂时只爬取7页的数据
        url = base_url.format(i)
        detail_urls = get_detail_urls(url)
        for detail_url in detail_urls:  # 每页电影的详解页面的关键元素提取
            # print(detail_url)
            movie = parse_detail_page(detail_url)
            movies.append(movie)
            print('下载中.....')
            print(movie)
    print(movies)
    # 可以保存在本地
    
if __name__ == '__main__':
    spider()

你可能感兴趣的:(Python爬虫)

Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
【Python爬虫实战】从多类型网页数据到结构化JSON数据的高效提取策略易辰君 python爬虫 python 爬虫开发语言
个人主页：https://blog.csdn.net/2401_86688088?type=blog系列专栏：https://blog.csdn.net/2401_86688088/category_12797772.html目录前言一、数据类型及其对应的提取策略（一）文本数据（二）数值数据（三）链接（四）图像数据（五）表格数据（六）JSON数据（七）动态数据（八）元数据（九）总结二、结构化数据提
python爬虫项目（十二）：爬取各大音乐平台排行榜并分析音乐类型趋势人工智能_SYBH 爬虫试读 2025年爬虫百篇实战宝典:从入门到精通 python 爬虫开发语言 python爬虫项目 python爬虫
目录1.项目简介2.工具与技术3.爬取音乐平台排行榜数据3.1使用requests和BeautifulSoup爬取网易云音乐排行榜3.2爬取QQ音乐排行榜4.数据处理4.1合并数据5.分析音乐类型趋势5.1使用关键词匹配类型6.数据可视化6.1绘制音乐类型分布图6.2绘制时间趋势图7.总结爬取各大音乐平台排行榜并分析音乐类型趋势是一个有趣且有意义的项目。我们可以通过以下步骤来实现：1.项目简介本项
【python爬虫】免费爬取网易云音乐完整教程（附带源码）景天科技苑爬虫副业实战零基础进阶教学 python 爬虫开发语言 js逆向
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~所属专栏：爬虫实战，零基础、进阶教学景天的主页：景天科技苑文章目录网易云逆向网易云逆向https://music.163.com/下载云音乐胡广生等，可以选择自己喜欢的歌曲首先，我们可以先根据抓包找到的m4a文件，下载试试在这个请求
python爬虫（7）爬虫实例（3）丁叔叔爬虫实例
#-*-coding:utf-8-*-importrequestsimportosfromlxmlimportetree#解析库XPath#在本地建立一个文件夹，命名为pic_truck，用于存放下载的图片folder='pic_truck'ifnotos.path.exists(folder):os.makedirs(folder)#定义下载函数，用于下载图片defdownload(url):r
Python爬虫之爬取酷狗音乐进击的Loser‭
Python爬虫之爬取酷狗音乐废话不说，上代码：#!Python#-*-encoding:utf-8-*-'''1.文件名称:酷我音乐爬虫.py2.创建时间:2021/03/2117:29:093.作者名称:ZAY4.Python版本:3.7.0'''importosimportgetpassimportrequestsfromurllib.parseimportquoteclassSpider(
【源代码】python爬虫，爬取足球赛制比分码农之家★资源共享 python 爬虫开发语言
完整代码！fromseleniumimportwebdriverfromselenium.common.exceptionsimportNoSuchElementExceptionfromselenium.webdriver.common.keysimportKeysimporttimefrombs4importBeautifulSoupimportselectimportsocketimpor
Python爬虫–爬取酷狗音乐 2024亲测可用！！！ LinHZ2012 爬虫 python
相信很多小伙伴都有听歌的习惯~今天我们就来学习怎么用Python来爬取音乐吧~~~首先打开音乐网站，找到想听的歌，打开播放页面在网页上右键点击检查，调出开发者工具，找到网络（Network）选项。然后刷新网页以上是其他多数博主的做法然后，你在右边一顿翻找，却根本找不到mp3......不要慌！教程来喽！首先在右下角的歌单里面随便找一首其他的歌播放~然后再重新点回来——————你就会惊喜的发现——m
python爬虫系列课程7：ajax wp_tao Python副业接单实战项目 python 爬虫 ajax
python爬虫系列课程7：ajax一、ajax的介绍二、ajax的使用一、ajax的介绍ajax是AsynchronousJavaScriptandXML的简写，ajax是一个前后端配合的技术，它可以让JavaScript发送异步的http请求，与后台通信进行数据的获取，ajax最大的优点是实现局部刷新，ajax可以发送http请求，当获取到后台数据的时候更新页面显示数据实现局部刷新，在这里大家
Python爬虫实战——如何自动爬取百度搜索结果页面 Python爬虫项目 2025年爬虫实战项目 python 爬虫百度开发语言信息可视化
1.引言随着互联网技术的飞速发展，信息的获取变得越来越方便。百度作为中国最主要的搜索引擎之一，每天都会处理大量的搜索请求。对于研究人员和开发者来说，爬取百度的搜索结果可以帮助他们获取大量的网络数据，用于分析和研究。然而，百度的反爬虫措施使得这一过程变得复杂，如何绕过这些限制并高效地抓取搜索结果，是很多开发者面临的问题。本文将详细介绍如何编写Python爬虫，自动抓取百度搜索结果页面中的所有内容，包
第七课：Python反爬攻防战：Headers/IP代理与验证码 deming_su python tcp/ip 开发语言 ocr proxy模式 beautifulsoup
在爬虫开发过程中，反爬虫机制成为了我们必须面对的挑战。本文将深入探讨Python爬虫中常见的反爬机制，并详细解析如何通过随机User-Agent生成、代理IP池搭建以及验证码识别来应对这些反爬策略。文章将包含完整的示例代码，帮助读者更好地理解和应用这些技术。一、常见反爬机制解析1.1基于Headers的反爬许多网站通过检查请求头（Headers）中的User-Agent字段来判断请求是否来自爬虫。
利用Python爬虫按图搜索1688商品（拍立淘）：实战指南小爬虫程序猿 python 爬虫图搜索算法
在电商领域，按图搜索商品（类似“拍立淘”功能）是一种非常实用的功能，尤其适合用户通过图片快速查找相似商品。1688开放平台提供了按图搜索商品的API接口，允许开发者通过图片获取相关的商品信息。本文将详细介绍如何使用Python爬虫技术调用1688的按图搜索API接口，并解析返回的数据。一、技术背景按图搜索功能通常依赖于图像识别技术和搜索引擎。1688的“拍立淘”功能允许用户上传图片，系统会通过图像
爬虫必备scrapy-redis详解 ylfhpy 爬虫项目入门爬虫 scrapy redis python 数据库 ip代理池分布式
一、概述1.1定义Scrapy-Redis是基于强大的Python爬虫框架Scrapy开发的分布式爬虫组件。它巧妙地借助Redis数据库，实现了请求对象的持久化存储、请求去重的持久化管理以及分布式爬取功能。这使得原本在单节点运行的Scrapy爬虫能够在多个节点上并行工作，极大地提升了爬取效率和处理大规模数据的能力。1.2功能分布式爬取：Scrapy-Redis允许将爬取任务分配到多个爬虫节点上同时
python爬虫是什么架构_Python爬虫是什么?常用框架有哪些? weixin_39596090 python爬虫是什么架构
大家都知道python是一门多岗位编程语言，学习python之后可以从事的岗位有很多，python爬虫便在其中，不过很多人对python不是很了解，所以也不知道python爬虫是什么，接下来带着你的疑问小编为大家介绍一下。Python是一门非常适合开发网络爬虫的编程语言，相比于其他静态编程语言，Python抓取网页文档的接口更简洁;相比于其他动态脚本语言，Python的urllib2包提供了较为完
Python爬取58同城广州房源+可视化分析 R3eE9y2OeFcU40
感谢关注天善智能，走好数据之路↑↑↑欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tstoutiao，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。消失了一段时间，这段时间在CSDN阅读了不少关于Python爬虫的文章，也学习了秦璐老师
利用Python爬虫精准获取淘宝商品详情的深度解析 Jason-河山 API python 爬虫开发语言
在数字化时代，数据的价值日益凸显，尤其是在电子商务领域。淘宝作为中国最大的电商平台之一，拥有海量的商品数据，对于研究市场趋势、分析消费者行为等具有重要意义。本文将详细介绍如何使用Python编写爬虫程序，精准获取淘宝商品详情信息。环境准备在开始之前，我们需要准备以下环境和工具：Python环境：确保你的计算机上安装了Python。IDE：推荐使用PyCharm或VSCode。网络请求库：我们将使用
使用 Python 构建货币汇率数据抓取与分析系统：实时监控外汇平台的汇率波动 Python爬虫项目 2025年爬虫实战项目 python 开发语言爬虫大数据信息可视化
1.引言1.1汇率波动与外汇市场汇率是指一种货币与另一种货币之间的交换比例，通常用于国际贸易、金融市场以及跨境支付等领域。汇率波动是外汇市场的常见现象，受多种因素影响，包括国家的经济政策、国际贸易形势、政治事件以及市场预期等。对于个人投资者、金融机构以及跨国企业来说，及时掌握货币汇率的变动趋势，可以帮助做出更加合理的决策。1.2本文目标本文的目标是通过Python爬虫技术，抓取不同外汇平台的汇率数
python-Scrapy爬虫框架介绍（整个数据的流程） onesalatree Scrapy框架爬虫 python 软件框架爬虫 scrapy
python-Scrapy爬虫框架介绍随着在家的线上教育的进行，课程的深入学习，所要学习的内容和作业也在不断的增多，所以没有过多的自己的时间去学习新的爬虫知识，但疫情逐渐的在好转，我也很是期待开学的那一天，毕竟线上教育的效果没有在学校的更为显著，主要是老师们录课很辛苦今天我想和兄弟们分享一下Scrapy爬虫的原理，也是自己最近刚学习的，有什么不足的地方兄弟们可以评论你或者私信喔。Python爬虫的
Python爬虫丨批量下载必应4K壁纸凌小添 Python爬虫项目 python 爬虫开发语言
1.项目背景经常用电脑的朋友应该会发现，电脑锁屏页面是微软必应每天更新的精美壁纸，偶尔还能看到一些十分惊艳的壁纸，于是我去寻找如何下载他们，我在GitHub上闲逛时，还真发现一个自动归档这些壁纸的仓库。该项目由GitHub用户niumoo维护，项目地址：niumoo/bing-wallpaper。该项目每天自动归档必应首页美图！但当我点开README.md时，发现仓库仅保存图片Markdown索引
初学者如何用 Python 写第一个爬虫？陆鳐LuLu python 爬虫开发语言
编写第一个Python爬虫并不难，以下是一个简单的步骤指南，帮助从零开始。1.安装必要的库首先，你需要安装requests和BeautifulSoup这两个库。requests用于发送HTTP请求，BeautifulSoup用于解析HTML内容。pipinstallrequestsbeautifulsoup42.导入库在你的Python脚本中导入所需的库。importrequestsfrombs4
Python爬虫实战：四个常见案例详解！ Python_trys python 爬虫开发语言 Python基础编程语言 Python爬虫 Python入门
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击这里领取！】网络爬虫是数据采集的重要工具，Python凭借其丰富的库和简洁的语法，成为了爬虫开发的首选语言。本文将详细介绍四个常见的Python爬虫实战案例，帮助你从入门到精通。目录案例一：静态网页数据抓取案例二：动态网页数据抓取案例三：模拟登录与表单提交案例四：数据存储与导出1.环境准备在开始之前，确保你已经安装了以下Python库：pipin
python爬虫之解决Matplotlib出现中文乱码、交互框架警告问题（UserWarning: Glyph XXXX missing from current font.）南沐成辰^ python 爬虫 matplotlib
文章目录前言一、pandas是什么？二、问题描述1.中文字体乱码2.Matplotlib后端警告三、问题原因分析1.中文字体问题：2.后端交互框架问题：四、解决方案1.解决中文字体乱码方法1：在代码中指定SimHei（黑体）字体方法2：在系统中安装中文字体2.解决Matplotlib交互后端警告五、总结前言使用Python的Matplotlib库进行数据可视化时，很多用户会遇到中文字符显示乱码或M
爬虫技术结合淘宝商品快递费用API接口（item_fee）：电商物流数据的高效获取与应用 JelenaAPI小小爬虫淘宝API Python 爬虫 java 大数据
在电商运营中，快递费用的透明化和精准计算对于提升用户体验、优化物流成本以及增强市场竞争力至关重要。淘宝提供的item_fee接口能够帮助开发者快速获取商品的快递费用信息。本文将详细介绍如何利用Python爬虫技术结合item_fee接口，实现高效的数据获取与分析，助力电商企业优化运营。一、item_fee接口简介item_fee是淘宝开放平台提供的一个API接口，用于查询指定商品的快递费用信息。通
Python：分享一个Python爬虫入门实例（有源码，学习使用）衍生星球 python 爬虫学习 pyecharts
一、爬虫基础知识Python爬虫是一种使用Python编程语言实现的自动化获取网页数据的技术。它广泛应用于数据采集、数据分析、网络监测等领域。以下是对Python爬虫的详细介绍：架构和组成：下载器：负责根据指定的URL下载网页内容，常用的库有Requests和urllib。解析器：用于解析下载的网页内容，提取所需的数据。BeautifulSoup和lxml是常用的解析库。存储器：将提取的数据存储到
python唐诗分析综合_Python爬虫抓取唐诗宋词勃斯丶李mkq~~ python唐诗分析综合
一说明Python语言的爬虫开发相对于其他编程语言是极其高校的，在上一篇文章爬虫抓取博客园前10页标题带有Python关键字(不区分大小写)的文章中，我们介绍了使用requests做爬虫开发，它能处理简单的任务，也是入门爬虫最简单的方式。接下来我们将为大家介绍使用beautifulsoup库来做稍微复杂一点的任务。二实操#!/usr/bin/envpython3#-*-coding:utf-8-*
Python爬虫下载加州高速路网PeMS交通流量数据集及交通公开数据集分享郑宜维David
Python爬虫下载加州高速路网PeMS交通流量数据集及交通公开数据集分享Python爬虫下载加州高速路网PeMS交通流量数据集以及交通公开数据集分享项目地址:https://gitcode.com/Resource-Bundle-Collection/123b3本仓库提供了一个Python爬虫程序，用于自动化下载加州高速路网PeMS的交通流量数据集，避免手动操作的繁琐。此外，还分享了部分已下载的
【Python爬虫】爬取公共交通站点数据 Anchenry Python爬虫 python beautifulsoup
首先，先介绍一下爬取公交站点时代码中引入的库。requests：使用HTTP协议向网页发送请求并获得响应的库。BeautifulSoup：用于解析HTML和XML网页文档的库，简化了页面解析和信息提取的过程。json：用于处理JSON格式数据的库。xlwt：用于将数据写入Excel文件中的库。Coordin_transformlat：自定义的一个坐标转换库。在这个爬虫项目中，它被用来将高德地图提供
使用Python爬虫抓取交通流量数据并进行地图可视化 Python爬虫项目 2025年爬虫实战项目 python 爬虫信息可视化开发语言人工智能
引言交通流量的可视化对于城市规划和交通管理至关重要。通过直观的地图展示交通流量的变化，我们可以清晰地了解不同时间和地点的交通状况，从而为交通优化提供数据支持。在现代城市中，交通流量监控系统可以通过传感器、摄像头和GPS设备等手段获取实时数据，而Python作为一种功能强大的编程语言，能够帮助我们高效地抓取这些数据并进行可视化展示。本文将介绍如何使用Python爬虫抓取交通流量数据，并通过地图可视化
Python从0到100（十八）：面向对象编程应用是Dream呀 python 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python爬虫利器Scrapy：小白也能轻松入门的保姆级教程 Serendipity_Carl 爬虫进阶 python 爬虫 pycharm scrapy
Scrapy是纯Python开发的一个高效，结构化的抓取框架异步协程cpu为什么选择Scrapy？框架优势：高性能、模块化设计、内置数据管道（Pipeline）、自动重试机制等。适用场景：大规模数据抓取、结构化数据提取、自动化测试等。对比其他工具：相比Requests+BeautifulSoup，Scrapy更适合工程化项目Scrapy的工作原理图：引擎驱动调度器管理请求队列，下载器获取页面后由S
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option