玩世不恭的Coder

网页爬虫之页面解析

前言

With the rapid development of the Internet，越来越多的信息充斥着各大网络平台。正如《死亡笔记》中L·Lawliet这一角色所提到的大数定律，在众多繁杂的数据中必然存在着某种规律，偶然中必然包含着某种必然的发生。不管是我们提到的大数定律，还是最近火热的大数据亦或其他领域都离不开大量而又干净数据的支持，为此，网络爬虫能够满足我们的需求，即在互联网上按照我们的意愿来爬取我们任何想要得到的信息，以便我们分析出其中的必然规律，进而做出正确的决策。同样，在我们平时上网的过程中，无时无刻可见爬虫的影子，比如我们广为熟知的“度娘”就是其中一个大型而又名副其实的“蜘蛛王”（SPIDER KING）。而要想写出一个强大的爬虫程序，则离不开熟练的对各种网络页面的解析，这篇文章将给读者介绍如何在Python中使用各大解析工具。

内容扼要

常用的解析方式主要有正则、Beautiful Soup、XPath、pyquery，本文主要是讲解后三种工具的使用，而对正则表达式的使用不做讲解，对正则有兴趣了解的读者可以跳转：正则表达式

Beautiful Soup的使用
XPath的使用
pyquery的使用
Beautiful Soup、XPath、pyquery解析腾讯招聘网案例

Beautiful Soup

Beautiful Soup是Python爬虫中针对HTML、XML的其中一个解析工具，熟练的使用之可以很方便的提取页面中我们想要的数据。此外，在Beautiful Soup中，为我们提供了以下四种解析器：

标准库，soup = BeautifulSoup(content, "html.parser")
lxml解析器，soup = BeautifulSoup(content, "lxml")
xml解析器，soup = BeautifulSoup(content, "xml")
html5lib解析器，soup = BeautifulSoup(content, "html5lib")

在以上四种解析库中，lxml解析具有解析速度快兼容错能力强的merits，所以本文主要使用的是lxml解析器，下面我们主要拿百度首页的html来具体讲解下Beautiful Soup的使用：

from bs4 import BeautifulSoup
import requests

if __name__ == "__main__":
    response = requests.get("https://www.baidu.com")
    encoding = response.apparent_encoding
    response.encoding = encoding
    print(BeautifulSoup(response.text, "lxml"))

代码解读：

response = requests.get("https://www.baidu.com")，requests请求百度链接
encoding = response.apparent_encoding，获取页面编码格式
response.encoding = encoding，修改请求编码为页面对应的编码格式，以避免乱码
print(BeautifulSoup(response.text, "lxml"))，使用lxml解析器来对百度首页html进行解析并打印结果

打印后的结果如下所示：


<html> <head><meta content="text/html;charset=utf-8" http-equiv="content-type"/><meta content="IE=Edge" http-equiv="X-UA-Compatible"/><meta content="always" name="referrer"/><link href="https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/bdorz/baidu.min.css" rel="stylesheet" type="text/css"/><title>百度一下，你就知道title>head> <body link="#0000cc"> <div id="wrapper"> <div id="head"> <div class="head_wrapper"> <div class="s_form"> <div class="s_form_wrapper"> <div id="lg"> <img height="129" hidefocus="true" src="//www.baidu.com/img/bd_logo1.png" width="270"/> div> <form action="//www.baidu.com/s" class="fm" id="form" name="f"> <input name="bdorz_come" type="hidden" value="1"/> <input name="ie" type="hidden" value="utf-8"/> <input name="f" type="hidden" value="8"/> <input name="rsv_bp" type="hidden" value="1"/> <input name="rsv_idx" type="hidden" value="1"/> <input name="tn" type="hidden" value="baidu"/><span class="bg s_ipt_wr"><input autocomplete="off" autofocus="autofocus" class="s_ipt" id="kw" maxlength="255" name="wd" value=""/>span><span class="bg s_btn_wr"><input autofocus="" class="bg s_btn" id="su" type="submit" value="百度一下"/>span> form> div> div> <div id="u1"> <a class="mnav" href="http://news.baidu.com" name="tj_trnews">新闻a> <a class="mnav" href="https://www.hao123.com" name="tj_trhao123">hao123a> <a class="mnav" href="http://map.baidu.com" name="tj_trmap">地图a> <a class="mnav" href="http://v.baidu.com" name="tj_trvideo">视频a> <a class="mnav" href="http://tieba.baidu.com" name="tj_trtieba">贴吧a> <noscript> <a class="lb" href="http://www.baidu.com/bdorz/login.gif?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2f%3fbdorz_come%3d1" name="tj_login">登录a> noscript> <script>document.write('+ encodeURIComponent(window.location.href+ (window.location.search === "" ? "?" : "&")+ "bdorz_come=1")+ '" name="tj_login" class="lb">登录');

                script> <a class="bri" href="//www.baidu.com/more/" name="tj_briicon" style="display: block;">更多产品a> div> div> div> <div id="ftCon"> <div id="ftConw"> <p id="lh"> <a href="http://home.baidu.com">关于百度a> <a href="http://ir.baidu.com">About Baidua> p> <p id="cp">©2017 Baidu <a href="http://www.baidu.com/duty/">使用百度前必读a>  <a class="cp-feedback" href="http://jianyi.baidu.com/">意见反馈a> 京ICP证030173号  <img src="//www.baidu.com/img/gs.gif"/> p> div> div> div> body> html>

从上述代码中，我们可以看见打印出的内容有点过于杂乱无章，为了使得解析后的页面清洗直观，我们可以使用prettify()方法来对其进行标准的缩进操作，为了方便讲解，博主对结果进行适当的删除，只留下有价值的内容，源码及输出如下：

bd_soup = BeautifulSoup(response.text, "lxml")
print(bd_soup.prettify())

<html>
 <head>
  <title>
   百度一下，你就知道
  title>
 head>
 <body link="#0000cc">
  <div id="wrapper">
   <div id="head">
    <div class="head_wrapper">
     <div class="s_form">
      <div class="s_form_wrapper">
       <div id="lg">
        <img height="129" hidefocus="true" src="//www.baidu.com/img/bd_logo1.png" width="270"/>
       div>
      div>
     div>
     <div id="u1">
      <a class="mnav" href="http://news.baidu.com" name="tj_trnews">
       新闻
      a>
      <a class="mnav" href="https://www.hao123.com" name="tj_trhao123">
       hao123
      a>
      <a class="mnav" href="http://map.baidu.com" name="tj_trmap">
       地图
      a>
      <a class="mnav" href="http://v.baidu.com" name="tj_trvideo">
       视频
      a>
      <a class="mnav" href="http://tieba.baidu.com" name="tj_trtieba">
       贴吧
      a>
      <a class="bri" href="//www.baidu.com/more/" name="tj_briicon" style="display: block;">
       更多产品
      a>
     div>
    div>
   div>
   <div id="ftCon">
    <div id="ftConw">
     <p id="lh">
      <a href="http://home.baidu.com">
       关于百度
      a>
      <a href="http://ir.baidu.com">
       About Baidu
      a>
     p>
     <p id="cp">
      ©2017 Baidu
      <a href="http://www.baidu.com/duty/">
       使用百度前必读
      a>
      <a class="cp-feedback" href="http://jianyi.baidu.com/">
       意见反馈
      a>
      京ICP证030173号
      <img src="//www.baidu.com/img/gs.gif"/>
     p>
    div>
   div>
  div>
 body>
html>

节点选择

在Beautiful Soup中，我们可以很方便的选择想要得到的节点，只需要在bd_soup对象中使用.的方式即可，使用如下：

bd_title_bj = bd_soup.title
bd_title_bj_name = bd_soup.title.name
bd_title_name = bd_soup.title.string
bd_title_parent_bj_name = bd_soup.title.parent.name
bd_image_bj = bd_soup.img
bd_image_bj_dic = bd_soup.img.attrs
bd_image_all = bd_soup.find_all("img")
bd_image_idlg = bd_soup.find("div", id="lg")

代码解读：

bd_soup.title，正如前面所说，Beautiful Soup可以很简单的解析对应的页面，只需要使用bd_soup.的方式进行选择节点即可，该行代码正是获得百度首页html的title节点内容
bd_soup.title.name，使用.name的形式即可获取节点的名称
bd_soup.title.string，使用.string的形式即可获得节点当中的内容，这句代码就是获取百度首页的title节点的内容，即浏览器导航条中所显示的百度一下，你就知道
bd_soup.title.parent.name，使用.parent可以该节点的父节点，通俗地讲就是该节点所对应的上一层节点，然后使用.name获取父节点名称
bd_soup.img，如bd_soup.title一样，该代码获取的是img节点，只不过需要注意的是：在上面html中我们可以看见总共有两个img节点，而如果使用.img的话默认是获取html中的第一个img节点，而不是所有
bd_soup.img.attrs，获取img节点中所有的属性及属性内容，该代码输出的结果是一个键值对的字典格式，所以之后我们只需要通过字典的操作来获取属性所对应的内容即可。比如bd_soup.img.attrs.get("src")和bd_soup.img.attrs["src"]的方式来获取img节点所对应的src属性的内容，即图片链接
bd_soup.find_all("img")，在上述中的.img操作默认只能获取第一个img节点，而要想获取html中所有的img节点，我们需要使用.find_all("img")方法，所返回的是一个列表格式，列表内容为所有的选择的节点
bd_soup.find("div", id="lg")，在实际运用中，我们往往会选择指定的节点，这个时候我们可以使用.find()方法，里面可传入所需查找节点的属性，这里需要注意的是：在传入class属性的时候其中的写法是.find("div", class_="XXX")的方式。所以该行代码表示的是获取id属性为lg的div节点，此外，在上面的.find_all()同样可以使用该方法来获取指定属性所对应的所有节点

上述代码中解析的结果对应打印如下：

百度一下，你就知道
title
百度一下，你就知道
head
"129" hidefocus="true" src="//www.baidu.com/img/bd_logo1.png" width="270"/>
{'hidefocus': 'true', 'src': '//www.baidu.com/img/bd_logo1.png', 'width': '270', 'height': '129'}
["129" hidefocus="true" src="//www.baidu.com/img/bd_logo1.png" width="270"/>, /www.baidu.com/img/gs.gif"/>]
"lg"> "129" hidefocus="true" src="//www.baidu.com/img/bd_logo1.png" width="270"/>

数据提取

在上一小节节点选择我们讲到了部分数据提取的方法，然而，Beautiful Soup的强大之处还不止步于此。接下来我们继续揭开其神秘的面纱。

.get_text()

获取对象中所有的内容：

all_content = bd_soup.get_text()

 百度一下，你就知道                     新闻 hao123 地图 视频 贴吧  登录  document.write('+ encodeURIComponent(window.location.href+ (window.location.search === "" ? "?" : "&")+ "bdorz_come=1")+ '" name="tj_login" class="lb">登录');

                 更多产品       关于百度 About Baidu  ©2017 Baidu 使用百度前必读  意见反馈 京ICP证030173号

.strings，.stripped_strings

print(type(bd_soup.strings))
#

.strings用于提取bd_soup对象中所有的内容，而从上面的输出结果我们可以看出.strings的类型是一个生成器，对此可以使用循环来提取出其中的内容。但是我们在使用.strings的过程中会发现提取出来的内容有很多的空格以及换行，对此我们可以使用.stripped_strings方法来解决该问题，用法如下：

for each in bd_soup.stripped_strings:
    print(each)

输出结果：

百度一下，你就知道
新闻
hao123
地图
视频
贴吧
登录
更多产品
关于百度
About Baidu
©2017 Baidu
使用百度前必读
意见反馈
京ICP证030173号

.parent，.children，.parents

.parent可以选择该节点的父节点，.children可以选择该节点的孩子节点，.parents选择该节点所有的上层节店，返回的是生成器，各用法如下：

bd_div_bj = bd_soup.find("div", id="u1")
print(type(bd_div_bj.parent))
print("*" * 50)
for child in bd_div_bj.children:
    print(child)
print("*" * 50)
for parent in bd_div_bj.parents:
    print(parent.name)

结果输出：

<class 'bs4.element.Tag'>
**************************************************

<a class="mnav" href="http://news.baidu.com" name="tj_trnews">新闻a>

<a class="mnav" href="https://www.hao123.com" name="tj_trhao123">hao123a>

<a class="mnav" href="http://map.baidu.com" name="tj_trmap">地图a>

<a class="mnav" href="http://v.baidu.com" name="tj_trvideo">视频a>

<a class="mnav" href="http://tieba.baidu.com" name="tj_trtieba">贴吧a>

**************************************************
div
div
div
body
html

Beautiful Soup小结

Beautiful Soup主要的用法就是以上一些，还有其他一些操作在实际开发过程中使用的不多，这里不做过多的讲解了，所以整体来讲Beautiful Soup的使用还是比较简单的，其他一些操作可见官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#contents-children

XPath

XPath全称是XML Path Language，它既可以用来解析XML，也可以用来解析HTML。在上一部分已经讲解了Beautiful Soup的一些常见的骚操作，在这里，我们继续来看看XPath的使用，瞧一瞧XPath的功能到底有多么的强大以致于受到了不少开发者的青睐。同Beautiful Soup一样，在XPath中提供了非常简洁的节点选择的方法，Beautiful Soup主要是通过.的方式来进行子节点或者子孙节点的选择，而在XPath中则主要通过/的方式来选择节点。除此之外，在XPath中还提供了大量的内置函数来处理各个数据之间的匹配关系。

首先，我们先来看看XPath常见的节点匹配规则：

表达式	解释说明
`/`	在当前节点中选取直接子节点
`//`	在当前节点中选取子孙节点
`.`	选取当前节点
`..`	选取当前节点的父节点
`@`	指定属性（id、class……）

下面我们继续拿上面的百度首页的HTML来讲解下XPath的使用。

节点选择

要想正常使用Xpath，我们首先需要正确导入对应的模块，在此我们一般使用的是lxml，操作示例如下：

from lxml import etree
import requests
import html

if __name__ == "__main__":
    response = requests.get("https://www.baidu.com")
    encoding = response.apparent_encoding
    response.encoding = encoding
    print(response.text)
    bd_bj = etree.HTML(response.text)
    bd_html = etree.tostring(bd_bj).decode("utf-8")
    print(html.unescape(bd_html))

1~9行代码如Beautiful Soup一致，下面对之后的代码进行解释：

etree.HTML(response.text)，使用etree模块中的HTML类来对百度html(response.text)进行初始化以构造XPath解析对象，返回的类型为
etree.tostring(bd_html_elem).decode("utf-8")，将上述的对象转化为字符串类型且编码为utf-8
html.unescape(bd_html)，使用HTML5标准定义的规则将bd_html转换成对应的unicode字符。

打印出的结果如Beautiful Soup使用时一致，这里就不再显示了，不知道的读者可回翻。既然我们已经得到了Xpath可解析的对象(bd_bj)，下面我们就需要针对这个对象来选择节点了，在上面我们也已经提到了，XPath主要是通过/的方式来提取节点，请看下面Xpath中节点选择的一些常见操作：

all_bj = bd_bj.xpath("//*")             # 选取所有节点
img_bj = bd_bj.xpath("//img")           # 选取指定名称的节点
p_a_zj_bj = bd_bj.xpath("//p/a")        # 选取直接节点
p_a_all_bj = bd_bj.xpath("//p//a")      # 选取所有节点
head_bj = bd_bj.xpath("//title/..")     # 选取父节点

结果如下：

[0x14d6a6d1c88>, 0x14d6a6e4408>, 0x14d6a6e4448>, 0x14d6a6e4488>, 0x14d6a6e44c8>, 0x14d6a6e4548>, 0x14d6a6e4588>, 0x14d6a6e45c8>, 0x14d6a6e4608>, 0x14d6a6e4508>, 0x14d6a6e4648>, 0x14d6a6e4688>, ......]

[0x14d6a6e4748>, 0x14d6a6e4ec8>]

[0x14d6a6e4d88>, 0x14d6a6e4dc8>, 0x14d6a6e4e48>, 0x14d6a6e4e88>]

[0x14d6a6e4d88>, 0x14d6a6e4dc8>, 0x14d6a6e4e48>, 0x14d6a6e4e88>]

[0x14d6a6e4408>]

all_bj = bd_bj.xpath("//*")，使用//可以选择当前节点(html)下的所有子孙节点，且以一个列表的形式来返回，列表元素通过bd_bj一样是element对象，下面的返回类型一致
img_bj = bd_bj.xpath("//img")，选取当前节点下指定名称的节点，这里建议与Beautiful Soup的使用相比较可增强记忆，Beautiful Soup是通过.find_all("img")的形式
p_a_zj_bj = bd_bj.xpath("//p/a")，选取当前节点下的所有p节点下的直接子a节点，这里需要注意的是”直接“，如果a不是p节点的直接子节点则选取失败
p_a_all_bj = bd_bj.xpath("//p//a") ，选取当前节点下的所有p节点下的所有子孙a节点，这里需要注意的是”所有“，注意与上一个操作进行区分
head_bj = bd_bj.xpath("//title/..")，选取当前节点下的title节点的父节点，即head节点

数据提取

在了解如何选择指定的节点之后，我们就需要提取节点中所包含的数据了，具体提取请看下面的示例：

img_href_ls = bd_bj.xpath("//img/@src")
img_href = bd_bj.xpath("//div[@id='lg']/img[@hidefocus='true']/@src")
a_content_ls = bd_bj.xpath("//a//text()")
a_news_content = bd_bj.xpath("//a[@class='mnav' and @name='tj_trnews']/text()")

输出结果：

['//www.baidu.com/img/bd_logo1.png', '//www.baidu.com/img/gs.gif']

['//www.baidu.com/img/bd_logo1.png']

['新闻', 'hao123', '地图', '视频', '贴吧', '登录', '更多产品', '关于百度', 'About Baidu', '使用百度前必读', '意见反馈']

['新闻']

img_href_ls = bd_bj.xpath("//img/@src")，该代码先选取了当前节点下的所有img节点，然后将所有img节点的src属性值选取出来，返回的是一个列表形式
img_href = bd_bj.xpath("//div[@id='lg']/img[@hidefocus='true']/@src")，该代码首先选取了当前节点下所有id属性值为lg的div，然后继续选取div节点下的直接子img节点（hidefoucus=true），最后选取其中的src属性值
a_content_ls = bd_bj.xpath("//a//text()")，选取当前节点所有的a节点的所遇文本内容
a_news_content = bd_bj.xpath("//a[@class='mnav' and @name='tj_trnews']/text()")，多属性选择，在xpath中可以指定满足多个属性的节点，只需要and即可

提醒：读者在阅读的过程中注意将代码和输出的结果仔细对应起来，只要理解其中的意思也就不难记忆了。

XPath小结

耐心看完了XPath的使用方法之后，聪明的读者应该不难发现，其实Beautiful Soup和XPath的本质和思路上基本相同，只要我们在阅读XPath用法的同时在脑袋中不断的思考，相信聪明的你阅读至此已经能够基本掌握了XPath用法。

pyquery

对于pyquery，官方的解释如下：

pyquery allows you to make jquery queries on xml documents. The API is as much as possible the similar to jquery. pyquery uses lxml for fast xml and html manipulation.
This is not (or at least not yet) a library to produce or interact with javascript code. I just liked the jquery API and I missed it in python so I told myself “Hey let’s make jquery in python”. This is the result.
It can be used for many purposes, one idea that I might try in the future is to use it for templating with pure http templates that you modify using pyquery. I can also be used for web scrapping or for theming applications with Deliverance.
The project is being actively developped on a git repository on Github. I have the policy of giving push access to anyone who wants it and then to review what he does. So if you want to contribute just email me.
Please report bugs on the github issue tracker.

在网页解析过程中，除了强大的Beautiful Soup和XPath之外，还有qyquery的存在，qyquery同样受到了不少“蜘蛛”的欢迎，下面我们来介绍下qyquery的使用。

节点选择

与Beautiful Soup和XPath明显不同的是，在qyquery中，一般存在着三种解析方式，一种是requests请求链接之后把html进行传递，一种是将url直接进行传递，还有一种是直接传递本地html文件路径即可，读者在实际使用的过程中根据自己的习惯来编码即可，下面我们来看下这三种方式的表达：

import requests
from pyquery import PyQuery as pq

bd_html = requests.get("https://www.baidu.com").text
bd_url = "https://www.baidu.com"
bd_path = "./bd.html"

# 使用html参数进行传递
def way1(html):
    return pq(html)

# 使用url参数进行传递
def way2(url):
    return pq(url=url)

def way3(path):
    return pq(filename=path)

print(type(way1(html=bd_html)))
print(type(way2(url=bd_url)))
print(type(way3(path=bd_path)))

# 
# 
#

从上面三种获得解析对象方法的代码中我们可以明显看见都可以得到一样的解析对象，接下来我们只要利用这个对象来对页面进行解析从而提取出我们想要得到的有效信息即可，在qyquery中一般使用的是CSS选择器来选取。下面我们仍然使用百度首页来讲解pyquery的使用，在这里我们假设解析对象为bd_bj。

response = requests.get("https://www.baidu.com")
response.encoding = "utf-8"

bd_bj = pq(response.text)

bd_title = bd_bj("title")
bd_img_ls = bd_bj("img")
bd_img_ls2 = bd_bj.find("img")
bd_mnav = bd_bj(".mnav")
bd_img = bd_bj("#u1 a")
bd_a_video = bd_bj("#u1 .mnav")

# 百度一下，你就知道
#   
# ......
# 输出结果较长，读者可自行运行

正如上面代码所示，pyquery在进行节点提取的时候通常有三种方式，一种是直接提取出节点名即可提取出整个节点，当然这种方式你也可以使用find方法，这种提取节点的方式是不加任何属性限定的，所以提取出的节点往往会含有多个，所以我们可以使用循环.items()来进行操作；一种是提取出含有特定class属性的节点，这种形式采用的是.+class属性值；还有一种是提取含有特定id属性的节点，这种形式采用的是#+id属性值。熟悉CSS的读者应该不难理解以上提取节点的方法，正是在CSS中提取节点然后对其进行样式操作的方法。上述三种方式您也可以像提取bd_a_video一样混合使用

数据提取

在实际解析网页的过程中，三种解析方式基本上大同小异，为了读者认识pyquery的数据提取的操作以及博主日后的查阅，在这里简单的介绍下

img_src1 = bd_bj("img").attr("src") # //www.baidu.com/img/bd_logo1.png
img_src2 = bd_bj("img").attr.src    # //www.baidu.com/img/bd_logo1.png

for each in bd_bj.find("img").items():
    print(each.attr("src"))

print(bd_bj("title").text())    # 百度一下，你就知道

如上一二行代码所示，提取节点属性我们可以有两种方式，这里拿src属性来进行说明，一种是.attr("src")，另外一种是.attr.src，读者根据自己的习惯来操作即可，这里需要注意的是：在节点提取小结中我们说了在不限制属性的情况下是提取出所有满足条件的节点，所以在这种情况下提取出的属性是第一个节点属性。要想提取所有的节点的属性，我们可以如四五行代码那样使用.items()然后进行遍历，最后和之前一样提取各个节点属性即可。qyquery提取节点中文本内容如第七行代码那样直接使用.text()即可。

pyquery小结

pyquery解析如Beautiful Soup和XPath思想一致，所以这了只是简单的介绍了下，想要进一步了解的读者可查阅官方文档在加之熟练操作即可。

腾讯招聘网解析实战

通过上述对Beautiful Soup、XPath以及pyquery的介绍，认真阅读过的读者想必已经有了一定的基础，下面我们通过一个简单的实战案例来强化一下三种解析方式的操作。此次解析的网站为腾讯招聘网，网址url：https://hr.tencent.com/，其社会招聘网首页如下所示：

此次我们的任务就是分别利用上述三种解析工具来接下该网站下的社会招聘中的所有数据。

网页分析：

通过该网站的社会招聘的首页，我们可以发现如下三条主要信息：

首页url连接为https://hr.tencent.com/position.php
一共有288页的数据，每页10个职位，总职位共计2871
数据字段有五个，分别为：职位名称、职位类别、招聘人数、工作地点、职位发布时间

既然我们解析的是该网站下所有职位数据，再者我们停留在第一页也没有发现其他有价值的信息，不如进入第二页看看，这时我们可以发现网站的url链接有了一个比较明显的变化，即原链接在用户端提交了一个start参数，此时链接为https://hr.tencent.com/position.php?&start=10#a，陆续打开后面的页面我们不难发现其规律：每一页提交的start参数以10位公差进行逐步递增。之后，我们使用谷歌开发者工具来审查该网页，我们可以发现全站皆为静态页面，这位我们解析省下了不少麻烦，我们需要的数据就静态的放置在table标签内，如下所示：

下面我们具体来分别使用以上三种工具来解析该站所有职位数据。

案例源码

import requests
from bs4 import BeautifulSoup
from lxml import etree
from pyquery import PyQuery as pq
import itertools
import pandas as pd

class TencentPosition():

    """
    功能： 定义初始变量
    参数：
        start： 起始数据
    """
    def __init__(self, start):
        self.url = "https://hr.tencent.com/position.php?&start={}#a".format(start)
        self.headers = {
            "Host": "hr.tencent.com",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
        }
        self.file_path = "./TencentPosition.csv"

    """
    功能： 请求目标页面
    参数：
        url： 目标链接
        headers： 请求头
    返回：
        html，页面源码
    """
    def get_page(self, url, headers): 
        res = requests.get(url, headers=headers)
        try:
            if res.status_code == 200:
                return res.text
            else:
                return self.get_page(url, headers=headers)
        except RequestException as e:
            return self.get_page(url, headers=headers)

    """
    功能： Beautiful Soup解析页面
    参数：
        html： 请求页面源码
    """
    def soup_analysis(self, html):
        soup = BeautifulSoup(html, "lxml")
        tr_list = soup.find("table", class_="tablelist").find_all("tr")
        for tr in tr_list[1:-1]:
            position_info = [td_data for td_data in tr.stripped_strings]
            self.settle_data(position_info=position_info)

    """
    功能： xpath解析页面
    参数：
        html： 请求页面源码
    """
    def xpath_analysis(self, html):
        result = etree.HTML(html)
        tr_list = result.xpath("//table[@class='tablelist']//tr")
        for tr in tr_list[1:-1]:
            position_info = tr.xpath("./td//text()")
            self.settle_data(position_info=position_info)

    """
    功能： pyquery解析页面
    参数：
        html： 请求页面源码
    """
    def pyquery_analysis(self, html):
        result = pq(html)
        tr_list = result.find(".tablelist").find("tr")
        for tr in itertools.islice(tr_list.items(), 1, 11):
            position_info = [td.text() for td in tr.find("td").items()]
            self.settle_data(position_info=position_info)

    """
    功能： 职位数据整合
    参数：
        position_info： 字段数据列表
    """
    def settle_data(self, position_info):
        position_data = {
                "职位名称": position_info[0].replace("\xa0", " "),  # replace替换\xa0字符防止转码error
                "职位类别": position_info[1],
                "招聘人数": position_info[2],
                "工作地点": position_info[3],
                "发布时间": position_info[-1],
            }
        print(position_data)
        self.save_data(self.file_path, position_data)

    """
    功能： 数据保存
    参数：
        file_path： 文件保存路径
        position_data： 职位数据
    """
    def save_data(self, file_path, position_data):
        df = pd.DataFrame([position_data])
        try:
            df.to_csv(file_path, header=False, index=False, mode="a+", encoding="gbk")  # 数据转码并换行存储
        except:
            pass

if __name__ == "__main__":
    for page, index in enumerate(range(287)):
        print("正在爬取第{}页的职位数据:".format(page+1))
        tp = TencentPosition(start=(index*10))
        tp_html = tp.get_page(url=tp.url, headers=tp.headers)
        tp.pyquery_analysis(html=tp_html)
        print("\n")

部分结果如下：

总结

在本篇文章中，首先我们分别介绍了Beautiful Soup、XPath、pyquery的常见操作，之后通过使用该三种解析工具来爬取腾讯招聘网中所有的职位招聘数据，从而进一步让读者有一个更加深刻的认识。该案例中，由于本篇文章重点在于网站页面的解析方法，所以未使用多线程、多进程，爬取所有的数据爬取的时间在两分钟左右，在之后的文章中有时间的话会再次介绍多线程多进程的使用，案例中的解析方式都已介绍过，所以读者阅读源码即可。

注意：本文章中所有的内容皆为在实际开发中常见的一些操作，并非所有，想要进一步提升等级的读者务必请阅读官方文档。

2019-01-01,By Zero

你可能感兴趣的:(网页爬虫之页面解析)

element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
下载github patch到本地小米人er 我的博客 git patch
以下是几种从GitHub上下载以.patch结尾的补丁文件的方法：通过浏览器直接下载打开包含该.patch文件的GitHub仓库。在仓库的文件列表中找到对应的.patch文件。点击该文件，浏览器会显示文件的内容，在页面的右上角通常会有一个“Raw”按钮，点击它可以获取原始文件内容。然后在浏览器中使用快捷键（如Ctrl+S或者Command+S）将原始文件保存到本地，选择保存的文件名并确保后缀为.p
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
东南林氏之九牧林候选父系祖缘树TheYtree
渊源介绍东晋初年晋安林始祖林禄公入闽，传十世隋右丞林茂，由晋安迁居莆田北螺村。又五世而至林万宠，唐开元间任高平太守，生三子：韬、披、昌。韬公之孙攒，唐德宗立双阙以旌表其孝，时号"阙下林家"。昌公字茂吉，乃万宠公第三子，官兵部司马，配宋氏，生一子名萍。萍于唐贞元间明经及第，官沣洲司马(后追赠中宪大夫)。唐太和年间归隐后，迁居仙游游洋，世称“游洋林”；其后裔居游洋后迁移漳州漳浦路下，由路下林第四房平和
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
大伟说成语之唉声叹气求索大伟
＊大伟说成语＊【唉声叹气】叹气：因心里不痛快或不如意而吐出长气，发出声音。因为痛苦、憋闷或感伤而发出叹息的声音。【大伟说】情绪外露，非人类所特有，动物亦有情绪，悲哀和欢乐所表示的情绪亦是不一样的，会嗷嗷大叫也会低吟痛哭。不同的是，人类的情绪更复杂，更多样，更丰富。唉声叹气，可以说是最基础的情绪，因为无奈而举足无措，不知该如何如何化解，只有独自一人慢慢承受，长吁短叹不知如何是好，其实是无能无力的表现
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
怎么做淘客赚钱(2022最新免费淘客盈利的方法) 高省_飞智666600
很多人都不知道什么是淘宝客，今天小编为大家解答一下吧。淘宝客，现在简称淘客，是时下比较流行的一个词语，特质为淘宝店推广商品获取提成的人，这些人没有自己的产品，只是在淘宝里面选择适合自己的产品，在自己比较熟悉的领域推广，把产品卖出去之后，会从淘宝店家那里获得百分之五到百分之五十左右的佣金。淘宝客付出的是什么呢？时间。你需要花时间去选适合自己推广的产品，需要花时间去选自己的推广方法，如果你打算自己做个
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
锁之缘尘缘诗词原创作品
是谁追寻梦的足迹，是谁在偷偷的哭泣，日月隔离在黑白天地情感在心中蔓延的痕迹天与地的距离有多远流失的星晨落入哪片空间不要让泪水模糊双眼心牢中一样充满温暖谁说爱情没有永远白娘子又为何爱许仙蝴蝶墓地展翅翩翩轻歌慢舞袖卷人间传奇千古留爱万年…………月落星飞徘徊是选择不去问自已为合舍不得寂寞本就是痛苦的不在追寻梦中的痕迹才不会失去真实的自已
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
ARM驱动学习之4小结 JT灬新一嵌入式 C++arm开发学习 linux
ARM驱动学习之4小结#include#include#include#include#include#defineDEVICE_NAME"hello_ctl123"MODULE_LICENSE("DualBSD/GPL");MODULE_AUTHOR("TOPEET");staticlonghello_ioctl(structfile*file,unsignedintcmd,unsignedlo
C++ | Leetcode C++题解之第409题最长回文串 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:intlongestPalindrome(strings){unordered_mapcount;intans=0;for(charc:s)++count[c];for(autop:count){intv=p.second;ans+=v/2*2;if(v%2==1andans%2==0)++ans;}returnans;}};
2020-12-24 我和我的天使们
阅读《老子的心事》391—403“将欲取之，必固与之”：想要得到什么，首先就要送出什么。我常常对孩子们说，你希望别人怎样对你你就怎样对待别人。想要得到别人的尊重，首先要尊重别人。我希望她们可以不迟到，因为不迟到是对别人的尊重，我就自己就先做到不迟到。哪怕是约朋友逛街，我尽量准时赴约。我严格要求孩子们，也同样严格要求自己，我跟孩子们一起把好的品格变成习惯。“是谓微明”：这就是微妙的智慧。看起来很少很
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
学习“论语”-第59天春峰轩
12.14子张问政。子曰：“居之无倦，行之以忠。”子张问为政之道。孔子说：“在位尽职不懈怠，执行政令要忠诚。”12.15子曰：“博学于文，约之以礼，亦可以弗畔矣夫！”孔子说：“君子广泛地学习文献，并且用礼节约束自己，也就不会离经叛道了。”12.16子曰：“君子成人之美，不成人之恶。小人反是。”孔子说：“君子成全别人的好事，而不助长别人的坏处。小人则与此相反行事。”知识点:“成人之美，不成人之恶”贯
如何选择最适合你的项目研发管理软件？TAPD卓越版全面解析北京云巴巴信息技术有限公司产品经理需求分析
在当今快速发展的科技时代，项目研发管理软件已成为企业不可或缺的重要工具。面对市场上琳琅满目的产品，如何选择一款适合自己团队的项目研发管理软件呢？本文将围绕项目研发管理软件的选择标准，重点介绍TAPD卓越版的特点、优势以及使用体验，让你更好地理解和选择适合自己的项目研发管理软件。项目研发管理软件的选择标准在选择项目研发管理软件时，我们需要考虑以下几个方面的因素：功能全面性：软件是否覆盖了从需求管理、
2021-11-15 宙火
我给宋小姐写了首诗，是我在课上因思恋宋小姐而写的。“自古多情是唐宋，从来双飞归巢燕。邻家小女相聘婷，常使春意荡漾我。不知单思可为爱，惟愿一心付之汝。”我拿给宋小姐看了，她说我写得很棒。我很开心，但又不是那么开心。宋小姐是回复我了，但也只是说我写得很棒，对我诗句中蕴藏的真切感情，不知道是真的没发现，还是装作没发现。但我不深究，只是这样，我就很开心了。我答应宋小姐，一天给她写一首诗。
剧本杀《鲸鱼马戏团》剧本杀剧透+真相答案复盘解析攻略 VX搜_奶茶剧本杀
本文为剧本杀《鲸鱼马戏团》剧本杀测评+部分真相复盘，获取完整真相复盘只需两步：①、关注微信公众号【奶茶剧本杀】→②、回复剧本杀《鲸鱼马戏团》即可获取查看剧本杀《鲸鱼马戏团》剧本杀真相答案复盘+凶手剧透：以下是玩家评测+部分关键证据，凶手，时间线，复盘解析，推理逻辑--------------------------------------------------------------------
《我的青葱岁月之缘来是你》第二章迎新晚会思源思缘思怨
“怎么你也来了这里？”我愉快的问到，想着这是上天给的缘分吗？我还没去找他竟然就相遇了。那个让我开心的老乡。“你好，我也是舞蹈社的新人啊！”他说，笑起来回答我，眼睛弯弯的。“这么巧，我叫吴倩，你叫啥？”“我叫韩欢，你也是B市人吧，c中毕业的？”“我不是，我是f中的，不然肯定会认识你的”“是吗？以后多多关照了”他还冲我眨了眨眼睛。内心一阵悸动，这是……回到寝室，我兴奋的告诉我的室友这个事情，我再次觉得
数据结构之哈希表 X同学的开始数据结构数据结构散列表
哈希表(散列表)出现的原因在顺序表中查找时，需要从表头开始，依次遍历比较a[i]与key的值是否相等，直到相等才返回索引i；在有序表中查找时，我们经常使用的是二分查找，通过比较key与a[i]的大小来折半查找，直到相等时才返回索引i。最终通过索引找到我们要找的元素。但是，这两种方法的效率都依赖于查找中比较的次数。我们有一种想法，能不能不经过比较，而是直接通过关键字key一次得到所要的结果呢？这时，
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p