Edward_is_1ncredible

[Python爬虫] 3-数据解析(lxml/bs4/正则)

# I.Xpath语法和lxml模块
# 1)Xpath语法
# 1.概念:XPath是一门在XML/HTML文档中查找信息的语言
# 2.工具:Chrome的XPath Helper和Firefox的XPath Checker
# 3.语法:使用//获取整个页面当中的元素,然后写标签名,然后写谓词进行提取,例://div[@class="abc"]
# 4.几个注意点:
    # i.//子孙节点,/子节点,@属性
    # ii.contains:某个属性中出现了多个值,可以使用contains函数,例://div[contains(@class,"job_detail")]
    # iii.谓词的第一个下标为1
    
# 2)lxml模块
# 1.概念:lxml是一个基于C语言的XML/HTML的解析器,用于解析和提取XML/HTML数据
# 2.编码
# 2-1.解析html字符串,使用lxml.etree.HTML进行解析(str-> lxml.etree._Element-> bytes)
from lxml import etree
text = """


    
         first item
         second item
         third item
         fourth item
         fifth item
     
 
"""
htmlElement = etree.HTML(text)  # 利用etree.HTML,将字符串解析为HTML文档
result = etree.tostring(htmlElement,encoding="utf-8")  # 按字符串序列化HTML文档
print(result.decode("utf-8"))
# 2-2.解析html文件,使用lxml.etree.parse进行解析
htmlElement = etree.parse("hello.html")
result = etree.tostring(htmlElement,encoding="utf-8")
print(result.decode("utf-8"))
# !!!非常重要!!!这个函数默认使用XML解析器,所以如果碰到一些不规范的html代码时就会解析错误,这时候需要自己指定一个HTML解析器
# parser = etree.HTMLParser(encoding="utf-8")
# htmlElement = etree.parse("tencent.html",parser=parser)
# result = etree.tostring(htmlElement,encoding="utf-8")
# print(result.decode("utf-8"))

# 3)lxml结合xpath的使用
# tencent.html见附录1
from lxml import etree
parser = etree.HTMLParser(encoding="utf-8")
html = etree.parse("tencent.html",parser=parser)
# print(html)
# 1.获取所有的tr标签
# !!!重要!!!xpath函数返回的是一个列表,对于列表[]而言,想要取单个元素可以在列表后面加[]这样索引的方式选取
trs = html.xpath("//tr")
# for tr in trs:
    # print(etree.tostring(tr,encoding="utf-8").decode("utf-8"))
    # break
# 2.获取第2个tr标签
tr = html.xpath("//tr[2]")[0]
# print(etree.tostring(tr,encoding="utf-8").decode("utf-8"))
# 3.获取所有class等于even类的标签
trs = html.xpath("//tr[@class='even']")
# for tr in trs:
#     print(etree.tostring(tr,encoding="utf-8").decode("utf-8"))
# 4.获取所有a target的href属性
# a标签位置(第一个td下有一个子标签a)href记录了部分url,可补充成完整的url
list = html.xpath("//td/a/@href") # 获取所有的a标签
# 注意不是html.xpath("//a[@href]"),这个表示所有包含href的a标签,而不是需求中的所有a标签的href
positions = []
for i in list:
    url = "https://hr.tencent.com/" + i
    # print(url)
# 5.获取所有的职位信息(纯文本)
# 分析:所有的信息均在tr标签下,且要排除第一个(抬头)和最后一个(其他不需要的信息)
trs = html.xpath("//tr[position()>1 and position()<11]")
for tr in trs:
    # !!!重要!!!在某个标签下,再执行xpath函数,获取这个标签下的子孙元素,那么应该在//之前加"."代表在当前元素下获取
    href = tr.xpath(".//a/@href")[0]
    url = "https://hr.tencent.com/" + href
    # 用text()函数可获取某个标签下的所有文本
    # 这里text()前要//,因为文本并不是直接在td标签下,而是在td的子标签a下
    title = tr.xpath("./td[1]//text()")[0]
    category = tr.xpath("./td[2]//text()")[0]
    numbers = tr.xpath("./td[3]//text()")[0]
    area = tr.xpath("./td[4]//text()")[0]
    pubdate = tr.xpath("./td[5]//text()")[0]
    # 拼接为字典,添加到列表中
    position = {"url:":url,"title:":title,"category":category,
                "numbers":numbers,"area":area,"pubdate:":pubdate}
    positions.append(position)
print(positions)

# 4)豆瓣电影爬虫
# 1.将目标网站上的页面抓取下来
import requests
url = "https://movie.douban.com/cinema/nowplaying/hangzhou/"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
           "Referer":"https://movie.douban.com/"}
response = requests.get(url=url,headers=headers)
text = response.text
# print(text)
# response.text:返回一个经过解码后的字符串,是str(unicode)类型
# response.content:返回一个原生的字符串,是bytes类型
# 2.将抓取下来的数据根据一定的规则进行提取
from lxml import etree
html = etree.HTML(text)
ul = html.xpath("//ul[@class='lists']")[0]
# print(etree.tostring(ul,encoding="utf-8").decode("utf-8"))  # 将ul编码为utf-8的形式->转换为字符串->解码为utf-8
lis = ul.xpath("./li")
movies = [] # 空列表用于放置字典
for li in lis:
    title = li.xpath("@data-title")[0]
    score = li.xpath("@data-score")[0]
    duration = li.xpath("@data-duration")[0]
    region = li.xpath("@data-region")[0]
    director = li.xpath("@data-director")[0]
    actors = li.xpath("@data-actors")[0]
    poster = li.xpath(".//img/@src")[0]
    movie = {"title":title,"score":score,"duration":duration,
             "region":region,"director":director,"actors":actors,"poster":poster}
    movies.append(movie)
print(movies)

# 5)阳光电影爬虫
# 1.使用的库
import requests
from lxml import etree
# 2.设定全局变量
HEADERS = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36",
          "Referer":"http://www.ygdy8.net/index.html"}
HEADER_URL = "http://www.ygdy8.net/"
# 3.获取各个页面的url,并将各个url导入get_detail_urls函数中
def spider():
    base_url = "http://www.ygdy8.net/html/gndy/dyzz/list_23_{}.html" # 页面url的框架
    movies = [] # 创建一个list用来存放解析好的内容(即movie = {})
    for i in range(1,2): # 此处选取前11页
        page_urls = base_url.format(i) # 获取各个页面的url
        detail_urls = get_detail_urls(page_urls) # 将各个page_url导入get_detail_urls函数中
        for detail_url in detail_urls: # 遍历所有页中的detail_urls,依次将detail_url导入parse_detail_urls中进行解析
            movie = parse_detail_urls(detail_url)
            movies.append(movie)
# 4.得到page_urls后获取对应页所有电影的detail_urls
def get_detail_urls(page_urls):
    response = requests.get(url=page_urls,headers=HEADERS)
    text = response.content.decode("gbk","ignore")
    # 注1：此处不能使用.text,原因在于response.text命令会默认选择一个解码方式对网页进行解码,但网页的编码方式不唯一,此处的话网页源代码可以看出"charset=gb2312",为gbk的一种。
    # 注2:此处加上"ignore"放置报错('gbk' codec can't decode byte 0xd0 in position 30352: illegal multibyte sequence)
    html = etree.HTML(text=text) # 将text解析成element形式
    tail_urls = html.xpath("//table[@class='tbspan']//a/@href") # 得到的为完整url的尾部,用map函数对其进行拼接
    # 注3：xpath语句解读：选取包含class="tbspan"属性的table标签下的子孙元素为a(//)的href(@)属性值
    detail_urls = map(lambda tail_url:HEADER_URL+tail_url,tail_urls) # map函数:http://www.runoob.com/python/python-func-map.html
    return detail_urls
# 5.解析各个detail_urls下的具体内容
def parse_detail_urls(detail_url):
    movie = {} # 创建一个dict用来存放各项属性
    response = requests.get(url=detail_url,headers=HEADERS)
    text = response.content.decode("gbk","ignore")
    html = etree.HTML(text=text) # 将text解析成element形式
    # 1.标题
    title = html.xpath("//div[@class='title_all']//font[@color='#07519a']/text()")[0]
    movie["title"] = title
    # 注1：发现有多个结果可以往上面增加一级条件
    # 注2：利用text()函数获取属性下的所有文本内容
    # 2.海报,在Zoom层下,xpath返回的为list
    zoom = html.xpath("//div[@id='Zoom']")[0]
    imgs = zoom.xpath(".//img/@src") # 此处获取到2张,分别对应了海报和截图
    poster = imgs[0] # 有些有截图有些无截图,统一取第一张
    movie["poster"] = poster
    # 3.其他信息
    infos = zoom.xpath("//div[@id='Zoom']//text()") # 此处的每项标签对应了列表中的一行
    for index,info in enumerate(infos): # 遍历是采用enumerate,得到对应的索引和内容,目的是为了筛选actor部分
        if info.startswith("◎年　　代"): # 如果以"◎年　　代"开头
            info = info.replace("◎年　　代", "").strip()  # 将年代替换成空格,并用strip()函数清空前后的空格
            movie["year"] = info
        elif info.startswith("◎产　　地"):
            info = info.replace("◎产　　地","").strip()
            movie["country"] = info
        elif info.startswith("◎类　　别"):
            info = info.replace("◎类　　别","").strip()
            movie["category"] = info
        elif info.startswith("◎豆瓣评分"):
            info = info.replace("◎豆瓣评分","").strip()
            movie["score"] = info
        elif info.startswith("◎片　　长"):
            info = info.replace("◎片　　长","").strip()
            movie["duration"] = info
        elif info.startswith("◎导　　演"):
            info = info.replace("◎导　　演","").strip()
            movie["director"] = info
        elif info.startswith("◎导　　演"):
            info = info.replace("◎导　　演","").strip()
            movie["director"] = info
        elif info.startswith("◎主　　演"):
            info = info.replace("◎主　　演","").strip()
            actors = [info] # 主演这一行的那一个
            for i in range(index+1,len(infos)):
                actor = infos[i].strip() # 注意,不是info
                if actor.startswith("◎"): # 如果碰到◎,则停止
                    break
                actors.append(actor)
            movie["actor"] = actors
        elif info.startswith("◎简　　介"):
            info = info.replace("◎简　　介","").strip()
            profiles = [info]
            for j in range(index+1,len(infos)):
                profile = infos[j].strip()
                if profile.startswith("【"):
                    break
                profiles.append(profile)
            movie["profile"] = profiles
    download_urls = zoom.xpath(".//td[@bgcolor='#fdfddf']//a/@href")[0]
    movie["download"] = download_urls
    print(movie)
if __name__ == '__main__':
    spider()

# II.BeautifulSoup4库
# 1)基本介绍
# 1.概念:和lxml一样,也是一个HTML/XML的解析器,lxml只会局部遍历,而BeautifulSoup基于HTML DOM,会载入整个文档,相较于lxml更加容易
# 2.官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

# 2)基本使用
# 2-1.find_all及find方法
# html为附录1
from bs4 import BeautifulSoup
html = """..."""
soup = BeautifulSoup(html,"lxml") # 第二个参数为解析器,通常使用Lxml
# 1.获取所有tr标签
trs = soup.find_all("tr")
# 2.获取第二个tr标签,用limit参数确定获取元素的个数,类似sql的操作,返回一个列表
tr = soup.find_all("tr",limit=2)[1]
# 3.获取所有class="even"的标签,class为python关键字,需要加一个_做出区分
trs = soup.find_all("tr",class_="even")
# 或者可以这样写,attrs为atrribute的简写,要写成字典的形式
trs = soup.find_all("tr",attrs={"class":"even"})
# 4.将所有class="right pl9"且id="topshares"的div标签提取出来,多个判断条件的写法
divs = soup.find_all("div",class_="right pl9",id="topshares")
# 同样可以通过attrs来写
divs = soup.find_all("div",attrs={"class":"right pl9","id":"topshares"})
# 5.获取所有a标签的href属性,提取某个标签下的某个属性
aList = soup.find_all("a")
for a in aList:
    # 1.通过下标的方式(推荐使用这种)
    href = a["href"]
    # 2.通过attrs属性获取
    href = a.attrs["href"]
# 6.获取所有职位信息,如果只要该标签下的字符串可以用.string获取,同xpath.text()
# !!重要!!且用.string属性来提取标签里的内容时,该标签应该是只有单个节点的。比如上面的 1 标签那样,不然会显示None,在html里找出来剔除即可
trs = soup.find_all("tr")[1:10]
works = []
for tr in trs:
    # 1.方法一
    work = {}
    tds = tr.find_all("td")
    work_name = tds[0].string
    work["work_name"] = work_name
    works.append(work)
    # 2.方法二(巨特么方便,用stripped_strings剔除掉其中的空格)
    infos = list(tr.stripped_strings)
    work_name = infos[0]
    work["work_name"] = work_name
    works.append(work)
    
# 2-2.BeautifulSoup中使用CSS选择器
# i.CSS常用语法:1.根据标签a查找 a 2.根据b类查找 .b 3.根据id=c查找 #c 4.查找d类子孙元素p #d p 5.直接查找d类子元素p #d>p
soup = BeautifulSoup(html,"lxml")
# 1.获取所有的tr标签,CSS选择器对应语法:tr
trs = soup.select("tr")
# 2.获取第2个tr标签
tr = soup.select("tr")[1]
# 3.获取所有class="even"的tr标签:CSS选择器对应语法:tr.even
tr = soup.select("tr.even")
tr = soup.select("tr[class='even']")
# 4.将所有class="right pl9"且id="topshares"的div标签提取出来,多个判断条件的写法
# CSS选择器无法实现
# 5.获取所有a标签的href属性
aList = soup.select("a")[57:67]
for a in aList:
     href = a["href"]
# 6.提取所有职位信息
works = []
work = {}
trs = soup.select("tr")[1:11]
for tr in trs:
    infos = list(tr.stripped_strings)
    work_name = infos[0]
    work_name = infos[0]
    work["work_name"] = work_name
    works.append(work)

# 3)常用对象
# 1.Tag:BeautifulSoup中所有的标签都是Tag类型,并且BeautifulSoup的对象本质上也是一个Tag类型,所以其实一些方法比如find,find_all并不是BeautifulSoup的,而是Tag的
# 2.BeautifulSoup:继承自Tag,用来生成BeautifulSoup树,对于一些查找方法,比如find,find_all,select这些,其实还是Tag的
# 3.NavigableString:继承自python中的str,用起来和str是一样的
# 4.Comment:继承自NavigableString

# 4)中国天气网的爬虫及数据可视化
from bs4 import BeautifulSoup
import requests
ALL_DATA = []
def spider():
    # I.得到各各页URL后的批量爬虫
    urls = ["http://www.weather.com.cn/textFC/hb.shtml",
            "http://www.weather.com.cn/textFC/hd.shtml",
            "http://www.weather.com.cn/textFC/hz.shtml",
            "http://www.weather.com.cn/textFC/hn.shtml",
            "http://www.weather.com.cn/textFC/xb.shtml",
            "http://www.weather.com.cn/textFC/xn.shtml",
            "http://www.weather.com.cn/textFC/gat.shtml"]
    for url in urls:
        get_weather_condition(url)
    # II.数据可视化部分
    from pyecharts import Bar
    ALL_DATA.sort(key=lambda data:data["min_temp"])
    data = ALL_DATA[0:10]
    cities = list(map(lambda x:x["city"],data))
    min_temps = list(map(lambda x:x["min_temp"],data))
    chart = Bar("min_temp")
    chart.add("",cities,min_temps)
    chart.render("test.html")
def get_weather_condition(url): # 单页的爬虫
    # 设定请求头
    headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36",
               "Referer":"http: // www.weather.com.cn / textFC / hd.shtml"}
    # 请求网页内容
    response = requests.get(url=url,headers=headers)
    text = response.content.decode("utf-8")
    # 解码
    soup = BeautifulSoup(text,"html5lib") # 此处用html5lib的原因在于其中有一页的html格式不是很规范,需要用这个方法增加容错性
    conMidtab = soup.find_all("div",class_="conMidtab")[0] # 此处有7页conMidtab,后6页被隐藏,实则为之后几天的天气情况,此处只找今天一天的天气情况
    tables = conMidtab.find_all("table") # 发现各个省的天气信息放在各个table下,遍历各个table
    for table in tables:
        trs = table.find_all("tr")[2:] # 去掉table抬头两行
        for index,tr in enumerate(trs): # 每行的第一个身份会出现两次,需要做判断
            infos = list(tr.stripped_strings)
            if index == 0:
                city = infos[1]
                max_temp = infos[5]
                min_temp = infos[-2]
            else:
                city = infos[0]
                max_temp = infos[4]
                min_temp = infos[-2]
            ALL_DATA.append({"city":city,"max_temp":int(max_temp),"min_temp":int(min_temp)})
if __name__ == '__main__':
    spider()

# III.正则表达式
# 1)概念:按照一定的规则,从某个字符串中匹配符出想要的数据,这个规则就是正则表达式
#   区分:利用正则表达式爬虫不同于xpath语法和bs4,使用时网页中的内容不存在上下级的关系,案例中我还是按照了这种思路写,其实没有这个必要
# 2)re模块下常用的函数
# 1.match:从一个字符串开始的位置进匹配,如果开始的位置没有匹配到。就直接失败了
# 2.search:在字符串中找满足条件的字符,如果找到就返回,只会找到第一个满足条件的
# 3.group:分组,正则表达式中可以对过滤到的字符串进行分组,分组使用()的方式
import re
text = "apple price is $10, orange price is $20"
ret = re.search(".*(\$\d+),.*(\$\d+)",text)
print(ret.group(0)) # 等同于print(ret.group())
print(ret.group(1)) # 返回()内的内容,索引从1开始
print(ret.groups()) # 依次返回各()内的内容,tuple(元组类型),和list非常类似,但是tuple一旦初始化就不能修改,更为安全
# 4.findall:找出所有满足条件的,返回的是一个列表
import re
text = "apple price is $10, orange price is $20"
ret = re.findall("\$\d+",text)
print(ret)
# 5.sub:用来替换字符串。将匹配到的字符串替换为其他字符串,pattern:替换区域, repl:替换内容, string, flags=0:从什么位置开始替换,count=0:替换个数 
import re
text = "apple price is $10, orange price is $20"
ret = re.sub("\$\d+","0",text,flags=0,count=1) # 将$10替换为0,且$20的位置不变
print(ret)
# 6.split:分割字符串,可指定maxsplit和flags
import re
text = "hello wrold !"
ret = re.split(" ",text)
print(ret)
# 7.compile:编译正则表达式,通过制定re.VERBOSE使其可以添加注释,推荐！！！见例7

# 3)常用匹配规则:
import re
# 1.匹配单个字符
# 匹配某个字符串
text = "hello"
ret = re.match("he",text)
print(ret.group())
# .:匹配任意的字符
text = "hello"
ret = re.match(".",text)
print(ret.group())
# \d:匹配任意数字
text = "1234"
ret = re.match("\d",text)  # ret = re.match("[0-9],text")
print(ret.group())
# \D:匹配任意的非数字
text = "ASD213"
ret = re.match("\D",text)  # ret = re.match("[^0-9],text")
print(ret.group())
# \s:匹配空白字符,包括\n,\t,\r,空格
text = "\n"
ret = re.match("\s",text)
print(ret.group())
# \w:匹配a-z,A-Z,数字和下划线
text = "ASDW"
ret = re.match("\w",text)  # ret = re.match("[a-zA-Z0-9_]",text)
print(ret.group())
# \W:匹配与\w相反的内容
text = "+"
ret = re.match("\W",text)  # ret = re.match("[^a-zA-Z0-9_]",text)
print(ret.group())
# []:组合的方式,只要满足[]中的字符就可以匹配
text = "0571-888888"
ret = re.match("[\d-]+",text)
print(ret.group())
# 2.匹配多个字符
# *:匹配0个或任意多个字符串,具体是数字还是字符还是其他的坎*前面的
text = "0571"
ret = re.match("\d*",text)
print(ret.group())
# +:匹配一个或者多个字符串
text = "abcd"
ret = re.match("\w+",text)
print(ret.group())
# ?:匹配0个或者1个字符串,要么没有,要么只有一个
text = "abcd"
ret = re.match("\w?",text)
print(ret.group())
# {m}:匹配m个字符
text = "abcd"
ret = re.match("\w{2}",text)
print(ret.group())
# {m,n}:匹配m-n个字符,按多的匹配
text = "abcd"
ret = re.match("\w{1,3}",text)
print(ret.group())
# 3.其他
# ^:表示以...开始,在中括号[]中使用代表取反
# $:表示以...结束
# |:匹配多个表达式或者字符串,通常用()包起来
# \:转义符号,在正则表达式中,有些字符是有特殊意义的字符。因此如果想要匹配这些字符,那么就必须使用反斜杠进行转义。
# r:原生字符串
text = "\\c" # python剥掉一层\,实则为\n
ret = re.match(r"\\c",text) # 正则表达式剥掉一层\,python中用r表原生字符串,或者ret = re.match("\\\\c",text) 
print(ret.group())
# 贪婪模式+,非贪婪模式+?:
text = "abc
" # 要选取

ret = re.match("<.+?>",text) # 选取了满足条件的最前面一个
,"<.+>"的话会选取
abc

print(ret.group())

# 4)小案例
# 1.验证手机号码(规则:第一位为1,第二位为34578)
text = "13303475216"
ret = re.match("1[34578]\d{9}",text)
print(ret.group())
# 2.验证邮箱(规则:前若干位为数字,英文或下下划线+@符号+数字和小写英文+.+数字和小写英文)
text = "[email protected]"
ret = re.match("\w+@[0-9a-z]+\.[a-z]+",text) # 注:用\.转义.
print(ret.group())
# 3.验证URL(规则:http/https/ftp+:+//+任意非空白字符)
text = "http://www.baidu.com"
ret = re.match("(http|https|ftp)://[^\s]+",text) # 用(|)代表或
print(ret.group())
# 4.验证身份证(规则:18位,且前17位位数字,第18位可以是数字,x或者X)
text = "325621198507267315"
ret = re.match("[1-9]\d{16}[\dzZ]",text)
print(ret.group())
# 5.匹配0-100之间的数字,(规则:09,101不能出现)
# 分析:一位的:1,两位的99,三位的100
text = "100"
ret = re.match("([0-9]$|[1-9]\d$|100$)",text) # ret = re.match("([1-9]\d?$|100$)",text)
print(ret.group())
# 6.拉勾网网页实例,爬取文字内容
# coding=gbk
import re
html = """

        职位描述:
        
        职位描述:
1、参与公司用户行为数据的收集和实时计算开发;
2、根据业务需求实现实时和离线数据ETL过程
3、对外应用系统、数据服务接口的开发
4、开发实时数据处理、统计功能,支撑上层业务,如:数据监控、统计分析、日报展现、业务方调用等

任职要求:
1、计算机/软件工程或相关专业出身,工作3年以上
2、扎实的代码基础；擅长java或scala。
3、熟悉大数据的生态圈和相关组件（hadoop、hive、spark、flink、kafka、hbase等）,能够深了解集群和周边模块
4、对spark RDD模型有深刻的理解,能针对线上问题进行调优;
5、熟悉Mysql,Redis,能够快速理解业务模型和数据模型
6、熟悉Linux环境及脚本开发（Python/Perl/Shell等）
        
    
"""
ret = re.sub("<.+?>","",html)
print(ret)
# 7.通过compile写一个能取出里面金额的封装,并对每一步进行注释
import re
text = "apple price is $10.05, orange price is $20.11"
r = re.compile(r"""
    \$ # $符号,用\进行了转义
    \d+ # $后.前的数字
    \. # .本身
    \d+ # .后的数字部分
""",re.VERBOSE)
ret = re.findall(r,text)
print(ret)

# 5)古诗网爬虫实例
import requests
import re
def main():
    base_url = "https://www.gushiwen.org/default_{}.aspx"
    for i in range(1,6):
        page_url = base_url.format(i)
        prase_page(page_url)
def prase_page(page_url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
        "Referer": "https://www.gushiwen.org/default_1.aspx"}
    response = requests.get(url=page_url,headers=headers)
    text = response.text
    # 思路:获取所有的标题组成一个列表,同理获取所有的其他同类信息组成列表,最后利用下标进行拼接
    # 1.注意:.不能匹配\n,可以添加re.DOTALL来设置.可以匹配任何值
    # 2.注意:要采用非贪婪模式,不然的话因为各个块中网页格式一致的原则会捕获到下一个同名标签
    # 3.注意:使用findall时需要得到的部分需要用()括起来
    titles = re.findall(r'.*?(.*?)',text,re.DOTALL) # cont标签下的b属性
    danasties = re.findall(r'.*?.*?(.*?)',text,re.DOTALL) # cont标签下的第一个a属性
    authors = re.findall(r'.*?.*?.*?(.*?)',text,re.DOTALL) # cont标签下的第二个a属性
    contents_raw = re.findall(r'.*?(.*?)

',text,re.DOTALL) # cont标签下的class属性
    contents = []
    for content in contents_raw:
        a = re.sub(r"<.*?>","",content) # 剔除中间的<>
        a = a.strip() # 删除空格
        contents.append(a)
    # 使用zip函数打包
    poems = []
    for values in zip(titles,danasties,authors,contents):
        title,danasty,author,content = values
        poem = {"title":title,"danasty":danasty,"author":author,"content":content}
        poems.append(poem)
    for poem in poems:
        print(poem)
        print("="*120)
if __name__ == '__main__':
    main()

# 6)糗事百科爬虫:顺便吐槽一下找不到笑点
import re
import requests
def url():
    base_url = "https://www.qiushibaike.com/text/page/{}/"
    for i in range(1,31):
        page_url = base_url.format(i)
        prase_url(page_url)
def prase_url(page_url):
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
              "Referer": "https: // www.qiushibaike.com / text / page / 1 /"}
    response = requests.get(url=page_url,headers=headers)
    text = response.text
    contents_raw = re.findall('.*?(.*?)',text,re.DOTALL)
    contents = []
    for content in contents_raw:
        a = re.sub("\n","",content)
        a = re.sub("<.*?>","",a)
        a = a.strip()
        contents.append(a)
    for content in contents:
        print(content)
        print("="*120)
if __name__ == '__main__':
    url()

1.附件I-html




    职位搜索 | 社会招聘 | Tencent 腾讯招聘
    
	
     		
	
    
    
    
    
    
    
    	
	



    	
    	
    		
    		
    			
    				
    					分享到：
		    			
		    			分享到QQ空间
		    			
		    			分享到新浪微博
		    			
		    			
		    			
    				
    				
    			
    			
    				
    			
    			
    				    				    					登录|注册
    				    				|反馈建议
    				|Tencent Global Talent
    				
    				    			
    			
    		
    		
    	
    	
    		
	    		
	    			 
	    			 
	    			 
	    			 
	    		
	    		校园招聘
	    		
	    	
    	
    
    
			
    
    	
    	
		    
		    
		    	
		    		
		    		
		    		
		    	
		    	
		    		
		    		
		    			全部
		    					    				深圳
		    					    				北京
		    					    				上海
		    					    				广州
		    					    				成都
		    					    				杭州
		    					    				昆明
		    					    				美国
		    					    				中国香港
		    					    				长春
		    					    				欧洲
		    					    				重庆
		    					    				武汉
		    					    				荷兰
		    					    				太原
		    					    				沈阳
		    					    				西安
		    					    				贵阳
		    					    				呼和浩特
		    					    				银川
		    					    				天津
		    					    				南京
		    					    				郑州
		    					    				日本
		    					    				南宁
		    					    				兰州
		    					    				石家庄
		    					    				福州
		    					    				新加坡
		    					    				大连
		    					    				乌鲁木齐
		    					    				马来西亚
		    					    				雄安新区
		    					    				海口
		    					    		
							    		更多
							    		
		    	
		    	
		    		
		    		
		    			全部
		    					    				技术类
		    					    				产品/项目类
		    					    				市场类
		    					    				设计类
		    					    				职能类
		    					    				内容编辑类
		    					    				客户服务类
		    					    		
		    		
		    	
		    
		    
		    	
		    		职位名称
		    		职位类别
		    		人数
		    		地点
		    		发布时间
		    	
		    			    	
		    		OMG097-数据平台运维（北京）
					技术类
					1
					北京
					2018-09-30
		    	
		    			    	
		    		MIG16-基础架构工程师（北京） 
					技术类
					2
					北京
					2018-09-30
		    	
		    			    	
		    		18796-专项技术测试(深圳） 
					技术类
					2
					深圳
					2018-09-30
		    	
		    			    	
		    		SNG17-QQ钱包后台开发工程师（深圳）
					技术类
					1
					深圳
					2018-09-30
		    	
		    			    	
		    		MIG09-NLP算法工程师
					技术类
					1
					北京
					2018-09-30
		    	
		    			    	
		    		SNG07-测试开发高级工程师
					技术类
					1
					深圳
					2018-09-30
		    	
		    			    	
		    		SNG11-人工智能研究员（深圳） 
					技术类
					1
					深圳
					2018-09-30
		    	
		    			    	
		    		18435-反洗钱建模工程师 
					技术类
					2
					深圳
					2018-09-30
		    	
		    			    	
		    		18796-后台专项测试工程师（深圳）
					技术类
					1
					深圳
					2018-09-30
		    	
		    			    	
		    		22989-专有云中间件运维工程师（深圳/北京/上海）
					技术类
					2
					深圳
					2018-09-30
		    	
		    			    	
		    		
		    			共544个职位
		    			上一页1234567...55下一页
		    			
		    		
		    	
		    
		
		
		    
		    如何应聘腾讯公司的职位？应届生如何应聘？腾讯应聘流程是什么？我注册了简历，但为什么没...我忘记密码了，怎么办？如何进行简历修改？
		
		
	
   	全球招聘 互动娱乐事业群招聘 微信事业群招聘 技术工程事业群招聘
    	
		
			关于腾讯|服务条款|腾讯招聘|Tencent Global Talent|腾讯公益|客服中心
	    
		Copyright © 1998 - 2018 Tencent. All Rights Reserved.

【爬虫】05 - 爬虫攻防是小崔啊 #爬虫学习爬虫
爬虫05-爬虫攻防文章目录爬虫05-爬虫攻防一：随机User-Agent爬虫1：fake-useragent2：高级反反爬策略3：生产环境建议二：代理IP爬虫1：获取代理IP2：高阶攻防3：企业级的代理实战三：动态数据的抓取1：动态页面技术全景2：动态页面逆向工程2.1：XHR请求追踪与解析2.2：websocket实时数据捕获3：无头浏览器控制技术3.1：Playwright详解3.2：反反爬虫
存档python爬虫、Web学习资料
1python爬虫学习学习Python爬虫是个不错的选择，它能够帮你高效地获取网络数据。下面为你提供系统化的学习路径和建议：1.打好基础首先要掌握Python基础知识，这是学习爬虫的前提。比如：变量、数据类型、条件语句、循环等基础语法。列表、字典等常用数据结构的操作。函数、模块和包的使用方法。文件读写操作。推荐通过阅读《Python编程：从入门到实践》这本书或者在Codecademy、LeetCo
Python爬虫入门到实战（3）-对网页进行操作荼蘼爬虫
一.获取和操作网页元素1.获取网页中的指定元素tag_name()方法：获取元素名称。text()方法：获取元素文本内容。click()方法():点击此元素。submit()方法():提交表单。send_keys()方法：模拟输入信息。size()方法:获取元素的尺寸可进入selenium库文件夹下的webdriver\remote\webelement.py中查看更多的操作方法,2.在元素中输入
python3异步爬虫：asyncio + aiohttp + aiofiles（python经典编程案例）数据知道 python3案例和总结 python
更多内容请见：python3案例和总结-专栏介绍和目录文章目录1.安装依赖库2.异步爬虫的基本流程3.实现异步爬虫3.1代码实现3.2代码说明4.运行效果5.扩展功能5.1设置请求头5.2处理异常5.3限制并发数5.4爬取图片6.总结使用Python的异步编程技术（asyncio+aiohttp+aiofiles）可以实现高效的异步爬虫。以下是详细的使用指南和代码示例。1.安装依赖库首先安装所需的
Crawlee高阶用法：无代码配置实现动态网站爬虫程序员威哥爬虫 python scrapy tcp/ip 网络协议
爬虫开发一直以来都需要编写大量的代码，尤其是在抓取动态网站时，往往需要处理JavaScript渲染和分页等复杂的问题。然而，Crawlee（之前叫ApifySDK）作为一个现代化的爬虫框架，提供了更加高效和简便的方式，甚至可以通过无代码配置来快速抓取动态网站数据。在本篇文章中，我们将深入探讨如何使用Crawlee实现动态网站的爬虫，并展示如何通过简单的配置来完成爬虫任务，节省开发时间和精力。1.C
Python爬虫实战：借助代理IP破解反爬机制，批量下载哔哩哔哩高清视频程序员威哥最新爬虫实战项目 python 爬虫 tcp/ip
一、前言随着视频平台的蓬勃发展，视频数据成为互联网的一个重要组成部分。特别是哔哩哔哩（B站）作为一个年轻化、内容丰富的综合性视频平台，吸引了大量用户观看、上传和分享各种形式的创作内容。在这个信息高度开放的时代，如何高效、合法地获取这些视频数据成为了一个有挑战的技术问题。哔哩哔哩的视频下载不仅受到版权保护，同时平台也使用了强大的反爬虫机制来保护用户数据和平台内容。本文将通过Python爬虫实战，利用
Python爬虫高阶：Selenium+Scrapy+Playwright融合架构，攻克动态页面与高反爬场景程序员威哥 python 爬虫 selenium
随着互联网应用的不断发展，越来越多的网站采用JavaScript动态渲染页面，常见的静态页面数据抓取方式逐渐失效。此外，高反爬技术也使得传统爬虫架构面临着更大的挑战，许多网站通过复杂的反爬机制如验证码、IP屏蔽、请求频率限制等来防止数据抓取。为了应对这些挑战，我们需要采用更为先进和灵活的爬虫架构。在此背景下，结合Selenium、Scrapy和Playwright这三种技术，能够帮助我们突破动态页
python爬大学生就业信息报告_Python语言爬虫——Python 岗位分析报告 weixin_39578457
本文主要向大家介绍了Python语言爬虫——Python岗位分析报告，通过具体的内容向大家展示，希望对大家学习Python语言有所帮助。前两篇我们分别爬取了糗事百科和妹子图网站，学习了Requests,BeautifulSoup的基本使用。不过前两篇都是从静态HTML页面中来筛选出我们需要的信息。这一篇我们来学习下如何来获取Ajax请求返回的结果。本篇以拉勾网为例来说明一下如何获取Ajax请求内容
Python 爬虫——Pyppeteer
Python爬虫——PyppeteerPythonSpider——Pyppeteer一、爬虫的两种方式二、Pyppeteer三、爬虫实现PythonSpider——Pyppeteer爬虫具有时效性，该文产生于2023年末一、爬虫的两种方式爬虫大致可以分为两类方式：直接请求直接请求的方式一般是使用python的HTTP请求库发起HTTP请求，然后接收返回的数据再进行解析，这种方式存在很大的局限性。当
Python爬虫教程：抓取地方政府网站的公开文件与政策信息 Python爬虫项目 python 爬虫开发语言数据分析 mysql
1.引言在信息化时代，政府网站已成为信息公开的重要渠道。各级地方政府网站上发布的政策、公告和公开文件，通常包含了政府决策、法律法规等关键信息。爬取这些公开数据，可以为研究人员、政策分析师、企业决策者等提供有价值的数据支持。本文将通过Python爬虫技术，展示如何抓取地方政府网站上的公开文件、政策等信息。我们将使用最新的爬虫技术，如requests、BeautifulSoup、Selenium等工具
JAVA API (三)：从基础爬虫构建到带条件数据提取 —— 详解 URL、正则与爬取策略钮祜禄.爱因斯晨 JAVA学习笔记 java 爬虫开发语言
个人主页-爱因斯晨文章专栏-Java学习相关文章：API(一)相关文章：API（二）持续努力中，感谢支持一、爬虫基础（一）爬虫的基本概念定义：爬虫是按照一定规则自动抓取网络信息的程序，在Java环境下，可借助URL、HttpURLConnection等API来实现。应用场景：广泛应用于数据采集，如电商平台的价格监控、各类新闻的聚合；还可用于信息分析，如舆情监测等。（二）Java实现简单爬虫的步骤建
Python爬虫技术：高效采集开放数据的5种方法大数据洞察 python 爬虫 wpf ai
Python爬虫技术：高效采集开放数据的5种方法关键词：Python爬虫、开放数据采集、请求库、异步爬虫、分布式爬虫、动态网页解析、API直连摘要：本文围绕“如何用Python高效采集开放数据”展开，系统讲解5种主流爬虫方法（基础请求库、异步请求、动态网页渲染、分布式爬虫、API直连）的原理、适用场景与实战技巧。通过生活类比、代码示例和真实案例，帮助读者快速掌握不同场景下的爬虫策略，同时强调数据合
网络爬虫进阶 rooney2024 爬虫
目录一、进阶爬虫的核心挑战二、关键技术与最佳实践三、实战案例：爬取动态电商价格（伪代码示例）四、持续学习路径结语一、进阶爬虫的核心挑战动态渲染页面(JavaScript/AJAX)问题：数据由JavaScript动态加载生成，初始HTML中不存在。解决方案：浏览器自动化工具：Selenium,Playwright,Puppeteer。模拟真实浏览器行为，等待JS执行并渲染出完整DOM后再解析。无头
网络爬虫再深入——对抗指纹检测、分布式架构与智能解析实战 rooney2024 爬虫
目录一、深入反爬：浏览器指纹检测与对抗（配图1）1.高级指纹检测原理2.对抗方案与实战二、分布式爬虫架构深度设计（配图2）1.容错与弹性设计2.智能限流算法三、智能解析：LLM与计算机视觉的融合（配图3）1.LLM解析非结构化文本2.视觉辅助定位元素四、法律与伦理：爬虫工程师的自我修养1.关键法律边界2.道德实践框架五、未来战场：Web3.0时代的爬虫技术演进1.去中心化网络挑战2.AI驱动的自适
盘点一个Python网络爬虫过程中中文乱码的问题皮皮_f075
大家好，我是皮皮。一、前言前几天在Python白银交流群【空翼】问了一个Python网络爬虫中文乱码的问题，提问截图如下：原始代码如下：importrequestsimportparselurl='https://news.p2peye.com/article-514723-1.html'headers={'Accept-Language':'zh-CN,zh;q=0.9','Accept':'a
爬虫_加速乐秒杀 kisloy 爬虫逆向爬虫 python
加速乐补环境补环境window={navigator:{userAgent:"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/104.0.0.0Safari/537.36"},outerWidth:1920,outerHeight:1050,};location={reload:functi
【爬虫】某某查cookie逆向 kisloy 逆向爬虫爬虫 python
代码仅供技术人员进行学习和研究使用，请勿将其用于非法用途或以任何方式窃取第三方数据。使用该代码产生的所有风险均由用户自行承担，作者不对用户因使用该代码而造成的任何损失或损害承担任何责任。加密参数加密参数主要是cookie，其中只有三个cookie最重要，BAIDUIDBAIDUID_BFESS和一个ab开头的cookiecookie获取BAIDUID和BAIDUID_BFESS在访问百度系的产品时
python如何抓取网页里面的文字_如何利用python抓取网页文字、图片内容？ weixin_39917437
想必新老python学习者，对爬虫这一概念并不陌生，在如今大数据时代，很多场景都需要利用爬虫去爬取数据，而这刚好时python领域，如何实现？怎么做？一起来看下吧~获取图片：1、当我们浏览这个网站时，会发现，每一个页面的URL都是以网站的域名+page+页数组成，这样我们就可以逐一的访问该网站的网页了。2、当我们看图片列表时中，把鼠标放到图片，右击检查，我们发现，图片的内容由ul包裹的li组成，箭
如何用 Python 绕过 cloudflare（5秒盾）抓取数据：也不是很难嘛！炒青椒不放辣 Web爬虫进阶实战 python cloudflare 爬虫 5秒盾逆向
大家好！我是爱摸鱼的小鸿，关注我，收看每期的编程干货。逆向是爬虫工程师进阶必备技能，当我们遇到一个问题时可能会有多种解决途径，而如何做出最高效的抉择又需要经验的积累。本期文章将以实战的方式，带你全面了解cloudflare（5秒盾）以及如何绕过使用cloudflare服务的网站从而抓取数据特别声明：本篇文章仅供学习与研究使用，不用做任何非法用途，相关URL和API等均已做脱敏处理，若有侵权请联系作
python请求有关ja3指纹问题王太歌 python 爬虫开发语言
遇见一个网站采集，无论怎样都返回空数据(实际上是有数据的)，但是抓包下来又确实是那样的，请教了一些人推测是指纹验证，拜读了网上其他大佬的博客文章后实验了一下，发现确实是这个问题！第一次知道tcp还有这个东西，让我大受震撼，值此搬运一下。参考链接及来源：Python爬虫进阶必备|JA3指纹在爬虫中的应用与定向突破python爬虫requests、httpx、aiohttp、scrapy突破ja3指纹
豆瓣电影信息爬虫【2024年6月】教程，赋完整代码桃宝护卫队爬虫 python
豆瓣电影信息爬虫【2024年6月】教程，赋完整代码在本教程中，我们将使用以下技术栈来构建一个爬虫，用于爬取豆瓣电影列表页面的信息：完整代码放到最后；完整代码放到最后；完整代码放到最后；重要的事情说三遍。1.技术栈介绍在本教程中，我们将使用以下技术栈来构建一个爬虫，用于爬取豆瓣电影列表页面的信息：Python:一种广泛使用的高级编程语言，因其简洁的语法和强大的库支持而受到开发者的喜爱。Request
爬虫技术Requests实现模拟登录 incidite 爬虫
一、模拟登录的目的访问受限内容：获取需要登录才能查看的页面数据个性化数据采集：获取用户账户相关的定制化信息自动化操作：实现自动签到、自动任务等流程数据完整性：采集完整的用户视角数据（如社交网络信息）状态保持：维持会话状态以进行连续操作测试验证：用于网站功能测试和验证二、对Requests模拟登录的认识技术本质：通过PythonRequests库模拟浏览器登录行为实现原理：处理登录表单提交维护会话c
网站藏着的「机器人红绿灯」：5 分钟看懂 Robots 协议 incidite 机器人
你有没有想过：当搜索引擎爬取网站时，是谁在指挥它们“该去哪、不该去哪”？答案就藏在一个名叫Robots协议的简单规则里。这个看似神秘的技术，其实就像网站门口的“交通信号灯”，用几句明文代码就能规范爬虫的行为。今天，我们用5分钟揭开它的面纱，新手也能轻松掌握。什么是Robots协议？简单说，Robots协议是网站给搜索引擎爬虫看的“说明书”。它通过一个名为robots.txt的文本文件，告诉爬虫哪些
Python爬虫【四十七章】异步爬虫与K8S弹性伸缩：构建百万级并发数据采集引擎程序员_CLUB Python入门到进阶 kubernetes python 爬虫
目录一、背景与行业痛点二、核心技术架构解析2.1异步爬虫引擎设计2.2K8S弹性伸缩架构三、生产环境实践数据3.1性能基准测试3.2成本优化效果四、高级优化技巧4.1协程级熔断降级4.2预测式扩容五、总结Python爬虫相关文章（推荐）一、背景与行业痛点在数字经济时代，企业每天需要处理TB级结构化数据。某头部金融风控平台曾面临以下挑战：数据时效性：需实时采集10万+新闻源，传统爬虫系统延迟超12小
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
Python 协程 & 异步编程(asyncio) GeekAGI python 开发语言
文章目录协程&异步编程(asyncio)1.协程的实现1.1greenlet1.2yield1.3asyncio1.4async&awit1.5小结2.协程的意义2.1爬虫案例2.2小结3.异步编程3.1事件循环3.2协程和异步编程3.2.1基本应用3.2.2await3.2.3Task对象3.2.4asyncio.Future对象3.2.5futures.Future对象3.2.6异步迭代器3.
python 爬取preview的信息 YHFJerry python 开发语言
Python,HTTP相关视频讲解：python的or运算赋值用法用python编程Excel有没有用处？011_编程到底好玩在哪？查看python文件_输出py文件_cat_运行python文件_shelPython爬取Preview的信息在当今互联网时代，信息的获取变得异常方便，爬虫技术成为了一种非常重要的手段。Python作为一门强大的编程语言，被广泛用于网络爬虫的开发。本文将介绍如何使用P
Python爬虫实战：深入无限滚动页面抓取原理与Playwright实现 Python爬虫项目 python 爬虫开发语言区块链 json
一、前言：无限滚动页面的挑战在现代Web开发中，「无限滚动（InfiniteScrolling）」早已取代了传统的分页模式。以微博热搜流、知乎首页、抖音推荐页为例，用户向下滚动时会自动加载更多内容，这种体验虽提升了交互性，却让传统爬虫面临巨大挑战：页面初始只加载一部分内容剩余内容由JavaScript在滚动事件中动态加载requests类爬虫无法感知页面行为为什么传统爬虫抓不到数据？因为页面数据不
Python爬虫实战：研究Korean库相关技术 ylfhpy 爬虫项目实战 python 爬虫 easyui korean
一、引言1.1研究背景与意义随着韩流文化在全球的传播，韩语网页内容急剧增加。韩国在科技、娱乐等领域的信息具有重要研究价值。然而，韩语独特的黏着语特性（如助词体系、词尾变化）给信息处理带来挑战。传统爬虫缺乏对韩语语言特点的针对性处理，本研究旨在开发一套完整的韩语网页内容分析系统，填补这一技术空白。1.2研究目标与方法研究目标：设计高效的韩语网页爬虫框架实现精准的韩语内容识别与处理构建多维度的韩语内容
Python爬虫实战：研究Genius库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 genius
1.引言在当今数字化时代，音乐数据的分析与挖掘成为了音乐学、计算机科学等领域的研究热点。歌词作为音乐的重要组成部分，蕴含着丰富的情感、文化和社会信息。通过对歌词数据的分析，可以揭示音乐风格的演变、流行趋势的变化以及社会情绪的波动等。Genius是一个专注于歌词解析与音乐知识分享的平台，拥有大量的歌词文本以及用户对歌词的注释和解读。Genius提供了API接口，允许开发者获取歌曲、艺术家和歌词等信息
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l

职位名称	职位类别	人数	地点	发布时间
OMG097-数据平台运维（北京）	技术类	1	北京	2018-09-30
MIG16-基础架构工程师（北京）	技术类	2	北京	2018-09-30
18796-专项技术测试(深圳）	技术类	2	深圳	2018-09-30
SNG17-QQ钱包后台开发工程师（深圳）	技术类	1	深圳	2018-09-30
MIG09-NLP算法工程师	技术类	1	北京	2018-09-30
SNG07-测试开发高级工程师	技术类	1	深圳	2018-09-30
SNG11-人工智能研究员（深圳）	技术类	1	深圳	2018-09-30
18435-反洗钱建模工程师	技术类	2	深圳	2018-09-30
18796-后台专项测试工程师（深圳）	技术类	1	深圳	2018-09-30
22989-专有云中间件运维工程师（深圳/北京/上海）	技术类	2	深圳	2018-09-30
共544个职位上一页 1 2 3 4 5 6 7 ...55 下一页

[Python爬虫] 3-数据解析(lxml/bs4/正则)

abc

" # 要选取

ret = re.match("<.+?>",text) # 选取了满足条件的最前面一个

,"<.+>"的话会选取

abc

职位描述:

你可能感兴趣的:(爬虫)