米儿～

爬虫项目实战（二）

（一）爬虫实战之Xpath数据解析
1）、XPath介绍
XPath，全称XML Path Language,即XML路径语言，它是一门在XML文档中查找信息的语言。最初是用来搜寻XML文档的，但同样适用于HTML文档的搜索。所以在做爬虫时完全可以使用XPath做相应的信息抽取。
2）、XPath的常用规则：

这里列出了XPath的常用匹配规则，示例如下: .//title[@lang='eng‘]，这是一个XPath规则，代表的是选择所有名称为title,同时属性lang的值为eng的节点，后面会通过Python的lxml库，利用XPath进行HTML的解析。
3）、安装
windows-> python3环境下: pip install lxml
linux环境下: pip3 install lxml

4）、实例
注意：Chrome中的源代码无法直接复制，
小插曲：如何复制Chrome浏览器中的源代码
现在很多网页直接查看源代码是看不到完整的源代码的，有些网页往下翻会不停的加载新内容，就算最终全部加载完了，源代码中也不会显示网页的全部内容。只有按F12或ctrl+shift+i才能看到所有元素的源代码。

从上图可以看出来，这些元素的源代码默认是无法选中进行一次性复制的，只能一个一个元素复制。下面就分享一下复制整个页面的源代码的方法。
a、如下图，找到顶部的html标签，然后点击鼠标右键后选择Edit as HTML
b、现在按ctrl+a全部选中就可以复制到剪贴板了。

c、如果觉得格式有些乱，可通过网上的在线html工具进行在线格式化
https://tool.oschina.net/codeformat/html
问题解决！！！
第一种方式：

from lxml import etree
text = '''



    
    学习猿地 - IT培训|Java培训|Python培训|ui设计培训|web前端培训|GO培训|PHP培训|成就自己的只需一套精品


    
        java工程师
        Python工程师
        AI工程师
    


'''
#使用etree解析html字符串
html = etree.HTML(text)
#print(html)
#提取数据
# r = html.xpath("/html/body/ul/li/a/text()")
# 执行结果：['java工程师', 'Python工程师', 'AI工程师']
# print(r)

# r = html.xpath("/html/body/ul/li[1]/a/text()")
# print(r)
# ['java工程师']注意：下标从1开始，不是从0开始

第二种方式：

from lxml import etree
# 第二种方式,读取一个html文件并解析
html = etree.parse('./text.html', etree.HTMLParser())
# print(html)
# 提取数据
# r = html.xpath("/html/body/ul/li/a/text()")
# print(r)
#执行结果　　['java工程师', 'Python工程师', 'AI工程师']

#范围更广，获取页面中所有ｌｉ里面的数据
# r = html.xpath("//li/a/text()")
# print(r)
#执行结果　['java工程师', 'Python工程师', 'AI工程师', '猿叔', '猿婶', '猿姐']

#提取指定标签中的数据
h = html.xpath('//div[@class="teacher"]/ul/li/a/text()')
print(h)
#执行结果['猿叔', '猿婶', '猿姐']

#获取指定标签的属性
r = html.xpath('//div[@class="teacher"]//li/a/@href')
print(r)
#执行结果['/1/', '/2/', '/3/']
res = list(zip(h,r))
print(res)
#执行结果[('猿叔', '/1/'), ('猿婶', '/2/'), ('猿姐', '/3/')]

import requests
from lxml import etree
#封装类，进行学习猿地的登录和订单的获取
class LMonkey():
    #登陆请求地址
    loginurl = 'https://www.lmonkey.com/login'
    # 帐户中心地址
    orderurl = 'https://www.lmonkey.com/my/order'
    # 请求头header
    headers = {
        'User - agent': 'Mozilla / 5.0(Linux; Android 6.0;Nexus5Build / MRA58N) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 83.0.4103.116Mobile Safari / 537.36'
    }
    # 请求对象
    req = None
    #token口令
    token = ''
    #订单号
    ordercode = 0

    # 初始化方法
    def __init__(self):
        #请求对象的初始化
        self.req = requests.session()
        if self.getlogin():
            if self.postlogin():
                 self.getorder()

    # get登陆页面,获取_token
    def getlogin(self):
        # 1、get请求login页面，设置cookie获取＿token
        res = self.req.get(url=self.loginurl,headers=self.headers)
        if res.status_code == 200:
            print('get登录页面请求成功')
            html = etree.HTML(res.text)
            self.token = html.xpath('//input[@name="_token"]/@value')[0]
            print('token获取成功')
            return True
        else:
            print('请求错误')

    #post请求登录，设置cookie
    def postlogin(self):
        uname = input('手机号：')
        passw = input('密码：')
        data = {
            '_token':self.token,
            'username':uname,
            'password':passw
        }
        #发起post请求
        res = self.req.post(url=self.loginurl,headers=self.headers,data=self.data)
        if res.status_code == 200 or res.status_code == 302:
            print('登陆成功')
            #请求订单数据

    #get请求帐户中心,获取默认订单号
    def getorder(self):
        # 3、get请求帐户中心，获取默认订单号
        res = self.req.get(url=self.orderurl,headers=self.headers,)
        if res.status_code == 200:
            print("帐户中心请求成功,正在解析数据")
            html = etree.HTML(res.text)
            r = html.xpath('//div[@class="avatar-content"]//small/text()')
            print(r)
            self.ordercode = r


obj = LMonkey()
# obj.getlogin()
# obj.postlogin()

#1、get请求login页面，设置cookie获取＿token

#2、post请求，提交登陆数据，进行登陆，并设置cookie

#3、get请求帐户中心，获取默认订单号

import requests,json
from lxml import etree

class Yq():
    #请求的地址　　猿著
    url = 'https://www.lmonkey.com/essence'
    #定义请求头信息
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'
    }
    #爬取的数据
    data = ''
    #存储数据
    filepath = './yq.json'

    #初始化
    def __init__(self):
        #发送请求
        res = requests.get(url=self.url,headers=self.headers)
        if res.status_code == 200:
            #请求的内容写入文件
            with open('./yq.html','w',encoding='utf-8') as fp:
                fp.write(res.text)
            if self.pasedata():
                self.writedata()

    #解析数据
    def pasedata(self):
        #解析数据
        html = etree.parse('./yq.html',etree.HTMLParser())
        #提取数据 作者 文章标题 文章地址url
        author = html.xpath('//div[contains(@class,"old_content")]//div[contains(@class,"list-group-item-action")]//strong/a/text()')
        titles = html.xpath('//div[contains(@class,"old_content")]//div[contains(@class,"flex-fill")]//div/text()')
        titleurl = html.xpath('//div[contains(@class,"old_content")]//div[contains(@class,"flex-fill")]//a/@href')
        #print(*zip(author,titles,titleurl))
        #运行结果('xxyd_h5x', 'JetBrains开发工具正版授权领取', 'https://www.lmonkey.com/t/lpLmQeKLg') ('IT头条', '面向回家编程！GitHub标星两万的”Python抢票教程”，我们先帮你跑了一遍', 'https://www.lmonkey.com/t/lpLmQeKLg') ('duke', 'Python教程-一文读懂运算和运算符', 'https://www.lmonkey.com/t/lpLmQeKLg') ('dragonsz', 'CentOS7 下使用 rsync+sersync 配置文件自动同步', 'https://www.lmonkey.com/t/user/15') ('qingqi', 'Python 教程-代码测试', 'https://www.lmonkey.com/t/2zLAPzMyW') ('jhxspy', 'Python教程-强制数据类型转换', 'https://www.lmonkey.com/t/2zLAPzMyW') ('xxyd_python', 'Python 教程-从变量开始', 'https://www.lmonkey.com/t/2zLAPzMyW') ('IT头条', 'Python 教程-Python 安装', 'https://www.lmonkey.com/t/2zLAPzMyW') ('IT头条', 'Python 教程-了解Python', 'https://www.lmonkey.com/t/2zLAPzMyW') ('GaiJoon', '喊话 JavaScript 开发者：玩 DOM 也要专业范儿', 'https://www.lmonkey.com/t/2zLAPzMyW') ('IT头条', '1000 行 Python 代码脚本 bug，或影响上百篇学术论文', 'https://www.lmonkey.com/t/2zLAPzMyW') ('IT头条', '生产环境下的LAMP环境搭建', 'https://www.lmonkey.com/t/user/168547') ('王炸', 'Golang语言的主要特性与发展的环境和影响因素', 'https://www.lmonkey.com/t/G5yvRWXyp') ('王炸', '分享 10 个有用的 Laravel 5.8 集合辅助方法', 'https://www.lmonkey.com/t/G5yvRWXyp')

        # 整理数据
        data = []
        for i in range(0,len(author)):
            res = {'author':author[i],'title':titles[i],'url':titleurl[i]}
            data.append(res)
            # print(data)
            #运行结果[{'author': 'xxyd_h5x', 'title': 'JetBrains开发工具正版授权领取', 'url': 'https://www.lmonkey.com/t/lpLmQeKLg'}, {'author': 'IT头条', 'title': '面向回家编程！GitHub标星两万的”Python抢票教程”，我们先帮你跑了一遍', 'url': 'https://www.lmonkey.com/t/lpLmQeKLg'}, {'author': 'duke', 'title': 'Python教程-一文读懂运算和运算符', 'url': 'https://www.lmonkey.com/t/lpLmQeKLg'}, {'author': 'dragonsz', 'title': 'CentOS7 下使用 rsync+sersync 配置文件自动同步', 'url': 'https://www.lmonkey.com/t/user/15'}, {'author': 'qingqi', 'title': 'Python 教程-代码测试', 'url': 'https://www.lmonkey.com/t/2zLAPzMyW'}, {'author': 'jhxspy', 'title': 'Python教程-强制数据类型转换', 'url': 'https://www.lmonkey.com/t/2zLAPzMyW'}, {'author': 'xxyd_python', 'title': 'Python 教程-从变量开始', 'url': 'https://www.lmonkey.com/t/2zLAPzMyW'}, {'author': 'IT头条', 'title': 'Python 教程-Python 安装', 'url': 'https://www.lmonkey.com/t/2zLAPzMyW'}, {'author': 'IT头条', 'title': 'Python 教程-了解Python', 'url': 'https://www.lmonkey.com/t/2zLAPzMyW'}, {'author': 'GaiJoon', 'title': '喊话 JavaScript 开发者：玩 DOM 也要专业范儿', 'url': 'https://www.lmonkey.com/t/2zLAPzMyW'}, {'author': 'IT头条', 'title': '1000 行 Python 代码脚本 bug，或影响上百篇学术论文', 'url': 'https://www.lmonkey.com/t/2zLAPzMyW'}, {'author': 'IT头条', 'title': '生产环境下的LAMP环境搭建', 'url': 'https://www.lmonkey.com/t/user/168547'}, {'author': '王炸', 'title': 'Golang语言的主要特性与发展的环境和影响因素', 'url': 'https://www.lmonkey.com/t/G5yvRWXyp'}, {'author': '王炸', 'title': '分享 10 个有用的 Laravel 5.8 集合辅助方法', 'url': 'https://www.lmonkey.com/t/G5yvRWXyp'}]
            self.data = data
            return True
    #写入数据
    def writedata(self):
        #写入数据
        with open('self.filepath','w')as fp:
            json.dump(self.data,fp)


#实例化对象
Yq()

（二）爬虫实战BeautifulSoup数据解析
1）、bs4的安装与三种使用方式
BeautifulSoup是一个可以从HTML或XML文件中提取数据的python库，它能够通过你喜欢的转换器实现惯用的文档，导航、查找、修改文档的方式，BeautifulSoup可节省大量的时间。
官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc
a、安装
命令：pip install BeautifulSoup4
插曲一：解决bug—You should consider upgrading via the ‘python -m pip install --upgrade pip’ command.

删除下列文件夹D:\softwaredownload\anaconda\Lib\site-packages\pip-20.0.2.dist-info

再次运行python -m pip install --upgrade pip 后升级成功，之前不能安装的包也能安装了！

问题解决

b、三种使用方式
（1）使用Tag对象按照文档结构获取数据

#安装后需要在bs4中导入使用
from bs4 import BeautifulSoup
#定义html文档内容
html_doc = """
The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.

...
"""
#创建一个BeautifulSoup对象，建议手动指定解析器：soup = BeautifulSoup(html_doc,'lxml)
soup = BeautifulSoup(html_doc,'lxml')

#通过tag标签对象获取文档数据
r = soup.title
r = soup.title['abc']
# r = soup.p
# r = soup.p['class']
# r = soup.title.text
print(r)
（2）使用find和find_all方法进行查找

（3）、使用CSS选择器

#安装后需要在bs4中导入使用
from bs4 import BeautifulSoup
#定义html文档内容
html_doc = """
The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.

...
"""
#1、创建一个BeautifulSoup对象，建议手动指定解析器：soup = BeautifulSoup(html_doc,'lxml)
soup = BeautifulSoup(html_doc,'lxml')

#通过tag标签对象获取文档数据
# r = soup.title
# r = soup.title['abc']
# r = soup.p
# r = soup.p['class']
# r = soup.title.text
# print(r)
#2、通过搜索获取页面中的元素  find,find_all
# r = soup.find('a')
     #运行结果Elsie
# r = soup.find_all('a')
     #运行结果[Elsie, Lacie, Tillie]
# r = soup.find('title')
# print(r.text)
# print(r.get_text())
# print(r.get_text)
# print(r)
'''运行结果The Dormouse's story
    The Dormouse's story
    The Dormouse's story>
    The Dormouse's story'''

# 3、.css选择器
#通过标签选择元素
# r = soup.select('title')
#通过class类名获取元素
# r = soup.select('.title')
#通过ID名获取元素
# r = soup.select('#link2')
#通过空格，层级关系获取元素
# r = soup.select('html body p')
#通过逗号，并列关系获取元素
r = soup.select('p,.title')
print(r)

2）bs4-学习猿地-猿圈

'''
分析爬取的数据
数据源地址：https://www.lmonkey.com/t
数据内容:文章标题、文章的链接、作者、发布时间
工具：
     python，requests,bs4
'''
import requests,json
from bs4 import BeautifulSoup

#1.定义请求的URL和请求头
url = 'https://www.lmonkey.com/t'
#定义请求头信息
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'
}
#2.发送请求
res = requests.get(url,headers=headers)

#3.判断请求是否成功，并获取请求的源代码
if res.status_code == 200:
    pass
    #4.解析数据
    soup = BeautifulSoup(res.text,'lxml')
    #获取页面中所有的文章
    divs = soup.find_all('div',class_="list-group-item list-group-item-action p-06")
    varlist= []
    for i in divs:
        r = i.find('div',class_="topic_title mb-0 lh-180")
        if r:
            # print(i.a['href'])
            # print(i.strong.a.text)
            # print(i.span['title'])
            vardict = {
                'title':r.text.split('\n')[0],
                'url':i.a['href'],
                'author':i.strong.a.text,
                'time':i.span['title']
            }#将文本切分,只要第一个内容
            varlist.append(vardict)
    print(varlist)
    #运行结果'''[{'title': '图层操作'}, {'title': 'ps_行业介绍笔记'}, {'title': 'DIV+CSS页面布局笔记'}, {'title': '认识网站笔记'}, {'title': 'ps_行业介绍笔记'}, {'title': 'DIV+CSS页面布局笔记'}, {'title': '认识网站笔记'}, {'title': 'requests笔记'}, {'title': 'Java的各种数据类型对象库的处理应用笔记'}, {'title': 'Java语言的基本语法格式笔记'}, {'title': 'Java程序开发入门笔记'}, {'title': 'Java程序开发入门笔记'}, {'title': 'Java编译过程'}, {'title': '常用快捷键'}, {'title': 'Java程序开发入门笔记'}]'''
    #5.写入数据
    with open ('./yq.json','w') as fp:
        json.dump(varlist,fp)
#运行结果
[{'title': '图层操作', 'url': 'https://www.lmonkey.com/t/oREQ9lXE1', 'author': '?_xQfer4', 'time': '2020-06-17 17:50:37'}, {'title': 'ps_行业介绍笔记', 'url': 'https://www.lmonkey.com/t/1NLXY8jBV', 'author': '?_xQfer4', 'time': '2020-06-17 17:33:43'}, {'title': 'DIV+CSS页面布局笔记', 'url': 'https://www.lmonkey.com/t/GRLbK8zBz', 'author': '～～～七～～～', 'time': '2020-06-13 17:54:32'}, {'title': '认识网站笔记', 'url': 'https://www.lmonkey.com/t/oZBde7OEp', 'author': 'coding_dog', 'time': '2020-06-09 19:43:36'}, {'title': 'ps_行业介绍笔记', 'url': 'https://www.lmonkey.com/t/qpBarN3EJ', 'author': '?_xQfer4', 'time': '2020-06-07 22:15:14'}, {'title': 'DIV+CSS页面布局笔记', 'url': 'https://www.lmonkey.com/t/dvy91vbyK', 'author': '樱桃大嘴猴.', 'time': '2020-06-04 11:30:36'}, {'title': '认识网站笔记', 'url': 'https://www.lmonkey.com/t/kNB0opeLe', 'author': '徐枭雄老师-英子', 'time': '2020-05-31 21:30:56'}, {'title': 'requests笔记', 'url': 'https://www.lmonkey.com/t/WMLDKw5yY', 'author': '温水泡青蛙', 'time': '2020-05-31 16:00:54'}, {'title': 'Java的各种数据类型对象库的处理应用笔记', 'url': 'https://www.lmonkey.com/t/QOLMxNmyd', 'author': '明明就晴天', 'time': '2020-05-29 13:23:38'}, {'title': 'Java语言的基本语法格式笔记', 'url': 'https://www.lmonkey.com/t/wDEx3zZBK', 'author': '明明就晴天', 'time': '2020-05-28 23:20:57'}, {'title': 'Java程序开发入门笔记', 'url': 'https://www.lmonkey.com/t/XkyJ48eBe', 'author': '明明就晴天', 'time': '2020-05-28 22:16:28'}, {'title': 'Java程序开发入门笔记', 'url': 'https://www.lmonkey.com/t/OxLP07qLe', 'author': '明明就晴天', 'time': '2020-05-28 22:12:38'}, {'title': 'Java编译过程', 'url': 'https://www.lmonkey.com/t/2QL7pvmBk', 'author': 'ℳℓ牛', 'time': '2020-05-18 13:07:53'}, {'title': '常用快捷键', 'url': 'https://www.lmonkey.com/t/7VEZYdoB3', 'author': 'ℳℓ牛', 'time': '2020-05-18 13:01:41'}, {'title': 'Java程序开发入门笔记', 'url': 'https://www.lmonkey.com/t/VDLeZlNBX', 'author': 'ℳℓ牛', 'time': '2020-05-18 12:57:07'}]

3）bs4-实战猿圈-代码优化

'''
分析爬取的数据
数据源地址：https://www.lmonkey.com/t
数据内容:文章标题、文章的链接、作者、发布时间
工具：
     python，requests,bs4
'''
import requests,json
from bs4 import BeautifulSoup

#封装类
class Bs4Yq():
    #定义属性
    #请求得url
    url = 'https://www.lmonkey.com/t'
    #请求头
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'
    }
    #响应源代码的存放位置
    res = None
    #存储解析后的json数据
    varlist = []

    #初始化方法
    def __init__(self):
        #发起一个请求
        res = requests.get(self.url,headers=self.headers)
        if res.status_code == 200:
            self.res_html = res.text
            if self.ParseData():
                self.WriteJson()
                print('请求成功,数据写入文件')
        else:
            print("请求失败")



    #解析html数据
    def ParseData(self):
        soup = BeautifulSoup(self.res_html, 'lxml')
        try:
            # 获取页面中所有的文章
            divs = soup.find_all('div', class_="list-group-item list-group-item-action p-06")
            for i in divs:
                r = i.find('div', class_="topic_title mb-0 lh-180")
                if r:
                    # print(i.a['href'])
                    # print(i.strong.a.text)
                    # print(i.span['title'])
                    vardict = {
                        'title': r.text.split('\n')[0],
                        'url': i.a['href'],
                        'author': i.strong.a.text,
                        'time': i.span['title']
                    }  # 将文本切分,只要第一个内容
                    self.varlist.append(vardict)
            # print(varlist)
            return True
        except:
            return False
    #写入json文件
    def WriteJson(self):
        if self.varlist != []:
            try:
                with open('./yq.json','w') as fp:
                    json.dump(self.varlist,fp)
                    return True
            except:
                    return  False
            else:
                print('无法获取当前解析的数据')

Bs4Yq()

（三）爬虫实战之re正则表达式数据解析
1）re正则模块的介绍

#正则表达式　re
'''
正则表达式，就是使用字符，转义字符和特殊字符组成的一个规则．
使用这个规则对文本的内容完成一个搜索或匹配或替换的功能
正则表达式的组成：
    普通字符：大小写字母，数字，符号...
    转义字符：\w \W \d \D \s \S ...
    特殊字符：．＊　？　＋　^ $ [] {} ()
    匹配模式：I U ....
'''
#使用正则表达式进行匹配的基本语法
import  re
#定义字符串
vars = 'iloveyou521tosimda'
#定义正则表达式
reg = '\d'
#调用正则函数方法
res = re.findall(reg,vars)
print(res)
#运行结果:['5', '2', '1']
'''
方式二:
#定义字符串
vars = 'iloveyou521tosimda'
#定义正则表达式
reg = '521'
#调用正则函数方法
res = re.finditer(reg,vars)
print(next(res))
#运行结果:<_sre.SRE_Match object; span=(8, 11), match='521'>

方式三:
#定义字符串
vars = 'iloveyou521tosimda'
#定义正则表达式
reg = '521'
#调用正则函数方法
res = re.findall(reg,vars)
print(res)
#运行结果:['521']
'''

2）re模块的相关函数–match与search
如果string的开始位置能够找到这个正则样式的任意个匹配，就返回一个相应的匹配对象。如果不匹配,
就返回None ;注意它与零长度匹配是不同的。

#re模块的相关函数其他函数--match与search
'''
re.match()函数
    +从头开始匹配
    +要么第一个就符合要求，要么不符合
    +匹配成功则返回match对象,否则返回None
    +可以使用group()方法获取返回的数据
    +可以使用span()获取
re.search()函数
    +从字符串开头到结尾进行搜索式的匹配
    +匹配成功则返回search对象,否则返回None
    +可以使用group()方法获取返回的数据
    +可以使用span()获取

search()与match()方法的区别：
    match()方法是从字符串的开头进行匹配，如果开始就不符合正则的要求，则匹配失败，返回Ｎone
    search()方法是从字符串的开始位置一直搜索到字符串的最后，如果整个字符串中都没有匹配到，则失败，返回Ｎone

re.findall()
re.finditer()
re.sub()

'''
import  re
#定义字符串
vars = 'iloveyou521tosimda'
'''
#调用正则match函数方法
#定义正则表达式
reg = 'ilove'  #若输入love则返回None
res = re.match(reg,vars)
# print(res)
#运行结果<_sre.SRE_Match object; span=(0, 5), match='ilove'>
#若想从结果中直接获取字符串
print(res.group())  #获取返回的数据结果
#运行结果ilove
print(res.span())   #获取匹配结果的下标区间
#运行结果(0, 5)截取到5之前的数据
'''

#调用正则search函数方法
#定义正则表达式
reg = 'love'
res = re.search(reg,vars)
print(res)
print(res.group())
print(res.span())
#运行结果
# <_sre.SRE_Match object; span=(1, 5), match='love'>
# love
# (1, 5)

3）re模块相关函数

#re模块相关函数－－其他函数
'''
re.findall()
    +按照正则表达式的规则在字符串中匹配元素,结果返回一个列表,如果没有找到则返回空列表

re.finditer()
    +按照正则表达式的规则在字符中匹配所有符合的元素，返回一个迭代器
re.sub()搜索替换
    +按照正则表达式规则，在字符串中找到需要被替换的字符串，完成一个替换
    参数：
        pattern:正则表达式规则，匹配需要被替换的字符串
        repl:替换后的字符串
        string:被替换的原始字符串
compile()
    可以直接将正则表达式定义为正则对象，使用正则对象直接操作
'''
import re
#定义字符串
varstr = 'iloveyou521tosimida511'
#正则表达式
reg ='\d{3}'
#函数调用
# res = re.findall(reg,varstr)
res = re.finditer(reg,varstr)
# print(list(res))
# print(res)
# '''运行结果[<_sre.SRE_Match object; span=(8, 11), match='521'>, <_sre.SRE_Match object; span=(19, 22), match='511'>]
# '''


'''
reg ='\d{3}'
运行结果['5', '2', '1', '5', '1', '1']
reg ='\d{4}'
运行结果['521', '511']
reg ='\d{3}'
res = re.finditer(reg,varstr)
运行结果
'''

#找到数字,替换成其它
# res = re.sub(reg,'AAA',varstr)
# print(res)

#直接定义正则表达式对象
reg = re.compile('\d{3}')
#直接使用创建的正则对象，去调用对应的方法或者函数
res = reg.findall(string=varstr)
# print(res)

lines = [
    'i love 512 you',
    'i love 521 you',
    'i love 345 you',
    'i love 543 you',
]
reg = re.compile('\d{3}')
for i in lines:
    # reg = '\d{3}'
    # res = re.search(reg,i)
    # print(res.group())

    res = reg.search(i).group()
    print(res)
'''
运行结果：
512
521
345
543
'''

4）re模块–正则表达式的定义和规则

#re模块--正则表达式的定义和规则
import re
#普通字符
# vars = 'iloveyou'
# reg = 'love'
# res = re.search(reg,vars).group()
# print(res)
#运行结果:love

#转义字符\w  \W  \d   \D  \s   \S..........
varstr = '2$_ilove5　　　21you'
reg = '\w'#代表　单个　　字母、数字、下划线
reg = '\W'#代表　单个的  非字母、数字、下划线
reg = '\d'#代表　单个的　数字
reg = '\D'#代表　单个的　非数字
reg = '\s'#代表　单个的　空格符或制表符
reg = '\S'#代表　单个的　非　空格符或制表符
reg = '\w\w\w\w\d'#组合使用

#特殊字符　. * + ? {} () ^ $
varstr = 'hello WORLD 5211 iloveyou'

reg = '.'   # . 点 代表 单个的 任意字符 除了换行符之外
reg = '.*'  # * 星 代表匹配次数 任意次数
'''
 *的特点:
    如果使用*号,那么在匹配开始处如果符合要求,
    则按照规则一直向后匹配,直道不符合匹配规则结束并把前面符合的数据返回

    如果使用*号,那么在匹配开始处如果不符合要求,
    则直接返回，匹配到的次数为0

'''
reg = '\w+' # + 代表匹配字数  至少要求匹配一次
reg = '\w+?'# ? 拒绝贪婪，就是前面的匹配规则只要达成则返回
reg = '\w+?'
reg = '\w{4}'#{}代表匹配数字，{4}一个数字时，表示必须匹配的次数
reg = '\w{2,5}'#{}代表匹配数字，{2,5}两个数字时，表示必须匹配的区间次数
reg = '[A-Z,a-z,0-9,]'#[]代表字符的范围[A-Z,a-z,0-9,]　= \w
reg = '\w+(\d{4})' #()代表子组，括号中的表达式首先作为整个正则的一部分，另外会把符合小括号中的内容单独提取一份

varstr = '17610105211'
#定义一个匹配手机号的正则表达式
reg = '^1\d{11}$' # ^ 代表开头  $ 代表结尾

res = re.search(reg,varstr).group()
print(res,len(res))
#运行结果:i

#正则模式  re.I不区分大小写
vars = 'iLOVEyou'
reg = reg.search(reg,vars,re.I)
print(re)

#练习题
#定义一个正则表达式,来验证邮箱是否正确
    #+规定qq号码必须是5~12位的数字，后面必须跟".com"
#完善手机号的正则表达式
#定义一个匹配 IP 的正则表达式　　192.168.1.1    255.255.255.0

5）正则实战–猿来如此

'''
    数据源地址:https://www.lmonkey.com/ask
    数据字段:问题  时间  作者  url链接
'''
import requests,re,json
#定义请求的url和请求头信息
url = 'https://www.lmonkey.com/ask'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'
}
#2.发起请求
res = requests.get(url,headers=headers)
#3.检测请求是否成功
if res.status_code == 200:
    #4.获取返回的数据
    res_html = res.text
    # with open('./res.html','w',encoding='utf-8') as fp:
    #     fp.write(res_html)
    #5.进行数据解析
    #定义解析问题标题的正则
    reg = '(.*?)
    #调用正则方法去获取问题的标题
    titlelist = re.findall(reg,res_html)
    #定义解析作者的正则
    reg = '(.*?)'
    authorlist = re.findall(reg,res_html)
    # 定义解析问题的时间
    reg = ''
    datatime = re.findall(reg,res_html)
    #获取文章的连接地址
    reg = ''
    urllist = re.findall(reg,res_html)
    #压缩数据

    #常规方法处理数据[{},{},{}]
    data = list(zip(titlelist,authorlist,datatime,urllist))
    # datalist = []
    # for i in data:
    #     res = {'title':i[0],'url':i[1],'author':i[2],'datatime':i[3]}
    #     datalist.append(res)
    # print(datalist)

    datalist = [{'title':i[0],'url':i[1],'author':i[2],'datatime':i[3]} for i in data]
    print(datalist)
    #数据入库
    with open('./data.json','w',encoding='utf-8') as fp:
        json.dump(datalist,fp)

输出的结果,用json在线解析及格式化验证工具对其格式进行处理，显示如下：
[
{
“title”:"【Java】You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near ‘USER_ID=‘2’’ at line 1",
“url”:“轻风_N4zWcI”,
“author”:“2020-06-23 16:26:33”,
“datatime”:“https://www.lmonkey.com/ask/22985”
},
{
“title”:"【前端】为什么404代表找不到网址，404这个数字背后的逻辑是什么？",
“url”:“感觉_sp7aqM”,
“author”:“2020-06-20 21:29:36”,
“datatime”:“https://www.lmonkey.com/ask/22984”
},
{
“title”:"【PHP】使用User::create($input);进行添加数据，只有password字段添加成功了，而username是null。传输的有数据，不知道为什么，谢谢老师的解答。",
“url”:“雨季”,
“author”:“2020-05-25 15:12:05”,
“datatime”:“https://www.lmonkey.com/ask/22983”
},
{
“title”:"【前端】学习猿地的课程列表页，怎么我在官网找不到？有老师用到的图片素材吗？",
“url”:"? 月",
“author”:“2020-05-20 22:30:35”,
“datatime”:“https://www.lmonkey.com/ask/22982”
},
{
“title”:"【Java】打开的软件，是？",
“url”:“young先森”,
“author”:“2020-05-19 21:01:36”,
“datatime”:“https://www.lmonkey.com/ask/22981”
},
{
“title”:"【PHP】!DOCTYPE 标准是大写还是小写",
“url”:“ニック”,
“author”:“2020-05-18 23:04:01”,
“datatime”:“https://www.lmonkey.com/ask/22980”
},
{
“title”:"【PHP】什么时候会出thinkphp的内容？我看你们的课程介绍里面有才买的课程的",
“url”:“爱唯主机”,
“author”:“2020-05-10 10:44:40”,
“datatime”:“https://www.lmonkey.com/ask/22979”
},
{
“title”:"【Python】源码哪里有",
“url”:“孫小兜”,
“author”:“2020-05-08 16:36:02”,
“datatime”:“https://www.lmonkey.com/ask/22978”
},
{
“title”:"【前端】不需要封装函数去校验获取下一个兄弟节点的类型",
“url”:“Beyant”,
“author”:“2020-04-27 21:30:36”,
“datatime”:“https://www.lmonkey.com/ask/22977”
},
{
“title”:"【Java】课程一般吧",
“url”:“阳阳_sRAvEK”,
“author”:“2020-04-25 16:50:53”,
“datatime”:“https://www.lmonkey.com/ask/22976”
},
{
“title”:"【Java】课程一般吧",
“url”:“阳阳_sRAvEK”,
“author”:“2020-04-25 16:49:20”,
“datatime”:“https://www.lmonkey.com/ask/22975”
},
{
“title”:"【Java】Servlet.service() for servlet [com.shop.servlet.user.DoUserAdd] in context with path [/ShoppingProject] threw exception",
“url”:“pado”,
“author”:“2020-04-22 20:15:33”,
“datatime”:“https://www.lmonkey.com/ask/22974”
},
{
“title”:"【Java】根据老师步骤进行，最后跳转显示org.apache.catalina.connector.RequestFacade cannot be cast to javax.servlet.ServletResponse，这是什么原因呢？",
“url”:“顾你安稳”,
“author”:“2020-04-21 22:31:25”,
“datatime”:“https://www.lmonkey.com/ask/22973”
},
{
“title”:"【Java】老师的表单验证好像写错了吧，有bug。如果其他数据都对，但是验证码那一项写错，表单照样可以提交，并没有阻止。是不是Ajax的异步造成的bug。",
“url”:“喜欢悠哉独自在”,
“author”:“2020-04-20 18:41:47”,
“datatime”:“https://www.lmonkey.com/ask/22972”
},
{
“title”:"【Python】help,爬虫豆瓣电影TOP250爬取电影名称，导演，年份，链接–《初恋这件小事》的导演爬不下来，help",
“url”:“惠之吉”,
“author”:“2020-04-19 09:52:42”,
“datatime”:“https://www.lmonkey.com/ask/22971”
}
]

你可能感兴趣的:(爬虫实战)

Python 爬虫实战：自动化获取学术会议数据（会议安排、论文提交等） Python爬虫项目 python 爬虫自动化智能家居数据分析开发语言运维
1.引言学术会议是研究人员获取最新科研成果、发表论文、交流思想的重要平台。对于研究者而言，掌握最新的会议安排、论文提交截止日期、会议议程以及演讲嘉宾等信息至关重要。然而，学术会议信息通常分散在不同的官方网站上，人工查找和整理这些数据既费时又容易遗漏。为了提高效率，我们可以使用Python爬虫自动化获取学术会议数据，包括：会议名称、日期、地点论文提交截止日期会议议程及嘉宾信息论文录用结果重要通知及相
Python爬虫实战：从新浪财经爬取股票新闻的完整实现 Python爬虫项目 python 爬虫开发语言数据分析 php
第一部分：爬虫概述1.1什么是爬虫？爬虫是指通过程序模拟浏览器的行为，自动化地抓取网络上的数据。通过爬虫技术，能够从各种网站上提取信息，广泛应用于数据采集、数据分析、机器学习等领域。1.2新浪财经简介新浪财经是中国最大的财经信息平台之一，提供股票、基金、债券、外汇等多方面的财经新闻和数据。在股票领域，新浪财经提供了大量的股票行情、实时数据、新闻报道等信息，因此爬取新浪财经的股票新闻对于投资分析和决
Python爬虫实战：批量下载小红书笔记图片的全流程技术解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫笔记开发语言音视频 github
1.引言：为什么要爬取小红书笔记图片小红书作为新兴的生活方式分享平台，聚集了大量高质量原创笔记内容，涵盖时尚、美妆、旅游、美食等多领域。笔记中的图片往往是内容的核心，批量下载小红书笔记图片，有助于：内容归档与备份数据分析与用户行为研究图像识别与机器学习训练电商推广及内容再加工但小红书对内容保护做得较好，爬取难度较高，需要结合多技术手段突破。2.小红书平台特点与爬取难点动态加载与API接口多变：页面
爬虫实战案例（两个） AI 嗯啦爬虫
该博客展示两个简单的爬虫实战案例，一个是从人民邮电出版社上爬取其中一个分类的全部图书信息，另一个是在苏宁易购上爬取某个商品的好评和差评，用两个简单的案例讲解爬虫在实际情况下的运作流程一、获取图书信息需求：统计人民邯电出版社官网中与关键词“python”有关的全部图书，包含图书名、价格、作者名等信息，并将获取的信息写入“Excel图书汇总，txt”文件中。流程：配置浏览器并打开目标网站搜索"Pyth
Python爬虫实战：研究psd-tools库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 psd-tools
一、引言1.1研究背景AdobePhotoshop是目前最流行的图像处理软件之一，其原生文件格式PSD（PhotoshopDocument）包含了丰富的图像信息和编辑历史。PSD文件不仅在设计领域广泛使用，还在数字营销、版权保护和安全分析等领域具有重要价值。然而，手动分析大量PSD文件是一项繁琐且耗时的工作，因此开发自动化的PSD文件分析工具具有重要的现实意义。1.2研究目的本文旨在开发一个基于P
Python爬虫实战：高效提取与解析JSON格式数据 Python爬虫项目 python 爬虫宽度优先数据库 json 深度优先开发语言
1.JSON数据爬取概述在当今互联网时代，JSON(JavaScriptObjectNotation)已成为最流行的数据交换格式之一。相比传统的HTML页面，JSON格式数据具有结构清晰、体积小、解析方便等优势，使得它成为API接口的首选数据格式。1.1为什么选择JSON数据爬取数据结构化：JSON数据本身就是结构化的，不需要像HTML那样进行复杂的解析传输高效：JSON通常比HTML体积小，传输
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python爬虫实战：利用最新技术爬取B站直播数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 html 百度
1.B站直播数据爬取概述B站(哔哩哔哩)是中国最大的年轻人文化社区和视频平台之一，其直播业务近年来发展迅速。爬取B站直播数据可以帮助我们分析直播市场趋势、热门主播排行、观众喜好等有价值的信息。常见的B站直播数据类型包括：直播间基本信息(标题、分类、主播信息)实时观看人数与弹幕数据礼物打赏数据直播历史记录分区热门直播数据本文将重点介绍如何获取直播间基本信息和分区热门直播数据。2.环境准备与工具选择2
基于Python的Google Scholar学术论文爬虫实战：最新技术与完整代码解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言学习 scrapy
摘要本文详细介绍如何使用Python构建一个高效的GoogleScholar爬虫系统，包括代理设置、反反爬策略、数据解析与存储等核心技术。文章涵盖最新Python爬虫技术栈（如Playwright、异步IO等），提供完整可运行的代码示例，并讨论学术爬虫的伦理与法律问题。通过本教程，读者将掌握从GoogleScholar批量获取学术论文信息的高级爬虫技术。关键词：Python爬虫、GoogleSch
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
从零到一：王者荣耀英雄数据采集与技能图谱异步爬虫实战程序员威哥爬虫 python 开发语言自动化 scrapy
引言：随着游戏行业的迅猛发展，王者荣耀作为一款深受玩家喜爱的手游，其英雄数据和技能信息成为了爬虫开发者研究的热点之一。通过抓取英雄数据并对技能图谱进行可视化，我们不仅能够更好地理解游戏数据，还可以为游戏爱好者或数据分析师提供一个有价值的数据分析平台。本篇文章将带你一步步实现王者荣耀英雄数据的采集与技能图谱的可视化，并使用异步爬虫技术提高爬取效率。我们将结合实际开发中的需求，深入讲解如何使用异步爬虫
Python 爬虫实战：电商商品评论深度爬取与用户情感分析系统搭建西攻城狮北 python 爬虫开发语言电商
引言在电商领域，商品评论是消费者决策的重要参考，也是商家优化产品和服务的关键依据。通过爬取和分析电商商品评论，可以深入了解用户需求、产品优缺点以及市场趋势。本文将详细介绍如何使用Python构建一个完整的电商商品评论爬取系统，并进行用户情感分析。我们将涵盖从爬虫设计、数据抓取、数据清洗、情感分析到可视化的全流程。1.项目背景与目标电商平台上，商品评论通常包含以下信息：用户名评论内容评论时间评分（星
Python 爬虫实战：抓取华尔街日报付费文章摘要的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的信息时代，获取高质量的新闻内容对于研究、投资和决策具有重要意义。《华尔街日报》（TheWallStreetJournal，简称WSJ）作为国际知名的财经媒体，其文章内容备受关注。然而，WSJ的大部分内容属于付费订阅，普通用户无法直接访问。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，抓取WSJ的付费文章摘要。一、了解目标网站结构1.1WSJ网站结构分析WSJ的官方
Python爬虫实战：使用最新技术爬取头条新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言：Python爬虫在现代数据获取中的重要性在当今信息爆炸的时代，数据已经成为最宝贵的资源之一。作为数据获取的重要手段，网络爬虫技术在各个领域发挥着越来越重要的作用。Python凭借其简洁的语法、丰富的库生态系统和强大的社区支持，已经成为网络爬虫开发的首选语言。本文将详细介绍如何使用Python及其最新的爬虫技术来爬取头条新闻数据。我们将从基础概念讲起，逐步深入到高级技巧，最后给出完整的爬虫
Python爬虫实战：爬取ETF基金持仓变化 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
1.项目背景ETF（Exchange-TradedFund，交易型开放式指数基金）作为一种在交易所上市交易的基金，其持仓信息对于投资者具有重要参考价值。了解ETF的持仓变化，可以帮助投资者判断市场趋势和资金流向。本文将通过Python爬虫技术，自动化地获取ETF基金的持仓变化数据，进行存储和分析。2.技术选型与环境准备2.1技术选型编程语言：Python3.8+爬虫框架：Scrapy数据解析：Be
Python 爬虫实战：实时采集外汇汇率数据的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的金融市场中，外汇汇率的实时数据对于投资者、企业和研究人员来说至关重要。通过自动化的方式获取这些数据，不仅可以提高效率，还能为决策提供及时的支持。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，实时采集外汇汇率数据。一、外汇汇率数据的获取途径1.1使用官方API接口许多金融机构和数据提供商提供了官方的API接口，供开发者获取外汇汇率数据。例如：AlphaVantage
Python 爬虫实战：精准抓取母婴电商平台数据，深入分析用户评价洞察市场趋势程序员威哥最新爬虫实战项目 python 爬虫开发语言
前言随着生活水平的提高，越来越多的年轻父母开始关注母婴产品的质量和品牌。而母婴电商平台成为了他们选择和购买产品的主要渠道之一。母婴产品市场也因此变得异常活跃且充满竞争。在这样的市场环境下，用户评价不仅反映了产品的实际质量，也揭示了消费者的需求和偏好，成为品牌决策的核心依据之一。Python爬虫是获取电商平台用户评价数据、产品详情、价格等关键信息的强大工具。通过抓取和分析这些数据，品牌商可以实时了解
Python 爬虫实战：如何搭建高效的分布式爬虫架构，突破数据抓取极限程序员威哥 python 爬虫分布式
随着互联网数据量的飞速增长，单一爬虫在抓取大量数据时的效率和稳定性往往无法满足需求。在这种情况下，分布式爬虫架构应运而生。分布式爬虫通过多节点并行工作，可以大大提高数据抓取的速度，同时减少单点故障的风险。本文将深入探讨如何使用Python构建一个高效的分布式爬虫架构，从架构设计到技术实现，帮助你突破数据抓取的极限。一、什么是分布式爬虫？分布式爬虫系统将爬虫任务拆分为多个子任务，分布到不同的服务器或
Python爬虫实战：研究python-nameparser库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 nameparser
1.引言在当今数字化时代，姓名作为个人身份的重要标识，在许多领域都有着广泛的应用需求。例如，在客户关系管理系统中，准确解析姓名可以帮助企业更好地了解客户背景；在学术研究中，分析作者姓名分布有助于发现研究团队的地域特征；在社交网络分析中，姓名信息可以辅助进行用户画像构建。然而，由于不同文化背景下姓名结构的多样性以及书写方式的差异，准确解析姓名成为一项具有挑战性的任务。Python作为一种功能强大的编
Python 爬虫实战：电商商品多维度分析系统构建 Python核芯 Python爬虫实战项目 python 爬虫开发语言电商
引言在当今数字化时代，电商平台已成为人们购物的首选渠道之一。海量的商品信息、用户评价和销售数据隐藏着巨大的商业价值。通过构建一个电商商品多维度分析系统，我们可以深入挖掘这些数据，帮助商家优化产品策略、提升用户体验，同时也为消费者提供更明智的购物建议。本文将详细介绍如何利用Python爬虫技术抓取电商商品数据，并构建一个多维度分析系统。一、项目背景与意义电商平台如京东、淘宝、拼多多等，每天产生海量的
Python 爬虫实战：解析接口爬取 QQ 空间好友动态（Cookie 复用与反爬规避） Python核芯 Python爬虫实战项目 python 爬虫开发语言
前言在当今数字化时代，社交平台的数据蕴含着巨大的价值。QQ空间作为国内知名的社交平台，记录着用户丰富的动态信息，这些信息对于社交网络分析、用户行为研究等具有重要意义。然而，由于QQ空间对数据的保护和限制，直接爬取页面数据困难重重。而通过解析接口进行爬取，成为了一种高效且有效的解决方案。本文将深入探索如何利用Python爬虫，借助Cookie复用与反爬规避技术，实现对QQ空间好友动态的精准爬取。一、
Python爬虫实战：利用Selenium与反反爬技术高效爬取天眼查企业信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy selenium
摘要本文将详细介绍如何使用Python爬虫技术获取天眼查的企业信息数据。我们将从爬虫基础开始，逐步深入到高级反反爬技术，最终构建一个能够稳定获取天眼查数据的爬虫系统。文章包含完整的代码实现、技术原理分析以及实际应用场景，帮助读者全面掌握企业信息爬取的核心技术。关键词：Python爬虫、天眼查、Selenium、反反爬技术、企业信息采集、数据挖掘一、引言在当今大数据时代，企业信息数据对于市场分析、商
Python 爬虫实战：京东商品数据采集（登录态验证 + 价格监控系统） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、引言在电商飞速发展的当下，京东作为国内头部电商平台之一，拥有海量商品数据。对于商家而言，精准掌握这些数据能助力优化定价策略、洞察市场动态；对消费者来说，追踪商品价格走势有助于把握最佳购买时机。本文将深入剖析如何借助Python爬虫技术实现京东商品数据采集，包括突破登录态验证以及搭建价格监控系统，为读者呈上一份实用的电商数据挖掘指南。二、环境搭建安装Python库：执行以下命令安装所需的库：pi
Python爬虫实战：研究HTTP Agent Parser 库相关技术 ylfhpy 爬虫项目实战 python 爬虫 http
1.引言1.1研究背景与意义在当今数字化时代，网络数据作为一种重要的信息资源，在商业决策、学术研究、社会分析等领域发挥着越来越重要的作用。网络爬虫作为一种自动获取网页内容的技术，成为了获取这些数据的重要工具。然而，随着网络爬虫的广泛使用，网站也采取了各种反爬机制来保护自身数据和服务安全。其中，用户代理（User-Agent）检测是一种常见的反爬手段。网站通过分析请求的User-Agent信息，识别
Python爬虫实战：研究pyparsing工具相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 pyparsing 文本处理文本分析
1.引言在当今信息爆炸的时代，网络上存在着海量的非结构化文本数据。如何从这些数据中提取有价值的信息，成为了数据科学领域的一个重要研究方向。网络爬虫技术可以帮助我们自动获取这些数据，而Pyparsing则提供了强大的语法分析能力，可以将非结构化的文本转换为结构化的信息。本文将介绍一个完整的案例，展示如何使用Python的爬虫技术结合Pyparsing工具，构建一个网络内容分析系统。该系统可以爬取特定
Python爬虫实战：研究phonenumbers工具相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 phonenumbers
1.引言1.1研究背景与意义电话号码作为重要的联系方式，在现代社会中具有广泛的应用价值。在商业领域，企业需要准确识别客户电话号码的归属地和运营商信息，以便进行精准营销和客户服务；在社交网络分析中，电话号码可以作为用户身份识别和关系挖掘的重要依据；在公共安全领域，电话号码的快速分析有助于案件侦破和紧急救援。然而，电话号码的格式在全球范围内存在较大差异，不同国家和地区有不同的编码规则和书写习惯。例如，
Python 爬虫实战：爬取网易公开课（课程列表解析 + 视频资源批量下载） Python核芯 Python爬虫实战项目 python 爬虫音视频网易
一、引言在数字化学习蓬勃发展的当下，网易公开课作为优质在线教育平台，汇聚了海量精品课程，涵盖科技、文化、艺术等多元领域，为求知者提供了便捷的学习渠道。然而，面对丰富的内容，手动逐一浏览、下载课程视频既耗时又低效，尤其对于想要系统学习特定领域知识的用户而言，亟需更高效的解决方案。Python爬虫技术凭借其强大的自动化数据获取能力，可轻松应对这一挑战，实现网易公开课课程列表的精准解析与视频资源的批量下
Python爬虫实战：使用Scrapy和Selenium高效爬取USPTO美国专利数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫 scrapy 开发语言 selenium 测试工具
引言在当今的知识经济时代，专利数据蕴含着巨大的商业和技术价值。美国专利商标局(USPTO)作为全球最大的专利数据库之一，收录了数百万项专利信息，这些数据对于企业竞争分析、技术趋势预测和学术研究都具有重要意义。本文将详细介绍如何使用Python构建一个高效、稳定的USPTO专利数据爬虫系统。一、USPTO专利数据库概述1.1USPTO数据库结构USPTO提供了多种访问专利数据的途径：专利全文和图像数
Python爬虫实战：爬取百度学术摘要信息全流程详解与代码示例 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 学习 dubbo 百度
1.前言随着学术资源数字化的普及，百度学术成为学者们常用的论文搜索平台。获取大量论文摘要信息对于文献综述、知识图谱构建等研究极为重要。本文将系统讲解如何利用Python编写爬虫，批量抓取百度学术上的论文摘要。我们将结合最新Python爬虫技术，涵盖基础同步爬虫、异步爬虫、多线程，全面实战演示。2.项目背景与目标百度学术支持通过关键词搜索论文，展示论文标题、作者、期刊、摘要等信息。目标是：根据关键词
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo