python爬虫之requests模块/xpath解析/lxml解析库

文章目录

- 前情回顾
- - 爬取网站思路
  - 数据持久化 - csv
  - 数据持久化 - MySQL
  - 数据持久化 - MongoDB
  - 多级页面数据抓取
- 今日笔记
- 电影天堂二级页面抓取案例
- - 领取任务
  - 实现步骤
- requests模块
- - 安装
  - requests.get()
- Chrome浏览器安装插件
- - 安装方法
  - 需要安装插件
- xpath解析
- - 定义
  - 示例
  - 匹配演示
  - 选取节点
  - 匹配多路径（或）
  - 常用函数
- lxml解析库
- - 安装
  - 使用流程
  - html样本
  - 示例+练习
  - xpath最常使用方法
- 链家二手房案例（xpath）
- - 实现步骤
  - 代码实现
- 任务1 - 猫眼电影数据抓取
- 任务2 - 百度贴吧图片抓取
- - 目标思路
  - 实现步骤
- 任务3 - 电影天堂（xpath）

前情回顾

爬取网站思路

1、先确定是否为动态加载网站
2、找URL规律
3、正则表达式
4、定义程序框架，补全并测试代码

数据持久化 - csv

 import csv
 with open('xxx.csv','w') as f:
	writer = csv.writer(f)
 	writer.writerow([])
	writer.writerows([(),(),()])

数据持久化 - MySQL

import pymysql

# __init__(self)：
	self.db = pymysql.connect('IP',... ...)
	self.cursor = self.db.cursor()
# write_data(self):
	self.cursor.execute('sql',[data1])
	self.cursor.executemany('sql',[(data1),(data2),(data3)])
	self.db.commit()
# main(self):
	self.cursor.close()
	self.db.close()

数据持久化 - MongoDB

import pymongo

# __init__(self)：
	self.conn = pymongo.MongoClient('IP',27017)
	self.db = self.conn['db_name']
	self.myset = self.db['set_name']
	
# write_data(self):
	self.myset.insert_one(dict)
	self.myset.insert_many([{},{},{}])

# MongoDB - Commmand
>show dbs
>use db_name
>show collections
>db.collection_name.find().pretty()
>db.collection_name.count()
>db.collection_name.drop()
>db.dropDatabase()

多级页面数据抓取

# 整体思路 
1、爬取一级页面,提取 所需数据+链接,继续跟进
2、爬取二级页面,提取 所需数据+链接,继续跟进
3、... ... 
# 代码实现思路
1、所有数据最终都会在一级页面遍历每条数据时全部拿到
2、避免重复代码 - 请求、解析需定义函数

今日笔记

电影天堂二级页面抓取案例

领取任务

# 地址
电影天堂 - 2019年新片精品 - 更多
# 目标
电影名称、下载链接

# 分析
*********一级页面需抓取***********
        1、电影详情页链接
        
*********二级页面需抓取***********
        1、电影名称
  		  2、电影下载链接

实现步骤

1、确定响应内容中是否存在所需抓取数据
2、找URL规律

第1页 ：https://www.dytt8.net/html/gndy/dyzz/list_23_1.html
第2页 ：https://www.dytt8.net/html/gndy/dyzz/list_23_2.html
第n页 ：https://www.dytt8.net/html/gndy/dyzz/list_23_n.html

3、写正则表达式

1、一级页面正则表达式
   <table width="100%".*?<td width="5%".*?<a href="(.*?)".*?ulink">.*?</table>
2、二级页面正则表达式
   <div class="title_all"><h1><font color=#07519a>(.*?)

.*?# 思路
# 1、MySQL中新建表 request_finger,存储所有爬取过的链接的指纹
# 2、在爬取之前,先判断该指纹是否爬取过,如果爬取过,则不再继续爬取

5、代码实现

# 建库建表
create database filmskydb charset utf8;
use filmskydb;
create table request_finger(
finger char(32)
)charset=utf8;
create table filmtab(
name varchar(200),
download varchar(500)
)charset=utf8;

import sys
from urllib import request
import re, time, random, pymysql
from hashlib import md5

from fake_useragent import UserAgent


class FilmSky:
    def __init__(self):
        self.url = 'https://www.ygdy8.net/html/gndy/dyzz/list_23_{}.html'
        self.db = pymysql.connect(
            "127.0.0.1", "root", "123456", "filmskydb", charset="utf8"
        )
        self.cursor = self.db.cursor()

    # 请求
    def get_html(self, url):
        ua = UserAgent()
        headers = {"User-Agent": ua.random}
        req = request.Request(url=url, headers=headers)
        res = request.urlopen(req)
        html = res.read().decode("gb2312", "ignore")
        return html

    # 解析
    def re_func(self, re_db, html):
        pattern = re.compile(re_db, re.S)
        r_list = pattern.findall(html)
        return r_list

    # 提取数据
    def parse_html(self, one_html):
        one_html = self.get_html(one_html)
        # link_list:["/html/xxx","/html/xxx",...]
        # http://www.dytt8.net
        re_db = '.*?
'
        link_list = self.re_func(re_db, one_html)
        # print(link_list)

        for link in link_list:
            # 判断是否需要爬取此链接
            # 1.获取指纹
            two_url = "http://www.ygdy8.net" + link
            # print(two_url)
            s = md5()
            s.update(two_url.encode())
            finger = s.hexdigest()
            # 2.判断指纹是否在数据库中存在
            if self.is_go_on(finger):
                # 1.需要爬取
                time.sleep(random.randint(1,2))
                self.save_html(two_url)
                # 2.将该链接存入到数据库
                ins = "insert into request_finger values (%s)"
                # print(ins)
                self.cursor.execute(ins, [finger])
                self.db.commit()
            else:
                sys.exit("更新完成!")

    # 判断是否需要爬取此链接
    def is_go_on(self, finger):
        sel = "select finger from request_finger where finger=%s"
        # self.cursor.execute(sel,[finger]):返回值为满足此条件的数字
        # print(sel)
        r=self.cursor.execute(sel, [finger])
        if not r:
            # self.cursor.fetchall():获取满足此条件的元组
            return True

    # 真正获取名称和下载链接的函数
    def save_html(self, two_url):
        two_html = self.get_html(two_url)
        # print(two_html)
        re_db = '(.*?)
.*?# film_list:[("name","链接"),]
        film_list = self.re_func(re_db, two_html)
        # print(film_list)
        # 插入数据库
        ins = "insert into filmtab values (%s,%s)"
        l = list(film_list[0])
        print(l)
        self.cursor.execute(ins, l)
        self.db.commit()

    def run(self):
        for i in range(1, 203):
            url = self.url.format(i)
            self.parse_html(url)

        self.cursor.close()
        self.db.close()


if __name__ == '__main__':
    movie = FilmSky()
    movie.run()

requests模块

安装

Linux

sudo pip3 install requests

Windows

# 方法一
   进入cmd命令行 ：python -m pip install requests
# 方法二
   右键管理员进入cmd命令行 ：pip install requests

requests.get()

作用

# 向网站发起请求,并获取响应对象
res = requests.get(url,headers=headers)

参数

1、url ：需要抓取的URL地址
2、headers : 请求头
3、timeout : 超时时间，超过时间会抛出异常

响应对象(res)属性

1、encoding ：响应字符编码
   res.encoding = 'utf-8'
2、text ：字符串
3、content ：字节流
4、status_code ：HTTP响应码
5、url ：实际数据的URL地址

非结构化数据保存

with open('xxx.jpg','wb') as f:
	f.write(res.content)

示例

保存赵丽颖图片到本地

import requests

url = "http://img3.imgtn.bdimg.com/it/u=3897002694,3726565855&fm=26&gp=0.jpg"
header = {"User-Agent": "Mozilla/5.0"}

res = requests.get(url=url, headers=header)
# 字符编码
# res.encoding = "utf-8"
# 字符串类型
# url = res.text
# 字节流
content = res.content

with open("lilei.jpg","wb") as f:
    f.write(content)

练习

1、将猫眼电影案例改写为 requests 模块实现
2、将电影天堂案例改写为 requests 模块实现
3、百度图片抓取: 输入要抓取的图片内容,抓取首页的30张图片,保存到对应的文件夹，比如:
   你想要谁的照片，请输入: 赵丽颖
   创建文件夹到指定目录: 赵丽颖  并把首页30张图片保存到此文件夹下

百度图片练习代码实现

import os
import re
import time
import random
from urllib import parse

import requests
from fake_useragent import UserAgent


class BaiduImage:
    def __init__(self):
        self.url = "https://image.baidu.com/search/index?tn=baiduimage&word={}"

    # 随机获取浏览器提示
    def get_ua(self):
        ua = UserAgent()
        agent = ua.random
        return agent

    def get_image(self, url,word):
        html = requests.get(
            url=url,
            headers={"User-Agent": self.get_ua()}
        ).text
        pattern = re.compile('"hoverURL":"(.*?)"', re.S)
        # link_list=["http://xxx.jpg",...]
        link_list = pattern.findall(html)
        # 创建对应的文件夹
        directory='/home/tarena/images/{}/'.format(word)
        if not os.path.exists(directory):
            #如果路径不存在,递归创建文件夹
            os.makedirs(directory)
        i=1
        for link in link_list:
            filename=directory+word+"_"+str(i)+".jpg"
            self.save_image(link,filename)
            time.sleep(random.uniform(1,2))
            i+=1

    def save_image(self, link,filename):
        html=requests.get(url=link,headers={"User-Agent":self.get_ua()}).content
        with open(filename,"wb") as f:
            f.write(html)
            print("%s下载成功"%filename)

    def run(self):
        word=input("请输入图片名:")
        params=parse.quote(word)
        url=self.url.format(params)
        self.get_image(url,word)

if __name__ == '__main__':
    sp=BaiduImage()
    sp.run()

Chrome浏览器安装插件

安装方法

1、把下载的相关插件（对应操作系统浏览器）后缀改为 .zip 
2、解压,打开Chrome浏览器 -> 右上角设置 -> 更多工具 -> 扩展程序 -> 点开开发者模式
#3、把相关插件文件夹拖拽到浏览器中,释放鼠标即可安装
#3、有的插件直接拖拽 .zip 文件释放即可

需要安装插件

1、Xpath Helper: 轻松获取HTML元素的xPath路径
  # 开启/关闭: Ctrl + Shift + x
2、Proxy SwitchyOmega: Chrome浏览器中的代理管理扩展程序
3、JsonView: 格式化输出json格式数据

xpath解析

定义

XPath即为XML路径语言，它是一种用来确定XML文档中某部分位置的语言，同样适用于HTML文档的检索

示例

<ul class="CarList">
	<li class="bjd" id="car_001" href="http://www.bjd.com/">
        <p class="name">布加迪p>
        <p class="model">威航p>
        <p class="price">2500万p>
        <p class="color">红色p>
    li>
    
    <li class="byd" id="car_002" href="http://www.byd.com/">
        <p class="name">比亚迪p>
        <p class="model">秦p>
        <p class="price">15万p>
        <p class="color">白色p>
    li>
ul>

匹配演示

1、查找所有的li节点
  //li
2、获取所有汽车的名称: 所有li节点下的子节点p的值 (class属性值为name）
  //li/p[@class="name"]  
3、找比亚迪车的信息: 获取ul节点下第2个li节点的汽车信息
  //ul/li[2]                          
4、获取所有汽车的链接: ul节点下所有li子节点的href属性的值
  //ul/li/@href

# 只要涉及到条件,加 []
# 只要获取属性值,加 @

选取节点

1、// ：从所有节点中查找（包括子节点和后代节点）
2、@  ：获取属性值
   # 使用场景1（属性值作为条件）
     //div[@class="movie-item-info"]
   # 使用场景2（直接获取属性值）
     //div[@class="movie-item-info"]/a/img/@src

匹配多路径（或）

xpath表达式1 | xpath表达式2 | xpath表达式3

常用函数

1、contains() ：匹配属性值中包含某些字符串节点
   # 查找id属性值中包含字符串 "car_" 的 li 节点
   #
   #
   //li[contain(@id,"car_")]
2、text() ：获取节点的文本内容
   # 查找所有汽车的价格
   //li/p[@class="price"]/text()

#得到字符串的两种方式:["","",""]
1.text(): //li/p/text()
2.@href:  //li/p/@href

lxml解析库

安装

sudo pip3 install lxml

使用流程

1、导模块
   from lxml import etree
2、创建解析对象
   parse_html = etree.HTML(html)
3、解析对象调用xpath
   r_list = parse_html.xpath('xpath表达式')

html样本

<div class="wrapper">
	<a href="/" id="channel">新浪社会a>
	<ul id="nav">
		<li><a href="http://domestic.sina.com/" title="国内">国内a>li>
		<li><a href="http://world.sina.com/" title="国际">国际a>li>
		<li><a href="http://mil.sina.com/" title="军事">军事a>li>
		<li><a href="http://photo.sina.com/" title="图片">图片a>li>
		<li><a href="http://society.sina.com/" title="社会">社会a>li>
		<li><a href="http://ent.sina.com/" title="娱乐">娱乐a>li>
		<li><a href="http://tech.sina.com/" title="科技">科技a>li>
		<li><a href="http://sports.sina.com/" title="体育">体育a>li>
		<li><a href="http://finance.sina.com/" title="财经">财经a>li>
		<li><a href="http://auto.sina.com/" title="汽车">汽车a>li>
	ul>
div>

示例+练习

from lxml import etree

html = '''

	新浪社会
	
		国内
		国际
		军事
		图片
		社会
		娱乐
		科技
		体育
		财经
		汽车
	
'''
# 创建解析对象
parse_html = etree.HTML(html)
# 调用xpath返回结束,text()为文本内容
a_list = parse_html.xpath('//a/text()')
print(a_list)

# 提取所有的href的属性值
r_list = parse_html.xpath("//div[@class='wrapper']//a/@href | //div[@class='wrapper']//a/@title")
# 提取所有href的值,不包括 / 
r_list = parse_html.xpath("//ul[@id='nav']//a/@href | //ul[@id='nav']//a/@title")
# 获取 图片、军事、...,不包括新浪社会
r_list = parse_html.xpath("//ul[@id='nav']//a/text()")

xpath最常使用方法

1、先匹配节点对象列表
  # r_list: ['节点对象1','节点对象2']
  r_list = parse_html.xpath('基准xpath表达式')
2、遍历每个节点对象,利用节点对象继续调用 xpath
  for r in r_list:
        name = r.xpath('./xxxxxx')
        star = r.xpath('.//xxxxx')
        time = r.xpath('.//xxxxx')

链家二手房案例（xpath）

实现步骤

确定是否为静态

打开二手房页面 -> 查看网页源码 -> 搜索关键字

xpath表达式

1、基准xpath表达式(匹配每个房源信息节点列表)
   此处滚动鼠标滑轮时,li节点的class属性值会发生变化,通过查看网页源码确定xpath表达式
  //ul[@class="sellListContent"]/li[@class="clear LOGVIEWDATA LOGCLICKDATA"]

2、依次遍历后每个房源信息xpath表达式
   * 名称: './/a[@data-el="region"]/text()'
   
   # 户型+面积+方位+是否精装
   info_list = './/div[@class="houseInfo"]/text()'  [0].strip().split('|')
   * 户型: info_list[1]
   * 面积: info_list[2]
   * 方位: info_list[3]
   * 精装: info_list[4]
   

   * 楼层: './/div[@class="positionInfo"]/text()'
   * 区域: './/div[@class="positionInfo"]/a/text()'
   * 总价: './/div[@class="totalPrice"]/span/text()'
   * 单价: './/div[@class="unitPrice"]/span/text()'

代码实现

import requests, time, random
from fake_useragent import UserAgent
from lxml import etree


class LianJiaSpider:
    def __init__(self):
        self.url = "https://zz.lianjia.com/ershoufang/pg{}/"
        self.blag=1

    # 随机headers
    def get_headers(self):
        agent = UserAgent().random
        headers = {"User-Agent": agent}
        return headers

    # 请求
    def get_html(self, url):
        #请求三次.每次请求时间最多为5秒
        if self.blag<=3:
            try:
                res = requests.get(url=url, headers=self.get_headers(),timeout=5)
                # html=res.text
                html = res.content.decode()
                return html
            except Exception as e:
                print(e)
                self.blag+=1
                self.get_html(url)

    # 解析
    def parse_html(self, url):
        html = self.get_html(url)
        if not html:
            return None
        p = etree.HTML(html)
        # 基准xpath表达式 -30个房源节点对象列表
        h_list = p.xpath('//ul[@class="sellListContent"]/li[@class="clear LOGVIEWDATA LOGCLICKDATA"]')
        for h in h_list:
            item = {}
            # 名称
            item["name"] = (h.xpath('.//a[@data-el="region"]/text()')[0] if h.xpath('.//a[@data-el="region"]/text()') else None)
            # 户型+面积+方位+是否精装
            info_list = h.xpath('.//div[@class="houseInfo"]/text()')
            if info_list:
                L = info_list[0].split("|")
                if len(L) == 5:
                    item["model"] = L[1].strip()
                    item["area"] = L[2].strip()
                    item["direction"] = L[3].strip()
                    item["perfect"] = L[4].strip()
                else:
                    item["model"] = item["area"] = item["direction"] = item["perfect"] = None
            else:
                item["model"] = item["area"] = item["direction"] = item["perfect"] = None

            # 楼层
            item["floor"] = (h.xpath('.//div[@class="positionInfo"]/text()')[0] if h.xpath('.//div[@class="positionInfo"]/text()') else None)
            # 区域
            item["address"] = (h.xpath('.//div[@class="positionInfo"]/a/text()')[0] if h.xpath('.//div[@class="positionInfo"]/a/text()') else None)
            # 总价
            item["total"] = (h.xpath('.//div[@class="totalPrice"]/span/text()')[0]+"万" if h.xpath('.//div[@class="totalPrice"]/span/text()') else None)
            # 单价
            item["unit"] = (h.xpath('.//div[@class="unitPrice"]/span/text()')[0] if h.xpath('.//div[@class="unitPrice"]/span/text()') else None)

            print(item)

    # 保存
    def save_html(self):
        pass

    def run(self):
        for i in range(1,20):
            url=self.url.format(i)
            self.parse_html(url)
            # time.sleep(random.randint(1,3))
            #没抓取一页要初始化self.blag
            self.blag=1


if __name__ == '__main__':
    l = LianJiaSpider()
    l.run()

任务1 - 猫眼电影数据抓取

实现分析

1、基准xpath: 匹配所有电影信息的节点对象列表
    
    
2、遍历对象列表，依次获取每个电影信息
   for dd in dd_list:
	   电影名称 ：
	   电影主演 ：
	   上映时间 ：

代码实现

import requests
from lxml import etree
from day01.User_Agent import getheaders

class MaoYanSpisder:
    def __init__(self):
        self.url="https://maoyan.com/board/4"
        self.headers=getheaders()
    def save_hrml(self):
        html=requests.get(url=self.url, headers=self.headers).text
        #解析
        parse_html=etree.HTML(html)
        dd_list=parse_html.xpath("//dd")
        item={}
        for dd in dd_list:
            item["name"]=dd.xpath('.//p[@class="name"]/a/text()')[0].strip()
            item["star"]=dd.xpath('.//p[@class="star"]/text()')[0].strip()
            item["time"]=dd.xpath('.//p[@class="releasetime"]/text()')[0].strip()
            print(item)

    def run(self):
        self.save_hrml()

if __name__ == '__main__':
    m=MaoYanSpisder()
    m.run()

任务2 - 百度贴吧图片抓取

目标思路

目标

抓取指定贴吧所有图片

思路

1、获取贴吧主页URL,下一页,找到不同页的URL规律
2、获取1页中所有帖子URL地址: [帖子链接1,帖子链接2,...]
3、对每个帖子链接发请求,获取图片URL
4、向图片的URL发请求,以wb方式写入本地文件

实现步骤

贴吧URL规律

http://tieba.baidu.com/f?kw=??&pn=50

xpath表达式

1、帖子链接xpath
   //div[@class="t_con cleafix"]/div/div/div/a/@href
    
2、图片链接xpath
   //div[@class="d_post_content j_d_post_content  clearfix"]/img[@class="BDE_Image"]/@src
    
3、视频链接xpath
   //div[@class="video_src_wrapper"]/embed/@data-video
   # 注意: 此处视频链接前端对响应内容做了处理,需要查看网页源代码来查看，复制HTML代码在线格式化

任务3 - 电影天堂（xpath）

python爬虫(5)之CSDN It is a deal️ 小项目 python json 爬虫
CSDN的爬虫相对于doubatop250更加简单，一般只需要title和url即可下面是相关的代码：#爬虫之csdn#分析urlhttps://www.csdn.net/api/articles?type=more&category=python&shown_offset=0（firstpage）#https://www.csdn.net/api/articles?type=more&categ
python学习第七节：正则表达式一只会敲代码的小灰灰 python学习 python 学习正则表达式
python学习第七节：正则表达式正则表达式基本上在所有开发语言中都会使用到，在python中尤为重要。当我们使用python开发爬虫程序将目标网页扒下来之后我们要从网页中解析出我们想要的信息，这个时候就需要正则表达式去进行匹配。importrere的常量re模块中有9个常量，常量的值都是int类型！（知道就行）修饰符描述re.l使匹配对大小写不敏感re.L做本地化识别(locale-aware)
分布式框架Celery七(Django-Celery-Flower实现异步和定时爬虫及其监控邮件告警) yjjpp2301 Celery 分布式 django python 后端
Django中集成方式安装模块pipinstallDjango==3.2.22pipinstallcelerypipinstallredispipinstalleventlet#在windows环境下需要安装eventlet包-----------pipinstalldjango-celery-beatpipinstalldjango-celery-resultspipinstalldjango-
生产者消费者模式_Labview基础之生产者消费者设计模式（事件） weixin_39532699 生产者消费者模式
1绪论近期，开了一个QQ群，刚开始的目的也是想多拉写软件相关的大神，有问题的时候也可以交流交流。记得当时有个软件在写的时候遇到了一个棘手的问题，outlook邮箱配置账户密码的问题，到现在也没解决，算了，也不是很迫切。2000人群就留在那里爬虫发单吧！建群以后才发现，原来这一块的小白还挺多，总结起来就一个原因：做这个软件的大多数都不是软件出生，都是因为临时要搭建一个上位机平台，匆匆入门......
Python——爬虫星和月 python
当编写一个Python爬虫时，你可以使用BeautifulSoup库来解析网页内容，使用requests库来获取网页的HTML代码。下面是一个简单的示例，演示了如何获取并解析网页内容：importrequestsfrombs4importBeautifulSoup#发送HTTP请求获取网页内容url='https://www.example.com'#要爬取的网页的URLresponse=requ
Python数据分析之股票信息可视化实现matplotlib Blogfish Python3 大数据 python 可视化数据分析
今天学习爬虫技术数据分析对于股票信息的分析及结果呈现，目标是实现对股票信息的爬取并对数据整理后，生成近期成交量折线图。首先，做这个案例一定要有一个明确的思路。知道要干啥，知道用哪些知识，有些方法我也记不住百度下知识库很强大，肯定有答案。有思路以后准备对数据处理，就是几个方法使用了。接口地址参考：Tushare数据涉及知识库：tushare-一个财经数据开放接口；pandas-实现将数据整理为表格，
【Python技术学习】- 如何搭建一个爬虫代理服务？ xiaoli8748_软件开发 python技术学习 python 学习爬虫
由于之前一直在做爬虫采集相关的开发，这个过程那肯定少不了跟「代理IP」打交道，这篇文章就来记录一下，如何实现一个爬虫代理服务，本篇文章主要以讲解思路为主。起因做过爬虫的人应该都知道，抓的网站和数据多了，如果爬虫抓取速度过快，免不了触发网站的防爬机制。而这些网站应对爬虫的办法，几乎用的同一招就是封IP。那么我们还想稳定、持续地抓取这些网站的数据，如何解决呢？一般解决方案有2个：使用同一个服务器IP抓
盘点一个Python网络爬虫抓取股票代码问题（上篇）皮皮_f075
大家好，我是皮皮。一、前言前几天在Python白银群【厚德载物】问了一个Python网络爬虫的问题，这里拿出来给大家分享下。image.png二、实现过程这个问题其实for循环就可以搞定了，看上去粉丝的代码没有带请求头那些，导致获取不到数据。后来【瑜亮老师】、【小王子】给了具体思路，代码如下图所示：image.png后来【小王子】也给了一个具体代码，如下：importrequestsimportt
Python 爬虫基础教程——BeautifulSoup抓取入门（2）那个百分十先生
大家好，上篇推文介绍了BeautifulSoup抓取的一些基础用法，本篇内容主要是介绍BeautifulSoup模块的文档树使用以及实例。一、遍历文档树直接看代码吧frombs4importBeautifulSouphtml='python知识学堂Python知识学堂欢迎您'#上面是随便写的一个页面代码soup=BeautifulSoup(html,'lxml')#print(soup.prett
计算机毕业设计选题推荐-基于Python框架项目推荐（中）计算机毕设大佬 Java毕设实战项目 Python毕设实战项目爬虫+大数据毕设实战项目 python 计算机毕业设计 django 计算机毕业设计如何选题 25届计算机毕业设计如何选题计算机毕业设计选题推荐 24届计算机毕设选题推荐
博主介绍：✌十余年IT大项目实战经验、在某机构培训学员上千名、专注于本行业领域✌技术范围：Java实战项目、Python实战项目、微信小程序/安卓实战项目、爬虫+大数据实战项目、Nodejs实战项目、PHP实战项目、.NET实战项目、Golang实战项目。主要内容：系统功能设计、开题报告、任务书、系统功能实现、功能代码讲解、答辩PPT、文档编写、文档修改、文档降重、一对一辅导答辩。获取源码可以联系
基于Python爬虫四川成都二手房数据可视化系统设计与实现(Django框架) 研究背景与意义、国内外研究现状_django商品房数据分析论文(1) 莫莫Android开发信息可视化 python 爬虫
3.国外研究现状在国外，二手房数据可视化也是一个热门的研究领域。以美国为例，有很多公司和网站提供了专门的二手房数据可视化工具，如Zillow、Redfin等。这些工具通常提供房价趋势图、房价分布图、房源信息等功能，帮助用户更好地了解房市动态。综上所述，虽然国内外在二手房数据可视化方面已经有了一些研究成果，但对于四川成都地区的二手房市场还没有相关的研究和可视化系统。因此，本研究旨在设计并实现一个基于
80%的人都知道的——内容营销老泊
我们已经知道内容营销是依靠内容来进行营销，一起看一下内容营销的工作流吧。选题创作投放主要内容营销的选题类型-常青树：用户长时间关心的，比如房价，教育-热点：用户短时间关心的，比如八卦，实事二八原则常青树话题等等选题来源：访谈法：寻找目标用户尽可能一对一进行访谈，用户反馈的问题都可以成为你的选题来源数据法：利用搜索引擎获取内容选题。利用爬虫工具看看人们都比较关心哪些话题来作为选题基于时事的选题数据工
python中的requests模块 €dj& python 爬虫 http
一.requests模块介绍requests模块是python的第三方模块,用来发送网络请求,常用于爬虫,能够完全满足基于HTTP协议的接口测试二.requests模块的安装:三.requests模块发送请求方法1.简单的get请求方法(1)请求方法:requests.请求方法(get)(2)url定义:URL是请求的地址，是一个字符串形式数据做接口测试时，URL应该是接口地址四.requests
使用requests-html 遇见的问题柒柒钏爬虫
使用requests-html遇见的问题1、解决无头浏览器问题（可能有反爬，所以需要使用模拟浏览器）修改requests_html源码，如图所示，添加红框里的代码示例爬虫代码：fromrequests_htmlimportHTMLSessionsession=HTMLSession()headers={"User-Agent":"Mozilla/5.0(WindowsNT10.0;WOW64)Ap
python requests下载网页_python爬虫 requests-html的使用 weixin_39600319 python requests下载网页
一介绍Python上有一个非常著名的HTTP库——requests，相信大家都听说过，用过的人都说非常爽！现在requests库的作者又发布了一个新库，叫做requests-html，看名字也能猜出来，这是一个解析HTML的库，具备requests的功能以外，还新增了一些更加强大的功能，用起来比requests更爽！接下来我们来介绍一下它吧。#官网解释'''Thislibraryintendsto
解决“Python中 pip不是内部或外部命令，也不是可运行的程序或批处理文件”的方法。 གཡུ ། Python 常规问题 python pip 机器学习自然语言处理
解决‘Python中pip不是内部或外部命令，也不是可运行的程序或批处理文件。’的方法1、pip是什么？pip是一个以Python计算机程序语言写成的软件包管理系统，他可以安装和管理软件包，另外不少的软件包也可以在“Python软件包索引”中找到。它可以通过cmd（命令提示符）非常方便地下载和管理Python第三方库，比如，Python爬虫中常见的requests库等。但是我们在使用cmd运行pi
python爬虫的urlib知识梳理卑微小鹿爬虫
1:urlib.request.urlopen发送请求getpost网络超时timeout=0.1网络请求模拟一个浏览器所发送的网络请求创建requestrequest头信息➕host/IP➕验证➕请求方式cookice客户返回响应数据所留下来的标记代理ipUrlib.request.proxyhander字典类型异常处理codereasonhearders拆分URLurlpaseurlsplit
【原创】Unity3D 游戏项目实例教程之 Xml 数据解析器 chuiyanbang9039 游戏
由于自己项目中使用XML作为配置文件，为了解析起来方便，其实更加方便的是解析XML的.cs文件都通过程序去生成，读者可以自己去实现，下面是XML解析器，仅供大家参考！先来看看最终使用例子的代码（在我们的项目中，我们需要借助上一篇的资源加载管理器来预先加载我们的配置文件）：using UnityEngine;using System.Collections;public class LoaderXm
使用爬虫写一个简易的翻译器+图像界面+python w²大大 python学习 python tkinter json
翻译器+图像界面+python1.效果图如下：2.代码实现1.效果图如下：2.代码实现importtkinterimportrandomimportrequestsimportrequestimporturllibfromurllibimportrequest,parseimporttime,json,random,hashlibwin=tkinter.Tk()defpachong():try:u
Matlab,Python,Java,C++的比较 Codefengfeng python java c++
Matlabmatlab是一个大型计算机，擅长矩阵计算与科学计算，适合构建模型；然而，编译软件的运行效率低，不适合大型软件开发。Pythonpython的优势是简单，入门快。适合做数据挖掘、数据分析、机器学习、人工智能、自然语言处理、爬虫、批量文件处理等，此外，Python开源免费，有很多的库，开发环境开发社区都比较友好；不过，Python是动态型的语言，需要更多的测试，并且错误仅仅是在运行的时候
Python爬虫入门实战：抓取CSDN博客文章 A Bug's Code Journey 爬虫 python
一、前言在大数据时代，网络上充斥着海量的信息，而爬虫技术就是解锁这些信息宝库的钥匙。Python，以其简洁易读的语法和强大的库支持，成为编写爬虫的首选语言。本篇博客将从零开始，带你一步步构建一个简单的Python爬虫，抓取CSDN博客的文章标题和链接。二、环境准备在开始之前，确保你的环境中安装了Python和以下必要的库：1.requests：用于发送HTTP请求2.BeautifulSoup：用
Python爬虫——Selenium方法爬取LOL页面张小生180 python 爬虫 selenium
文章目录Selenium介绍用Selenium方法爬取LOL每个英雄的图片及名字Selenium介绍Selenium是一个用于自动化Web应用程序测试的工具，但它同样可以被用来进行网页数据的抓取（爬虫）。Selenium通过模拟用户在浏览器中的操作（如点击、输入、滚动等）来与网页交互，并可以捕获网页的渲染结果，这对于需要JavaScript渲染的网页特别有用。安装Selenium首先，你需要安装S
初识爬虫2 菜鸡中的奋斗鸡→挣扎鸡爬虫
requests学习：小技巧，如果你用的也是pycharm，对于控制台输出页面因为数据很长一行，不方便进行查看，可以让它自动换行：1.requests文档阅读学习链接：快速上手—Requests2.18.1文档需掌握2.发送请求和获取响应#-*-coding:utf-8-*-#安装：pipinstallrequestsimportrequestsurl='https://www.baidu.com
Python爬虫如何搞定动态Cookie？小白也能学会！图灵学者 python精华 python 爬虫 github
目录1、动态Cookie基础1.1Cookie与Session的区别1.2动态Cookie生成原理2、requests.Session方法2.1Session对象保持2.2处理登录与Cookie刷新2.3长连接与状态保持策略3、Selenium结合ChromeDriver实战3.1安装配置Selenium3.2动态抓取&处理Cookie4、requests-Session结合Selenium技巧4
python ray分布式_取代 Python 多进程！伯克利开源分布式框架 Ray weixin_39946313 python ray分布式
Ray由伯克利开源，是一个用于并行计算和分布式Python开发的开源项目。本文将介绍如何使用Ray轻松构建可从笔记本电脑扩展到大型集群的应用程序。并行和分布式计算是现代应用程序的主要内容。我们需要利用多个核心或多台机器来加速应用程序或大规模运行它们。网络爬虫和搜索所使用的基础设施并不是在某人笔记本电脑上运行的单线程程序，而是相互通信和交互的服务的集合。云计算承诺在所有维度上(内存、计算、存储等)实
Python爬虫基础知识板栗妖怪 python 爬虫开发语言
(未完成)爬虫概念爬虫用于爬取数据，又称之为数据采集程序爬取数据来源于网络，网络中数据可以是有web服务器、数据库服务器、索引库、大数据等等提供爬取数据是公开的、非盈利。python爬虫使用python编写的爬虫脚本可以完成定时、定量、指定目标的数据爬取。主要使用多（单）线程/进程、网络请求库、数据解析、数据储存、任务调度等相关技术。爬虫和web后端服务关系爬虫使用网络请求库，相当于客户端请求，w
python 实现一个简单的网页爬虫程序 ziyuluoyao_Meg python python 爬虫
最近在学习python，以下为网页爬虫代码，供参考1、爬取指定网页的标题和所有的连接2、并将这些信息保存到一个文件中。前置：因使用到网页相关的功能，故需导入requests、BeautifulSoup库来完成#导入网页相关的库importrequestsfrombs4importBeautifulSoup#定义一个函数get_page()defget_page(url):response=requ
Python的情感词典情感分析和情绪计算 yava_free python 大数据人工智能
一.大连理工中文情感词典情感分析(SentimentAnalysis)和情绪分类(EmotionClassification）都是非常重要的文本挖掘手段。情感分析的基本流程如下图所示，通常包括：自定义爬虫抓取文本信息；使用Jieba工具进行中文分词、词性标注；定义情感词典提取每行文本的情感词；通过情感词构建情感矩阵，并计算情感分数；结果评估，包括将情感分数置于0.5到-0.5之间，并可视化显示。目
58手势验证码的分析 allgiveup
做爬虫的小伙伴们肯定都深有体会，爬虫要是遇到验证码了基本上就是GG了。于是爬虫工作者和验证码之间必有一战。随着web安全技术的提升，验证码也一代一代的革新，并且越发的变态。小曾也去研究了各式样的验证码，最后决定拿出58手势验证码和大家分享。分析概述首先我对58手势验证码做一个总体的描述。从触发验证码到验证成功，我们操作的背后需要向服务器发送6个请求，并且还有一次js算法对参数加密。6个请求之间有着
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

python爬虫之requests模块/xpath解析/lxml解析库

文章目录

前情回顾

爬取网站思路

数据持久化 - csv

数据持久化 - MySQL

数据持久化 - MongoDB

多级页面数据抓取

今日笔记

电影天堂二级页面抓取案例

领取任务

实现步骤

(.*?)

requests模块

安装

requests.get()

Chrome浏览器安装插件

安装方法

需要安装插件

xpath解析

定义

示例

匹配演示

选取节点

匹配多路径（或）

常用函数

lxml解析库

安装

使用流程

html样本

示例+练习

xpath最常使用方法

链家二手房案例（xpath）

实现步骤

代码实现

任务1 - 猫眼电影数据抓取

任务2 - 百度贴吧图片抓取

目标思路

实现步骤

任务3 - 电影天堂（xpath）

你可能感兴趣的:(爬虫,数据解析)