Octong

Python-scrapy爬虫

Python-scrapy爬虫
- CHAPTER2
- - 1.HTTP基本原理
  - 2.HTML
  - - HTML
    - JavaScript
    - CSS
  - 3.使用XPath定位
- CHAPTER3
- - Scrapy框架
  - 安装scrapy
  - 项目：起点中文网小说数据
- CHAPTER4
- - request对象
  - - 应用：伪装成浏览器
  - 使用选择器提取数据
  - Response对象
  - - 使用CSS定位
  - Item封装数据
  - ItemLoader填充数据
  - Pipeline中处理数据
  - - 获取下一页url，并生成一个Request请求
  - 项目：链家网二手房信息
  - - 创建项目
    - 使用Item封装数据
    - 创建Spider源文件及Spider类
    - 使用Pipeline实现数据的处理
    - 其他设置
    - 在pycharm中运行爬虫
- CHAPTER5 数据库
- - MySQL数据库
  - - 安装MySQL并开启服务
    - 数据库管理工具-Navicat
    - Navicat连接MySQL数据库
    - Navicat新建数据库和表
  - 操作MySQL数据库
  - - 1.连接MySQL数据库服务器
    - 2.获取操作游标
    - 3.执行SQL语句
    - 4.回滚
    - 5.提交数据
    - 6.关闭游标及数据库
  - 项目：qidian_hot爬取到的小说信息存储于MySQL中
  - MongoDB数据库
  - - NoSQL概述
    - Python访问MongoDB数据库
    - - 1.连接MongoDB数据库服务器
      - 2.指定数据库
      - 3.指定集合（相当于关系型数据库中的表）。
      - 4.插入文档
      - 5.查询文档
      - 6.更新文档
      - 7.删除文档
      - 8.关闭数据库。
  - Redis数据库
  - - 配置Redis数据库
    - Python访问Redis数据库
    - Redis操作
    - - 1.连接Redis数据库服务器
      - 2.字符串（String）操作
      - 3.列表（List）操作
      - 4.无序集合（Set）操作
      - 5.散列表（Hash）操作
      - 6.有序集合（Storted Set）操作
- CHAPTER6 JavaScript和Ajax数据爬取
- - JavaScript简介
  - - 项目：QQ音乐榜单
    - - 1.创建项目
      - 2.使用Item封装数据
      - 3.创建Spider文件及Spider类
      - 4.运行爬虫
      - 5.查看结果
  - Ajax简介
  - - 项目：豆瓣电影
    - - 1.创建项目
      - 2.使用Item封装数据
      - 3.创建Spider文件及Spider类
      - 4.运行爬虫
      - 5.查看结果
- CHAPTER7 动态渲染页面爬取
- - Selenium实现动态页面爬取
  - - 环境搭建：Scrapy+Selenium+PhantomJS
    - - 安装selenium
      - 安装chromedriver
      - 安装phantomJS
    - Selenium语法
  - 项目：今日头条
  - - - 1.创建项目
      - 2.使用Item封装数据
      - 3.使用DownloaderMiddleware处理request
      - 4.创建Spider文件及Spider类
      - 4.运行爬虫
      - 5.查看结果

CHAPTER2

1.HTTP基本原理

全称Uniform Resource Locator，即统一资源定位符。

如：https://www.baidu.com/包含了：
- 访问协议： HTTPS，用于确定数据传输的方式。
- 服务器名称：www.baidu.com，网站地址。
HTTP协议

全称HyperText Transfer Protocol，即超文本传输协议。HTTP协议以明文方式发送内容，不提供任何方式的数据加密。
HTTPS协议

全称HyperText Transfer Protocol over Secure Socket Layer，即安全套接字层超文本传输协议。HTTPS在HTTP的基础上加入了SSL协议，SSL依靠证书来验证服务器的身份，并对浏览器和服务器之间的通信加密。

HTTP请求过程

请求方法：常见的请求方法有两种：GET和POST
请求的网址：有Host，Cookie，User-Agent等

请求头

请求头	说明
Accept	浏览器端可以接受的媒体类型。
Accept-Encoding	浏览器接受的编码方式。
Accept-Language	浏览器所接受的语言种类。
Connection	表示是否需要持久连接。
Cookie	网站为了辨别用户身份、进行会话跟踪而储存在用户本地的数据（通常经过加密），由网站服务器创建。
Host	指定被请求资源的Internet主机和端口号，通常从URL中提取出来。
User-Agent	告诉网站服务器，客户端使用的操作系统和浏览器的名称和版本、CPU版本、浏览器渲染引擎、浏览器语言等。

请求体：一般承载的内容是POST请求中的表单数据，而对于GET请求，请求体则为空

HTTP响应过程
- 响应状态码（Response Status Code）：如200代表服务器正常响应，404代表页面未找到
- 响应头（Response Headers）：包含了服务器对请求的应答信息，如Content-Type、Server、Set-Cookie等
- 响应体（Response Body）：包含响应的正文数据，如网页的HTML代码。

2.HTML

HTML

用来描述网页的一种语言，全称叫做Hyper Text Markup Language，即超文本标记语言。网页包括文字、按钮、图片和视频等各种复杂的元素，其基础架构就是HTML。

例：movies.html

电影排行

电影排行榜单

1.肖申克的救赎

2.霸王别姬

JavaScript

简称JS，是一种脚本语言。HTML和CSS配合使用，提供给用户的只是一种静态信息，缺乏交互性。我们在网页里可能会看到一些交互和动画效果，如下载进度条、提示框、轮播图等，这通常就是JavaScript的功劳。

CSS

HTML定义了网页的结构，但是只有HTML页面的布局并不美观，可能只是简单的节点元素的排列，为了让网页看起来更好看一些，需要CSS的帮助。

全称叫作Cascading Style Sheets，即层叠样式表。“层叠”是指当在HTML中引用了数个样式文件，并且样式发生冲突时，浏览器能依据层叠顺序处理。

3.使用XPath定位

# 使用Xpath提取网页

# 导入lxml库的etree模块
from lxml import etree
# 解析movies.html文件，返回一个节点树的对象
html_selector = etree.parse("movies.html",etree.HTMLParser())

root = html_selector.xpath("/html/head/title/text()")
print(root[0])

movies = html_selector.xpath("//p/text()")
print(movies)

XPath全称XML Path Language，即XML路径语言。它是一门在XML文档中查找信息的语言。HTML与XML结构类似，也可以在HTML中查找信息。

安装XPath

>pip install lxml

表达式	描述	示例
nodename	选取此节点的所有子节点	div,p,h1
/	从根节点选取（描述绝对路径）	/html
//	不考虑位置，选取页面中所有子孙节点	//div
.	选取当前节点（描述相对路径）	./div
…	选取当前节点的父节点（描述相对路径）	h1/…/
@属性名	选取属性的值	@href,@id
text()	获取元素中的文本节点	//h1/text()

谓语表达式	说明	结果
//div[@id=‘content’]	选取属性id为content的div元素	[]
//div[@class]	选取所有带有属性class的div元素	[]
//div/p[1]/text()	选取div节点中的第一个p元素的文本	[‘1.肖申克的救赎’]
//div/p[2]/text()	选取div节点中的第二个p元素的文本	[‘2.霸王别姬’]
//div/p[last()]/text()	选取div节点中的最后一个p元素的文本	[‘2.霸王别姬’]

CHAPTER3

Scrapy框架

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fOZkOZCY-1601619554324)(/Users/jack/Library/Application Support/typora-user-images/image-20200814234020395.png)]

引擎（ENGINE）

调度器（SCHEDULER）

下载器（DOWNLOADER）

爬虫（SPIDERS）

项目管道（ITEM PIPELINES）

下载器中间件（Downloader Middlewares）

爬虫中间件（Spider Middlewares）

第①步：爬虫（Spider）使用URL（要爬取页面的网址）构造一个请求（Request）对象，提交给引擎（ENGINE）。如果请求要伪装成浏览器，或者设置代理IP，可以先在爬虫中间件中设置，再发送给引擎。

第②步：引擎将请求安排给调度器，调度器根据请求的优先级确定执行顺序。

第③步：引擎从调度器获取即将要执行的请求。

第④步：引擎通过下载器中间件，将请求发送给下载器下载页面。

第⑤步：页面完成下载后，下载器会生成一个响应（Response）对象并将其发送给引擎。下载后的数据会保存于响应对象中。

第⑥步：引擎接收来自下载器的响应对象后，通过爬虫中间件，将其发送给爬虫（Spider）进行处理。

第⑦步：爬虫将抽取到的一条数据实体（Item）和新的请求（如下一页的链接）发送给引擎。

第⑧步：引擎将从爬虫获取到的Item发送给项目管道（ITEM PIPELINES），项目管道实现数据持久化等功能。同时将新的请求发送给调度器，再从第②步开始重复执行，直到调度器中没有更多的请求，引擎关闭该网站。

安装scrapy

>pip install scrapy

项目：起点中文网小说数据

创建项目

# 终端
cd 项目文件夹
scrapy startproject 项目名

pycharm打开项目文件夹，在spiders文件夹中新建爬虫文件，如qidian_hot_spider.py

# -*-coding:utf-8-*-

from scrapy import Request
from scrapy.spiders import Spider

class HotSalesSpider(Spider):
    name = "hot" # 爬虫名称
    start_urls = ["https://www.qidian.com/rank/hotsales?style=1&page=1"]
def parse(self,response): # 数据解析
    # 使用xpath定位
    list_selector = response.xpath("//div[@class='book-mid-info']")
    for one_selector in list_selector:
        # 获取小说信息
        name = one_selector.xpath("h4/a/text()").extract()[0]
        # 获取作者
        author = one_selector.xpath("p[1]/a[1]/text()").extract()[0]
        # 获取类型
        type = one_selector.xpath("p[1]/a[2]/text()").extract()[0]
        # 获取形式
        form = one_selector.xpath("p[1]/span/text()").extract()[0]
        # 定义字典
        hot_dict = {
     
            "name":name,
            "author":author,
            "type":type,
            "form":form
        }
        yield hot_dict #使用yield返回字典

终端中运行，

# 终端
# scrapy crawl 爬虫名称 -o 输出文件
scrapy crawl hot -o hot.csv

CHAPTER4

request对象

Request用来描述一个HTTP请求，它通常在Spider中生成并由下载器执行。

Request的定义形式为：

class scrapy.http.Request(url[,callback,method=‘GET’,headers,body,cookies,meta,encoding=‘utf-8’,priority=0,dont_filter=False,errback])

参数	说明
url	HTTP请求的网址
method	HTTP请求的方法，如“GET”、“POST”、“PUT”等，默认为“GET”，必须大写。
body	HTTP的请求体，类型为str或unicode。
headers	HTTP的请求头，字典型。
cookies	请求的Cookie值，字典型或列表型，可以实现自动登录的效果。
encoding	请求的编码方式，默认为UTF-8。
callback	指定回调函数，即确定页面解析函数，默认为parse()。
meta	字典类型，用于数据的传递。
priority	请求的优先级，默认为0，优先级高的请求优先下载。
dont_filter	如果对同一个url多次提交相同请求，可以使用此项来忽略重复的请求，避免重复下载，默认为False。
errback	在处理请求时引发任何异常时调用的函数。

应用：伪装成浏览器

重写start_requests()方法

重写（override）start_requests()方法，手动生成一个功能更强大的Request对象。因为伪装浏览器、自动登录等功能都是在Request对象中设置的。

引擎之所以能自动定位，是因为在Request对象中，指定了解析数据的回调函数（callback），而默认情况下，Request指定的解析函数就是parse()方法，即callback=self.parse

# -*-coding:utf-8-*-

from scrapy import Request
from scrapy.spiders import Spider

class HotSalesSpider(Spider):
    name = "hot" # 爬虫名称
    qiandian_headers = {
     "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36"} # 复制浏览器中request headers中的User-Agent，伪装成浏览器

    def start_requests(self): # 重写start_requests()方法
        url = "https://www.qidian.com/rank/hotsales?style=1&page=1"
        yield Request(url,headers=self.qiandian_headers)

    def parse(self,response): # 数据解析
        # 使用xpath定位
        list_selector = response.xpath("//div[@class='book-mid-info']")
        for one_selector in list_selector:
            # 获取小说信息
            name = one_selector.xpath("h4/a/text()").extract()[0]
            # 获取作者
            author = one_selector.xpath("p[1]/a[1]/text()").extract()[0]
            # 获取类型
            type = one_selector.xpath("p[1]/a[2]/text()").extract()[0]
            # 获取形式
            form = one_selector.xpath("p[1]/span/text()").extract()[0]
            # 定义字典
            hot_dict = {
     
                "name":name,
                "author":author,
                "type":type,
                "form":form
            }
            yield hot_dict

使用选择器提取数据

Scrapy提取数据有自己的一套机制，被称作选择器（Selector类），它能够自由“选择”由XPath或CSS表达式指定的HTML文档的某些部分。Scrapy的选择器短小简洁、解析快、准确性高，使用其内置的方法可以快速地定位和提取数据。

定位数据：

xpath(query)
css(query)

提取数据：

extract()
extract_first()（SelectorList独有的方法）
re(regex)
re_first（SelectorList独有的方法）

Response对象

Response用来描述一个HTTP响应，它只是一个基类。当下载器下载完网页后，下载器根据HTTP响应头部的Content-Type自动创建Response的子类对象。子类主要有：

TextResponse
HtmlResponse
XmlResponse

参数	说明
url	响应的url，只读
status	HTTP响应的状态码，如200，403，404。
body	HTTP响应体。
headers	HTTP的响应头，字典型。
meta	用于接收传递的数据。

response接收封装有网页信息的Response对象，这时就可以使用下面的方法实现对数据的定位。

response.selector.xpath(query)

response.selector.css(query)

由于在response中使用XPath、CSS查询十分普遍，因此Response对象提供了两个实用的快捷方式，它们能自动创建选择器并调用选择器的xpath或css方法来定位数据。简化后的方法如下所示：

response.xpath(query)

response.css(query)

使用CSS定位

CSS全称Cascading Style Sheets，即层叠样式表，用于表现HTML或XML的样式。CSS表达式的语法比XPath简洁，但是功能不如XPath强大，大多作为XPath的辅助。

表达式	描述	示例
*****	选取所有元素	*
E	选取E元素	div
E1,E2	选取E1和E2元素	div,p
E1>E2	选取E1的子元素E2	div>h1
E1 E2	选取E1子孙中的E2元素	div h1
.class	选取CLASS属性的值为class的元素	.author
#id	选取ID属性的值为id的元素	#name
[ATTR]	选取包含ATTR属性的元素	[href]
[ATTR=VALUE]	选取属性ATTR的值为VALUE的元素	[class=author]
E:nth-child(n)	选取E元素且该元素是其父元素的第n个子元素	p:nth-child(1)
E:nth-last-child(n)	选取E元素且该元素是其父元素的倒数第n个子元素	p:nth-last-child(1)
E::text	获取E元素的文本	h1::text

# -*-coding:utf-8-*-

from scrapy import Request
from scrapy.spiders import Spider

class HotSalesSpider(Spider):
    name = "hot" # 爬虫名称
    qiandian_headers = {
     "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36"}

    def start_requests(self):
        url = "https://www.qidian.com/rank/hotsales?style=1&page=1"
        yield Request(url,headers=self.qiandian_headers,callback=self.css_parse)

    def css_parse(self,response): # 数据解析
        # 使用css定位
        list_selector = response.css("[class='book-mid-info']")
        for one_selector in list_selector:
            # 获取小说信息
            name = one_selector.css("h4>a::text").extract()[0]
            # 获取作者
            author = one_selector.css(".author a::text").extract()[0]
            # 获取类型
            type = one_selector.css(".author a::text").extract()[1]
            # 获取形式
            form = one_selector.css(".author span::text").extract()[0]
            # 定义字典
            hot_dict = {
     
                "name":name,
                "author":author,
                "type":type,
                "form":form
            }
            yield hot_dict

Item封装数据

Item对象是一个简单的容器，用于收集抓取到的数据，其提供了类似于字典（dictionary-like）的API，并具有用于声明可用字段的简单语法。

items.py

import scrapy
#保存小说热销榜字段数据
 class QidianHotItem(scrapy.Item):
   # define the fields for your item here like:
   name = scrapy.Field() #小说名
   author = scrapy.Field()#作者
   type = scrapy.Field() #类型
   form = scrapy.Field() #形式

1.类QidianHotItem继承于Scrapy的Item类。

2.name、author、type和form为小说的各个字段名。

3.scrapy.Field()生成一个Field对象，赋给各自的字段。

4.Field对象用于指定每个字段的元数据，并且Field对象对接受的数据没有任何限制。因此，在定义属性字段时，无需考虑它的数据类型，使用起来非常方便。

# -*-coding:utf-8-*-

from scrapy import Request
from scrapy.spiders import Spider
from qidian_hot.items import QidianHotItem

class HotSalesSpider(Spider):
    name = "hot" # 爬虫名称
    qiandian_headers = {
     "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36"}

    def start_requests(self):
        url = "https://www.qidian.com/rank/hotsales?style=1&page=1"
        yield Request(url,headers=self.qiandian_headers,callback=self.parse)

    def parse(self,response): # 数据解析
        # 使用xpath定位
        list_selector = response.xpath("//div[@class='book-mid-info']")
        for one_selector in list_selector:
            # 获取小说信息
            name = one_selector.xpath("h4/a/text()").extract()[0]
            # 获取作者
            author = one_selector.xpath("p[1]/a[1]/text()").extract()[0]
            # 获取类型
            type = one_selector.xpath("p[1]/a[2]/text()").extract()[0]
            # 获取形式
            form = one_selector.xpath("p[1]/span/text()").extract()[0]
            # ITEM封装数据
            item = QidianHotItem()
            item["name"] = name
            item["author"] = author
            item["type"] = type
            item["form"] = form
            yield item

ItemLoader填充数据

当项目很大，提取的字段数以百计时，数据的提取规则也会越来越多，再加上还要对提取到的数据做转换处理，代码就会变得庞大，维护起来十分困难。

为了解决这个问题，Scrapy提供了项目加载器（ItemLoader）这样一个填充容器。通过填充容器，可以配置Item中各个字段的提取规则，并通过函数分析原始数据，最后对Item字段赋值，使用起来非常便捷。

Item和ItemLoader的区别：

1.Item提供保存抓取到数据的**容器，**需要手动将数据保存于容器中。

2.Itemloader提供的是填充容器的机制。

# -*-coding:utf-8-*-

from scrapy import Request
from scrapy.spiders import Spider
from qidian_hot.items import QidianHotItem
from scrapy.loader import ItemLoader

class HotSalesSpider(Spider):
    name = "hot" # 爬虫名称
    qiandian_headers = {
     "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36"}

    def start_requests(self):
        url = "https://www.qidian.com/rank/hotsales?style=1&page=1"
        yield Request(url,headers=self.qiandian_headers,callback=self.parse)

    def parse(self,response): # 数据解析
        # 使用xpath定位
        list_selector = response.xpath("//div[@class='book-mid-info']")
        for one_selector in list_selector:
            # 生成ItemLoader实例
            novel = ItemLoader(item = QidianHotItem(),selector = one_selector)
            novel.add_xpath("name","h4/a/text()")
            novel.add_xpath("author","p[1]/a[1]/text()")
            novel.add_xpath("type","p[1]/a[2]/text()")
            novel.add_xpath("form","p[1]/span/text()")

            yield novel.load_item()

Pipeline中处理数据

当Spider将收集到的数据封装为Item后，它将会被传递到Item Pipeline（项目管道）组件中等待进一步处理。

在Scrapy中，Item Pipeline是可选组件，默认关闭，要想激活它，只需在配置文件settings.py中启用被注释掉的代码即可。

# settings.py
ITEM_PIPELINES = {
     
   'qidian_hot.pipelines.QidianHotPipeline': 300,
}

300是pipeline的优先级，对于多个pipeline，数字越小的优先处理

# pipelines.py
from scrapy.exceptions import DropItem

class QidianHotPipeline:
    def __init__(self):
        self.author_set = set()


    def process_item(self, item, spider): # 接收spider中的item
        if item["name"] in self.author_set:
            raise DropItem("查找到重复姓名的项目：%s"%item)
        return item

获取下一页url，并生成一个Request请求

# -*-coding:utf-8-*-

from scrapy import Request
from scrapy.spiders import Spider
from qidian_hot.items import QidianHotItem

class HotSalesSpider(Spider):
    name = "hot" # 爬虫名称
    qiandian_headers = {
     "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36"}
    current_page = 1

    def start_requests(self):
        url = "https://www.qidian.com/rank/hotsales?style=1&page=1"
        yield Request(url,headers=self.qiandian_headers,callback=self.parse)

    def parse(self,response): # 数据解析
        # 使用xpath定位
        list_selector = response.xpath("//div[@class='book-mid-info']")
        for one_selector in list_selector:
            # 获取小说信息
            name = one_selector.xpath("h4/a/text()").extract()[0]
            # 获取作者
            author = one_selector.xpath("p[1]/a[1]/text()").extract()[0]
            # 获取类型
            type = one_selector.xpath("p[1]/a[2]/text()").extract()[0]
            # 获取形式
            form = one_selector.xpath("p[1]/span/text()").extract()[0]
            # ITEM封装数据
            item = QidianHotItem()
            item["name"] = name
            item["author"] = author
            item["type"] = type
            item["form"] = form
            yield item

            # 获取下一页url,并生成一个Request请求
            self.current_page += 1
            if self.current_page <= 25:
                next_url = "https://www.qidian.com/rank/hotsales?style=1&page=%d"%self.current_page
                yield Request(next_url,callback=self.parse)

项目：链家网二手房信息

要求：https://su.lianjia.com/ershoufang/

1.房屋面积、总价和单价只需要具体的数字，不需要单位名称。

2.删除字段不全的房屋数据，如有的房屋朝向会显示“暂无数据”，应该剔除。

3.保存到CSV文件中的数据，字段要按照如下顺序排列：房屋名称，房屋户型，建筑面积，房屋朝向，装修情况，有无电梯，房屋总价，房屋单价，房屋产权。

创建项目

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AEuiAtrL-1601619554327)(/Users/jack/Library/Application Support/typora-user-images/image-20200815200956787.png)]

使用Item封装数据

items.py

import scrapy

class LianjiaItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field() # 房屋名称
    type = scrapy.Field() # 户型
    area = scrapy.Field() # 面积
    direction = scrapy.Field() # 朝向
    fitment = scrapy.Field() # 装修情况
    elevator = scrapy.Field() # 电梯
    total_price = scrapy.Field() # 总价
    unit_price = scrapy.Field() # 单价
    property = scrapy.Field() # 产权
    pass

创建Spider源文件及Spider类

lianjia_spider.py

# -*- coding: utf-8 -*-
from scrapy import Request
from scrapy.spiders import Spider
from lianjia.items import LianjiaItem

class HomeSpider(Spider):
    name = "home"
    current_page = 1
    total_page = 0 #总页数

    def start_requests(self): # 获取初始请求（start_requests()）
        url = "https://su.lianjia.com/ershoufang/"
        yield Request(url)

    def parse(self, response): #实现主页面解析函数（parse()）
        list_selector = response.xpath("//ul/li/div[@class='info clear']")
        for one_selector in list_selector:
            try:
                # 房屋名称
                name = one_selector.xpath("div[@class='flood']/div[@class='positionInfo']/a[1]/text()").extract_first()
                # 其他信息
                other = one_selector.xpath("div[@class='address']/div[@class='houseInfo']/text()").extract_first()
                other_list = other.split("|")
                type = other_list[0].strip(" ")
                area = other_list[1].strip(" ")
                direction = other_list[2].strip(" ")
                fitment = other_list[3].strip(" ")
                # 价格
                price_list = one_selector.xpath("div[@class='priceInfo']//span/text()")
                total_price = price_list[0].extract()
                unit_price = price_list[1].extract()

                item = LianjiaItem()
                item["name"] = name.strip(" ")
                item["type"] = type
                item["area"] = area
                item["direction"] = direction
                item["fitment"] = fitment
                item["total_price"] = total_price
                item["unit_price"] = unit_price

                # 生成详细页的url
                url = one_selector.xpath("div[@class='title']/a/@href").extract_first()
                yield Request(url,
                              meta = {
     "item":item},
                              callback = self.property_parse)
            except:
                pass
        # 获取下一页url
        if self.current_page == 1:
            #属性page-data的值中包含总页数和当前页。
            self.total_page = response.xpath("//div[@class='page-box house-lst-page-box']//@page-data").re("\d+")
            self.total_page = int(self.total_page[0]) #获取总页数

        self.current_page+=1 #下一页的值
        if self.current_page <= self.total_page: #self.total_page:#判断页数是否已越界
            next_url = "https://su.lianjia.com/ershoufang/pg%d"%(self.current_page)

            yield Request(next_url) #根据URL生成Request，使用yield提交给引擎

    def property_parse(self, response): #实现详细页解析函数
        property = response.xpath("//div[@class='introContent']/div[@class='transaction']/div[@class='content']/ul/li[2]/span[2]/text()").extract_first()
        elevator = response.xpath("//div[@class='introContent']/div[@class='base']/div[@class='content']/ul/li[last()]/text()").extract_first()

        item = response.meta["item"]
        item["property"] = property
        item["elevator"] = elevator
        yield item

使用Pipeline实现数据的处理

Pipelines.py

# -*- coding: utf-8 -*-
import re # 正则表达式模块
from scrapy.exceptions import DropItem

class LianjiaPipeline(object):
    def process_item(self, item, spider):
        # 提取数字
        item["area"] = re.findall("\d+\.?\d*",item["area"])[0]
        item["unit_price"] = re.findall("\d+\.?\d*",item["unit_price"])[0]
        # 剔除数据缺失项
        if item["elevator"] == "暂无数据":
            raise DropItem("无数据，抛弃此项目：%s"%item)
        return item # process_item一定要有return

class CSVPipeline(object):
    file = None # 文件对象
    index = 0
    def open_spider(self,spider): # 爬虫打开时执行打开文件操作
        self.file = open("home11.csv","a",encoding="utf-8") #以追加形式打开文件

    def process_item(self, item, spider):
        if self.index == 0:
            column_name = "name,type,area,direction,fitment,elevator,total_price,unit_price,property\n"
            self.file.write(column_name)
            self.index=1
        home_str = item["name"]+","+\
                   item["type"]+","+\
                   item["area"]+","+\
                   item["direction"]+","+\
                   item["fitment"]+","+ \
                   item["elevator"] + "," + \
                   item["total_price"] + "," + \
                   item["unit_price"] + "," + \
                   item["property"]+"\n"
        self.file.write(home_str) #字符串写入文件中
        return item

    def close_spider(self,spider): # 爬虫结束时执行关闭文件
        self.file.close()

其他设置

Settings.py

# 伪装浏览器访问
# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'

# 不遵守网站的robots规则
# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# 启用两个pipelines
# Configure item pipelines
ITEM_PIPELINES = {
     
   'lianjia.pipelines.LianjiaPipeline': 300,
    'lianjia.pipelines.CSVPipeline': 400,
}

在pycharm中运行爬虫

运行start.py

from scrapy import cmdline
cmdline.execute("scrapy crawl home".split())

CHAPTER5 数据库

MySQL数据库

关系型数据库，是建立在关系模型基础上的数据库。简单讲，它由多张能互相联结的二维表格组成，每一行是一条记录，每一列是一个字段，而表就是某个实体的集合，它展现的形式类似于EXCEL中常见的表格。

像SQLite、MySQL、Oracle、SQL Server、DB2等都属于关系型数据库。

安装MySQL并开启服务

https://dev.mysql.com/downloads/

数据库管理工具-Navicat

Navicat是一个强大的数据库管理和设计工具。通过直观的GUI（图形用户界面），让用户简单地管理MySQL、MongoDB、SQL Server、Oracle等数据库。

Navicat连接MySQL数据库

Navicat新建数据库和表

字符集：UTF-8

排序规则：UTF8-unicode-ci

Python访问MySQL数据库：pip install mysqlclient

操作MySQL数据库

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uqRyvNsD-1601619554328)(/Users/jack/Library/Application Support/typora-user-images/image-20200821000843506.png)]

1.连接MySQL数据库服务器

调用方法MySQLdb.connect(db,host,user,password,charset)。对应的参数有：

db：数据库名。

host：主机。

user：用户名。

password：密码。

charset：编码格式。

2.获取操作游标

调用Connection对象的cursor()方法，获取操作游标，实现代码如下所示：

db_cursor = db_conn.cursor()

3.执行SQL语句

调用Cursor对象的execute()方法，执行SQL语句，实现对数据库的增删改查操作，代码如下所示：

#新增数据

sql=‘insert into hot(name,author,type,form)values(“道君”,“未知”,“仙侠”,“连载”)’

db_cursor.execute(sql)

#修改数据

sql=‘update hot set author = “跃千愁” where name=“道君”’

db_cursor.execute(sql)

#查询表hot中type为仙侠的数据

sql=‘select * from hot where type=“仙侠”’

db_cursor.execute(sql)

#删除表中type为仙侠的数据

sql=‘delete from hot where type=“仙侠”’

db_cursor.execute(sql)

4.回滚

db_conn.rollback()#回滚操作

需要注意的是，回滚操作一定要在commit之前执行，否则就无法恢复了。

5.提交数据

调用Connection对象的commit()方法实现数据的提交。

db_conn.commit()

6.关闭游标及数据库

当执行完对数据库的所有操作后，不要忘了关闭游标和数据库对象。

db_cursor.close()#关闭游标

db_conn.close() #关闭数据库

项目：qidian_hot爬取到的小说信息存储于MySQL中

1.配置MySQL数据库信息

2.新建MySQLPipeline类

3.连接MySQL数据库服务器

4.将数据存储于MySQL数据库

5.执行数据库关闭工作

6.启用MySQLPipeline

7.运行爬虫

8.查看结果

navicat中
创建数据库（database）：qidian
在数据库下创建表（table）：qidianhot

设置表字段：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2RdNBwMH-1601619554331)(/Users/jack/Library/Application Support/typora-user-images/image-20200821001955578.png)]

# pipelines.py

import MySQLdb
from scrapy.exceptions import DropItem

class QidianHotPipeline(object):
    def __init__(self):
        self.author_set = set()


    def process_item(self, item, spider): # 接收spider中的item
        if item["name"] in self.author_set:
            raise DropItem("查找到重复姓名的项目：%s"%item)
        return item

class MySQLPipeline(object):
    def open_spider(self,spider): #spider开始时调用一次
        db_name = spider.settings.get("MYSQL_DB_NAME","qidianhot")
        host = spider.settings.get("MYSQL_HOST","localhost")
        user = spider.settings.get("MYSQL_USER","root")
        pwd = spider.settings.get("MYSQL_PASSWORD","mysql1234")
        # 连接MySQL数据库
        self.db_conn = MySQLdb.connect(db=db_name,
                                       host = host,
                                       user=user,
                                       password=pwd,
                                       charset="utf8")
        self.db_cursor = self.db_conn.cursor() #得到游标

    def process_item(self,item,spider): #处理每一个item
        values = (item["name"],item["author"],item["type"],item["form"])
        # 确定SQL
        sql = "insert into qidianhot(name,author,type,form) values(%s,%s,%s,%s)"
        self.db_cursor.execute(sql,values)
        return item

    def close_spider(self,spider): #spider结束时，调用一次
        self.db_conn.commit() # 提交数据
        self.db_cursor.close()
        self.db_conn.close()

# settings.py

# 激活pipelines
ITEM_PIPELINES = {
     
   'qidian_hot.pipelines.QidianHotPipeline': 300,
   'qidian_hot.pipelines.MySQLPipeline': 400,
}

# mysql设置
MYSQL_DB_NAME = "qidian"
MYSQL_HOST = "localhost"
MYSQL_USER = "root"
MYSQL_PASSWORD = "mysql1234"

MongoDB数据库

NoSQL概述

NoSQL全称Not Only SQL，意即“不仅仅是SQL”，泛指非关系型数据库。传统的关系型数据库使用的是固定模式，并将数据分割到各个表中。然而，对大数据集来说，数据量太大使其难以存放在单一服务器中，此时就需要扩展到多个服务器中。不过，关系型数据库对这种扩展的支持并不够好，因为在查询多个表时，数据可能在不同的服务器中。再者，从网络中爬取的数据，不可避免地会存在数据缺失、结构变化的情况。而具有固定模式的关系型数据库很难适应这种情况。相反，NoSQL具有高性能、高可用性和高伸缩性的特点，可用于超大规模数据的存储，而且无需固定的模式，无需多余操作就可以横向扩展。在NoSQL中，有多种方式可以实现非固定模式和横向发展的功能，它们分别是：

列数据存储：如Hbase数据库。

面向文档存储：如MongoDB数据库。

键值对存储：如Redis数据库。

图形存储：如Neo4j数据库。

SQL		MongoDB
术语	英文术语	术语	英文术语
数据库	database	数据库	database
表	table	集合	collection
行	row	文档	document
列	column	域	field
索引	index	索引	index
主键	primary key	主键	primary key

Python访问MongoDB数据库

安装访问MongoDB所使用的第三方库pymongo。

pip install pymongo

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yj57iByY-1601619554332)(/Users/jack/Library/Application Support/typora-user-images/image-20200822160821069.png)]

1.连接MongoDB数据库服务器

调用方法pymongo.MongoClient()连接MongoDB数据库服务器。连接的地址默认为localhost:27017，也可以手动设置host和port。

import pymongo#导入pymongo库

#方式一：使用默认host和port
db_client = pymongo.MongoClient()

#方式二：自定义host和port
db_client = pymongo.MongoClient(host=“localhost”,port=27017)

#方式三：使用标准的URI连接语法
db_client = pymongo.MongoClient(‘mongodb://localhost:27017/’)

2.指定数据库

MongoDB可以建立多个数据库，因此需要指定要操作的数据库。以下代码指定了名称为“qidian”的数据库：

db = db_client[“qidian”]

3.指定集合（相当于关系型数据库中的表）。

MongoDB中一个数据库可以包含多个集合，这跟关系型数据库中一个数据库有多个表是同一个道理。MongoDB也需要指定要操作的集合。

db_collection = db[“hot”]

4.插入文档

（1）插入与条件匹配的单个文档。

如果想添加一个小说文档到集合hot中，可以先将数据存储于字典中，如下所示：

novel={‘name’: ‘太初’, #名称
‘author’: ‘高楼大厦’,#作者
‘form’: ‘连载’, #形式
‘type’: ‘玄幻’ #类型
}

然后调用db_collection的insert_one()方法将新文档插入到集合hot中，实现代码如下所示：

result = db_collection.insert_one(novel)
print(result)

print(result.inserted_id)

（2）插入与条件匹配的所有文档。

还可以使用insert_many()方法，一次插入多个文档，实现代码如下所示：

novel1={‘name’: ‘丰碑杨门’, #名称
‘author’: ‘圣诞稻草人’,#作者
‘form’: ‘连载’, #形式
‘type’: ‘历史’ #类型
}
novel2={‘name’: ‘帝国的崛起’,#名称
‘author’: ‘终极侧位’, #作者
‘form’: ‘连载’, #形式
‘type’: ‘都市’ #类型
}
result = db_collection.insert_many([novel1,novel2])
print(result)

5.查询文档

可以使用find_one()或find()方法查询集合中的文档记录。find_one()方法返回单个文档记录，而find()方法则返回一个游标对象，用于查询多个文档记录。

result = db_collection.find_one({“name”:“帝国的崛起”})
print(result)

cursor = db_collection.find({})

cursor = db_collection.find({“type”:“历史”})

6.更新文档

可以使用集合的update_one()和update_many()方法实现文档的更新。前者仅更新一个文档；后者可以批量更新多个文档。更新文档的格式如下所示：

{

< operator>: { : , … },

…

}

文档中的operator是MongoDB提供的更新操作符，用于指明更新的方式。例如$set表示修改字段值；$unset表示删除指定字段；$rename表示重命名字段。

7.删除文档

可以使用集合的delete_one()和delete_many()方法实现文档的删除。前者仅删除一个文档；后者可以批量删除多个文档。

result = db_collection.delete_one({“name”:“太初”})

result = db_collection.delete_many({“type”:“历史”})

8.关闭数据库。

当执行完对数据库的所有操作后，不要忘了关闭数据库。

db_client.close()

Redis数据库

配置Redis数据库

1.配置可访问的主机（bind）。

bind 127.0.0.1 192.168.64.100 #配置多个IP，IP之间用空格分开

bind 0.0.0.0 #接受任何网络的连接

2.配置监听端口（port）。

Redis默认的监听端口为6379，可以配置自定义的端口号。

port 6379

3.配置密码（requirepass）。

requirepass foobared

4.配置超时时间（timeout）。

timeout 0

5.配置Redis最大内存容量（maxmemory）。

配置Redis最大的内存容量，注意单位是字节。

maxmemory

6.配置数据库的数量（databases）。

配置数据库的数量，默认的数据库数量是16个，数据库的名称为db0~db15。

databases 16

Python访问Redis数据库

安装访问Redis所需要的第三方库redis-py。

pip install -U redis==2.10.6

Redis操作

1.连接Redis数据库服务器

redis-py库提供两个类Redis和StrictRedis来实现Redis的命令操作。StrictRedis实现了大部分官方的语法和命令，而Redis是StrictRedis的子类，用于向后兼容旧版本的redis-py。这里使用官方推荐的StrictRedis类实现相关操作。

import redis #导入redis模块
#host是redis主机，端口是6379，数据库索引为0，密码为foobared
r = redis.StrictRedis(host=‘localhost’, port=6379,db=0,password=“foobared”)
#将键值对存入redis缓存，key是"name"，value是"cathy"
r.set(‘name’, “cathy”)
#取出键name对应的值

print(r[‘name’])
print(r.get(‘name’))

2.字符串（String）操作

字符串是Redis中最基本的键值对存储形式。它在Redis中是二进制安全的，这意味着它可以接受任何格式的数据，如JPEG图像数据或JSON信息等。

import redis #导入redis模块
#生成StrictRedis对象
r = redis.StrictRedis(host=‘localhost’, #主机
port=6379, #端口
db=0, #数据库索引
password=“foobared”, #密码
decode_responses=True)#设置解码
r.set(‘name’, “cathy”) #将值为"cathy"的字符串赋给键name
r.set(“age”,10) #将10赋给age键
r.setnx(“height”,1.50) #如果键height不存在，则赋给值1.50
r.mset({“score1”:100,“score2”:98}) #批量设置

3.列表（List）操作

Redis中的列表是一个双向链表，可以在链表左右分别操作，即支持双向存储。有时也把列表看成一个队列，实现先进先出的功能，所以很多时候将Redis用作消息队列。

r.lpush(“student”,“cathy”,10) #向键为student的列表头部添加值"cathy"和10
r.rpush(“student”,1.50, “女”) #向键为student的列表尾部添加值身高和性别
print(r.lrange(“student”,0,3)) #获取列表student中索引范围是0~3的列表
r.lset(“student”,1,9) #向键为student中索引为1的位置赋值9
r.lpop(“student”) #返回并删除列表student中的首元素
r.rpop(“student”) #返回并删除列表student中的尾元素
r.llen(“student”) #获取student列表长度
print(r.lrange(“student”,0,-1)) #获取列表student中的所有数据

4.无序集合（Set）操作

Redis的Set是由非重复的字符串元素组成的无序集合。

#将"cathy"，“tom”，“terry”，“lili”，"tom"5个元素添加到键为names的集合中

r.sadd(“names”,“cathy”,“tom”,“terry”,“lili”,“tom”)
r.scard(“names”) #获取键为names的集合中元素个数,结果为4
r.srem(“names”,“tom”) #从键为names的集合中删除"tom"
r.spop(“names”) #从键为names的集合中随机删除并返回该元素
#将"terry"从键为names的集合中转移到键为names1的集合中

r.smove(“names”,“names1”,“terry”)
r.sismember(“names”,“cathy”)#判断"cathy"是否是键为names的集合中的元素,结果为True
r.srandmember(“names”) #随机获取键为names的集合中的一个元素
print(r.smembers(“names”)) #获取键为names的集合中所有元素

5.散列表（Hash）操作

Redis的散列表可以看成是具有Key-Value键值对的map容器。Redis的Key-Value结构中，Value也可以存储散列表，而Key可以理解为散列表的表名。

#将key为name,value为cathy的键值对添加到键为stu散列表中
r.hset(“stu”,“name”,“cathy”)
r.hmset(“stu”,{“age”:10,“height”:1.50})#批量添加键值对
r.hsetnx(“stu”,“score”,100) #如果score=100的键值对不存在，则添加
r.hget(“stu”,“name”) #获取散列表中key为name的值
r.hmget(“stu”,[“name”,“age”]) #获取散列表中多个key对应的值
r.hexists(“stu”,“name”) #判断key为name的值是否存在，此处为True
r.hdel(“stu”,“score”) #删除key为score的键值对
r.hlen(“stu”) #获取散列表中键值对个数
r.hkeys(“stu”) #获取散列表中所有的key

6.有序集合（Storted Set）操作

与无序集合（Set）一样，有序集合也是由非重复的字符串元素组成的。为了实现对集合中元素的排序，有序集合中每个元素都有一个与其关联的浮点值，称为“分数”。有序集合中的元素按照以下规则进行排序。

①如果元素A和元素B的“分数”不同，则按“分数”的大小排序。

②如果元素A和元素B的“分数”相同，则按元素A和元素B在字典中的排序排列。

CHAPTER6 JavaScript和Ajax数据爬取

JavaScript简介

当我们发现要爬取的数据不在HTML文档中时，就应该考虑到数据可能会通过JavaScript加载。先来了解一下什么是JavaScript。

JavaScript是互联网上最流行的客户端脚本语言。它运行于用户的浏览器中，被广泛用于Web应用开发。它嵌入于HTML中，常用来为HTML网页添加各种动态功能，为用户提供更流畅美观的浏览效果。

JavaScript能够动态加载文本，并将文本嵌入到HTML文档中。而爬虫只关注JavaScript动态加载的文本，因此，JavaScript的运行机制以及语法结构，仅需了解即可。

项目：QQ音乐榜单

QQ音乐是腾讯公司推出的一款网络音乐服务产品，提供海量音乐在线试听、歌词翻译、手机铃声下载、高品质无损音乐试听、音乐下载等服务。图6-1为QQ音乐中流行指数排行榜的页面，网址为https://y.qq.com/n/yqq/toplist/4.html。现要将榜单中的歌曲信息爬取下来，字段有：歌曲名称、唱片、歌手和时长。

1.创建项目

终端

cd 项目文件夹

scrapy startproject QQMusic

settings.py模拟浏览器登录

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36'

2.使用Item封装数据

Items.py创建所需字段，歌曲名称、唱片、歌手和时长

import scrapy

class QqmusicItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    song_name = scrapy.Field()
    album_name = scrapy.Field()
    singer_name = scrapy.Field()
    interval = scrapy.Field()

3.创建Spider文件及Spider类

通过网页分析发现数据不是存储在html中，而是在XHR中的一个cfg文件中，存储形式为json格式

通过json格式检验，发现数据在列表[“detail”][“data”][“songInfoList”]中，

{
     
    "code":0,
    "ts":1598418464440,
    "start_ts":1598418464432,
    "detail":{
     
        "code":0,
        "data":{
     
            "data":Object{
     ...},
            "songInfoList":[
                {
     
                    "id":272124970,
                    "type":0,
                    "mid":"0013KFa32c9lVn",
                    "name":"不爱我",
                    "title":"不爱我",
                    "subtitle":"",
                    "singer":[
                        {
     
                            "id":5062,
                            "mid":"002J4UUk29y8BY",
                            "name":"薛之谦",
                            "title":"薛之谦",
                            "type":0,
                            "uin":0
                        }
                    ],
                    "album":{
     
                        "id":14253042,
                        "mid":"003tLFOK0wjtKs",
                        "name":"不爱我",
                        "title":"不爱我",
                        "subtitle":"",
                        "time_public":"2020-08-20",
                        "pmid":"003tLFOK0wjtKs_1"
                    },
                    "mv":{
     
                        "id":0,
                        "vid":"",
                        "name":"",
                        "title":"",
                        "vt":0
                    },
                    "interval":264,
                    "isonly":0,
                    "language":0,
                    "genre":1,
                    "index_cd":0,
                    "index_album":1,
                    "time_public":"2020-08-20",
                    "status":31,
                    "fnote":0,
                    "file":{
     
                        "media_mid":"0006kNz63gpDYW",
                        "size_24aac":0,
                        "size_48aac":1606521,
                        "size_96aac":3223171,
                        "size_192ogg":5614611,
                        "size_192aac":6375652,
                        "size_128mp3":4231610,
                        "size_320mp3":10578739,
                        "size_ape":0,
                        "size_flac":24981613,
                        "size_dts":0,
                        "size_try":0,
                        "try_begin":64788,
                        "try_end":95489,
                        "url":"",
                        "size_hires":0,
                        "hires_sample":0,
                        "hires_bitdepth":0,
                        "b_30s":0,
                        "e_30s":0,
                        "size_96ogg":2945136
                    },
                    "pay":{
     
                        "pay_month":0,
                        "price_track":0,
                        "price_album":0,
                        "pay_play":0,
                        "pay_down":0,
                        "pay_status":0,
                        "time_free":0
                    },
                    "action":{
     
                        "switch":605971,
                        "msgid":0,
                        "alert":11,
                        "icons":135752,
                        "msgshare":0,
                        "msgfav":0,
                        "msgdown":0,
                        "msgpay":0
                    },
                    "ksong":{
     
                        "id":12343841,
                        "mid":"003vj5gU0KJcPS"
                    },
                    "volume":{
     
                        "gain":-7.285,
                        "peak":1,
                        "lra":13.44
                    },
                    "label":"0",
                    "url":"",
                    "bpm":0,
                    "version":0,
                    "trace":"",
                    "data_type":0,
                    "modify_stamp":0,
                    "pingpong":"",
                    "aid":0,
                    "ppurl":"",
                    "tid":0,
                    "ov":0,
                    "sa":0,
                    "es":""
                },

spiders中创建music_spider.py

# coding : utf-8

from scrapy import Request
from scrapy.spiders import Spider
from QQMusic.items import QqmusicItem
import json

class MusicSpider(Spider):
    name = "music"
    def start_requests(self):
        url = "https://u.y.qq.com/cgi-bin/musics.fcg?-=getUCGI10191787736996072&g_tk=5381&sign=zzaoda95dtf9vst4hxedab8128e78d7233eac3855fff7429013&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8¬ice=0&platform=yqq.json&needNewCode=0&data=%7B%22detail%22%3A%7B%22module%22%3A%22musicToplist.ToplistInfoServer%22%2C%22method%22%3A%22GetDetail%22%2C%22param%22%3A%7B%22topId%22%3A4%2C%22offset%22%3A0%2C%22num%22%3A20%2C%22period%22%3A%222020-08-25%22%7D%7D%2C%22comm%22%3A%7B%22ct%22%3A24%2C%22cv%22%3A0%7D%7D"
        yield Request(url)

    def parse(self, response):
        item = QqmusicItem()
        json_text = response.text
        music_dict = json.loads(json_text)
        for one_music in music_dict["detail"]["data"]["songInfoList"]:
            # get song
            item["song_name"] = one_music["title"]
            # get album
            item["album_name"] = one_music["album"]["name"]
            # get singer
            item["singer_name"] = one_music["singer"][0]["name"]
            # get interval
            item["interval"] = one_music["interval"]
            yield item

4.运行爬虫

Start.py

from scrapy import cmdline

cmdline.execute("scrapy crawl music -o music.csv".split())

5.查看结果

Music.csv

album_name,interval,singer_name,song_name
不爱我,264,薛之谦,不爱我
My Boo,169,易烊千玺,My Boo
走下去,209,DP龙猪,走下去
重现8090,209,永彬Ryan.B,异类
乐队的夏天2 第8期,324,木马,后来 (Live)
夏日调色盘,199,树影叶魅,夏日调色盘
可惜我是水瓶座,249,吴业坤,可惜我是水瓶座
陪我去流浪,246,阿悄,海海海
2020中国好声音 第1期,272,潘虹,最好 (Live)
说唱新世代 第1期,203,于贞,她和她和她 (Live)
乐队的夏天2 第8期,271,野孩子,竹枝词 (Live)
Darling早上好,174,Lee A,Darling早上好
Smile,131,Katy Perry,What Makes A Woman (Explicit)
慢慢,239,Uu,慢慢
我想和妳,165,韩子帆,我想和妳在一起
2020中国好声音 第1期,100,李荣浩,谢谢你的爱1999 (Live)
下落不明（完整版）,169,王忻辰,下落不明（完整版）
甜甜咸咸,198,你的大表哥曲甲,甜甜咸咸
2020中国好声音 第1期,233,宋宇宁,三巡 (Live)
2020中国好声音 第1期,142,李健,漂浮地铁 (Live)

Ajax简介

传统的网页，如果需要更新内容，必须重载整个页面。有了Ajax，便可以在不重新加载整个网页的情况下，对网页的某部分进行更新。

Ajax，全称Asynchronous JavaScript and XML，即异步的JavaScript和XML。它不是新的编程语言，而是利用JavaScript在不重新加载整个页面的情况下，与服务器交换数据并更新部分网页内容的技术。

项目：豆瓣电影

现要实现将中国大陆的电影信息爬取下来，字段有：电影名称、导演、演员和评分。网址：https://movie.douban.com/tag/#/

1.创建项目

终端

cd 项目文件夹
scrapy startproject Douban

settings.py模拟浏览器登录，取消obey robots

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

2.使用Item封装数据

Items.py创建需求字段：电影名称、导演、演员和评分

import scrapy

class DoubanItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    directors = scrapy.Field()
    casts = scrapy.Field()
    rate = scrapy.Field()
    pass

3.创建Spider文件及Spider类

url ="https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=电影&start=0&countries=中国大陆"通过分析url可知，每次请求的url中start以20为基数变化

Douban_spiders.py

# coding: utf-8

from scrapy import Request
from scrapy.spiders import Spider
from Douban.items import DoubanItem
import json

class DoubanSpider(Spider):
    name = "douban"
    current_page = 1

    def start_requests(self):
        url = "https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=电影&start=0&countries=中国大陆"
        yield Request(url)

    def parse(self, response):
        item = DoubanItem()
        json_text = response.text
        movies_dict = json.loads(json_text)

        if len(movies_dict["data"]) == 0:
            return
        for one_movie in movies_dict["data"]:
            item["title"] = one_movie["title"]
            item["directors"] = one_movie["directors"]
            item["casts"] = one_movie["casts"]
            item["rate"] = one_movie["rate"]
            yield item

        # 抓取下一页信息，直至无下一页，程序报错
        url_next = "https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=电影&start=%d&countries=中国大陆"%(self.current_page*20)
        self.current_page += 1
        yield Request(url_next)

4.运行爬虫

Start.py

from scrapy import cmdline
cmdline.execute("scrapy crawl douban -o douban.csv".split())

5.查看结果

Doubt.csv

casts,directors,rate,title
"徐峥,王传君,周一围,谭卓,章宇",文牧野,9.0,我不是药神
"吕艳婷,囧森瑟夫,瀚墨,陈浩,绿绮",饺子,8.5,哪吒之魔童降世
"周冬雨,易烊千玺,尹昉,周也,吴越",曾国祥,8.3,少年的你
"姜文,葛优,周润发,刘嘉玲,陈坤",姜文,8.8,让子弹飞
"张国荣,张丰毅,巩俐,葛优,英达",陈凯歌,9.6,霸王别姬
"屈楚萧,吴京,李光洁,吴孟达,赵今麦",郭帆,7.9,流浪地球
"黄渤,张译,韩昊霖,杜江,葛优","陈凯歌,张一白,管虎,薛晓路,徐峥,宁浩,文牧野",7.7,我和我的祖国

CHAPTER7 动态渲染页面爬取

很多接口地址既冗长又复杂，有的还经过加密甚至还有时效性。例如今日头条的新闻信息的接口地址为https://www.toutiao.com/api/pc/feed/?category=news_hot&utm_source=toutiao&widen=1&max_behot_time=0&max_behot_time_tmp=0&tadrequire=true&as=A195DBDC06ADC25&cp=5BC65DAC62854E1&_signature=ZtN.cQAAPRnM.D.xF5yhvGbTf2，从中很难找出规律，也就无法爬取更多的新闻信息。

Selenium实现动态页面爬取

环境搭建：Scrapy+Selenium+PhantomJS

安装selenium

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple selenium

安装chromedriver

安装浏览器驱动程序，需要下载一个Selenium调用浏览器的驱动文件。以Chrome浏览器为例。

1.下载与浏览器版本对应的驱动文件。Chromedriver的下载地址：

官方下载地址：https://chromedriver.storage.googleapis.com/index.html

其他下载地址：http://npm.taobao.org/mirrors/chromedriver/

2.解压出来的文件放入usr/local/bin指定目录下

1.打开一个Finder，然后command+shift+G
2.输入/usr/local/bin
3.下载后解压出来的文件拷贝进入usr/local/bin目录
4.输入chromedriver --version检查一下

3.环境配置

打开终端,输入： cd ~ 回车，会进入~文件夹 
然后输入：touch .bash_profile，回车执行后， 
再输入：open -e .bash_profile 回车
会在TextEdit中打开这个文件,输入：export PATH=$PATH:/usr/local/bin/ChromeDriver,然后保存

安装phantomJS

phantomJS是一个无界面浏览器

brew cask install phantomjs

由于Selenium宣称不再支持PhantomJS，因此如果你的Selenium版本较高，运行本项目就会出错。我们建议将PhantomJS换成Firefox浏览器（新版本的Chrome对Selenium也做了限制，不建议使用Chrome浏览器），方法为：
1.下载并安装火狐浏览器（http://www.firefox.com.cn/）
2.下载火狐浏览器对应版本的驱动geckodriver并将geckodriver.exe文件放置到anaconda3/Scripts目录下。
（geckodriver下载https://github.com/mozilla/geckodriver/releases）
3.本项目只需要修改一行代码：
在toutiao_spider.py中，将：
self.driver = webdriver.PhantomJS()
更改为：
self.driver = webdriver.Firefox()

Selenium语法

1.声明浏览器对象

Selenium支持很多浏览器，如Chrome、Firefox、IE、Opera、Safari等；也支持Android、BlackBerry等手机端的浏览器；

from selenium import webdriver
driver = webdriver.Chrome()  #声明Chrome浏览器对象
driver = webdriver.ie()       #声明ie浏览器对象
driver = webdriver.firefox()   #声明firefox浏览器对象
driver = webdriver.phantomjs()#声明phantomjs浏览器对象
driver = webdriver.safari()    #声明safari浏览器对象

2.访问页面

首先想到的就是使用driver在浏览器中打开一个链接，可以使用get()方法实现：

driver.get("https://www.suning.com/")#请求页面

3.获取页面代码

访问页面后，就可以使用driver的page_source属性获取页面的HMTL代码了：

#获取代码
 HTML=driver.page_source

4.定位元素

当获取到HTML代码后，就需要定位到HTML的各个元素，以便提取数据或者对该元素执行诸如输入、点击等操作。WebDriver 提供了大量的方法查询页面中的节点，这些方法形如：find_element_by_*。

以下为Selenium查找单个节点的方法。

find_element_by_id：通过id查找。
find_element_by_name：通过name查。
find_element_by_xpath：通过xpath选择器查找。
find_element_by_link_text：通过链接的文本查找（完全匹配）。
find_element_by_partial_link_text：通过链接的文本查找（部分匹配）。
find_element_by_tag_name：通过标签名查找。
find_element_by_class_name：通过class查找。
find_element_by_css_selector：通过css选择器查找。

5.页面交互

Selenium可以模拟用户对页面执行一系列操作，如输入数据、清除数据、单击按钮等。

from selenium import webdriver
from selenium.webdriver.common.keys
import Keys  #导入Keys类
driver = webdriver.Chrome()                     #声明Chrome浏览器对象
driver.get("https://www.suning.com/")             #请求页面
input = driver.find_element_by_id("searchKeywords")#查找节点
input.clear()                                  #清除输入框中默认文字
input.send_keys("iphone")                      #输入框中输入“iphone”
input.send_keys(Keys.RETURN)                #回车功能

6.执行JavaScript

Selenium并未提供所有的页面交互操作方法，例如爬虫中用得最多的下拉页面（用于加载更多内容）。不过Selenium提供了execute_script()方法，用于执行JS，这样我们就可以通过JS代码实现这些操作了。

7.等待页面加载完成

Selenium中跟超时和等待有关的方法主要有三个。

等待超时：set_page_load_timeout()

driver的set_page_load_timeout()方法用于设置页面完全加载的超时时间

隐式等待：implicitly_wait()

隐式等待的方法为implicitly_wait()，用于设定一个数据加载的最长等待时间。
显式等待：WebDriverWait类

显性等待使用Selenium的WebDriverWait类，配合该类的until()方法，就能够根据判断条件而进行灵活地等待了。

项目：今日头条

今日头条热点新闻的页面如图所示，网址为https://www.toutiao.com/ch/news_hot/。

页面默认显示20条热点新闻信息，将页面拉到最底端，会再加载20条信息。因此，如果想要查看更多热点新闻，就必须不断下拉页面。本项目希望使用网络爬虫技术，将尽量多的热点新闻爬取下来保存于CSV文件中。

爬取的字段有：新闻标题、新闻来源和评论数。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-s7r7MiSr-1601619554334)(/Users/jack/Library/Application Support/typora-user-images/image-20200827220830228.png)]

1.创建项目

终端

cd 项目文件夹
scrapy startproject Toutiao

settings.py模拟浏览器登录，取消obey robots，打开Middlewares

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Enable or disable spider middlewares
SPIDER_MIDDLEWARES = {
     
   'Toutiao.middlewares.ToutiaoSpiderMiddleware': 543,
}

2.使用Item封装数据

Items.py创建需求字段：新闻标题、新闻来源和评论数。

import scrapy

class ToutiaoItem(scrapy.Item):
    title = scrapy.Field()
    source = scrapy.Field()
    comment = scrapy.Field()

3.使用DownloaderMiddleware处理request

对https://www.toutiao.com/ch/news_hot/网页分析发现，鼠标每次滚动至页面下部时会加载新的新闻条目

middlewares.py

# -*- coding: utf-8 -*-
from scrapy import signals
import time # 导入时间模块
from scrapy.http import HtmlResponse #导入HTML响应模块
from selenium.webdriver.common.by import By #导入By模块
from selenium.webdriver.support.wait import WebDriverWait #导入等待模块
from selenium.webdriver.support import expected_conditions as EC #导入预期条件模块
from selenium.common.exceptions import TimeoutException,NoSuchElementException #导入异常模块

···

    def process_request(self, request, spider):
        # 判断name是否是toutiao的爬虫
        if spider.name == "toutiao":
            spider.deiver.get(request.url)
            try:
                wait = WebDriverWait(spider.driver,5) #设置显式等待，最多5秒
                wait.until(EC.presence_of_element_located(By.XPATH,".//div[@class='wcommonFeed']")) #等待新闻列表容器加载完成
                time.sleep(5)
                spider.driver.execute_script("window.scrollTo(0,document.body.scrollHeight/2)") #使用js的scrollTo方法实现将页面向下滚动到中间
                for i in range(10):
                    time.sleep(5)
                    spider.driver.execute_script("window.scollTo(0,document.body.scrollHeight)") #使用js的scrollTo方法将页面滚动到最底端
                origin_code = spider.driver.page_source #获取加载完成的页面源代码
                res = HtmlResponse(url=request.url,encoding="utf-8",body=origin_code,request=request) # 将源代码构造成为一个Response对象，并返回。
                return res
            except TimeoutException:
                print("time out")
            except NoSuchElementException:
                print("No such element.")
        return None
      
···

4.创建Spider文件及Spider类

url ="https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=电影&start=0&countries=中国大陆"通过分析url可知，每次请求的url中start以20为基数变化

Douban_spiders.py

# coding: utf-8

from scrapy import Request
from scrapy.spiders import Spider
from Douban.items import DoubanItem
import json

class DoubanSpider(Spider):
    name = "douban"
    current_page = 1

    def start_requests(self):
        url = "https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=电影&start=0&countries=中国大陆"
        yield Request(url)

    def parse(self, response):
        item = DoubanItem()
        json_text = response.text
        movies_dict = json.loads(json_text)

        if len(movies_dict["data"]) == 0:
            return
        for one_movie in movies_dict["data"]:
            item["title"] = one_movie["title"]
            item["directors"] = one_movie["directors"]
            item["casts"] = one_movie["casts"]
            item["rate"] = one_movie["rate"]
            yield item

        # 抓取下一页信息，直至无下一页，程序报错
        url_next = "https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=电影&start=%d&countries=中国大陆"%(self.current_page*20)
        self.current_page += 1
        yield Request(url_next)

4.运行爬虫

Start.py

from scrapy import cmdline
cmdline.execute("scrapy crawl douban -o douban.csv".split())

5.查看结果

Doubt.csv

casts,directors,rate,title
"徐峥,王传君,周一围,谭卓,章宇",文牧野,9.0,我不是药神
"吕艳婷,囧森瑟夫,瀚墨,陈浩,绿绮",饺子,8.5,哪吒之魔童降世
"周冬雨,易烊千玺,尹昉,周也,吴越",曾国祥,8.3,少年的你
"姜文,葛优,周润发,刘嘉玲,陈坤",姜文,8.8,让子弹飞
"张国荣,张丰毅,巩俐,葛优,英达",陈凯歌,9.6,霸王别姬
"屈楚萧,吴京,李光洁,吴孟达,赵今麦",郭帆,7.9,流浪地球
"黄渤,张译,韩昊霖,杜江,葛优","陈凯歌,张一白,管虎,薛晓路,徐峥,宁浩,文牧野",7.7,我和我的祖国

你可能感兴趣的:(Python-scrapy爬虫)

Python 爬取大量数据如何并发抓取与性能优化 chusheng1840 Python 教程 python 性能优化开发语言
Python并发抓取与性能优化在进行网络爬虫开发时，爬取大量数据可能非常耗时。尤其是在处理许多网页或API请求时，逐个请求速度会非常慢。为了解决这个问题，我们可以通过并发抓取提高爬取效率。同时，通过性能优化来进一步减少耗时和资源占用，使爬虫更高效。本篇文章将带大家了解Python中常用的并发抓取方法，并介绍如何进行性能优化。1.并发抓取的基本概念并发抓取指的是同时发出多个请求的技术，而不是顺序地等
Python 爬虫实战：电影评论数据抓取与自然语言处理西攻城狮北 python 爬虫开发语言
引言作为一名对电影数据和自然语言处理感兴趣的内容创作者，我决定利用Python爬虫技术抓取IMDb上的电影评论数据，并进行自然语言处理分析。这不仅可以帮助我们了解观众对电影的反馈，还能为电影制作方提供有价值的参考。一、项目背景IMDb（互联网电影数据库）是全球最大的电影数据库，用户可以在上面查看电影信息和用户评论。本项目旨在爬取IMDb上的电影评论，并对评论进行自然语言处理（NLP），以提取情感、
使用Python爬取豆瓣用户信息：从入门到实战 Python爬虫项目 2025年爬虫实战项目 python 开发语言人工智能爬虫大数据
引言豆瓣作为一个知名的社交平台，拥有丰富的用户信息。对于数据分析师、研究人员或普通用户来说，获取豆瓣用户信息具有重要的价值。本文将详细介绍如何使用Python及其相关库来爬取豆瓣用户信息，并展示如何利用最新的技术手段来实现这一目标。1.准备工作在开始编写爬虫之前，我们需要准备一些工具和环境：Python3.x：确保你已经安装了Python3.x版本。Requests库：用于发送HTTP请求。Bea
深入 Python 网络爬虫开发：从入门到实战南玖yy python python爬虫
一、为什么需要爬虫？在数据驱动的时代，网络爬虫是获取公开数据的重要工具。它可以帮助我们：监控电商价格变化抓取学术文献构建数据分析样本自动化信息收集二、基础环境搭建1.核心库安装pipinstallrequestsbeautifulsoup4lxmlseleniumscrapy2.开发工具推荐PyCharm（专业版）VSCode+Python扩展JupyterNotebook（适合调试）三、爬虫开发
使用 Python 编写网络爬虫：从入门到实战 Manaaaaaaa python 爬虫开发语言
网络爬虫是一种自动化获取网页信息的程序，通常用于数据采集、信息监控等领域。Python是一种广泛应用于网络爬虫开发的编程语言，具有丰富的库和框架来简化爬虫的编写和执行过程。本文将介绍如何使用Python编写网络爬虫，包括基本原理、常用库和实战案例。一、原理介绍网络爬虫是一种自动化程序，通过模拟浏览器的行为向网络服务器发送HTTP请求，获取网页内容并进一步提取所需信息的过程。网络爬虫主要用于数据采集
百度蜘蛛池是什么 asdjka2wfd 百度百度小程序百度云算法
百度蜘蛛池是一种SEO策略或程序，旨在吸引百度搜索引擎的爬虫（百度蜘蛛）更频繁地访问和收录网站内容5。以下是关于它的详细介绍：构成要素：通常包括大量的域名资源、强大的服务器支持以及复杂的链接结构。大量的域名数量众多，来源多样；强大的服务器是为了承载众多域名的运行和大量的访问请求，确保稳定和高效的服务；而复杂的链接结构则将各个域名和页面相互连接，形成一个有机的整体，引导蜘蛛在其中爬行。www.sgs
Python 爬虫实战：国际航班数据抓取与全球航班网络分析西攻城狮北 python 爬虫开发语言
一、引言随着全球化的加速，国际航班网络已成为现代交通体系的重要组成部分。通过分析国际航班数据，我们可以深入了解全球航空枢纽、热门航线以及航班流量的变化趋势。本文将介绍如何通过爬取国际航班数据，分析全球航班网络的情况，并给出实现爬虫和数据分析的详细过程及代码。二、项目背景与目标2.1项目背景航空交通是全球经济和旅游业的核心部分，了解全球航班网络有助于掌握各大航空公司之间的竞争格局、全球机场的枢纽作用
Crawl4AI 与 BrowserUseTool 的详细对比燃灯工作室 Lmplement 人工智能学习数学建模
以下是Crawl4AI与BrowserUseTool的详细对比，涵盖功能、技术实现、适用场景等核心维度：1.核心定位对比工具Crawl4AIBrowserUseTool类型专为AI优化的网络爬虫框架浏览器自动化工具（模拟人类操作浏览器）核心目标高效获取结构化数据供AI训练/推理处理需要浏览器交互的动态网页任务典型应用大规模数据抓取、知识库构建登录受限网站、抓取JavaScript渲染内容2.技术实
不知道天气咋样？一起用Python爬取天气数据分析告诉你 Dragon少年 Python python 爬虫图表可视化
前言今天我们分享一个小案例，获取天气数据，进行可视化分析，带你直观了解天气情况！一、核心功能设计总体来说，我们需要先对中国天气网中的天气数据进行爬取，保存为csv文件，并将这些数据进行可视化分析展示。拆解需求，大致可以整理出我们需要分为以下几步完成：通过爬虫获取中国天气网7.20-7.21的降雨数据，包括城市，风力方向，风级，降水量，相对湿度，空气质量。对获取的天气数据进行预处理，分析河南的风力等
Python 爬虫实战：于好大夫在线抓取医生评价数据，选择优质医疗服务西攻城狮北 python 爬虫实战案例好大夫在线
目录引言一、爬虫基础预备知识1.1爬虫的基本概念1.2必备库介绍二、抓取医生评价数据2.1目标网站分析2.2发送HTTP请求2.3解析网页内容2.4保存数据三、数据分析与可视化3.1数据清洗3.2数据分析3.3数据可视化四、选择优质医疗服务4.1选择标准4.2推荐医生4.3分享推荐五、总结与展望5.1总结5.2展望引言在当今医疗信息爆炸的时代，选择一位合适的医生对于患者来说至关重要。好大夫在线是一
Python 爬虫实战：科学知识收集网站构建西攻城狮北 python 爬虫开发语言
一、引言在信息爆炸的时代，科学知识的收集与整理变得尤为重要。通过构建一个科学知识收集网站，我们可以高效地获取、整理和展示各类科学知识，为科研人员、学生以及科学爱好者提供便利。本文将详细介绍如何使用Python爬虫技术构建这样一个网站，涵盖从目标网站分析到数据存储与展示的完整流程。二、目标网站分析选择一个合适的科学知识网站作为数据源是构建收集网站的第一步。以中国科学院（http://www.cas.
Python csv库 xiaoming0018 python python 开发语言
CSV文件又称为逗号分隔值文件，是一种通用的、相对简单的文件格式，用以存储表格数据，包括数字或者字符。CSV是电子表格和数据库中最常见的输入、输出文件格式，可参考《CSV介绍》。通过爬虫将数据抓取的下来，然后把数据保存在文件，或者数据库中，这个过程称为数据的持久化存储。本节介绍Python内置模块CSV的读写操作。CSV库Python中集成了专用于处理csv文件的库，名为：csv。csv库中有4个
Python 爬虫：一文掌握 SVG 映射反爬虫数据知道 2025年爬虫和逆向教程 python 爬虫 microsoft 爬虫逆向数据采集
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.SVG概述1.1SVG的优点1.1映射反爬虫的原理2.SVG映射反爬虫的示例3.应对SVG映射反爬虫的方法3.1解析SVG图像3.2处理自定义字体3.3使用OCR技术3.4动态生成SVG的处理4.实战案例4.1使用SVG映射显示价格4.2解析SVG文件并提取其中的内容和属性4.3模拟交互行为4.4使用无头浏览器4.5某网站使用SVG实现动态验
Python爬虫相关内容猫猫头有亿点炸 python 爬虫开发语言
一、打开源代码的方式鉴于时间过很久后我们可能会忘记的源代码位置所以写下以下文章便于实时查看:一般有两种方法打开源代码:第一是f12第二右键查看网页源代码二、特殊情况第三种情况当你用爬虫爬取内容的时候可能用xpath还是匹配不到任何结果因为页面可能会自动刷新所以使用xpath的时候匹配不到任何内容查找源代码的示例图片三、解决办法这个时候你可以先->f12(笔记本电脑fn+f12)再->ctrl+sh
如何用爬虫根据关键词获取商品列表：一份简单易懂的代码示例 API小爬虫爬虫
在当今数字化时代，网络爬虫已经成为数据收集和分析的强大工具。无论是市场调研、价格监控还是产品分析，爬虫都能帮助我们快速获取大量有价值的信息。今天，我们就来探讨如何通过编写一个简单的爬虫程序，根据关键词获取商品列表。以下是一个基于Python语言的代码示例，适合初学者学习和实践。一、准备工作在开始编写爬虫之前，我们需要准备以下工具和库：Python环境：确保你的电脑上安装了Python。推荐使用Py
CIR-DFENet：结合跨模态图像表示和双流特征增强网络进行活动识别是Dream呀神经网络计算机视觉人工智能神经网络深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和求职工作的先行者！【优惠信息】•新专栏订阅前200名享9.9元优惠•订阅量破200
Python 爬虫实战：游戏论坛评论数据抓取与游戏热度分析西攻城狮北 python 开发语言爬虫
一、引言随着电子游戏产业的飞速发展，游戏论坛成为了玩家交流心得、分享体验的重要平台。通过分析游戏论坛的评论数据，我们可以了解不同游戏的热度、玩家的评价以及游戏的受欢迎程度。本文将详细介绍如何使用Python爬虫技术抓取游戏论坛的评论数据，并进行游戏热度分析。二、项目背景与目标2.1项目背景游戏论坛如Steam社区、贴吧、NGA等，拥有大量的用户和丰富的评论数据。这些数据反映了玩家对不同游戏的评价和
【2025年37期免费获取股票数据API接口】实例演示五种主流语言获取股票行情api接口之沪深指数实时数据获取实例演示及接口API说明文档不会写代码的码农农 python java 开发语言股票api 股票数据股票数据接口
在近一至两年期间，股票量化分析逐步成为备受关注的热门议题。对于投身于该领域工作而言，首要步骤便是获取全面且精准的股票数据。无论是实时交易数据、历史交易记录、财务数据，亦或是基本面信息，这些数据均是开展量化分析过程中不可或缺的宝贵资源。我们的核心任务在于从这些数据中提炼出具有价值的信息，从而为投资策略提供坚实有力的指导。在数据探索进程中，我尝试运用了多种方法，涵盖自编网易股票页面爬虫程序、申万行业数
Python广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84688466 程序员信息可视化 python 爬虫
如果需要联系我，可以在CSDN网站查询黄菊华老师在文章末尾可以获取联系方式Python****广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python广东广州二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发
Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84562041 程序员信息可视化 python 爬虫
Python****江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发展）现状。1**：研究背景与意义**Python江苏南京二手房源爬虫数据可
Python湖南长沙二手房源爬虫数据可视化分析大屏全屏系统开题报告黄菊华老师大数据库可视化二手房源数据可视化系统
博主介绍：《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，免费项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包安装运行！！！在文章末尾可以获取联系方式Python湖南长沙二手房源爬虫
Python 爬虫实战：艺术品市场趋势分析与交易平台数据抓取西攻城狮北 python 爬虫开发语言
一、引言在当今数字化时代，艺术品市场正经历着前所未有的变革。随着互联网技术的飞速发展，越来越多的艺术品交易转移到了线上平台，这为我们提供了海量的数据资源。通过Python爬虫技术，我们可以抓取艺术品交易平台上的数据，进而分析艺术品市场的趋势，为投资者、收藏家以及艺术爱好者提供有价值的参考。本文将带领读者深入探索Python爬虫在艺术品市场的应用。从爬虫的基本原理到实际代码实现，再到数据的清洗、分析
简单的网页链接爬虫笑颜218 爬虫 python 简单
fromurllib.requestimporturlopenfromurllib.parseimporturljoinfromhtml.parserimportHTMLParser#自定义HTML解析器classLinkParser(HTMLParser):def__init__(self,base_url):super().__init__()self.base_url=base_url#基础
C#实现动态验证码生成器：安全防护与实际应用场景 WangMing_X C#实现各种功能工具集 c#安全开发语言验证码图片
一、核心应用场景用户登录/注册验证：防止恶意程序批量注册表单提交防护：确保关键操作由真人执行API接口限流：抵御自动化脚本攻击敏感操作验证：如支付、信息修改等关键步骤数据防爬机制：保护网站内容不被爬虫抓取二、技术实现方案1.基础架构设计//验证码服务架构+------------------------+|验证码生成模块|←随机字符|(CaptchaGenerator)|+------------
《Python实战进阶》No23: 使用 Selenium 自动化浏览器操作带娃的IT创业者 Python实战进阶 python selenium 自动化
No23:使用Selenium自动化浏览器操作摘要Selenium是自动化浏览器操作的“瑞士军刀”，可模拟人类行为操作网页，适用于爬虫、测试、重复任务自动化等场景。本集通过代码驱动实战，从安装配置到复杂交互，带你掌握Selenium的核心技能，并结合电商网站登录、商品下单等真实场景，解决动态加载、反爬等实际问题。核心概念与代码实战1.环境配置与WebDriver基础安装命令：pipinstalls
Python 实现的采集诸葛灵签老大白菜 python python 开发语言
Python实现的采集诸葛灵签项目介绍这是一个基于Python开发的诸葛灵签数据采集和展示项目。通过爬虫技术获取诸葛神签的签文和解签内容，并提供数据存储和查询功能。项目结构zhuge/├──zhuge_scraper.py#爬虫主程序├──zhuge_pages/#数据存储目录│├──all_signs.json#汇总数据│└──zhuge_sign_*.json#单个签文数据└──zhuge.m
Python爬虫实战：从青铜到王者的数据采集进化论 Loving_enjoy 实用技巧爬虫 python
#开篇：当你打开浏览器时，爬虫程序在暗处露出了姨母笑某日凌晨3点，程序员老张盯着满屏的404错误，突然领悟了爬虫的真谛——这哪里是数据采集，分明是与网站运维人员斗智斗勇的谍战游戏！本文将带你体验从"HelloWorld"式爬虫到工业级采集系统的奇幻漂流，全程高能预警，请系好安全带。---###第一章青铜时代：初学者的三板斧####1.1环境搭建：你的第一把手术刀安装Python就像选择武器库：``
SEO 优化前端岳大宝前端核心知识总结前端 html
以下是SEO（搜索引擎优化）的基础知识点梳理，从前端技术、内容策略到搜索引擎原理，覆盖核心优化方向：一、SEO基础概念定义与目标SEO是通过优化网站结构、内容和技术，提升网站在搜索引擎自然搜索结果中的排名，吸引更多免费流量。核心目标：满足用户搜索意图，同时符合搜索引擎爬虫的抓取规则。搜索引擎工作原理爬取（Crawling）：搜索引擎蜘蛛（如Googlebot）抓取网页内容。索引（Indexing）
养生鲜知酒世界语意合™ 花间流风琴语言学习编程实战100讲几何学情感分析矩阵
养生鲜知酒世界语意合™介绍世界语意合™：无极养生鲜知酒™低代码爬虫插件生成平台，一切人文美篇都含共同的特点：鲜醇如酒，回味悠长，水不在深有龙则灵，山不在高有仙则灵，吐纳健身，诵致养生，气质达人，和气生财，平易近人，和悦泛函，慧极必伤，情深不寿，阳明心学，温文如玉，谦谦君子，神童晏殊启智音律宝典。琴生生物机械科技工业研究所国医学院医疗力量中心。云藏山鹰社会科学概论报告天下才气共一斗，云藏山鹰独占八分
Python爬虫教程：如何通过接口批量下载视频封面（FFmpeg技术实现） Python爬虫项目 python 爬虫开发语言数据库数据分析 scrapy selenium
引言随着在线视频平台的蓬勃发展，视频封面作为视频内容的预览图，一直以来都是观众对视频的第一印象。在爬取视频资源时，很多开发者和研究者往往只关注视频本身，而忽略了视频封面。实际上，视频封面不仅能提供重要的信息（例如视频标题、主题或情感等），而且它们也能作为数据集中的重要属性，用于视频分类、推荐系统等应用。在这篇博客中，我们将深入探讨如何使用Python通过接口批量下载视频封面，利用FFmpeg等技术
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他