笔墨留年

使用scrapy爬取妹子图（一）

使用scrapy爬取妹子图

欢迎转载，转载请注明出处http://blog.csdn.net/aaronjny

前言

博主大三了，该找工作实习咯。想搞数据采集方面，应聘爬虫工程师，看到很多招聘都要求会使用scrapy，会分布式采集，所以打算先学习学习scrapy，写两个小项目练练手，熟悉一下。看到很多人都在爬妹子图，那我就也爬妹子图得了。百度搜索一下妹子图，得到两个域名meizitu.com和mmjpg.com，我就把两个站都爬了。废话不多说，下面上干货(scrapy新手入门，大佬勿喷，有错求指点)。
爬取meizitu.com的代码，是接触scrapy当天写的，mmjpg.com部分则是第二天写的，所以有些小白的地方是肯定的，还请见谅（我以前使用beautifulsoup和requests写过不少爬虫代码，有一些爬虫底子，所以拿到scrapy,熟悉了一下就开始写了）。

代码编写前

在编写项目之前，先分析网站，想出爬取方案。我先爬取的是meizitu.com，从这个开始说。
打开浏览器，访问站点http://www.meizitu.com/，可以看到页面里是一个个的图集，如下：

右键点击美女分类位置，选择检查（我使用的是谷歌浏览器），查看源码信息：

可以发现，分类的链接大多都是以http://www.meizitu.com/a/开头，于是，我猜测http://www.meizitu.com/a/是一个列表地址，我将地址复制到浏览器中访问，得到的果然是个列表页面，列出了一个个图集（PS：猜猜又无妨，分析url规律很多时候都是靠直觉的，大胆去猜，如果不是，我们还可以从首页开始爬嘛，没多大区别）：

将网页滚动到最下方，可以看到翻页按钮：

而点击翻页按钮之后，页面模式与http://www.meizitu.com/a/类似，只是url不同，如第五页：http://www.meizitu.com/a/list_1_5.html。
多点开几页就能发现，列表页面地址的构成方式是：

第1页 http://www.meizitu.com/a/
第n页http://www.meizitu.com/a/list_1_n.html

查看列表页面的源码：

观察图集的链接，比如http://www.meizitu.com/a/5529.html、http://www.meizitu.com/a/5527.html，可以看出，图集地址的构成方式是：

地址：http://www.meizitu.com/a/{若干数字}.html
匹配正则式：http://www.meizitu.com/a/\d+.html

选择一个图片集点击进去，能看到属于这个图片集的所有图片：

查看网页源码，可以看到这个图集里所有图片的链接：

观察图片链接，可以发现，一个图集里图片地址(img/@src)的构成方式为：

地址：
http://mm.howkuai.com/wp-content/uploads/2017a/05/11/01.jpg
地址格式：
http://mm.howkuai.com/wp-content/uploads/20{数字}a/{数字}/{数字}/{数字}.jpg
匹配正则式：
http://mm.howkuai.com/wp-content/uploads/20\d{2}a/\d{2}/\d{2}/\d+.jpg

并且，在图集页面，也是存在指向其他图集的链接的，格式依旧满足
http://www.meizitu.com/a/\d+.html

至此，我们可以整理出来一个抓取思路：

[1] 将所有的列表页面地址放在一个列表里，假设为links。

[2] 对于每一个links中的列表页面，查找其中的图集地址，加入到一个列表中，假设为articleLinks。

[3] 对于每一个articleLinks中的图集页面，查找其中的图片地址，加入到一个列表中，假设为img_srcs。因为我们要将同一个图集下的图片放在同一个文件夹中，所以要记录每个图片地址来自于哪个图集。

[4] 对于每一个img_srcs中的图片，进行下载，并写入到对应的文件夹中。

这样，就完成了对全站图片的爬取。下面，开始编码~

爬虫环境

爬虫环境为python2和scrapy，如果没安装请先安装。安装的方式网上有许多，百度一下就可以了，这里就不赘述了。
使用的开发工具为pycharm。

创建`scrapy`项目

打开命令行，切换到想存放项目的目录，这里，我把项目放在放在E:\code。

windows:
e:
cd code
linux(假设存放位置为home/workspace/python):
cd ~/workspace/python
输入scrapy startproject spider_for_meizitu，并回车，其中spider_for_meizitu是项目名。

3. 使用pycharm打开刚刚创建的项目。
（PS：我的项目是已经写完的了，所以里面有我创建的main.py和image文件夹，刚创建的项目里面是没有的）

4. 在项目里新建一个image文件夹，用来存放图片。

编写Spider

1.在spiders目录下，创建文件MeizituSpider.py。

2.在文件里创建我们的spider类，这个类要继承scrapy.spiders.Spider。并设置相关属性。

#coding=utf-8
import scrapy
from scrapy.http import Request,HtmlResponse
import os

class MeizituSpider(scrapy.spiders.Spider):
    name='meizitu'#爬虫名
    allowed_domians=["meizitu.com"]#允许域名列表
    start_urls=['http://www.meizitu.com/a/',]#起始链接列表
    for i in range(2,91):
        start_urls.append('http://www.meizitu.com/a/list_1_'+str(i)+'.html')

3.在浏览器中观察网站的请求消息头，并在代码中设置。

正常情况下，网站服务器对爬虫都是不欢迎的，所以我们要将自己伪装成浏览器。最常用的一种伪装方法就是设置请求消息头，通过User-Agent伪装身份。

在MeizituSpider添加代码如下：

 #请求头
    headers={
        'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
        'Accept-Encoding':'gzip, deflate, sdch',
        'Accept-Language':'zh-CN,zh;q=0.8',
        'Connection':'keep-alive',
        'Host':'www.meizitu.com',
        'Upgrade-Insecure-Requests': '1',
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3013.3 Safari/537.36'
    }

4.重写make_requests_from_url方法，来指定headers

(PS：怎么用settings来设置请求头，后面爬取另外一个站的时候会说明。)

#重写方法，设置请求头（其实有更简单的方法，在settings里设置default-headers就行了）
    def make_requests_from_url(self,url):
        return Request(url, headers=self.headers,dont_filter=True)

5.准备工作结束了，开始解析工作。当scrapy项目运行时，scrapy会自动从start_urls中取出url进行请求，并交由parse函数来解析。所以我们接下来要重写类的parse方法。
（PS：不知道为什么，csdn的markdown对这部分代码解析的时候，格式缩进显示有点问题，但是我复制下来，粘贴进ide里，格式是正确的，应该不影响。）

    #解析start_urls的响应
    def parse(self,response):
        #获取图片集链接
        links=response.xpath('//a[re:test(@href,"http://www.meizitu.com/a/\d+.html")]/@href').extract()
        print links
        #对所有的图片集进行请求
        for url in links:
            yield Request(url,headers=self.headers,callback=self.parseImageArticle)

通过parse函数，我们能够从列表页面中获得该页面上所有的图片集地址，scrapy会对每个图片集进行请求，并交给我们设置的回调函数（callback=self.parseImageArticle）parseImageArticle处理。

6.编写parseImageArticle方法，从图片集页面中提取属于该图片集的所有图片的地址，以及能够到达的其他图片集的地址。

    #解析单个图片集的响应
    def parseImageArticle(self,response):
        #获取图片链接列表
        src_links=response.xpath('//img[re:test(@src,"http://mm.howkuai.com/wp-content/uploads/20\d{2}a/\d{2}/\d{2}/\d+.jpg")]/@src').extract()
        #获取图片集名称，用以创建文件夹
        base_path=os.path.join("image",response.xpath('//div[contains(@class,"metaRight")]/h2/a/text()').extract()[0])
        #下载图片请求头
        header={
            'Upgrade-Insecure-Requests': '1',
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3013.3 Safari/537.36'
        }
        #文件夹不存在则创建
        if not os.path.exists(base_path):
            os.makedirs(base_path)
        #下载图片
        for i in range(len(src_links)):
            #获取用以存储的文件名
            file_path = os.path.join(base_path, str(i)+'.jpg')
            #传递文件名，并使用imageDownload方法解析
            yield Request(src_links[i],meta={'file_path':file_path},headers=header,callback=self.imageDownload)
        #获取当前页面的其他图片集链接
        links = response.xpath('//a[re:test(@href,"http://www.meizitu.com/a/\d+.html")]/@href').extract()
        print links
        #请求其他图片集，使用此方法解析
        for url in links:
            yield Request(url, headers=self.headers, callback=self.parseImageArticle)

从此页面上提取到的其它图片集的链接，由scrapy请求后，仍将响应结果交给回调函数（callback=self.parseImageArticle）parseImageArticle来解析。而图片链接则在scrapy请求后交由下载函数处理（callback=self.imageDownload）。

7.编写下载函数imageDownload。当scrapy对图片链接进行请求后，我们要对其进行解析。简单来说，就是把下载下来的流以适当的路径写入到本地磁盘中。

    #下载图片
    def imageDownload(self,response):
        file_path=response.meta['file_path']
        with open(file_path,'wb') as f:
            f.write(response.body)

这样，spider部分就编写完成了，这个爬虫的大部分都在这里。下面是MeizituSpider.py完整代码：

#coding=utf-8
import scrapy
from scrapy.http import Request,HtmlResponse
import os

class MeizituSpider(scrapy.spiders.Spider):
    name='meizitu'#爬虫名
    allowed_domians=["meizitu.com"]#允许域名列表
    start_urls=['http://www.meizitu.com/a/',]#起始链接列表
    for i in range(2,91):
        start_urls.append('http://www.meizitu.com/a/list_1_'+str(i)+'.html')

    #请求头
    headers={
        'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
        'Accept-Encoding':'gzip, deflate, sdch',
        'Accept-Language':'zh-CN,zh;q=0.8',
        'Connection':'keep-alive',
        'Host':'www.meizitu.com',
        'Upgrade-Insecure-Requests': '1',
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3013.3 Safari/537.36'
    }

    #重写方法，设置请求头（其实有更简单的方法，在settings里设置default-headers就行了）
    def make_requests_from_url(self,url):
        return Request(url, headers=self.headers,dont_filter=True)

    #下载图片
    def imageDownload(self,response):
        file_path=response.meta['file_path']
        with open(file_path,'wb') as f:
            f.write(response.body)

    #解析单个图片集的响应
    def parseImageArticle(self,response):
        #获取图片链接列表
        src_links=response.xpath('//img[re:test(@src,"http://mm.howkuai.com/wp-content/uploads/20\d{2}a/\d{2}/\d{2}/\d+.jpg")]/@src').extract()
        #获取图片集名称，用以创建文件夹
        base_path=os.path.join("image",response.xpath('//div[contains(@class,"metaRight")]/h2/a/text()').extract()[0])
        #下载图片请求头
        header={
            'Upgrade-Insecure-Requests': '1',
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3013.3 Safari/537.36'
        }
        #文件夹不存在则创建
        if not os.path.exists(base_path):
            os.makedirs(base_path)
        #下载图片
        for i in range(len(src_links)):
            #获取用以存储的文件名
            file_path = os.path.join(base_path, str(i)+'.jpg')
            #传递文件名，并使用imageDownload方法解析
            yield Request(src_links[i],meta={'file_path':file_path},headers=header,callback=self.imageDownload)
        #获取当前页面的其他图片集链接
        links = response.xpath('//a[re:test(@href,"http://www.meizitu.com/a/\d+.html")]/@href').extract()
        print links
        #请求其他图片集，使用此方法解析
        for url in links:
            yield Request(url, headers=self.headers, callback=self.parseImageArticle)

    #解析start_urls的响应
    def parse(self,response):
        #获取图片集连接
        links=response.xpath('//a[re:test(@href,"http://www.meizitu.com/a/\d+.html")]/@href').extract()
        print links
        #对所有的图片集进行请求
        for url in links:
            yield Request(url,headers=self.headers,callback=self.parseImageArticle)

`settings.py`的设置

刚接触scrapy，settings.py里面的配置，有些我也搞不清楚，这里就说我使用的配置。如果有哪里配置的不合适的地方，请斧正。

#这部分会自动生成
BOT_NAME = 'spider_for_meizitu'
SPIDER_MODULES = ['spider_for_meizitu.spiders']
NEWSPIDER_MODULE = 'spider_for_meizitu.spiders'
#设置下载延迟0.25ms
DOWNLOAD_DELAY = 0.25
#不遵守robot.txt
#ROBOTSTXT_OBEY = True
#不启用cookies
COOKIES_ENABLED = False

创建main.py以启动爬虫

至此，爬虫的编写工作已经基本完成了，现在已经可以通过命令行运行爬虫了，只需要打开命令行，输入scrapy crawl meizitu并回车即可。
但是，在命令行里运行爬虫，不利于我们调试，如果想直接通过pycharm运行scrapy爬虫的话，需要新建一个main.py，并在里面写入如下代码：

# coding=utf-8
from scrapy import cmdline
cmdline.execute("scrapy crawl meizitu".split())

可以看出，其实这段代码的真实功能跟上面是一样的，就是执行scrapy crawl meizitu这个命令。
运行main.py，就可以启动爬虫，然后，享受需要的数据渐渐写入硬盘的过程吧~

爬虫源码（`GitHub`）

爬虫源码，可以参考我的GitHub，戳这里
如果觉得代码风格不好的话，请原谅我。。。

结束语

终于写完了，好累啊（感觉写博客比写代码还累。。。），今天先写这么多，爬取mmjpg.com部分改天再写。因为是初学scrapy，很多地方写的都不规范。比如说下载部分，应该编写item类，在spider中返回item并交给管道下载，等等。在爬取mmjpg.com的代码中，我尽量避免了，但仍会存在许多不足，比如没有设置随机User-Agent和代理IP池等，还要多多学习。
以上，记一次scrapy实战。如有疑问的地方，可以给我留言，我看到后会回复的。如果我有什么做的不好的地方，也请路过的大牛指点指点。

更多：爬取妹子图（`mmjpg.com`）

代码已完成，博客未撰写。。。待更新。

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
TDengine 签约前晨汽车，解锁智能出行的无限潜力涛思数据（TDengine） tdengine 汽车大数据
在全球汽车产业转型升级的背景下，智能网联和新能源技术正迅速成为商用车行业的重要发展方向。随着市场对环保和智能化需求的日益增强，企业必须在技术创新和数据管理上不断突破，以满足客户对高效、安全和智能出行的期待。在这一背景下，前晨汽车凭借其在新能源智能商用车领域的前瞻性布局和技术实力，成为行业中的佼佼者。前晨汽车采用整车数据采集和全车数据打通策略，能够实时将数据推送至APP端客户。然而，这导致整体写入和
Python神器！WEB自动化测试集成工具 DrissionPage 亚丁号 python 开发语言
一、前言用requests做数据采集面对要登录的网站时，要分析数据包、JS源码，构造复杂的请求，往往还要应付验证码、JS混淆、签名参数等反爬手段，门槛较高。若数据是由JS计算生成的，还须重现计算过程，体验不好，开发效率不高。使用浏览器，可以很大程度上绕过这些坑，但浏览器运行效率不高。因此，这个库设计初衷，是将它们合而为一，能够在不同须要时切换相应模式，并提供一种人性化的使用方法，提高开发和运行效率
如何建设数据中台（五）——数据汇集—打破企业数据孤岛 weixin_47088026 学习记录和总结中台数据中台程序人生经验分享
数据汇集——打破企业数据孤岛要构建企业级数据中台，第一步就是将企业内部各个业务系统的数据实现互通互联，打破数据孤岛，主要通过数据汇聚和交换来实现。企业采集的数据可以是线上采集、线下数据采集、互联网数据采集、内部数据采集等。线上数据采集主要载体分为互联网和移动互联网两种，对应有系统平台、网页、H5、小程序、App等，可以采用前端或后端埋点方式采集数据。线下数据采集主要是通过硬件来采集，例如：WiFi
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
tushare库获取金融股票数据罔闻_spider python进阶 python
定义：Tushare是一个为金融量化分析师和数据爱好者设计的开源工具，提供从数据采集、清洗加工到数据存储的全流程服务。它能够实时抓取沪深两市的股票和期货市场数据，包括交易价格、成交量、市值、市盈率等关键指标，同时也提供历史数据的采集。Tushare的数据采集功能是其核心优势之一，它支持多种数据类型，包括日K线数据和分钟级数据，满足不同分析需求。Tushare的数据清洗与加工功能提供了强大的工具集，
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
什么是埋点测试，app埋点测试怎么做？自动化测试老司机自动化测试软件测试测试工程师功能测试 appium 测试工具单元测试 postman 软件测试自动化测试
前言埋点测试是指在应用程序或网站中预设检查点，收集程序运行时的数据，以便于后续对程序进行性能分析或故障排查。埋点测试通常用于监控和追踪用户在软件产品中的行为，以收集有关用户体验、功能使用情况和潜在问题的数据。这些数据对于软件产品的优化和改进至关重要，有助于开发人员了解用户需求和产品存在的问题，从而制定针对性的改进方案。App埋点测试是一种基于数据采集的增长分析方法，旨在通过在App代码中埋点来记录
建筑能源管理（4）——建筑能源监管 Fo*(Bi) Energy and Building 能源
为了全面落实科学发展观，提高建筑能源管理水平，进一步降低能源和水资源消耗、合理利用资源，以政府办公建筑和大型公共建筑的运行节能管理为突破口，建立了既有政府办公建筑和大型公共建筑运行节能监管体系，旨在提高政府办公建筑和大型公共建筑整体运行节能管理水平，指导和规范政府办公建筑和大型公共建筑的能耗数据采集工作。1、能源统计对国家机关办公建筑和大型公共建筑进行能耗的基本情况计量、能源消耗(水、电、气等能源
工业智能网关在工业生产中的核心作用-天拓四方 weixin_36369259
随着工业4.0时代的到来，物联网（IoT）和智能制造技术日益成熟，工业智能网关作为连接工业设备与物联网系统的关键设备，正逐步成为现代工业生产不可或缺的重要组成部分。本文将详细探讨工业智能网关在工业生产中的多重作用，揭示其如何助力企业实现数字化转型与智能化管理。一、工业智能网关概述工业智能网关，也称为工业物联网网关、工业边缘计算网关等，是一种专为工业环境设计的网络连接设备。它集成了数据采集、传输、协
边缘计算网关在机床数据采集中的应用-天拓四方各自安好吧边缘计算人工智能
随着工业4.0和智能制造的快速发展，机床作为制造业的核心设备，其数据采集与分析对于提升生产效率、保证产品质量、优化加工过程具有重要意义。传统的数据采集方式存在数据传输速度慢、实时性差、数据处理能力有限等问题。为了解决这些问题，边缘计算网关在机床数据采集领域的应用逐渐受到关注。本文将详细探讨边缘计算网关在机床数据采集中的应用，并分析其带来的优势。一、边缘计算网关概述边缘计算网关是一种集成了数据采集、
工业数据采集网关的作用-天拓四方北京天拓四方边缘计算物联网 iot
工业数据采集网关是一种专门用于采集、处理、传输工业现场数据的设备。它能够实时收集来自各种传感器、仪表和设备的数据，并通过网络将这些数据传输到云端或数据中心。同时，数据采集网关还具备数据清洗、转换和压缩等功能，确保数据的质量和传输效率。随着工业4.0时代的来临，数字化转型已成为工业发展的必然趋势。工业数据采集网关作为连接物理世界与数字世界的桥梁，其在工业数字化转型中发挥着至关重要的作用。本文将详细探
Java服务端中的性能监控：Prometheus与Grafana的集成微赚淘客系统@聚娃科技 java prometheus grafana
Java服务端中的性能监控：Prometheus与Grafana的集成大家好，我是微赚淘客返利系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！在构建和维护Java服务端应用时，性能监控是确保系统稳定性和性能的重要环节。Prometheus与Grafana是当前最流行的性能监控工具组合之一，能够提供强大的数据采集、存储和可视化功能。本文将介绍如何在Java服务端中集成Prometheus与
一张图详解开源监控夜莺（Nightingale）的架构夜莺开源监控开源架构夜莺监控 Nightingale 开源夜莺
夜莺监控是一款开源云原生观测分析工具，采用All-in-One的设计理念，集数据采集、可视化、监控告警、数据分析于一体，与云原生生态紧密集成，提供开箱即用的企业级监控分析和告警能力。夜莺于2020年3月20日，在github上发布v1版本，已累计迭代100多个版本。夜莺最初由滴滴开发和开源，并于2022年5月11日，捐赠予中国计算机学会开源发展委员会（CCFODC），为CCFODC成立后接受捐赠的
2023-10-18 低代码云MES
MES系统的特点1、数据采集引擎、整合数据采集渠道（RFID、条码设备、PLC、Sensor、IPC、PC等）覆盖整个工厂制造现场，保证现场数据的实时、准确、全面的采集；2、打造工厂生产管理系统数据采集基础平台，具备良好的扩展性；3、采用先进的RFID、条码与移动计算技术，打造从原材料供应、生产、销售物流闭环的条码系统；4、全面完整的产品追踪追溯功能；5、生产WIP状况监视；6、Just-In-T
智能农业设备软件工程师如何处理设备的远程诊断和修复 openwin_top 智能农业设备软件工程师网络智能农业物联网人工智能大数据深度学习
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位处理智能农业设备的远程诊断和修复涉及几个关键步骤，包括设备的数据采集、数据传输、远程诊断、远程控制和修复。以下是详细分析和示例代码：1.数据采集智能农业设备通常配备传感器和控制器，这些设备不断采集环
PXIe，PXI，CPCI相互区别和关系，总线之间，几种机箱之间是否兼容？单单是真的菜笔记
区别和关系：PXIe：PXI规范中添加PCIe而称为PXIe。与PXI和PCI的关系相同，PXIe规范中也包含了测试测量领域所需要的各种扩展特性。PXI：PXI是一种专为工业数据采集与自动化应用度身定制的模块化仪器平台，具备机械、电气与软件等多方面的专业特性。其规范是CPCI规范的扩展。CPCI：紧凑型PCI。是以PCI电气规范为标准的高性能工业总线接口标准。总线兼容：PXI总线：保持了与CPCI
【面试系列】Spark 高频面试题解答野老杂谈全网最全IT公司面试宝典面试 spark 职场和发展大数据
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho
各种无人机飞行服务技术详解无人机技术圈无人机技术无人机
随着科技的飞速发展，无人机（UnmannedAerialVehicles,UAVs）技术已成为推动多个行业变革的重要力量。从军事侦察到商业应用，再到日常生活中的娱乐拍摄，无人机的身影无处不在。本文将详细解析无人机飞行服务所涉及的关键技术，主要包括无人机类型与特点、飞行控制技术、传感器与数据采集、通信技术、能源技术、智能控制技术、农业飞防服务以及全自动飞行系统等八个方面。1.无人机类型与特点类型多旋
如何用图表控件LightningChart Python实现检测应用？界面开发小八哥 python 开发语言图表控件数据可视化
LightningChartPython是知名图表控件公司LightningChartLtd正在研发的Python图表，目前还未正式推出，感兴趣的朋友可以戳下方链接申请试用！立即申请LightningChartPython试用什么是结构健康监测(SHM)？结构健康监测(SHM)是指实施结构损伤检测策略的过程，SHM涉及使用传感器和数据采集系统来收集有关结构随时间变化的状况的信息，然后分析这些数据以
Python爬虫基础知识板栗妖怪 python 爬虫开发语言
(未完成)爬虫概念爬虫用于爬取数据，又称之为数据采集程序爬取数据来源于网络，网络中数据可以是有web服务器、数据库服务器、索引库、大数据等等提供爬取数据是公开的、非盈利。python爬虫使用python编写的爬虫脚本可以完成定时、定量、指定目标的数据爬取。主要使用多（单）线程/进程、网络请求库、数据解析、数据储存、任务调度等相关技术。爬虫和web后端服务关系爬虫使用网络请求库，相当于客户端请求，w
大数据平台（数据中台、数据中枢、数据湖、数据要素）建设方案数字化建设方案数字化转型数据治理主数据数据仓库大数据
大数据平台（数据中台、数据中枢、数据湖、数据要素）建设方案大数据平台（数据中台、数据中枢、数据湖、数据要素）建设方案项目背景和目标项目背景项目目标建设原则与策略数据中台架构设计整体架构设计思路数据采集层数据存储层数据计算层数据服务层数据中枢功能实现数据治理功能数据资产管理功能数据安全管控功能数据服务总线功能数据湖存储与计算方案数据湖存储架构设计数据湖计算框架选择数据湖应用场景分析数据湖安全与合规性
数据采集与数据预处理（python）概述（一）数学难 python 开发语言
一，数据采集的概念在处理海量事务时，我们经常需要针对特定条件进行数据的精准获取，这一过程被称为数据采集。数据采集的核心在于从多样化的数据存储形式中，根据具体需求进行有针对性的数据提取。这些数据存储形式丰富多样，涵盖了从简单的文本文档到复杂的数据库系统，再到多媒体文件等多个领域。常见的数据存储方式包括：文件系统（FileSystem）：文本文档：TXT,DOC,PDF,XLS(Excel),CSV等
我读《细节决定成败》第七部分第2小节的感悟付朝兰
我读《细节决定成败》第七部分第2小节的感悟文/付朝兰我读《细节决定成败》这本书第七部分第2小节，讲的是重复建设问题多多——政府决策深究细节。书中讲了通航的长乐机场亏损的事，找出四大原因，一是项目决策不科学，可行性研究中市场预测不充分，基础数据采集不科学。二是项目建设规模过度超前，大量举债加大运营成本。三是项目建设管理混乱，未按严格执行基建程序，奖金损失和资产闲置浪费。四是机构运营后体制不顺，管理不
利用PHP和Selenium自动化采集数据、实现爬虫抓取 IT大数据小助手 php selenium 自动化
随着互联网时代的到来，抓取互联网上的数据成为越来越重要的工作。在web前端开发领域，我们经常需要获取页面中的数据来完成一系列的交互操作，为了提高效率，我们可以将这个工作自动化。本文将介绍如何利用PHP和Selenium进行自动化数据采集和爬虫抓取。一、什么是SeleniumSelenium是一个免费的开源自动化测试工具，主要用于自动化测试Web应用程序，可以模拟真实的用户行为，实现自动交互。使用S
MySQL数据库运维：深度解析与实践指南野老杂谈数据库 mysql 运维
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：+V:LAF20151116进行更多交流学习⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。⭐
【面试系列】Doris 高频面试题解答野老杂谈全网最全IT公司面试宝典面试职场和发展 Doris 大数据数据库
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho
【大数据平台】数据处理层：批处理与流处理架构野老杂谈大数据平台建设指南大数据架构批处理流处理 Hadoop Spark Flink
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：工重hao：野老杂谈⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋
open-spider开源爬虫工具：抖音数据采集_抖音直播爬虫采集 2401_83817769 程序员爬虫
静态内容抓取是指从网页中直接提取信息的过程。这通常涉及到以下几个步骤：使用requests库发送HTTP请求，获取网页的原始数据。例如，你可以使用requests.get(url)来获取抖音首页的HTML内容。利用BeautifulSoup库对获取到的HTML进行解析。BeautifulSoup提供了丰富的方法来处理和提取HTML文档中的数据。例如，你可以使用find()或find_all()方法
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>

使用scrapy爬取妹子图（一）

使用scrapy爬取妹子图

前言

代码编写前

爬虫环境

创建scrapy项目

编写Spider

settings.py的设置

创建main.py以启动爬虫

爬虫源码（GitHub）

结束语

更多：爬取妹子图（mmjpg.com）

你可能感兴趣的:(数据采集)

创建`scrapy`项目

`settings.py`的设置

爬虫源码（`GitHub`）

更多：爬取妹子图（`mmjpg.com`）