Jack-Cui

Python3网络爬虫(十二)：初识Scrapy之再续火影情缘

转载请注明作者和出处： http://blog.csdn.net/c406495762
运行平台： Windows
Python版本： Python3.x
IDE： Sublime text3

前言
Scrapy框架之初窥门径
- 1 Scrapy简介
- 2 Scrapy安装
- 3 Scrapy基础
  - 31 创建项目
  - 32 Shell分析
- 4 Scrapy程序编写
  - 41 Spiders程序测试
  - 42 Items编写
  - 43 Settings编写
  - 44 Comic_spider编写
  - 45 Pipelines编写
运行结果
总结

1 前言

如果有人问我，你最喜欢的动漫是什么？我会毫不犹豫地告诉他：《火影忍者》。因为，这是唯一的一部贯穿我小学、初中、高中、大学、研究生生活的动漫。小学五年级的时候，家里的电视安装了机顶盒，那时候的动漫频道还不是清一色的《天线宝宝》、《熊出没》这样的国产动漫。大部分都是日本动漫，《火影忍者》、《海贼王》、《浪客剑心》这样的热血动漫充斥着整个动漫频道。就从那时开始，我走上了追《火影忍者》的道路。虽然，这是一个暴露年龄的事情，可是我还是想说，我也算是一个资深的火影迷了。鸣人的火之意志、鸣人和佐助的羁绊的故事，看得我热血沸腾。初中的时候，我还曾傻傻地学习忍术的结印手势，以为只要学会了结印手势就能放出忍术，现在想想，真的是无忧无虑的童年啊！可能，有朋友会问，《火影忍者》不是已经完结了吗？《火影忍者》是完结了，但是鸣人儿子的故事才刚刚开始，《博人传之火影忍者新时代》正在热播中。因此，我又开始追动漫了，虽然现在不会像儿时那样激动到上蹿下跳，但是我依然喜欢看，现在感觉，继续看火影，更多的是一种情怀吧！

今天的闲话有点多，就此打住，回归正题。为了了解动漫的进展，看相应的漫画是个不错的选择。而KuKu动漫又是免费的试看平台，满足我的需求。奉上URL：http://comic.kukudm.com/

可以看到，这个网站的第一个推荐动漫就是《火影忍者》。这个网站不提供下载功能，但是又很想收藏怎么办？那就用分布式爬虫Scrapy搞下来吧！当然，在此之前，不得不说的一句话就是：请勿将程序用于任何商业用途，仅供交流学习。尊重著作权，请购买正版漫画。

2 Scrapy框架之初窥门径

2.1 Scrapy简介

Scrapy Engine(Scrapy核心) 负责数据流在各个组件之间的流。Spiders(爬虫)发出Requests请求，经由Scrapy Engine(Scrapy核心) 交给Scheduler(调度器)，Downloader(下载器)Scheduler(调度器) 获得Requests请求，然后根据Requests请求，从网络下载数据。Downloader(下载器)的Responses响应再传递给Spiders进行分析。根据需求提取出Items，交给Item Pipeline进行下载。Spiders和Item Pipeline是需要用户根据响应的需求进行编写的。除此之外，还有两个中间件，Downloaders Mddlewares和Spider Middlewares，这两个中间件为用户提供方面，通过插入自定义代码扩展Scrapy的功能，例如去重等。因为中间件属于高级应用，本次教程不涉及，因此不做过多讲解。

2.2 Scrapy安装

关于Scrapy的安装，可以查看我之前的笔记：http://blog.csdn.net/c406495762/article/details/60156205

2.3 Scrapy基础

安装好Scrapy之后，我们就可以开启我们的Scrapy之旅了。官方的详细中文教程，请参见：http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html 。我这里只讲本次实战用到的知识。

简单流程如下：

创建一个Scrapy项目；
定义提取的Item；
编写爬取网站的 spider 并提取 Item；
编写 Item Pipeline 来存储提取到的Item(即数据)。

2.3.1 创建项目

在开始爬取之前，我们必须创建一个新的Scrapy项目。进入打算存储代码的目录中，运行下列命令：

scrapy startproject cartoon

scrapy startproject是固定命令，后面的cartoon是自己想起的工程名字。这里，我起名为cartoon(漫画)。

该命令将会创建包含下列内容的cartoon目录：

cartoon/
     scrapy.cfg
     cartoon/
        __init__.py
        items.py
        middlewares.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

这些文件分别是：

scrapy.cfg: 项目的配置文件；
cartoon/: 该项目的python模块。之后将在此加入Spider代码；
cartoon/items.py: 项目中的item文件；
cartoon/middlewares .py：项目中的中间件；
cartoon/pipelines.py: 项目中的pipelines文件；
cartoon/settings.py: 项目的设置文件；
cartoon/spiders/: 放置spider代码的目录。

2.3.2 Shell分析

在编写程序之前，我们可以使用Scrapy内置的Scrapy shell，分析下目标网页，为后编写梳理思路。先分析下《火影忍者》主界面：

scrapy shell "http://comic.kukudm.com/comiclist/3/"

在Scrapy shell中，我们可以通过如下指令打印网页的body信息：

response.body

通过返回的内容，我们可以寻找自己想要的链接，但是这种方法，显然有些麻烦，因为内容太多，不好找。这里，我们还是使用审查元素的方式进行分析：

可以看到，每个章节的链接和名字都存放在了dd标签下的a标签中。在shell中输入如下指令提取链接：

response.xpath('//dd/a[1]')

xpath之前讲过了，如果忘记了，可翻阅我之前整理的笔记。从输出结果可以看到，每个链接都已经提取出来了，但是没有显示a标签里面的内容。

想要显示全，就需要extract()方法，转换成字符串输出，指令如下：

response.xpath('//dd/a[1]').extract()

从运行结果可以看出，这样就显示完全了。现在开始思考一个问题，如果我想保存每个章节的图片，需要哪些东西？链接必不可少，当然还有每个章节的名字，我们要以文件夹的形式存储每个章节，文件夹的命名就是章节的名字，这样更规整。

我们使用text()获取每个章节的名字，指令如下：

response.xpath('//dd/a[1]/text()').extract()

瞧，每个章节的名字被我们轻松的提取出来了，记住这个指令，在编写程序的时候，需要用到。

获取完章节名字，接下来就是获取链接了，使用指令如下：

response.xpath('//dd/a[1]/@href').extract()

Scrapy还是蛮好用的嘛~省去了使用Beautifulsoup这些工具的使用。当然，它的强大不仅仅于此，让我们慢慢道来。

《火影忍者》首页分析完了。接下来，我们分析每个章节里的内容，看看如何获取每个图片的链接。还是使用审查元素的方式，我们可以看到，这个网页提供的信息如下。再思考一个问题，从这个网页我们要获取哪些信息？第一个当然还是图片的链接，第二个呢？将一个章节里的每个图片保存下来，我们如何命名图片？用默认名字下载下来的图片，顺序也就乱了。仔细一点的话，不难发现，第一页的链接为：http://comic.kukudm.com/comiclist/3/3/1.htm，第二页的链接为：http://comic.kukudm.com/comiclist/3/3/2.htm，第三页的链接为：http://comic.kukudm.com/comiclist/3/3/3.htm 依此类推，所以我们可以根据这个规律进行翻页，而为了翻页，首先需要获取的就是每个章节的图片数，也就是页数，随后，我们根据每页的地址就可以为每个图片命名：第1页、第2页、第3页…，这样命名就可以了。不会出现乱序，并且很工整，方便我们阅读。由于有的章节图片的链接不是规律的，所以只能先获取页面地址，再获取图片地址，这样递进爬取。

使用ctrl+c退出之前的shell，分析章节页面，以第一章为例，使用指令如下：

scrapy shell "http://comic.kukudm.com/comiclist/3/1.htm"

套路已经想好，那就开始测试吧。通过审查元素可以知道，页数存放在valign属性i为top的td标签中。获取的内容由于有好多信息，我们再使用re()方法，通过正则表达式获取页数。获取页数代码如下：

response.xpath('//td[@valign="top"]/text()').re('共(\d+)页')[0]

可以看到，通过几次测试就把页数提取出来了。最终的这个指令页要记住，编写程序需要用到。

图片页获取完了，下面该获取图片的链接了，通过审查元素我们会发现，图片链接保存再img标签下的src属性中，理想状态，使用如下指令就可以获取图片链接：

response.xpath('//img[@id="comipic"]/@src').extract()

但是你会发现，返回为空。这是为什么？通过response.body打印信息不难发现，这个链接是使用JS动态加载进去的。直接获取是不行的，网页分为静态页面和动态页面，对于静态页面好说，对于动态页面就复杂一些了。可以使用PhantomJS、发送JS请求、使用Selenium、运行JS脚本等方式获取动态加载的内容。(该网站动态加载方式简单，不涉及这些，后续教程会讲解其他动态加载方法)

该网站是使用如下指令加载图片的：

document.write("<img src='"+server+"comic/kuku2comic/Naruto/01/01_01.JPG'><span style='display:none'><img src='"+server+"comic/kuku2comic/Naruto/01/01_02.JPG'>span>");

JS脚本放在网页里，没有使用外部JS脚本，这就更好办了，直接获取脚本信息，不就能获取图片链接了？使用指令如下：

response.xpath('//script/text()').extract()

通过运行结果可以看出，我们已经获取到了图片链接，server的值是通过运行JS外部脚本获得的，但是这里，我们仔细观察server的值为http://n.1whour.com/，其他页面也是一样，因此也就简化了流程。同样，记住这个指令，编写程序的时候会用到。

就这样这个思路已经梳理清楚，需要的内容有章节链接、章节名、图片链接、每张页数。shell分析完毕，接下来开始编写程序。

2.4 Scrapy程序编写

2.4.1 Spiders程序测试

在cortoon/spiders目录下创建文件comic_spider.py，编写内容如下：

# -*- coding:UTF-8 -*-
import scrapy

class ComicSpider(scrapy.Spider):

    name = "comic"
    allowed_domains = ['comic.kukudm.com']
    start_urls = ['http://comic.kukudm.com/comiclist/3/']

    def parse(self, response):
        link_urls = response.xpath('//dd/a[1]/@href').extract()
        for each_link in link_urls:
            print('http://comic.kukudm.com' + each_link)

name：自己定义的内容，在运行工程的时候需要用到的标识；
allowed_domains：允许爬虫访问的域名，防止爬虫跑飞。让爬虫只在指定域名下进行爬取，值得注意的一点是，这个域名需要放到列表里；
start_urls：开始爬取的url，同样这个url链接也需要放在列表里；
def parse(self, response) ：请求分析的回调函数，如果不定义start_requests(self)，获得的请求直接从这个函数分析；

parse函数中的内容，就是之前我们获取链接的解析内容，在cmd中使用如下指令运行工程：

scrapy crawl comic

打印输出了这个章节的链接：

再打印章节名字看看，代码如下：

# -*- coding:UTF-8 -*-
import scrapy

class ComicSpider(scrapy.Spider):

    name = "comic"
    allowed_domains = ['comic.kukudm.com']
    start_urls = ['http://comic.kukudm.com/comiclist/3/']

    def parse(self, response):
        # link_urls = response.xpath('//dd/a[1]/@href').extract()
        dir_names = response.xpath('//dd/a[1]/text()').extract()
        for each_name in dir_names:
            print(each_name)

章节名字打印成功！

2.4.2 Items编写

刚刚进行了简单的测试，了解下Spiders的编写。现在开始进入正题，按步骤编写爬虫。第一步，填写items.py，内容如下：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class ComicItem(scrapy.Item):
    dir_name = scrapy.Field()
    link_url = scrapy.Field()
    img_url = scrapy.Field()
    image_paths = scrapy.Field()

dir_name：文件名，也就是章节名；
link_url：每个章节的每一页的链接，根据这个链接保存图片名；
img_url：图片链接；
image_paths：图片保存路径。

2.4.3 Settings编写

填写settings.py，内容如下：

BOT_NAME = 'cartoon'

SPIDER_MODULES = ['cartoon.spiders']
NEWSPIDER_MODULE = 'cartoon.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'cartoon (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

ITEM_PIPELINES = {
    'cartoon.pipelines.ComicImgDownloadPipeline': 1,
}

IMAGES_STORE = 'J:/火影忍者'

COOKIES_ENABLED = False

DOWNLOAD_DELAY = 0.25    # 250 ms of delay

BOT_NAME：自动生成的内容,根名字;
SPIDER_MODULES：自动生成的内容;
NEWSPIDER_MODULE：自动生成的内容；
ROBOTSTXT_OBEY：自动生成的内容,是否遵守robots.txt规则，这里选择不遵守；
ITEM_PIPELINES：定义item的pipeline；
IMAGES_STORE:图片存储的根路径；
COOKIES_ENABLED:Cookie使能，这里禁止Cookie;
DOWNLOAD_DELAY：下载延时，这里使用250ms延时。

2.4.4 Comic_spider编写

在comic_spider.py文件中，编写代码如下，代码进行了详细的注释：

# -*- coding: utf-8 -*-

import re
import scrapy
from scrapy import Selector
from cartoon.items import ComicItem

class ComicSpider(scrapy.Spider):
    name = 'comic'

    def __init__(self):
        #图片链接server域名
        self.server_img = 'http://n.1whour.com/'
        #章节链接server域名
        self.server_link = 'http://comic.kukudm.com'
        self.allowed_domains = ['comic.kukudm.com']
        self.start_urls = ['http://comic.kukudm.com/comiclist/3/']
        #匹配图片地址的正则表达式
        self.pattern_img = re.compile(r'\+"(.+)\'>)

    #从start_requests发送请求
    def start_requests(self):
        yield scrapy.Request(url = self.start_urls[0], callback = self.parse1)

    #解析response,获得章节图片链接地址
    def parse1(self, response):
        hxs = Selector(response)
        items = []
        #章节链接地址
        urls = hxs.xpath('//dd/a[1]/@href').extract()
        #章节名
        dir_names = hxs.xpath('//dd/a[1]/text()').extract()
        #保存章节链接和章节名
        for index in range(len(urls)):
            item = ComicItem()
            item['link_url'] = self.server_link + urls[index]
            item['dir_name'] = dir_names[index]
            items.append(item)

        #根据每个章节的链接，发送Request请求，并传递item参数
        for item in items[-13:-1]:
            yield scrapy.Request(url = item['link_url'], meta = {'item':item}, callback = self.parse2)

    #解析获得章节第一页的页码数和图片链接   
    def parse2(self, response):
        #接收传递的item
        item = response.meta['item']
        #获取章节的第一页的链接
        item['link_url'] = response.url
        hxs = Selector(response)
        #获取章节的第一页的图片链接
        pre_img_url = hxs.xpath('//script/text()').extract()
        #注意这里返回的图片地址,应该为列表,否则会报错
        img_url = [self.server_img + re.findall(self.pattern_img, pre_img_url[0])[0]]
        #将获取的章节的第一页的图片链接保存到img_url中
        item['img_url'] = img_url
        #返回item，交给item pipeline下载图片
        yield item
        #获取章节的页数
        page_num = hxs.xpath('//td[@valign="top"]/text()').re(u'共(\d+)页')[0]
        #根据页数，整理出本章节其他页码的链接
        pre_link = item['link_url'][:-5]
        for each_link in range(2, int(page_num) + 1):
            new_link = pre_link + str(each_link) + '.htm'
            #根据本章节其他页码的链接发送Request请求，用于解析其他页码的图片链接，并传递item
            yield scrapy.Request(url = new_link, meta = {'item':item}, callback = self.parse3)

    #解析获得本章节其他页面的图片链接
    def parse3(self, response):
        #接收传递的item
        item = response.meta['item']
        #获取该页面的链接
        item['link_url'] = response.url
        hxs = Selector(response)
        pre_img_url = hxs.xpath('//script/text()').extract()
        #注意这里返回的图片地址,应该为列表,否则会报错
        img_url = [self.server_img + re.findall(self.pattern_img, pre_img_url[0])[0]]
        #将获取的图片链接保存到img_url中
        item['img_url'] = img_url
        #返回item，交给item pipeline下载图片
        yield item

代码看上去可能不好理解，自己动手尝试一下，一步一步来，最终你就会找到答案的。这部分代码不能一步一步讲解，思路已经讲完，其他的就靠自己尝试与体悟了。关于python的yield，简单地讲，yield 的作用就是把一个函数变成一个 generator，带有 yield 的函数不再是一个普通函数，Python 解释器会将其视为一个 generator。想要保持代码的整洁，又要想获得 iterable 的效果，就可以使用yield了，这部分内容，可以查看廖雪峰老师的教程。

2.4.5 Pipelines编写

pipelines.py主要负责图片的下载，我们根据item保存的信息，进行图片的分类保存，代码如下：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
from cartoon import settings
from scrapy import Request
import requests
import os


class ComicImgDownloadPipeline(object):

    def process_item(self, item, spider):
        #如果获取了图片链接，进行如下操作
        if 'img_url' in item:
            images = []
            #文件夹名字
            dir_path = '%s/%s' % (settings.IMAGES_STORE, item['dir_name'])
            #文件夹不存在则创建文件夹
            if not os.path.exists(dir_path):
                os.makedirs(dir_path)
            #获取每一个图片链接
            for image_url in item['img_url']:
                #解析链接，根据链接为图片命名
                houzhui = image_url.split('/')[-1].split('.')[-1]
                qianzhui = item['link_url'].split('/')[-1].split('.')[0]
                #图片名
                image_file_name = '第' + qianzhui + '页.' + houzhui
                #图片保存路径
                file_path = '%s/%s' % (dir_path, image_file_name)
                images.append(file_path)
                if os.path.exists(file_path):
                    continue
                #保存图片
                with open(file_path, 'wb') as handle:
                    response = requests.get(url = image_url)
                    for block in response.iter_content(1024):
                        if not block:
                            break
                        handle.write(block)
            #返回图片保存路径
            item['image_paths'] = images
        return item

代码依旧进行了注释，自己动手尝试吧！

3 运行结果

由于工程文件较多，我将我的整体代码上传到了我的Github，欢迎Follow、Star。URL：https://github.com/Jack-Cherish/python-spider/tree/master/cartoon

我下载了后面火影忍者博人传的内容，可以使用代码，直接爬取漫画所有章节，效果如下所示：

短短了两分钟，这些图片就都保存好了，是不是体会到了分布式Scrapy爬虫的强大了？

4 总结

自己测试的时候，记住加个time.sleep(1)延时，否则说不定哪里爬快了，服务器就会锁IP了；
Scrapy的分布式爬取真的很强大，认真学习一下还是有必要的；
不要一味想着爬快点、爬快点、爬快点，为服务器考虑下；
程序请勿用于任何商业用途，仅供交流学习；
如有问题，请留言。如有错误，还望指正，谢谢！

最后感谢看我博客的朋友们，长久以来的支持~后续，爬虫教程可能就出的慢一些了，但是也会更新。过段时间，重点将会放在机器学习和深度学习方面，如有兴趣，欢迎届时前来捧场！

PS：如果觉得本篇本章对您有所帮助，欢迎关注、评论、顶！

你可能感兴趣的:(Python,Python3网络爬虫入门)

查看Python库依赖关系的解决方案爱编程的喵喵 Python基础课程 python 依赖关系
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了查看Python库依赖关系的解决方案
python网格交易法详解_什么是网格交易？一文教会你网格交易策略 weixin_39793319 python网格交易法详解
一、网格交易法设定价值中枢，利用“档位”的模式对投资标的进行机械式操作，下跌时，进行分档买入，上涨时，进行分档卖出。网格法由于不依赖人为的思考,完全是一种程序行为,像渔网一样,利用行情的波动在网格区间内低买高卖，可以合理控制仓位，避免追涨杀跌,拥有较强的抗风险能力。例如国外一个经典的仓位管理系统，某只蓝筹股现价10元，本金是20万。则第一次买入10万元，另外每下跌1元买入1万元，每上涨1元卖出1万
python 必备模块和包_Python_异常和模块 weixin_39616216 python 必备模块和包
异常处理单个异常处理：try:print(num)exceptNameError:print('没有定义变量')exceptFileNotFoundError:print('找不到文件路径')print(1)多个异常处理：try:print(num)#11/0#open('xxx.txt')except(NameError,FileNotFoundError,ZeroDivisionError):
用python写一个网格交易策略代码一曲歌长安 python 数据分析数据挖掘开发语言机器学习
网格交易策略的python代码大致如下：导入需要的库importpandasaspd加载数据data=pd.read_csv("data.csv")定义一个函数，用于计算最优买入和卖出价格defcalculate_optimal_buy_sell_price(data,grid_size):#计算最低价和最高价low_price=data['low'].min()high_price=data['
【Python学习之路】——Day20（Django 下） weixin_30758821 数据库 python javascript ViewUI
Model到目前为止，当我们的程序涉及到数据库相关操作时，我们一般都会这么搞：创建数据库，设计表结构和字段使用MySQLdb来连接数据库，并编写数据访问层代码业务逻辑层去调用数据访问层执行数据库操作importMySQLdbdefGetList(sql):db=MySQLdb.connect(user='root',db='wupeiqidb',passwd='1234',host='localh
Python编码系列—Python原型模式：深克隆与高效复制的艺术学步_技术 Python编码 python 原型模式开发语言
欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。探索专栏：学步_技术的首页——持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动
2.2.1.2-网格交易(python网格交易附实战交易记录) Kelvin写代码投资 python 投资网格交易交易记录实证
跳转到根目录：知行合一：投资篇已完成：1、投资&技术 1.1.1投资-编程基础-numpy 1.1.2投资-编程基础-pandas 1.2金融数据处理 1.3金融数据可视化2、投资方法论 2.1.1预期年化收益率 2.1.2一个关于y=ax+b的故事 2.1.3-数据标准化 2.1.4-相关性分析 2.2.1.1-一个关于定投的故(姿)事(势) 2.2.1.2-网格交易 2.
python记录项目的依赖信息：通辽汗国尚书令 python 开发语言
python记录项目的依赖信息：在项目目录下运行pipfreeze>requirements.txt命令。这会将项目所需的所有第三方包及其版本信息保存到名为requirements.txt的文件中。迁移项目文件夹：将包含项目文件的文件夹从原计算机复制到目标计算机上。安装依赖：在目标计算机上，确保已经安装了相应版本的Python。在项目文件夹下打开命令行或终端。运行pipinstall-rrequi
[Python]:热血传奇-Wzl，Wzx的解析游戏百晓生开发语言 python 数据结构
首先我们要了解,wzl与wzx的对应关系，wzx里面存的是每张二进制图片数据在wzl中的偏移量，所以取到wzx中的偏移数据就可以取到wzl每张图片数据，其实就这么简单。1[取wzx中偏移量数据]：以素材[hum.wzx]为例进行解析-读取前44字节为wzx头文件，对解析无作用不做处理-读取44至48字节代表为，[wzx中偏移值总数量][int类型][4字节]-读取48字节以后，每4个字节[int类
python -ssh学习大胖丫 python
defexe_sshcmd(ip,username,userpswd,port,cmd):"""功能：SSH登录到指定设备，并执行对应的命令入参：前四项为ssh登录shell的ip和port，具备管理员权限的用户名和密码，cmd可以是单条命令，也可以是命令列表返回：每次命令执行结果列表，标准输出结果，不包含错误输出Examples:|ExeSshcmd|ip|name|pswd|cmd|"""tr
《Python代码实战！基于鸿蒙系统开发智慧农业病虫害AI识别系统》 python
在科技赋能传统产业的大趋势下，智慧农业成为农业领域发展的新方向。病虫害识别是智慧农业的关键环节，借助AI技术实现精准的病虫害类目标签，能有效提升农作物的防护水平，降低损失。本文将详细介绍如何基于HarmonyOSNEXTAPI12及以上版本，使用Python开发用于智慧农业病虫害识别的AI类目标签功能，为开发者提供从理论到实践的全面指导。一、开发背景与技术原理在农业生产中，病虫害种类繁多，准确识别
python中安装使用pcl 业务不精er python pcl
这个参考官网的方法即可。我是安装完了使用pcl的时候总是提示找不到pclmodule，使用的是官网以下方法：（在condaprompt中分别执行以上命令）
PCL点云系列之如何使用 Python 从 ROS Bags 中提取和可视化彩色点云数据？自动驾驶汽车如何感知周围环境知识大胖 PCL点云Point Cloud系列教程 python 自动驾驶汽车
介绍您是否曾好奇过自动驾驶汽车如何感知周围环境，或者建筑物的3D模型是如何如此精确地创建的？答案就在于点云的魔力。这些密集的数据点集合通常由LiDAR或深度相机等传感器捕获，构成了机器人、3D建模和自动驾驶汽车等各种应用的支柱。但是，如果您不仅需要捕获几何形状，还需要保留这些点的颜色信息，该怎么办？在本文中，我们将深入研究一个Python脚本，该脚本从ROS（机器人操作系统）包中提取点云数据，同时
浅谈流媒体技术在无线网络中的应用 chenjie19891104 流媒体技术网络流媒体服务器服务器 internet h.264 路由器
原文地址：http://info.broadcast.hc360.com/2009/10/100913135646.shtml流媒体即媒体内容通过数据网络传送到客户端的同时，在客户端播放的一种机制。流媒体技术首先出现在固定网络通信中，在网络上传送音视频等多媒体信息的方法主要采用下载和流式两种传送方式。对于下载方式而言，由于大文件往往需要大量的存储容量，同时受到网络带宽的限制，下载常常会花数分钟甚至
安装Python_PCL点云库 FqLibrary python 开发语言点云
Python_PCL是Python语言的一个点云库，它提供了一组用于处理和分析点云数据的工具和函数。本文将介绍如何安装和配置Python_PCL点云库，并提供相应的源代码示例。Python_PCL的安装步骤如下：步骤1：安装依赖库在安装Python_PCL之前，我们需要先安装一些依赖库。打开终端或命令提示符，运行以下命令来安装依赖库：pipinstallnumpypipinstallctypesp
使用Windows系统进行Node.js离线安装 YOUFDJ windows node.js 编程
Node.js是一个基于ChromeV8引擎的JavaScript运行时，广泛用于服务器端开发。通常情况下，我们可以通过官方网站下载安装程序进行Node.js的安装，但有时候在没有网络连接的情况下，我们需要进行离线安装。本文将详细介绍如何在Windows系统下进行Node.js的离线安装。以下是进行Node.js离线安装的步骤：第一步：下载Node.js安装包首先，我们需要从官方网站或其他可信来源
ROS2入门教程—创建ROS2功能包（C++版） Roar冷颜 ROS2入门教程其他
ROS2入门教程—创建ROS2功能包（C++版）1ROS2中的功能包2创建功能包3编译功能包4设置环境变量5运行功能包6功能包中的内容7修改package.xml文件功能包是ROS2中组织代码的基本容器，方便我们编译、安装、分发开发的代码，一般来讲，每个功能包都是用来完成某项具体的功能相对完整的单元。1ROS2中的功能包 ROS2中的功能包可以使用CMake或者Python两种方式来编译（本
netty 与 websocket JIU_WW websocket 网络协议网络 netty java
目录1.Netty简介2.WebSocket简介3.Netty与WebSocket的关系3.1Netty对WebSocket的支持3.2两者的层级关系3.3常见误解澄清4.Netty的通用性体现4.1多协议支持4.2非WebSocket应用示5.选择Netty实现WebSocket的优势6.总结1.Netty简介Netty是一个高性能、异步事件驱动的网络应用框架，专为开发可扩展和高性能的服务器与客
Python 爱心烟花（Turtle 图形库）一一代码 python
importturtleimportrandomturtle.bgcolor("black")turtle.speed(0)turtle.hideturtle()defdraw_heart(x,y,size,color):turtle.penup()turtle.goto(x,y)turtle.pendown()turtle.color(color)turtle.begin_fill()turtl
跟我一起学Python数据处理（一百零三）之命令行参数解析与云服务应用 lilye66 python linux 开发语言
跟我一起学Python数据处理（一百零三）之命令行参数解析与云服务应用大家好！我写这系列博客的初衷是想和大家一起学习进步。在学习Python数据处理的过程中，我发现其中有很多有趣又实用的知识，所以迫不及待地想和大家分享。接下来，咱们就一起深入学习相关的知识点。一、Python命令行参数解析在Python编程里，有时候我们希望通过命令行给脚本传递额外信息，让脚本根据这些信息执行不同任务。比如有个数据
Python的那些事第三十六篇：基于 Vega 和 Vega-Lite 的数据可视化解决方案，Altair 声明式可视化库暮雨哀尘 Python的那些事信息可视化 python Altair 声明式可视化 Matplotlib
Altair声明式可视化库：基于Vega和Vega-Lite的数据可视化解决方案摘要在数据科学和分析领域，有效的数据可视化是理解数据、发现模式和传达见解的关键。Python作为数据科学的主要编程语言之一，提供了多种数据可视化库。其中，Altair是一个基于Vega和Vega-Lite的声明式可视化库，以其简洁的语法和强大的功能而受到广泛关注。本文将详细介绍Altair的基本概念、特点、安装与配置、
写一个敲木鱼的程序 weixin_45995698 python python
要编写一个敲木鱼的程序，你可以使用Python语言，结合pygame库来处理图形和声音。以下是一个简单的Python程序示例，它实现了点击木鱼并播放声音的功能：importpygameimportrandomimporttime#初始化pygamepygame.init()#设置屏幕大小和标题screen_width=800screen_height=600screen=pygame.displa
转行测试自学笔记：PYTHON基础（运算符和表达式）转码之路笔记
二、运算符和表达式（一）赋值运算符常用赋值运算符：=：基本赋值+=：加法赋值-=：减法赋值*=：乘法赋值/=：除法赋值//=：整除赋值**=：幂赋值示例：#基础赋值a=1#复合赋值运算a+=1#等价于a=a+1a-=1#等价于a=a-1a*=2#等价于a=a*2（二）算术运算符常用算术运算符：+：加法-：减法*：乘法/：除法%：取余//：整除**：幂运算（指数）示例：3/2#结果为1.5（真除法，
DPU：数据中心与计算架构的革新引擎 wljslmz 网络技术 DPU
你好，这里是网络技术联盟站，我是瑞哥。随着计算领域的蓬勃发展，数据处理单元（DPU）正崭露头角，成为重新定义数据中心和计算架构未来的关键元素。在这个数字化潮流中，DPU作为一种全新的数据处理方式，引领着计算技术的进步，为各行各业带来了前所未有的机遇。DPU的出现并非偶然，而是对日益增长的数据处理需求的有力回应。在传统计算架构中，中央处理单元（CPU）和图形处理单元（GPU）扮演着重要的角色，但随着
【Python】在Windows下配置Python最小环境并在React执行Python脚本非晓为骁 python python windows react.js
最近我在开发一个Electron桌面应用时，需要调用Python脚本进行音频处理。这篇文章将分享我配置Python环境以及在项目中调用Python脚本的经验，希望能帮助遇到类似问题的开发者。【这个用法来调用不是最优解】问题背景我需要在Electron项目中调用Python脚本进行音频分析。我的方案是在应用中内置一个精简的Python环境，然后直接调用python.exedetect.py命令来执行
前沿计组知识入门（二） tianyunlinger 计组人工智能笔记
第2页：并行计算与编程硬件：多处理器多内存互连网络系统软件：并行操作系统用于表达和协调并发的编程构造应用软件：并行算法目标：利用硬件、系统和应用软件实现加速（速度提升）：Tp=TspT_p=\frac{T_s}{p}Tp=pTs解决需要大量内存的问题第3页：并行算法/公式化并行公式化：并行化串行算法。并行算法：可能与串行算法完全不同。重点：主要讨论如何开发并行公式化。也会涉及一些非串行算法的并行例
用Python的PyWin32库，一键自动化Word文档处理！忆愿 Python编程的脉动之声 python 自动化 word 人工智能机器学习 opencv 计算机视觉
你好，我是忆~遂愿，全网4w+粉丝，《遂愿盈创》社群主理人。副业启航①|遂愿盈创（对副业感兴趣免费可入，多种赚钱实战项目等你来，一起探寻副业快速变现的途径；以及对接互联网大厂商务合作，一起来搞点小外快，认识更多互联网大咖）目前群里已经带很多小伙伴（大部分大学生）变现几百块啦，程序员搞副业有额外加成~对副业感兴趣可+V:suiyuan2ying拉你进群。办公自动化是每个程序员都绕不开的话题。写代码归
python的config模块的使用 Mo-莫林 python windows linux
config.py#参数options={"port":8080,"list":["good","nice","handsome"]}#配置importconfigif__name__=="__main__":print(config)print(type(config.options))print(config.options)print("list=",config.options.keys(
图神经网络实战（9）——GraphSAGE详解与实现盼小辉丶图神经网络从入门到项目实战图神经网络 GNN pytorch
图神经网络实战（9）——GraphSAGE详解与实现0.前言1.GraphSAGE原理1.1邻居采样1.2聚合2.构建GraphSAGE模型执行节点分类2.1数据集分析2.2构建GraphSAGE模型3.PinSAGE小结系列链接0.前言GraphSAGE是专为处理大规模图而设计的图神经网络(GraphNeuralNetworks,GNN)架构。在科技行业，可扩展性是推动系统增长的关键驱动力。因此
mac homebrew安装失败 jojo付啾啾 git homebrew homebrew安装失败
machomebrew安装失败参考：https://www.zhihu.com/question/35928898亲测有效：如果是brew安装的网络问题，提供一个解决办法：原因是目前GitHub的gist访问不了，所以获取不到安装的脚本文件。我把该脚本文件上传到了giteegist托管平台，执行下面的脚本就可以安装了。/usr/bin/ruby-e"$(curl-fsSLhttps://gitee
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文