爱做呢!~

scrapy框架爬取虎扑论坛球队新闻

Scrapy 框架

制作 Scrapy 爬虫一共需要4步：

Scrapy的安装介绍

Windows 安装方式

一. 新建项目(scrapy startproject)

二、明确目标(mySpider/items.py)

三、制作爬虫（spiders/itcastSpider.py）

1. 爬数据

2. 取数据

Item Pipeline

编写pipeline.py

用python爬虫scrapy框架爬取虎扑论坛的30支球队新闻

Scrapy 框架

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。
框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。
Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。

制作 Scrapy 爬虫一共需要4步：

新建项目 (scrapy startproject xxx)：新建一个新的爬虫项目
明确目标（编写items.py）：明确你想要抓取的目标
制作爬虫（spiders/xxspider.py）：制作爬虫开始爬取网页
存储内容（pipelines.py）：设计管道存储爬取内容

Scrapy的安装介绍

Scrapy框架官方网址：http://doc.scrapy.org/en/latest

Scrapy中文维护站点：http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html

Windows 安装方式

Python 2 / 3
升级pip版本：pip install --upgrade pip
通过pip 安装 Scrapy 框架pip install Scrapy

一. 新建项目(scrapy startproject)

在开始爬取之前，必须创建一个新的Scrapy项目。进入自定义的项目目录中，运行下列命令：

     scrapy startproject HupuSpider

其中， HupuSpider为项目名称(自定义)，可以看到将会创建一个 HupuSpider文件夹，目录结构大致如下：

下面来简单介绍一下各个主要文件的作用：

scrapy.cfg ：项目的配置文件

mySpider/ ：项目的Python模块，将会从这里引用代码

mySpider/items.py ：项目的目标文件

mySpider/pipelines.py ：项目的管道文件

mySpider/settings.py ：项目的设置文件

mySpider/spiders/ ：存储爬虫代码目录

二、明确目标(mySpider/items.py)

我们打算抓取：https://voice.hupu.com/nba 网站里的30支球队新闻内容以及新闻配图。

打开mySpider目录下的items.py
Item 定义结构化数据字段，用来保存爬取到的数据，有点像Python中的dict，但是提供了一些额外的保护减少错误。
可以通过创建一个 scrapy.Item 类，并且定义类型为 scrapy.Field的类属性来定义一个Item（可以理解成类似于ORM的映射关系）。
接下来，创建一个HupuSpiderItem类，和构建item模型（model）。

    class HupuspiderItem(scrapy.Item):
        # 球队名称
        teamname = scrapy.Field()
        # 球队url
        teamurl = scrapy.Field()
        # 新闻标题
        newstitle=scrapy.Field()
        # 新闻链接
        newsurl=scrapy.Field()
        # 新闻内容
        content=scrapy.Field()
        # 新闻配图url
        imageurl=scrapy.Field()

三、制作爬虫（spiders/itcastSpider.py）

爬虫功能要分两步：

1. 爬数据

在当前目录下输入命令，将在mySpider/spider目录下创建一个名为nba_news的爬虫，并指定爬取域的范围：

    scrapy genspider nba_news "hupu.com"

打开 mySpider/spider目录里的 nba_news.py，默认增加了下列代码:

import scrapy

    class NbaNewsSpider(scrapy.Spider):
        name = "nba_news"
        allowed_domains = ["hupu.com"]
        start_urls = (
            'https://www.hupu.com/',
        )

        def parse(self, response):
            pass

其实也可以由我们自行创建itcast.py并编写上面的代码，只不过使用命令可以免去编写固定代码的麻烦

要建立一个Spider，你必须用scrapy.Spider类创建一个子类，并确定了三个强制的属性和一个方法。

name = "" ：这个爬虫的识别名称，必须是唯一的，在不同的爬虫必须定义不同的名字。
allow_domains = [] 是搜索的域名范围，也就是爬虫的约束区域，规定爬虫只爬取这个域名下的网页，不存在的URL会被忽略。
start_urls = () ：爬取的URL元祖/列表。爬虫从这里开始抓取数据，所以，第一次下载的数据将会从这些urls开始。其他子URL将会从这些起始URL中继承性生成。
parse(self, response) ：解析的方法，每个初始URL完成下载后将被调用，调用的时候传入从每一个URL传回的Response对象来作为唯一参数，主要作用如下：
1. 负责解析返回的网页数据(response.body)，提取结构化数据(生成item)
2. 生成需要下一页的URL请求。

将start_urls的值修改为需要爬取的第一个url

start_urls=['https://voice.hupu.com/nba/']

修改parse()方法

    def parse(self, response):
        items=[]

        result=response.xpath('/html/body/div[2]/div/div[3]/div[2]/div[1]/ul')

        # 球队队名
        team=result.xpath('.//li/a/text()').extract()
        allteam=team[:-1]
        team=result.xpath('.//li[last()]/div/a/text()').extract()
        allteam.extend(team)

        # 球队url
        teamurl = result.xpath('.//li/a/@href').extract()
        allteamurl = teamurl[:-1]
        teamurl = result.xpath('.//li[last()]/div/a/@href').extract()
        allteamurl.extend(teamurl)

        # 爬取所有的球队
        for i in range(0,len(allteam)):
            item = HupuspiderItem()

            # 指定存储目录+球队名字
            teamFilename="./虎扑新闻/"+allteam[i]

            # 如果目录不存在，则创建目录
            if (not os.path.exists(teamFilename)):
                os.makedirs(teamFilename)

            item['teamname']=allteam[i]
            item['teamurl']=allteamurl[i]

            items.append(item)

        #发送每个球队url的Request请求，得到Response连同包含meta数据
        # 一同交给回调函数 second_parse 方法处理
        for item in items:
            for i in range(1,2):
                tempurl = item['teamurl'].replace('.html','')
                teamurl = tempurl + '-' + str(i) + '.html'
                yield scrapy.Request( url = teamurl, meta={'meta_1': item}, callback=self.second_parse)

    # 对每支球队的url进行爬取
    def second_parse(self,response):
        items=[]

        # 提取每次Response的meta数据
        meta_1 = response.meta['meta_1']

        # 提取每支球队的所有新闻url
        allurl = response.xpath('//html/body/div[3]/div[1]/div/div[@class="list"]/div/div/span/a/@href').extract()
        # 提取每支球队的所有新闻标题
        alltitle = response.xpath('//html/body/div[3]/div[1]/div/div[@class="list"]/div/div/span/a/text()').extract()

        for i in range(0, len(alltitle)):
            item=HupuspiderItem()
            item['teamname'] = meta_1['teamname']
            item['teamurl'] = meta_1['teamurl']
            item['newstitle'] = alltitle[i]
            item['newsurl'] = allurl[i]

            items.append(item)

            # 指定存储目录+球队名字+新闻标题文件夹
            newsFilename =  "./虎扑新闻/"+item['teamname']+'/' + alltitle[i]

             # 如果目录不存在，则创建目录
            if (not os.path.exists(newsFilename)):
                os.makedirs(newsFilename)

        # 发送每个新闻链接url的Request请求，得到Response后连同包含meta数据
        # 一同交给回调函数 detail_parse 方法处理
        for item in items:
            yield scrapy.Request(url=item['newsurl'], meta={'meta_2': item}, callback=self.detail_parse)

    def detail_parse(self,response):
        item = response.meta['meta_2']
        content = ""
        # 提取所有p标签里的文本内容
        content_list = response.xpath('//html/body/div[4]/div[1]/div[2]/div/div[2]/p/text()').extract()
        # 提取配图url
        imageurl = response.xpath('/html/body/div[4]/div[1]/div[2]/div/div[1]/img/@src').extract()

        # 将p标签里的文本内容合并到一起
        for content_one in content_list:
            content += content_one
            content +="\n"

        item['content'] = content
        item['imageurl'] = imageurl
        # 将获取的数据交给pipelines
        yield itemdef parse(self, response):
        items=[]

        result=response.xpath('/html/body/div[2]/div/div[3]/div[2]/div[1]/ul')

        # 球队队名
        team=result.xpath('.//li/a/text()').extract()
        allteam=team[:-1]
        team=result.xpath('.//li[last()]/div/a/text()').extract()
        allteam.extend(team)

        # 球队url
        teamurl = result.xpath('.//li/a/@href').extract()
        allteamurl = teamurl[:-1]
        teamurl = result.xpath('.//li[last()]/div/a/@href').extract()
        allteamurl.extend(teamurl)

        # 爬取所有的球队
        for i in range(0,len(allteam)):
            item = HupuspiderItem()

            # 指定存储目录+球队名字
            teamFilename="./虎扑新闻/"+allteam[i]

            # 如果目录不存在，则创建目录
            if (not os.path.exists(teamFilename)):
                os.makedirs(teamFilename)

            item['teamname']=allteam[i]
            item['teamurl']=allteamurl[i]

            items.append(item)

        #发送每个球队url的Request请求，得到Response连同包含meta数据
        # 一同交给回调函数 second_parse 方法处理
        for item in items:
            for i in range(1,2):
                tempurl = item['teamurl'].replace('.html','')
                teamurl = tempurl + '-' + str(i) + '.html'
                yield scrapy.Request( url = teamurl, meta={'meta_1': item}, callback=self.second_parse)

    # 对每支球队的url进行爬取
    def second_parse(self,response):
        items=[]

        # 提取每次Response的meta数据
        meta_1 = response.meta['meta_1']

        # 提取每支球队的所有新闻url
        allurl = response.xpath('//html/body/div[3]/div[1]/div/div[@class="list"]/div/div/span/a/@href').extract()
        # 提取每支球队的所有新闻标题
        alltitle = response.xpath('//html/body/div[3]/div[1]/div/div[@class="list"]/div/div/span/a/text()').extract()

        for i in range(0, len(alltitle)):
            item=HupuspiderItem()
            item['teamname'] = meta_1['teamname']
            item['teamurl'] = meta_1['teamurl']
            item['newstitle'] = alltitle[i]
            item['newsurl'] = allurl[i]

            items.append(item)

            # 指定存储目录+球队名字+新闻标题文件夹
            newsFilename =  "./虎扑新闻/"+item['teamname']+'/' + alltitle[i]

             # 如果目录不存在，则创建目录
            if (not os.path.exists(newsFilename)):
                os.makedirs(newsFilename)

        # 发送每个新闻链接url的Request请求，得到Response后连同包含meta数据
        # 一同交给回调函数 detail_parse 方法处理
        for item in items:
            yield scrapy.Request(url=item['newsurl'], meta={'meta_2': item}, callback=self.detail_parse)

    def detail_parse(self,response):
        item = response.meta['meta_2']
        content = ""
        # 提取所有p标签里的文本内容
        content_list = response.xpath('//html/body/div[4]/div[1]/div[2]/div/div[2]/p/text()').extract()
        # 提取配图url
        imageurl = response.xpath('/html/body/div[4]/div[1]/div[2]/div/div[1]/img/@src').extract()

        # 将p标签里的文本内容合并到一起
        for content_one in content_list:
            content += content_one
            content +="\n"

        item['content'] = content
        item['imageurl'] = imageurl
        # 将获取的数据交给pipelines
        yield item

2. 取数据

这个项目运用的是XPath提取数据。

 result=response.xpath('/html/body/div[2]/div/div[3]/div[2]/div[1]/ul')

        # 球队队名
        team=result.xpath('.//li/a/text()').extract()
        allteam=team[:-1]
        team=result.xpath('.//li[last()]/div/a/text()').extract()
        allteam.extend(team)

        # 球队url
        teamurl = result.xpath('.//li/a/@href').extract()
        allteamurl = teamurl[:-1]
        teamurl = result.xpath('.//li[last()]/div/a/@href').extract()
        allteamurl.extend(teamurl)result=response.xpath('/html/body/div[2]/div/div[3]/div[2]/div[1]/ul')

        # 球队队名
        team=result.xpath('.//li/a/text()').extract()
        allteam=team[:-1]
        team=result.xpath('.//li[last()]/div/a/text()').extract()
        allteam.extend(team)

        # 球队url
        teamurl = result.xpath('.//li/a/@href').extract()
        allteamurl = teamurl[:-1]
        teamurl = result.xpath('.//li[last()]/div/a/@href').extract()
        allteamurl.extend(teamurl)

        # 提取每支球队的所有新闻url
        allurl = response.xpath('//html/body/div[3]/div[1]/div/div[@class="list"]/div/div/span/a/@href').extract()
        # 提取每支球队的所有新闻标题
        alltitle = response.xpath('//html/body/div[3]/div[1]/div/div[@class="list"]/div/div/span/a/text()').extract()

# 提取所有p标签里的文本内容
        content_list = response.xpath('//html/body/div[4]/div[1]/div[2]/div/div[2]/p/text()').extract()
        # 提取配图url
        imageurl = response.xpath('/html/body/div[4]/div[1]/div[2]/div/div[1]/img/@src').extract()

我们之前在mySpider/items.py 里定义了一个HupuspiderItem类。这里引入进来

from HupuSpider.items import HupuspiderItem

然后将我们得到的数据封装到一个 HupuspiderItem对象中，可以保存每条新闻的属性：

item = HupuspiderItem()

设置setting.py(配置参数)：

BOT_NAME = 'HupuSpider'

SPIDER_MODULES = ['HupuSpider.spiders']
NEWSPIDER_MODULE = 'HupuSpider.spiders'

# 函数的执行顺序，序号越小，优先级越高
ITEM_PIPELINES = {
   'HupuSpider.pipelines.HupuspiderPipeline': 1,
   'HupuSpider.pipelines.HupuImagesPipeline':2,
}
LOG_LEVEL='DEBUG'
ROBOTSTXT_OBEY = True

# Images 的存放位置，之后会在pipelines.py里调用
IMAGES_STORE='E:/学习Python/HupuSpider/HupuSpider/虎扑新闻'

Item Pipeline

当Item在Spider中被收集之后，它将会被传递到Item Pipeline，这些Item Pipeline组件按定义的顺序处理Item。

每个Item Pipeline都是实现了简单方法的Python类，比如决定此Item是丢弃而存储。以下是item pipeline的一些典型应用：

验证爬取的数据(检查item包含某些字段，比如说name字段)
查重(并丢弃)
将爬取结果保存到文件或者数据库中

编写pipeline.py

from scrapy.pipelines.images import ImagesPipeline
from scrapy.utils.project import get_project_settings
import scrapy
import os

class HupuspiderPipeline(object):
    def process_item(self, item, spider):
        # 新闻标题作为文件夹名字
        filename = item['newstitle']
        filename += ".txt"

        # 每条新闻放到对应的球队文件夹中
        savepath='虎扑新闻'+'/'+item['teamname']+'/'+ item['newstitle'] +'/'+filename
        fp = open(savepath, 'w',encoding='utf-8')
        fp.write(item['content'])
        fp.close()

        return item

class HupuImagesPipeline(ImagesPipeline):
    IMAGES_STORE = get_project_settings().get("IMAGES_STORE")

    def get_media_requests(self, item, info):
        image_url = item["imageurl"]
        yield scrapy.Request(image_url[0])

    def item_completed(self, results, item, info):
        # 固定写法，获取图片路径，同时判断这个路径是否正确，如果正确，
        # 就放到 image_path里，ImagesPipeline源码剖析可见
        image_path = [x["path"] for ok, x in results if ok]

        # 每张新闻配图放到对应的球队文件夹中
        os.rename(self.IMAGES_STORE + "/" + image_path[0],
                  self.IMAGES_STORE + "/" + item["teamname"] + "/" + item["newstitle"] + "/" + item[
                      "newstitle"] + ".jpg")

        return item

    #get_media_requests的作用就是为每一个图片链接生成一个Request对象，
    # 这个方法的输出将作为item_completed的输入中的results，
    # results是一个元组，每个元组包括(success, imageinfoorfailure)。
    # 如果success=true，imageinfoor_failure是一个字典，
    # 包括url/path/checksum三个key。

在项目根目录下新建main.py文件,用于调试

from scrapy import cmdline
cmdline.execute('scrapy crawl douyu'.split())

运行程序后会自动生成一个"虎扑新闻"文件夹

双击打开"虎扑新闻"文件夹，对nba 30支球队进行了分类

双击打开"雷霆"新闻文件夹

双击打开第一条新闻"被问及若加盟湖人会不会兴奋？乔治：下一个问题",文件夹里面是新闻配图和新闻内容文本

打开文本就是我们所要的新闻内容

这是从虎扑网页截取的相同新闻配图和新闻内容，我们已经完成了需求

VSCode python 遇到的问题：vscode can't open file '': [Errno 2] No such file or dire... weixin_33984032 python 开发工具 json
代码很简单，就两行：importpandasaspdimportnetCDF4asncdataset=nc.Dataset('20150101.nc')环境：在VSCode中左下角把原环境的Python3.6.532-bit切换为Anaconda中的Python3.6.564-bit('base':conda)过程中有两种错误：（忘记截图了，都是历史记录中的google网页搜索栏找到的搜索记录）1
【测试工程师必备！】VS Code好用插件FastPytestRunner 花小田 pytest vscode
你是否还在为PythonTestExplorerforVisualStudioCode以下痛点焦头烂额？•测试扫描慢到怀疑人生，每次启动都要等待5分钟•调试时总是找不到断点入口，配置项复杂到崩溃•传统测试工具无法满足大规模测试需求•每次切换项目都要重新配置测试环境FastPytestRunner——专为测试工程师量身打造的极速测试利器来了！️实战进阶技巧：✅配置黄金法则：{"pytestRunne
如何用 Python 实现树结构不辉放弃 python 开发语言
一、树结构基础认知1.1树的四大特征层级关系：父子节点的从属关系唯一根节点：访问起点无循环：从根到叶的路径不形成环N叉分支：每个节点可有多个子节点1.2核心组件解析classTreeNode:def__init__(self,data):self.data=data#节点存储的数据self.children=[]#子节点容器（多叉树特性）defadd_child(self,node):self.c
Python 用户账户(让用户拥有自己的数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
Python 用户账户(让用户能够输入数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
安卓编译安装python_一文了解如何在安卓系统上安装Pydroid 3并进行编码 weixin_39916681 安卓编译安装python
由于Pydroid3集成开发环境(IDE)，因此可以用Python进行可移植的编码。Pydroid是Python3的极简解释器，可让您执行较小的项目并在Android设备上进行最少的编码。如果您还想在没有PC的任何地方学习Python编程，同时在Android上为Python复制PC平台，那么Pydroid3是一个不错的应用程序。无论您是Python编程的新手还是专家，让我们看看使用Pydroid
python为什么需要文本编辑器-推荐几款高效的Python文本编辑器| 高效的文本编辑器的特点是什么... weixin_39991305
我们都知道程序员花费大量的时间在编写、阅读和编辑代码上，因此一定要使用高效的文本编辑器才能够提高并很好的完成工作的效率和保证工作的质量。什么是高效的文本编辑器呢？除了自己用的得心应手外，小编认为还应该包含以下几个特点：·突出代码的结构，让你在编写代码时就能够发现常见的bug；·包含自动缩进功能；·显示代码长度的标志；·用于执行常见操作的快捷键；如果你是编程新手小白，小u非常建议你使用具备上述功能而
一文读懂Python列表（5）跟着杰哥学Python python
列表让你能够在一个地方存储成组的信息，其中可以只包含几个元素，也可以包含数百万个元素，列表是新手可直接使用的最强大的Python功能之一。一、列表是什么1.列表由按顺序排列的元素组成，用[]表示列表，用逗号分隔元素2.举例：bicycles=['trek','cannondale','redline','specialized']二、列表的索引1.第一个列表元素的索引为0，而不是12.举例：三、访
一文读懂Python异常（16）跟着杰哥学Python python
Python程序执行期间发生的错误叫做异常，如果你编写了处理异常的代码，程序将继续执行；如果未编写处理异常的代码，程序将停止，并返回一条traceback，其中包含异常的报告。通常使用try-except代码块来处理异常。一、try-except代码块1、如果try代码块的代码运行起来没问题，则跳过except代码块；如果try代码块的代码导致了错误，则运行except代码块。2、举例二、try-
一文读懂Python之random模块（31）跟着杰哥学Python python
random模块是Python的内置标准库，用于生成各类随机数，可以用作生成网站初始登录密码和随机验证码。一、random模块简介random模块可以生成随机数，包括随机整数、浮点数、随机元素等。二、random模块相关概念随机数：是指在一定范围内随机产生的数，每个数被选中的概率相等。随机数最重要的特性是其后产生的数与前面的数毫无关系，即随机性、不可预测性和不可重现性。三、random模块常用方法
应用-构建并优化 Python 的 Rust 扩展李星星BruceL 自动化测试 python rust 开发语言
目录构建并优化Python的Rust扩展如果你的Python代码运行速度不够快，你可以选择使用编译语言来编写更快的扩展。本文将重点介绍Rust，它具有以下优势：现代工具链，包括名为crates.io的包仓库和内置的构建工具（cargo）。出色的Python集成和工具支持。Rust的Python支持包是PyO3。对于打包，你可以使用setuptools-rust来与现有的setuptools项目集成
超详细Python教程——初识Python 月流霜 python 数据库服务器
初识Python温馨提示：2018年创建这个仓库的时候，关于Python语言基础这个部分的内容写得相对是比较粗糙，对粗学者可能不是那么友好。如果你正好是一名初学者，建议你移步到我的另一个仓库Python-for-Freshmen-2023，这个仓库对初学者更加友好，对应的内容，大家也可以在我的知乎专栏“从零开始学Python”中找到，点击进入传送门。Python简介Python的历史1989年圣诞
Python自制文本编辑器 Xiaoqing461 python 开发语言
Python自制文本编辑器。随便写的半成品fromtkinterimport*fromtkinterimportfiledialog,messageboxclassFindWindow:def__init__(self,parent):self.parent=parentself.find_window=Toplevel(parent)self.find_window.title("Find")s
【地图 Map3d】——2 花花 Show Python pyecharts—从0到精通信息可视化数据分析 python
解锁数据可视化的魔法钥匙——pyecharts实战指南在这个数据为王的时代，每一次点击、每一次交易、每一份报告背后都隐藏着无尽的故事与洞察。但你是否曾苦恼于如何将这些冰冷的数据转化为直观、吸引人的视觉盛宴？欢迎来到《pyecharts图形绘制大师班》在这里，你将不再受限于单调的表格和图表，而是学会如何运用pyecharts这一强大的Python数据可视化库，将复杂的数据转化为令人惊叹的交互式图形。
python垃圾分类游戏_垃圾分类就要来了？教你使用Python轻松完成垃圾分类 weixin_39627390 python垃圾分类游戏
从7月1日起，上海市正式实施《上海市生活垃圾管理条例》。条例规定，个人混合投放垃圾今后可最高罚200元，单位混装混运，最高可罚至5万元，而且违规还将会列入征信，堪称“史上最严垃圾分类措施”。相信最近一段时间大家已经被上海的小伙伴们因为垃圾分类的困扰而刷屏了，就在大家还在一片“与我无瓜”中暗自庆幸时，现实给了我们一击：该来的总要来，谁都逃不过去。其实，在我国垃圾分类的举措要从2000年开始，但效果并
灰狼优化算法（Grey Wolf Optimization, GWO）及其 Python 代码追蜻蜓追累了算法 python github pycharm jupyter matlab numpy
灰狼优化算法（GreyWolfOptimization,GWO）是一种基于灰狼社会行为觅食过程而设计的优化算法。其基本原理是模拟灰狼群体中个体的协作和竞争行为，以迭代更新的方式寻找最优解。灰狼优化算法涉及三种灰狼的角色：alpha（α）、beta（β）和delta（δ），它们分别代表群体中的优势个体。算法包括初始化灰狼位置、计算适应度值、更新灰狼位置等步骤。以下是一个简单的Python示例代码，实
编译QT5.15.2 qtwebengine模块以支持mp4 m0_74822999 qt 开发语言
由于版权限制，Qt官方无法在其二进制包中提供某些解码器，这导致QtWebEngine无法支持一些常见的视频格式（如MP4）。为了解决这一问题，我们可以通过重新编译QtWebEngine来集成所需的解码器一、编译准备1.获取源码qtwebengine-everywhere-src-5.15.2.zip2.编译环境Python2.7.5:Python2.7.5Perl:StrawberryPerlfo
Python多进程Logging ftpeak Python python linux 开发语言 logging
多个进程的logging向同一个.log文件写入是一套Python程序被多次启动时（多进程启动）无法回避的问题。一个进程的程序正在向.log文件写入的同时，另一个进行启动的程序也需要向同一个.log文件写入，会产生异常吗？答案是：会的！直接写入存在的问题如果多个进程直接使用Python的logging模块向同一个文件写入日志，可能会出现日志内容混乱、数据丢失等问题。这是因为多个进程同时访问和修改文
Tenacity（Python的坚韧重试库） ftpeak Python python 开发语言网络爬虫
概述Tenacity是一个基于Apache2.0协议的通用重试库，用Python编写，旨在简化向任何代码添加重试逻辑的过程。它起源于已停止维护的retrying库的分叉版本。Tenacity不兼容retrying的API，但新增了大量功能并修复了长期存在的错误。文档：Tenacity—Tenacitydocumentation主页：https://github.com/jd/tenacity核心功
Pyhton安装PyQT6 三口一个桃 python pyqt
Windows系统使用CMD命令安装，对于系统中有多个版本python的，在安装pyqt6/pyqt5时需要针对每个python版本单独安装。安装准备过程：①Win+R打开CMD命令行窗口②输入命令：python--version查看当前python版本是否是自己需要安装pyqt6/5的的版本，若是则执行第③步，若不是则执行下述操作：打开电脑环境变量设置(自行百度)--点击系统变量中的Path项-
WHAM 人体3d重建部署笔记 AI算法网奇深度学习宝典 3d 笔记
目录依赖项：mmpose的依赖项：demo脚本WHAM:ReconstructingWorld-groundedHumanswithAccurate3DMotion2024依赖项：pipinstallmmposemmpose的依赖项：mmcv>=2.0.0,=3.0.0,=0.4.0,<1.0.0demo脚本Youcantrywithoneexamplarvideo:pythondemo.py--
探索未来技术前沿：FastAPI火箭-boilerplate，打造高性能API的超级引擎！黎杉娜Torrent
探索未来技术前沿：FastAPI火箭-boilerplate，打造高性能API的超级引擎！fastapi-rocket-boilerplateFastAPIRocketBoilerplatetobuildanAPIbasedinPythonwithitsmostmoderntechnologies!项目地址:https://gitcode.com/gh_mirrors/fa/fastapi-roc
Python Flask教程 cunchi4221 python java web ajax vue ViewUI
WelcometoPythonFlasktutorial.Inpreviouslessonwehavelearntaboutpythonlambda.PythonflaskisanAPIthathelpsustobuildwebbasedapplicationinpython.Let’sgetstartedwithpythonflasktutorialforbeginnersnow.欢迎使用Pyt
python --桌面开发pyqt安装（mac 环境） Xiao_Qiang_ python
纪录下，在安装pyqt的时候花了些时间，现在纪录下参考http://www.noktec.be/python/how-to-install-pyqt4-on-osx步骤DownloadtheSIPpackage(snapshotforOSx)DownloadthePyQtpackage(snapshotforOSx)DownloadQtInstallQtInstallSIPInstallPyQta
python flask 使用教程快速搭建一个 Web 应用莫忘初心丶 python flask 前端
目录一、Flask简介二、Flask安装三、创建一个简单的Flask应用四、Flask路由与视图五、接收和处理用户输入六、模板引擎Jinja2七、Flask与数据库八、总结一、Flask简介Flask是一个轻量级的PythonWeb框架，旨在帮助开发者快速搭建Web应用。相比于Django等重量级框架，Flask更加简洁和灵活，非常适合用于小型Web项目的开发，甚至可以用于构建RESTfulAPI
深入理解Python闭包与递归：原理、应用与实践 Multiple-ji python 开发语言
目录闭包什么是闭包：闭包的基本结构：实现闭包的条件：1.嵌套函数2.内函数引用外部函数的变量3.外部函数返回内部函数4.外部函数已经执行完毕递归函数什么是递归函数：递归函数条件1.必须有个明确的结束条件———递归出口2.每进行更深一步的递归，问题规模相比上一次递归都要有所减少3.相邻两次重复之间有紧密联系分析一下这段代码1.函数定义：2.基准条件（BaseCase）3.递归条件（Recursive
【python】11. 输入输出 lmk565 python 开发语言
11.输入输出Python两种输出值的方式:表达式语句和print()函数。第三种方式是使用文件对象的write()方法，标准输出文件可以用sys.stdout引用。如果你希望输出的形式更加多样，可以使用str.format()函数来格式化输出值。如果你希望将输出的值转成字符串，可以使用repr()或str()函数来实现。str()：函数返回一个用户易读的表达形式。repr()：产生一个解释器易读
使用Python和Django构建支持多语言的博客网站程序员～小强 python django sqlite
随着互联网的发展,博客已经成为人们获取信息和分享想法的重要平台。但是不同国家和地区的用户语言各异,这给博客的国际化带来了挑战。本文将介绍如何使用Python和Django这两个强大的Web开发框架,来构建一个支持多语言的博客网站。Django框架概述Django是一个开源的Web应用框架,由Python写成。它鼓励快速开发和干净的设计。通过提供大量常用组件,Django可以更快地构建高质量的Web
python pip及常用国内镜像源 sunny05296 python python pip 开发语言
pip常用国内镜像源pip默认从国外的python下载会很慢，建议使用一些国内的镜像源，常用的国内镜像源如下：#清华镜像源https://pypi.tuna.tsinghua.edu.cn/simple#中科大镜像源https://pypi.mirrors.ustc.edu.cn/simple#阿里云镜像源https://mirrors.aliyun.com/pypi/simplepip安装组件时
零基础上手Python数据分析 (7)：Python 面向对象编程初步 kakaZhui python 数据分析 excel
写在前面回顾一下，我们已经学习了Python的基本语法、数据类型、常用数据结构和文件操作、异常处理等。到目前为止，我们主要采用的是面向过程(ProceduralProgramming)的编程方式，即按照步骤一步一步地编写代码，解决问题。这种方式对于简单的任务已经足够，但当程序变得越来越复杂，代码量越来越大时，面向过程编程可能会显得力不从心，代码难以组织、复用和维护。代码复杂性带来的挑战：面向过程v
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

scrapy框架爬取虎扑论坛球队新闻

Scrapy 框架

制作 Scrapy 爬虫 一共需要4步：

Scrapy的安装介绍

Windows 安装方式

一. 新建项目(scrapy startproject)

二、明确目标(mySpider/items.py)

三、制作爬虫 （spiders/itcastSpider.py）

1. 爬数据

2. 取数据

Item Pipeline

编写pipeline.py

你可能感兴趣的:(python,scrapy,爬虫)

制作 Scrapy 爬虫一共需要4步：

三、制作爬虫（spiders/itcastSpider.py）