weixin_42280639

python实现网络爬虫之scrapy框架

今天老师给我们讲了一下使用vscode环境下python实现爬取豆瓣电影网的信息，老师用的python是3.6.5，而我用的是3.6.4，但是结果没有什么不同。

准备工作：（1）先安装好python，我的电脑是安装的python3.6.4，安装python时第一步记得勾选添加路径 Add python3.6 to PATH....，如果安装成功后就可以在cmd运行 python -v就可以查看到是否安装成功。

（2）接下来在进行 Python在Windows系统中的开发环境搭建，使用 pip list命令可以查看当前模块库中已经安装的所有外部模块指令。

（3）Python3.6.5在安装时默认选中的Pip模块管理组件。 setuptools 和 wheel 两个组件都是Python安装第三方模块库的依赖工具组件。目前 Python3.6.5默认安装的pip 和 setuptools均为最新版本，但wheel模块需手动安装。建议安装Python的外部管理模块 wheel：安装 wheel 指令：pip install -U wheel 。安装好之后：

（4）指定国内的镜像源：在用户目录下的你的用户名下新建一个pip文件夹，再往pip文件夹里面添加一个pip.ini的文件（ Windows10： C:\用户\<用户名>\pip\pip.ini (pip文件夹及pip.ini 需要手动创建) ）往pip.ini文家中添加如下两行代码

[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple

（5）virtualenv虚拟环境安装（多版本Python共存）

我们可以在系统中安装多个版本的Python，为了方便Python版本之间的相互切换，我们可以使用virtualenv（虚拟环境）实现同一系统中多版本共存使用的问题。

Step1：使用 pip install –U virtualenv 下载安装虚拟模块包

Step2：创建虚拟环境文件夹

今后所有的python虚拟环境都放在这个文件夹下，新建一个venvs的文件夹

使用virtualenv命令，创建跟当前系统环境相同版本的虚拟环境：

此时可以看到新生成了一个文件夹，该文件夹就是虚拟环境：

Step3：进入当前虚拟环境 cd 虚拟文件夹名称，启动虚拟环境虚拟环境文件夹/Script/activate

执行：pip install -U pypiwin32 安装

（6）Vscode安装配置，可以自行在网站下载VScode安装包进行安装

Step1：安装python开发插件，常用的如下所示：python、 Python-autopep8 、 GBKToUTF8 ；如果你的Vscode是英文的，下载中文安装包，安装第一个，安装成功后要点击重新加载才能成功，依次安装上述三个插件

Step2：将下面这个文件夹复制到我所使用的盘的根目录，我放在了F盘的根目录，进入F盘根目录下，进行离线安装，记得联网，再安装Scrapy

Step3：在本地创建一个workspace的文件夹，由于我已经有了一个workspace文件夹，所以我创建了一个Space的文件夹，再往space文件夹里面创建一个Project_Scrapy文件夹。接下来复制此路径。cmd里面进入此路径下，再创建工程

（7）测试连接

Step1：在Vscode中导入刚刚新建的文件夹

Step2：VScode打开设置，设置python.exe的路径，操作如下

Step3：接下来创建核心爬虫脚本程序：①使用命令：scrapy genspider 爬虫脚本名称访问网站的域名

Step4：我们是通过程序从网站上爬取数据，但是并不是所有的网站都允许程序的访问，所以要测试一下程序与网站的连接情况。测试的方法，仅需一条指令：scrapy shell 网站Url地址。

测试常见的结果：200 正常 403 拒绝访问（浏览器访问没问题，拒绝程序的访问）

在项目下添加一个rotate_useragent.py文件，文件内容如下

# -*- coding: utf-8 -*-
'''
    rotate_useragent.py
    --------------------------------
    用户代理轮循检索器

    @Copyright: Chinasoft Interntional·ETC
    @Author: Alvin
    @Date: 2018-01-16
'''

# 导入random模块
import random
# 导入useragent用户代理模块中的UserAgentMiddleware类
from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware

# RotateUserAgentMiddleware类，继承 UserAgentMiddleware 父类
# 作用：创建动态代理列表，随机选取列表中的用户代理头部信息，伪装请求。
#       绑定爬虫程序的每一次请求，一并发送到访问网址。

# 发爬虫技术：由于很多网站设置反爬虫技术，禁止爬虫程序直接访问网页，
#             因此需要创建动态代理，将爬虫程序模拟伪装成浏览器进行网页访问。
class RotateUserAgentMiddleware(UserAgentMiddleware):
    def __init__(self, user_agent=''):
        self.user_agent = user_agent

    def process_request(self, request, spider):
        #这句话用于随机轮换user-agent
        ua = random.choice(self.user_agent_list)
        if ua:
            # 输出自动轮换的user-agent
            print(ua)
            request.headers.setdefault('User-Agent', ua)

    # the default user_agent_list composes chrome,I E,firefox,Mozilla,opera,netscape
    # for more user agent strings,you can find it in http://www.useragentstring.com/pages/useragentstring.php
    # 编写头部请求代理列表
    user_agent_list = [\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"\
        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",\
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",\
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",\
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",\
        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",\
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",\
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
       ]

可以发现项目中也自动显示了这一文件

现在轮询文件已经考进去了，但是scrapy框架还不知道，所以要让scrapy框架知道，方法是配置settings.py文件。打开settings.py，找到

#DOWNLOADER_MIDDLEWARES = {
#    'doubanmovie.middlewares.DoubanmovieDownloaderMiddleware': 543,
#}

将注释去掉并添加以下代码

DOWNLOADER_MIDDLEWARES = {
   'doubanmovie.middlewares.DoubanmovieDownloaderMiddleware': 543,
   'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware' : None,
    'doubanmovie.rotate_useragent.RotateUserAgentMiddleware' :400
}

之后保存即可生效，回到cmd命令下，再一次运行刚才的语句，即可成功

（8）正式爬取网站数据

Step1：明确爬取哪部分信息，此处我们主要爬取豆瓣的电影的排行榜的排名以及标题title，查看页面的源代码，分析要爬取数据的页面结构，可以发现每一个小块均存在 li 标签下

Step2：打开工程中的item.py文件，设置要采集的数据项：Scrapy框架中的 items.py 文件以采集对象的方式存在，将每一个采集项作为一个采集对象的属性处理。而且，每一个属性统一使用 scrapy.Field( ) 函数创建，非常方便

class DoubanmovieItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 排名
    rank = scrapy.Field()
    #名称
    title = scrapy.Field()
    pass

Step3：重点+难点：编写 moviespider.py 解析HTML标签获取数据

增加代码

# -*- coding: utf-8 -*-
import scrapy
# 导入items.py中的DoubanmovieItem类
from doubanmovie.items import DoubanmovieItem

class MoviespiderSpider(scrapy.Spider):
    name = 'moviespider'
    allowed_domains = ['douban.com']
    start_urls = ['https://movie.douban.com/top250']

    def parse(self, response):
        # 获取当前页面中所有的class为item的标签
        movie_items = response.xpath('//div[@class="item"]')
        # 遍历
        for item in movie_items:
            # 创建DoubanmovieItem对象
            movie = DoubanmovieItem()
            # XPath解析获取电影排名赋值给movie对象的rank属性
            movie['rank'] = item.xpath('div[@class="pic"]/em/text()').extract()
            # XPath解析获取电影排=名赋值给movie对象的title属性
            movie['title'] = item.xpath('div[@class="info"]/div[@class="hd"]/a/span[@class="title"]/text()').extract()
            # 将movie添加到一个生成器（列表）中
            yield movie
            pass
        # 自动请求翻页实现爬虫的深度采集
        nextPage = response.xpath('//span[@class="next"]/a/@href')
        # 判断nextPage是否有效（是否到达最后一页）
        if nextPage:
            # 拼接下一页的地址
            url = response.urljoin(nextPage[0].extract())
            # 发送url后页请求
            yield scrapy.Request(url, self.parse)
        pass

Step4：编写 piplines.py 设置控制台输出，打开piplines.py文件，添加如下代码：

class DoubanmoviePipeline(object):
    def process_item(self, item, spider):
        print('电影排名：{0}' .format(item['rank'][0]))
        print('电影名字：{0}' .format(item['title'][0]))
        return item

要想启用该输出模式，需要在 settings.py 文件中设置输出项即可

然后在cmd里面运行

（6）对数据进行存储

Step1：采用json存储

通过前面的讲解我们知道，控制输出的文件是piplines.py ，那么我们创建一个新的piplines2json.py 文件，来控制文件输出到json。 ①在同级目录下复制piplines.py文件，重命名为piplines2json.py。②打开文件，将输出到控制台的代码删除掉，留下基本模板。 ③接下来在构造方法中，判断是否有将要保存文件的文件夹，如果没有，则创建。这里要创建文件夹需要导入os模块 ④这里为什么要把创建文件夹的代码写在构造方法而不是process_item方法中呢，因为如果写在process_item方法中，那么每输出一条数据就会创建一个文件夹，这显然不是我们想要的结果。在process_item方法中添加写入json文件的代码：

import os
import time
import json

class DoubanmoviePipeline(object):

    # 创建一个构造方法，用于创建所有类型输出文件的文件夹
    def __init__(self):
        # 设置输出文件夹的名称
        self.folderName = 'output'
        # 判断文件夹是否存在
        if not os.path.exists(self.folderName):
            # 创建文件夹
            os.mkdir(self.folderName)

    def process_item(self, item, spider):
        # 输出提示
        print('>> write to json file......')
        # 获取当前日期的字符串类型数据
        now = time.strftime('%Y%m%d', time.localtime())
        # 设置json文件名称
        jsonFileName = 'doubanmovie_' + now + '.json'
        try:
            # 打开json文件，以追加的方式
            with open(self.folderName + os.sep + jsonFileName, 'a', encoding="utf-8") as jsonfile:
                # 当前数据序列化为json格式
                data = json.dumps(dict(item), ensure_ascii=False) + '\n'
                # 写入到json文件
                jsonfile.write(data)
        except IOError as err:
            # 输出错误信息
            raise('json file error: {0}' .format(str(err)))
        finally:
            #关闭文件流
            jsonfile.close()

        return item

Settings.py中也需要添加代码：

同样cmd下运行

Step2：采用Excel存储

首先安装Excel所需的三个插件

新增pipelines2excel.py文件：代码如下

import time
import xlwt
import xlrd
from xlutils.copy import copy

class DoubanmoviePipeline(object):

    # 构造方法：创建一个excel文件以及内容模板
    def __init__(self):
       folder_name = 'output'
       current_date = time.strftime('%Y%m%d', time.localtime())
       file_name = 'doubanmovie_' + current_date + '.xls'
       # 最终的文件路径
       self.excelPath = folder_name + '/' + file_name

       # 构建workbook工作簿
       self.workbook = xlwt.Workbook(encoding='UTF-8')
       # 创建sheet工作页
       self.sheet = self.workbook.add_sheet(u'豆瓣电影数据')
       # 设置excel内容的标题
       headers = ['排名', '电影名']
       # 设置标题文字的样式
       headStyle = xlwt.easyxf('font: color-index black, bold on')
       # for循环写入标题内容
       for colIndex in range(0, len(headers)):
           # 按照规定好的字体样式将标题内容写入
           self.sheet.write(0, colIndex, headers[colIndex], headStyle)
           pass

       # 保存创建好的excel文件
       self.workbook.save(self.excelPath)
       # 全局变量行数
       self.rowIndex = 1
       pass

    def process_item(self, item, spider):
        
        # 提示信息
        print('>>>>>> write to Excel .................')
        # 读取已经创建好的excel文件
        oldWb = xlrd.open_workbook(self.excelPath, formatting_info=True)
        # 拷贝一个副本
        newWb = copy(oldWb)
        # 获取到excel要操作的sheet工作页
        sheet = newWb.get_sheet(0)
        # 将采集到的数据转换成一个List列表
        line = [item['rank'], item['title']]
        # 使用for循环遍历excel中的每一个cell格（行，列）
        for colIndex in range(0, len(item)):
            #将数据写入到指定的行列中去
            sheet.write(self.rowIndex, colIndex, line[colIndex])
            pass
        
        # 完毕后保存excel文件，自动覆盖原有的文件
        newWb.save(self.excelPath)
        # 全局行变量+1
        self.rowIndex = self.rowIndex + 1
        return item

Settings.py文件中配置：

再次运行

输出已有xls文件

Step3：上传mysql数据库

新建crawl数据库，新建movieinfo表，添加以下属性

安装pymysql使得python可以连接数据库

新建pipelines2mysql.py文件：文件代码

# 导入mysql模块
import pymysql

class DoubanmoviePipeline(object):
    def process_item(self, item, spider):

        # 设置一个全局的连接对象
        connection = ''
        try:
        
            # 获取一个有效的数据库连接对象
            connection = pymysql.connect(host='localhost', port=3306,\
                                        user='root', password='970301cx',\
                                        db='crawl', charset='utf8')
            if connection:
                print('>>> MySql >>>  正确获取数据库连接对象')
            
            # 创建一个游标对象
            cursor = connection.cursor()
            print('>>> MySql >>>  正确获取游标对象')

            # 设置插入数据的SQL语句模板
            rank = int(item['rank'][0])#将排名强制转换为整形
            title = item['title'][0]
            sql = 'insert into movieinfo values(null, %d, \'%s\')' %(rank, title)
            print('>>> MySql >>>  %s' %sql)

            # 使用游标对象发送SQL语句并将服务器结果返回
            affectedRows = cursor.execute(sql)
            msg = '>>> MySql >>>  写入操作成功' if affectedRows > 0 else '>>> MySql >>>  写入操作失败'
            print(msg)

            # 事务提交
            connection.commit()
            print('>>> MySql >>>  事务提交')

        except:

            # 事务回滚
            connection.rollback()
            print('>>> MySql >>>  事务回滚')

        finally:

            # 关闭数据库连接
            connection.close()
            print('>>> MySql >>>  关闭数据库连接')

        return item

修改setting.py

运行结果

查看一下 mysql数据库中的内容

至此，今天的学习内容已经结束了

Python实现Excel表格保存到不同文件夹 Leo_Aqu excel python
"""点击“上传”按钮，从本地上传待处理的Excel表格点击“处理”按钮，对Excel表格进行处理点击“保存A”按钮，保存处理后的Excel表格到A文件夹下点击“保存B”按钮，保存处理后的Excel表格到B文件夹下"""#作者:Leo#时间:2024/9/2621:52importtkinterastkfromtkinterimportfiledialog,messageboximportpand
【深度解析】最短路径算法：Dijkstra与Floyd-Warshall 吴师兄大模型算法数据结构 python 最短路径算法 Dijkstra算法 Floyd-Warshall 开发语言
系列文章目录01-从零开始掌握Python数据结构：提升代码效率的必备技能！02-算法复杂度全解析：时间与空间复杂度优化秘籍03-线性数据结构解密：数组的定义、操作与实际应用04-深入浅出链表：Python实现与应用全面解析05-栈数据结构详解：Python实现与经典应用场景06-深入理解队列数据结构：从定义到Python实现与应用场景07-双端队列（Deque）详解：Python实现与滑动窗口应
动态规划之背包问题的Python实现名侦探debug Python 数据结构 python 数据结构动态规划求解
目录1.问题描述2.动态规划之网格法3.python实现1.问题描述题目来源于《算法图解》第9章练习题9.2，如下图所示。对于背包问题，通常的做法有列举法、贪婪算法和动态规划（1）列举法：列举出所有的可能情况，再选择最优解，但当情况很多时，这种算法复杂度很高（2）贪婪算法：在容量允许范围内，每次都拿剩余物品中价值最高的，贪婪算法能够快速解决复杂度很高的问题，但通常得到的是次优解，但就对这个题目而言
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
Python中的 redis keyspace 通知_python 操作redis psubscribe(‘__keyspace@0__ ‘) 2301_82243733 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
python实现word文档合并 v2.0 task138 python自动化 python 自动化运维开发
目录前言要求运行效果脚本下载链接前言之前发表了一个小工具，python用于合并word文档以完成特定的工作任务，现在领导给出了新需求，适当的调整了一下word文档的合并情况。同时，各位同事反馈说，环境部署太难了，脚本的使用成本比较高，难度大，所以我这次把脚本打包成一个EXE可执行文件，直接双击即可使用。要求由于脚本的具体逻辑发生了变化，因此，exe文件的同级目录下，一定要存在一个txt文件，否则无
python whoosh clisy python 开源搜索
原文地址：http://whoosh.ca/wikiWhoosh:高效的纯python全文搜索组件Whoosh是一个纯python实现的全文搜索组件。Whoosh不但功能完善，还非常的快。Whoosh的作者是MattChaput，由SideEffectsSoftware公司开发。项目的最初用于Houdini（SideEffectsSoftware公司开发的3D动画软件）的在线帮助系统。SideEf
Whoosh: 一个功能强大的纯Python全文搜索引擎富珂祯
Whoosh:一个功能强大的纯Python全文搜索引擎whooshWhooshisafast,featurefulfull-textindexingandsearchinglibraryimplementedinpurePython.项目地址:https://gitcode.com/gh_mirrors/wh/whooshWhoosh是一个快速且功能丰富的全文索引和搜索库，完全使用Python实现
python实现将RGB相机与事件相机的照片信息进行融合以进行目标检测 go5463158465 python 算法 python 数码相机目标检测
要将RGB相机与事件相机的照片信息进行融合以进行目标检测，我们可以按以下步骤进行：整体思路数据读取：分别读取RGB图像和事件相机数据。数据预处理：对RGB图像和事件数据进行必要的预处理，如调整尺寸、归一化等。数据融合：将预处理后的RGB图像和事件数据进行融合。目标检测：使用融合后的数据进行目标检测。代码实现importcv2importnumpyasnpimporttorchfromtorchvi
AI编程赋能Python实现零编程决策树算法智享食事算法 AI编程 python
1.概念理解决策树算法是一种监督学习算法，用于分类和回归任务。它是一种基于树结构的模型，通过一系列的决策规则来对数据进行分类或预测。决策树的每个节点代表一个特征，每个分支代表该特征的一个属性值，而每个叶节点表示一个类别或一个数值。决策树的构建过程通常分为以下几个步骤：1.特征选择：选择最佳的特征来作为当前节点的划分特征，通常使用信息增益、基尼指数或者信息熵等准则来选择最优的特征。2.建立树结构：根
python实现有向无环图(DAG) 少年白char python
摘自dagobah项目dagfromcollectionsimportOrderedDict,defaultdictfromcopyimportcopy,deepcopyclassDAG(object):"""Directedacyclicgraphimplementation."""def__init__(self):"""ConstructanewDAGwithnonodesoredges."
Python 实现反转、合并链表有啥用？ python链表
大家好，我是V哥。使用Python实现反转链表、合并链表在开发中比较常见，我们先来看看各自的应用场景。先赞再看后评论，腰缠万贯财进门。反转链表比如，在处理时间序列数据时，有时需要将历史数据按照时间从近到远的顺序展示，如果数据是以链表形式存储的，通过反转链表可以高效地实现这一需求。再比如，判断一个链表是否为回文链表（即链表正序和逆序遍历的值相同）时，可以先反转链表的后半部分，然后与前半部分进行比较。
Python 爬虫功能介绍 chengxuyuan1213_ python 爬虫网络爬虫
在当今互联网信息爆炸的时代，数据的获取与分析成为了各行各业不可或缺的一部分。Python，作为一种简洁、易读且功能强大的编程语言，凭借其丰富的库和框架，在数据抓取（即网络爬虫）领域展现了极大的优势。本文旨在介绍Python爬虫的基础功能，帮助初学者快速入门，理解爬虫的基本工作原理及常用技术。一、什么是网络爬虫网络爬虫（WebCrawler），又称网络蜘蛛（WebSpider）或网络机器人（WebR
债券到期收益率计算周纠纠金融科技-计算机相关 python 深度学习
债券到期收益率YTM计算公式Python实现计算公式Python实现importscipy.optimizeassoimportnumpyasnp'''计算债券到期收益率的函数PV:表示债券全价；C:票面年利息；k:年付息频率；y:到期收益率；M:债券面值;T:债券期限（年）'''defYTM(PV,C,k,M,T
Python网络爬虫-WebSocket数据抓取程序小勇 faiss 爬虫 python 网络协议 websocket 开发语言
目录前言1、WebSocket请求的分析通常涉及以下几个方面：2、利用WebSocket爬取数据总结最后，创作不易！非常感谢大家的关注、点赞、评论啦！谢谢三连哦！好人好运连连，学习进步！工作顺利哦！博主介绍：✌专注于前后端、机器学习、人工智能应用领域开发的优质创作者、秉着互联网精神开源贡献精神，答疑解惑、坚持优质作品共享。本人是掘金/腾讯云/阿里云等平台优质作者、擅长前后端项目开发和毕业项目实战，
流行编程语言全解析：优势、应用与短板 a小胡哦 python java c++c语言 javascript swift r语言
Python：优势Python以其简洁、易读的语法闻名，新手能快速上手。丰富的库和框架，能极大地提高开发效率。适用领域数据科学与分析：处理和分析大规模数据集，进行数据可视化。典型示例：Google用Python进行数据分析，处理海量数据以支持各种业务决策。机器学习与人工智能：构建和训练模型。典型示例：OpenAI在很多人工智能项目中广泛使用Python，如GPT系列模型的研发。网络爬虫：轻松从网页
从零开始掌握哈夫曼树：数据压缩与Python实现详解吴师兄大模型 python 数据结构哈夫曼树哈弗曼编码数据压缩算法开发语言
系列文章目录01-从零开始掌握Python数据结构：提升代码效率的必备技能！02-算法复杂度全解析：时间与空间复杂度优化秘籍03-线性数据结构解密：数组的定义、操作与实际应用04-深入浅出链表：Python实现与应用全面解析05-栈数据结构详解：Python实现与经典应用场景06-深入理解队列数据结构：从定义到Python实现与应用场景07-双端队列（Deque）详解：Python实现与滑动窗口应
0.1 量海航行：量化因子列表汇总（持续更新） AI量金术师量海航行金融 python 机器学习数学建模人工智能
量海航行：从技术指标到因子库目录量海航行：从技术指标到因子库1.专栏描述2.因子列表1.专栏描述一个开源的量化因子项目，通过Python实现和标准化处理，将各类技术指标转化为可用因子。不止于因子计算，后续更有因子评估、优化与集成，助您构建专业量化交易系统。持续更新中，让我们一起探索量化交易的无限可能！2.因子列表点击以下名称可直接跳转指定因子文章，若无法跳转则尚未发布。因子名称因子简述重叠因子用于
python实现--平衡二叉树和红黑树 liulanba 数据结构 python 开发语言
平衡二叉树（AVL树）1.定义AVL树是一种自平衡二叉搜索树，其每个节点的左右子树高度差（平衡因子）绝对值不超过1。当插入或删除操作导致失衡时，通过旋转操作恢复平衡。2.核心操作与旋转类型当平衡因子绝对值超过1时，需通过以下旋转调整：失衡情况旋转操作应用场景右子树过高左旋插入到右子树的右子树（RR）左子树过高右旋插入到左子树的左子树（LL）左子树的右子树过高左右旋插入到左子树的右子树（LR）右子树
【2023】LeetCode HOT 100——哈希「已注销」 leetcode 算法数据结构
目录1.两数之和1.1C++实现1.2Python实现1.3时空分析2.字母异位词分组2.1C++实现2.2Python实现2.3时空分析3.最长连续序列3.1C++实现3.2Python实现3.3时空分析1.两数之和原题链接：1.两数之和不妨设i<ji<ji<
Python实现前缀和 Syhaswm python前缀和 python 开发语言
文章目录系列文章目录前言一、前缀和是什么？二、一维前缀和与二维前缀和三、前缀和应用场景四、实现前缀和的方法1.运用函数实现前缀和（包括求区间和）2.引入accumulate第三方库3.for循环总结前言在算法和数据结构的领域中，前缀和是一种极为实用且基础的算法思想。它能显著提升我们处理数组或矩阵相关问题的效率，将原本可能需要多次重复计算的过程优化为常数时间的操作。无论是在竞赛编程中，还是在实际的软
多线程并发模拟实现与分析：基于Scapy的TCP SYN洪水攻击实验研究键盘侠伍十七 tcp/ip 网络协议网络网络安全 python syn flood
简介实现基于Python实现的多线程TCPSYN洪水攻击。该实例利用Scapy库构造并发送TCPSYN数据包，通过多线程技术模拟并发的网络攻击行为。实现原理SYNFlood攻击是一种经典的分布式拒绝服务（DDoS）攻击方式，利用了TCP协议握手过程中的弱点。TCP三次握手过程在正常情况下，TCP建立连接需要经过以下三个步骤的交互：客户端发送SYN：客户端向服务器发送一个同步（SYN）段，其中包含客
运用python制作一个完整的股票分析系统大懒猫软件 python 开发语言 django beautifulsoup
使用python制作一个股票分析系统，可以通过股票价格走势动态界面，实时动态监测不同类型股票的变化情况。以下是一个完整的股票分析系统开发指南，包括股票价格走势动态界面和实时监测功能。这个系统将结合网络爬虫、数据分析、机器学习和可视化技术，帮助你实时监测不同类型股票的变化情况。1.系统功能概述数据采集：使用网络爬虫技术从财经网站采集股票数据。数据处理：计算技术指标（如KDJ、BOLL）并进行数据预处
python 登录接口_python-oauth2：Python的OAuth登录接口 weixin_39812065 python 登录接口
新浪微博Python客户端接口OAuth2!/usr/bin/envpython--coding:utf-8--version=‘1.04’author=‘LiaoXuefeng([email protected])’”’PythonclientSDKforsinaweiboAPIusingOAuth2.”’try:importjsonexceptImportErr使用Python实现OAu
Python-OAuth2：一款Python实现的OAuth 2.0认证框架束辉煊Darian
Python-OAuth2：一款Python实现的OAuth2.0认证框架python-oauth2[UNMAINTAINED]OAuth2.0providerwritteninpython项目地址:https://gitcode.com/gh_mirrors/pyth/python-oauth21.项目基础介绍Python-OAuth2是一个开源项目，旨在为开发者提供一个简单易用的OAuth2.
用 Python 实现基于特质波动率的量化投资策略机器懒得学习人工智能大数据
在量化投资中，如何构建有效的投资组合是一个关键问题。特质波动率（IdiosyncraticVolatility，简称IV）作为衡量股票独特风险的指标，受到了越来越多的关注。基于特质波动率的投资策略，通过剔除市场风险，专注于每只股票独立的风险特征，有助于构建更精确的投资组合。本篇博客将介绍如何使用Python实现基于特质波动率的量化投资策略，包括数据获取、因子计算、投资组合构建以及绩效分析等重要环节
Python爬取小说保存为Excel 不知所云975 python
本代码以实际案例介绍，爬取‘笔趣阁最新小说‘列表保存为表格文件。类封装以及网络爬虫以及openpyxl模块可以参考学习。#更新小说目录importrequestsfromlxmlimportetreeimportopenpyxlfromopenpyxl.stylesimportFont,Alignment,Side,Border,PatternFill#定义下载表格的类classDown_exce
使用Python实现深度学习模型：知识蒸馏与模型压缩 Echo_Wish Python 笔记从零开始学Python人工智能 Python算法 python 深度学习开发语言
在深度学习领域，模型的大小和计算复杂度常常是一个挑战。知识蒸馏（KnowledgeDistillation）和模型压缩（ModelCompression）是两种有效的技术，可以在保持模型性能的同时减少模型的大小和计算需求。本文将详细介绍如何使用Python实现这两种技术。目录引言知识蒸馏概述模型压缩概述实现步骤数据准备教师模型训练学生模型训练（知识蒸馏）模型压缩代码实现结论1.引言在实际应用中，深
来看看爬虫合不合法度假的小鱼 Python基础爬虫搜索引擎 python
活动地址：CSDN21天学习挑战赛文章目录一、爬虫合不合法二、什么是爬虫三、爬虫的分类四、为什么学网络爬虫一、爬虫合不合法随着Python在最近几年的流行，Python中的爬虫也逐渐进入到大家的视野中，但是很多小伙伴，还是在担心爬虫的合法性。今天就来和大家一起讨论一下爬虫的合法性。大家可能在网上看到很多有关程序员写爬虫被抓这样的新闻只因写了一段爬虫，公司200多人被抓！爬虫的本身是合法的，但是如何
多语言实现图像生成的API调用指南 IT·小灰灰人工智能数据挖掘深度学习语言模型图像处理 AI作画
在现代软件开发中，API（应用程序编程接口）的使用变得越来越普遍。无论是JavaScript、Python、Go还是Java，开发者们都需要与各种API进行交互以实现特定的功能。本文将通过一个具体的例子，展示如何使用不同的编程语言调用一个图像生成的API，并生成一幅描述海岛的图像。目录API获取方式正文1.JavaScript实现2.Python实现3.Go实现4.Java实现结语API获取方式前
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

python实现网络爬虫之scrapy框架

你可能感兴趣的:(python实现网络爬虫)