黑客大佬

爬虫/scrapy基础入门篇

Scrapy基础入门篇

Scrapy下载安装

Scrapy爬虫工作流程：

Scrapy 框架由五大组件构成

创建scrapy爬虫项目

scrapy项目创建，编写步骤

步骤一：创建项目：在对应项目目录下创建scrapy项目。使用 scrapy startproject 项目名（比如D:\python_spider_learning\spide_project\scrapy_project\learning>在这个文件夹下创建）

步骤二：进入项目：cd 项目名称。或者在pycharme中选中文件夹Terminal

步骤三：创建爬虫：命令创建爬虫：scrapy genspider 爬虫名称域名（scrapy genspider xiao 4399.com）(gen:生成)

步骤四：可能需要修改start_url,修改成需要抓取的页面

步骤五：对数据进行解析。在spider里面的parse(response)方法中进行解析

步骤六：在Pipeline中完成数据的存储工作。

步骤七：设置settings.py文件将Pipeline进行生效设置

步骤八：运行项目：scrapy 命令：scrapy crawl 爬虫名（ scrapy crawl xiao），运行后，会打印出日志。

数据解析

在spider里面的parse(response)方法中进行解析scrapy中xpath和css（）可以混合用

用xpath和css混合解析

在Pipeline中完成数据的存储工作

设置settings.py文件将Pipeline进行生效设置

运行项目

Scrapy基础入门篇

Scrapy 是一个基于 Twisted 实现的异步处理爬虫框架，该框架使用纯 Python 语言编写。Scrapy 框架应用广泛，常用于数据采集、网络监测，以及自动化测试等。

提示：Twisted 是一个基于事件驱动的网络引擎框架，同样采用 Python 实现。

本文主要讲述Scrapy爬虫工作流程以及创建scrapy爬虫项目。

Scrapy下载安装

Scrapy 支持常见的主流平台，比如 Linux、Mac、Windows 等，因此你可以很方便的安装它。本节以 Windows 系统为例，

python -m pip install Scrapy

**pycharme：**直接安装Scrapy。（这种安装方式有时会报错，特别是在创建虚拟环境时，有可能安装成功也找不到scrapy，这时需要将虚拟环境下创建的\venv\Scripts添加到环境变量中。可能运行会很慢）

由于 Scrapy 需要许多依赖项，因此安装时间较长，大家请耐心等待，关于其他平台的安装方法，可参考官方文档《Scrapy安装指南》。

Scrapy爬虫工作流程：

Scrapy 框架由五大组件构成

如下所示：

在整个执行过程中，还涉及到两个 middlewares 中间件，分别是下载器中间件（Downloader Middlewares）和蜘蛛中间件（Spider Middlewares），它们分别承担着不同的作用：

蜘蛛中间件 (Spider Middlewares) 位于引擎与爬虫文件之间，它主要用来修改响应对象的属性
Scrapy 工作流程示意图如下所示
（不包含中间件）

上述示意图描述如下，当一个爬虫项目启动后，Scrapy 框架会进行以下工作：

1.引擎找到spider，在spider中找到起始url（第一个待爬取的 URL）。
2.url被引擎包装成request对象。
3.引擎将reques对象传递给调度器。
4.调度器（Scheduler）通过引擎将response对象传递给Downloader。
5.Downloader将得到的response对象通过引擎送回给spider。
6.spider解析：解析返回的response对象，通过xpath、json、re、css等。
7.spider将数据通过引擎传递给pipeline，存储数据。若有新的url（比如下一页等）：重复2-7步骤。

创建scrapy爬虫项目

Scrapy 框架提供了一些常用的命令用来创建项目、查看配置信息，以及运行爬虫程序。常用指令如下所示：

scrapy项目创建，编写步骤

步骤一：创建项目：在对应项目目录下创建scrapy项目。使用 scrapy startproject 项目名（比如D:\python_spider_learning\spide_project\scrapy_project\learning>在这个文件夹下创建）

1.注意：直接在pycharm里安装scrapy后，scrapy startproject 项目名会报错，这是可以把对应虚拟环境的scripts添加到环境变量中，如：D:\python_spider_learning\spide_project\venv\Scripts
2.分析创建文件里的每一个文件含义：

        a.图片中第一个game就是我们刚才使用命令创建项目时的项目名（scrapy startproject 项目名）。是整个项目所在文件夹，点开有两个文件，game和scrapy.cfg
        b.第二个game，是项目的根目录，后面导包都是在这个里。scrapy.cfg：描述了一些设置，以及部署，这个不能删除。
        c.点开根目录game：有6个文件，分别是spiders文件夹，__init__.py,items.py,middlewares.py,pipelines.py,settings.py。
         spiders文件夹:是scrapy框架模块中的spiders，爬虫，数据解析都在这里。
         __init__.py:
         items.py:为了scrapy去封装比较大的数据时用到。
         middlewares.py:中间件，处理反爬，cookie等
         pipelines.py:管道，存储数据。
         settings.py：对整个scrapy或者当前项目整体的配置信息。

步骤二：进入项目：cd 项目名称。或者在pycharme中选中文件夹Terminal

步骤三：创建爬虫：命令创建爬虫：scrapy genspider 爬虫名称域名（scrapy genspider xiao 4399.com）
(gen:生成)

步骤四：可能需要修改start_url,修改成需要抓取的页面

步骤五：对数据进行解析。在spider里面的parse(response)方法中进行解析

parse()：该方法是XiaoSpider继承scrapy.Spider中的parse()，所以该方法不能修改名称，11行旁边的圆圈就表示该方法可以重写

def _parse(self, response, kwargs):父类中还有kwargs。但是子类最开始进来时，没有**kwargs参数，所以会显示黄色警告之后可能会报错。


     def parse(self, response):修改成
    
   def parse(self, response, **kwargs):
        response.text 源代码
        response.json()返回数据是json
        response.xpath()
        response.css()
解析数据时需要注意：默认xpath()返回的是Selector对象。
想要数据必须使用extract()提取数据。
extract()返回列表
extract_first()返回一个数据

yield 返回数据  --》把数据交给Pipeline进行持久化存储

步骤六：在Pipeline中完成数据的存储工作。

class 类名():类名可以自己取。
def process_item(self, item, spider):这个不能修改。
item：是数据
spider：是爬虫
return item #必须要return东西，否则下一个管道收不到数据。最后一个管道可以不写return

步骤七：设置settings.py文件将Pipeline进行生效设置

ITEM_PIPELINES = {
“管道路径”: 优先级,优先级数越小，越高，越先执行
}

如：ITEM_PIPELINES = { "game.pipelines.GamePipeline": 300, }

步骤八：运行项目：scrapy 命令：scrapy crawl 爬虫名（ scrapy crawl xiao），运行后，会打印出日志。

如果不想看日志，打开settings.py，添加：
LOG_LEVEL="WARNING"
#设置成WARNING是指，只打印WARNING及以上级别的日志。
#日志级别：DEBUG，INFO，WARNING，ERROR，CRITICAL（等级从低到高）

scrapy案例
创建项目

scrapy startproject game

创建爬虫
进入scrapy创建项目文件夹中：

scrapy genspider 爬虫名称 域名（scrapy genspider xiao 4399.com）

可能需要修改start_url,修改成需要抓取的页面

start_urls = ["https://4399.com"]

修改成

start_urls = ["https://www.4399.com/flash/"]

数据解析

在spider里面的parse(response)方法中进行解析
scrapy中xpath和css（）可以混合用

import scrapy
from game.items import GameItem


class XiaoSpider(scrapy.Spider):#scrapy.Spider是继承scrapy中的spiders模块，不要去修改
    name = "xiao"#爬虫名字
    allowed_domains = ["4399.com"]#被允许的域名
    start_urls = ["https://www.4399.com/flash/"]#修改后的url
    
    def parse(self, response, **kwargs):
        
        #拿到页面源代码
        #print(response.text)
        #response.json()返回数据是json
        #利用浏览器的xpath
        txt = response.xpath('//*[@id="skinbody"]/div[8]/ul/li/a/b/text()').extract()  # 用xpath进行数据解析,用extract()提取选择器里的数据
        print(txt)
        
        #自己根据html写xpath

        txt1 = response.xpath("//ul[@class='n-game cf']/li/a/b/text()").extract()  # 用xpath进行数据解析,用extract()提取选择器里的数据
        print(txt1)

        #分块提取，循环
        li_list = response.xpath("//ul[@class='n-game cf']/li")
        for li in li_list:
            name=li.xpath('./a/b/text()').extract_first()#extract_first()提取一项内容，如果没有，返回NONE
            url ='https://www.4399.com'+ li.xpath('./a/@href').extract_first()  # extract_first()提取一项内容，如果没有，返回NONE
            src='https:'+li.xpath('./a/img/@lz_src').extract_first()
            category = li.xpath('./em/a/text()').extract_first()
            date = li.xpath('./em/text()').extract_first()
            '''scrapy中当数据量或者字段较多，管道较多时，直接用字典存储，可能后续会报错，有时报错也找不到具体在哪里。
            因此，聪明的方法就是：利用items.py文件。
            items.py修改：1.在class类中定义存储的key值。
                            class GameItem(scrapy.Item):
    
                                 #name = scrapy.Field()这个定义后，name相当于dict中的key。
                                    name = scrapy.Field()
                                    url = scrapy.Field()
                                    src = scrapy.Field()
                                    category = scrapy.Field()
                                    date = scrapy.Field()
                        2.导包：from game.items import GameItem。注意：若scrapy项目不时最开始的根目录，导包时会报错，
                        可以在项目的根目录game点击右键，选择Mark Directory as --》选择root '''
            xiao_game=GameItem()
            xiao_game['name']=name
            xiao_game['url'] = url
            xiao_game['src'] = src
            xiao_game['category'] = category
            xiao_game['date'] = date

            yield xiao_game
 
    '''别用傻方法
            dic={'name':name,
                 'url':url,
                 'src':src,
                 'category':category,
                 'date':date
                 }

            #需要用yield将数据传递给管道
            #yield dic 如果返回的是数据，直接可以认为是给了管道Pipeline。实际是先给引擎，引擎再给管道Pipeline。这样能提高性能，主要体现在内存上
            yield dic#yield是生成器。如果用list临时保存，会占用内存空间，生成器函数节省内存
            '''

用xpath和css混合解析

import scrapy
from game.items import GameItem


class XiaoSpider(scrapy.Spider):#scrapy.Spider是继承scrapy中的spiders模块，不要去修改
    name = "xiao"#爬虫名字
    allowed_domains = ["4399.com"]#被允许的域名
    #start_urls = ["https://4399.com"]#起始页面url，这里可以修改，我们想爬的是https://www.4399.com/flash/，所以要修改
    start_urls = ["https://www.4399.com/flash/"]

    def parse(self, response, **kwargs):

        #分块提取，循环
        li_list = response.xpath("//ul[@class='n-game cf']/li")
        for li in li_list:
            '''
            name=li.xpath('./a/b/text()').extract_first()#extract_first()提取一项内容，如果没有，返回NONE
            url ='https://www.4399.com'+ li.xpath('./a/@href').extract_first()  # extract_first()提取一项内容，如果没有，返回NONE
            src='https:'+li.xpath('./a/img/@lz_src').extract_first()
            category = li.xpath('./em/a/text()').extract_first()
            date = li.xpath('./em/text()').extract_first()
            '''
            name = li.css('b::text').extract_first()
            url = 'https://www.4399.com' + li.css("a::attr(href)").extract_first()
            src = 'https:' + li.css("a img::attr(lz_src)").extract_first()
            category = li.css('em a::text').extract_first()
            date = li.css('em::text').extract_first()

            xiao_game = GameItem()
            xiao_game['name'] = name
            xiao_game['url'] = url
            xiao_game['src'] = src
            xiao_game['category'] = category
            xiao_game['date'] = date

            yield xiao_game

在Pipeline中完成数据的存储工作

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter

'''注意：管道默认是不开启的，需要去settings.py中开启，如：
ITEM_PIPELINES = {
    "game.pipelines.GamePipeline": 300,
}
'''
class GamePipeline:#这个是默认创建的，可以修改，如下文17行NewPipeline
    def process_item(self, item, spider):#这个是定死的，不能修改.这个里面就可以保存数据。
        #item是数据，
        #spider是爬虫，如xiao.py中name = "xiao"
        print(item)
        print(spider.name)
        #这里可以开始存储数据了
        return item


class NewPipeline:
    def process_item(self, item, spider):
        '''若要在item中在加一个字段，不能想dict一样直接赋值，必须要现在items.py中定义key，如：love = scrapy.Field()。'''
        item['love']='我喜欢吃冰淇淋'
        return item

设置settings.py文件将Pipeline进行生效设置

'''key是管道的路径，
value是优先级，优先级数越小，越高，越先执行'''
ITEM_PIPELINES = {

    "game.pipelines.GamePipeline": 300,
    #"game.pipelines.NewPipeline": 299,
}

运行项目

scrapy 命令：scrapy crawl 爬虫名（ scrapy crawl xiao），运行后，会打印出日志。
如果不想看日志，打开settings.py，添加：LOG_LEVEL=“WARNING”#设置成WARNING是指，只打印WARNING及以上级别的日志。
#日志级别：DEBUG，INFO，WARNING，ERROR，CRITICAL（等级从低到高）
————————————————

原文链接：https://blog.csdn.net/qq_35249586/article/details/131023114

还没看够？可以关注呦~下面有免费的靶场视频，面试技巧等等

+V【zkaq222】或者下面的扫码不然通不过哦，免费领取安全学习资料包！（私聊进群一起学习，共同进步）腾讯文档-在线文档https://docs.qq.com/doc/DYmVETWlZemh0Ymdv

Python 学习第五册深度学习第1章什么是深度学习 weixin_38135241 python 学习深度学习人工智能
----用教授的方式学习。目录1.1人工智能、机器学习与深度学习1.1.1人工智能1.1.2机器学习1.1.3从数据中学习表示1.1.4深度学习之“深度”1.1.5用三张图理解深度学习的工作原理1.2深度学习之前：机器学习简史1.2.1概率建模1.2.2核方法1.2.3决策树、随机森林与梯度提升机1.2.4深度学习有何不同什么是深度学习？1.1人工智能、机器学习与深度学习三者关系：1.1.1人工智
解决后端的set-cookie无法写入浏览器的问题 yudaleng 前端 json javascript 后端 springboot
前言:最近做项目，遇到了set-cookie无法写入的问题。一开始以为是浏览器安全设置的问题导致无法写入cookie，后面发现并不是。在网上翻阅了许多文章，终于定位到了问题。写这篇文章用于记录一下，以免以后忘了。后端：1.后端需要配置好跨域2.响应头必须包含httpServletResponse.setHeader("Access-Control-Allow-Credentials","true"
深度学习：让机器学会“思考”的魔法 AI极客Jayden　 AI 深度学习
文章目录引言：从“鹦鹉学舌”到“举一反三”一、深度学习是什么？1.定义：机器的“大脑”2.核心思想：从数据中“悟”出规律二、深度学习的“大脑”结构：神经网络1.神经元：深度学习的基本单元2.神经网络：多层“神经元”的组合3.深度：为什么需要多层？三、深度学习如何“学习”？1.训练过程：从“笨拙”到“熟练”2.损失函数：衡量“错误”的尺子3.反向传播：从错误中“反思”四、深度学习的“超能力”1.图像
Python 爬虫实战：汽车电商平台价格波动监控与市场趋势洞察西攻城狮北 python 爬虫汽车实战案例
目录一、环境准备与依赖安装二、目标网站分析1.网站页面结构分析2.数据爬取策略三、代码实现1.数据抓取模块(1)爬取车型列表(2)爬取车型详情(3)主爬取函数2.数据存储模块3.数据分析模块四、完整工作流程(1)初始化爬虫(2)执行爬虫(3)数据存储(4)数据分析五、注意事项六、扩展功能在当今数字化时代，汽车电商平台为消费者提供了便捷的购车渠道。通过Python爬虫技术，我们可以监控汽车电商平台的
Python实现微博关键词爬虫才华是浅浅的耐心 python 新浪微博爬虫
1.背景介绍随着社交媒体的广泛应用，微博上的海量数据成为了很多研究和分析的重要信息源。为了方便获取微博的相关内容，本文将介绍如何使用Python编写一个简单的爬虫脚本，从微博中抓取指定关键词的相关数据，并将这些数据保存为Excel文件。本文将以关键词“樊振东”为例，展示从微博抓取该关键词相关数据的全过程。废话不多说，先上结果图。2.项目实现思路该爬虫通过向微博的搜索接口发送HTTP请求，获取与指定
使用 Python 实现批量发送电子邮件才华是浅浅的耐心 python 爬虫开发语言
引言：在日常工作中，我们可能会遇到需要批量发送邮件的场景，例如通知、营销邮件或测试邮件。如果手动发送，不仅效率低下，还容易出错。今天，我将分享一个使用Python实现的自动化邮件发送脚本，通过读取Excel文件中的发件人和收件人信息，轻松完成批量邮件发送任务。功能概述这个脚本的主要功能包括：从Excel文件中读取发件人信息（邮箱和授权码）和收件人信息（邮箱）。根据发件人邮箱的域名，自动匹配SMTP
python 之GUI设计：Entry组件时间之里 python-tkinter python python
说明：Entry（输入框）组件通常用于获取用户的输入文本。使用条件：Entry组件在GUI界面的设计中主要用于单行文本的键入（实际键入的内容可以比显示的空间更长，此种情况下结束鼠标和位移键能够产看自己输入的隐藏内容），通过几何外观图形属性设计可以改变实际的元素表现如果你希望接收多行文本的输入，可以使用Text组件（后面介绍）。常见用法：-普通输入框作为输入框最重要的属性是输入内容的获取：eg:pa
Python Tkinter库实战（用Entry和button控件做一个小型的浏览器） IT界小菜鸡笔记 python 开发语言
大家好，上一期我们大概了解了一下PythonTkinter库。这是一个方便快捷的GUI库；可以用短短几行代码生成出一个用户图形化接口的窗口。算是非常方便。既然前一期我们了解了tk库。那么我们今天就来做一个实战。今天这个实战项目源自于我一个奇奇怪怪的想法。当时打开浏览器的时候想着，既然我打开浏览器输入网址，搜索URL。既然别人可以，那我为什么不可以自己做一个呢？抱着这个想法，我就开始了这个实验。废话
群体智能优化算法-模拟退火优化算法（Simulated Annealing, SA，含Matlab源代码） HR Zhou 算法模拟退火算法机器学习 matlab 群体智能优化优化人工智能
摘要模拟退火（SA）算法是一种基于物理退火过程的全局优化算法，其核心思想来源于热力学中的退火过程：将材料加热到高温后再缓慢冷却，使其分子结构趋于最低能量状态，从而获得稳定结构。SA算法利用Metropolis准则来决定接受新的解，以一定概率接受劣解，从而避免陷入局部最优。SA具有收敛速度快、计算复杂度低、适用于连续优化问题等特点，被广泛应用于组合优化、函数优化、神经网络训练等领域。算法介绍1.主要
珍藏！Java SpringBoot 精品源码合集约惠来袭，获取路径大公开秋野酱 java spring boot 开发语言
技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文降重、长期答辩答疑辅导、腾讯会议一对一专业讲解辅导答辩、模拟答辩演练、和理解代码逻辑思路。文末获取源码联系文末获取源码联
iPhone XS 上的 Siri 没反应怎么办？苹果手机无法使用嘿 Siri 解决方法编程大乐趣
iPhoneXSMax上的Siri没反应怎么办？苹果手机无法使用嘿Siri解决方法。Siri已经成为iPhone上必不可少的智能语音助手，提供了很多便利，但是Siri突然不工作没有响应应该如何解决呢？检查网络连接如果收到「抱歉，我无法连接到网络」或「请您稍后再试」的提示，请确保设备已经连接至互联网并重试。确认已开启Siri前往「设置」-「Siri与搜索」，确保「听取嘿Siri」、「按下主屏幕按钮使
python调用DeepSeek的API garfield_sun06 大模型 python 语言模型
1获取API获得deepseek开放平台的APIhttps://platform.deepseek.com/api_keys点击创建APIkey2调用方法方法一：采用openai的调用方法pipinstallopenai需要openai的包调用的代码框架fromopenaiimportOpenAIimportosclient=OpenAI(api_key='自己的APIkey',base_url=
Python GUI 开发：全面指南一休哥助手 python python 开发语言
1.PythonGUI开发简介GUI是指图形用户界面，它使用户可以通过图形元素（如按钮、文本框、下拉菜单等）与应用程序进行交互。与命令行界面相比，GUI更加直观易用。Python提供了多种库和框架，使开发者能够轻松创建功能丰富的桌面应用程序。1.1为什么选择Python进行GUI开发？简洁易读：Python的语法简洁，代码易于理解，开发者可以专注于应用程序的逻辑而不是语法。跨平台：Python是跨
基于Python+Django的可视化学习系统设计与实现（毕业设计源码+技术文档+系统部署）逐梦设计 Python毕业设计实战案例 python django 课程设计 vue.js 毕业设计源码
博主简介作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、
Python图形界面(GUI)Tkinter笔记（十四）：Entry与Button的碰撞（1）小叶肥辉 tkinter python gui tkinter
用功能按钮(Button)、单行文本输入框(Entry)、文本框内容读取(get)实现一个极简易的加法运算，及与其他控件的交互，提高体验，主要体现其人机交互的意义。因为Entry()文本输入框没有限制输入内容属性的参数，它是把所有的输入都视作它特有的一个类属性，所以用get()方法读取出来是一个字符串而这字符串可包括字母或其它符号。因此我们必须对其进行判断后再计算，若直接计算可能会出现不可预料的错
HCIA-WLAN 蜡笔小呆呆网络 WLAN
一、WLAN的基本概念1、定义：WLAN即无线局域网，通过无线电波（常用2.4GHz/5GHz频段）在空间中传输信息，实现设备间的无线通信。2、常见的无线：WIFI、蓝牙、红外线等。二、WLAN的组成1、无线接入点（AP）：将无线信号转换为有线信号，连接终端与网络。胖AP（FatAP）：独立工作，内置路由、认证等功能，适合小型网络。瘦AP（FitAP）：依赖AC集中管理，仅负责无线信号收发，适合企
python ppt转pdf macos_如何在 macOS 上一键批量把 PPT 和 Word 文件转成 PDF weixin_39857792 python ppt转pdf macos
原标题：如何在macOS上一键批量把PPT和Word文件转成PDF相信不少人都有或曾经有过需要将多个PPT/Word文件转为PDF的需求，可能是一堆PPT课件为了方便批注，也可能是一些Word文档为了方便阅读。每次只能打开一个文档，选择「另存为」，选「PDF」，点「保存」，关掉，再打开下一个文档，文档数目一多，整个过程就会变得很令人沮丧。最近我研究了一下这个磨人的问题，制作了一个动作可以在不到2秒
python智能合约编程_技术指南 | Python智能合约开发？看这一篇就够了 weixin_39897127 python智能合约编程
01前言在之前的技术视点文章中，我们介绍了目前本体主网支持的智能合约体系以及相应的智能合约开发工具SmartX。很多小伙伴都想上手练一练。在本期的技术视点中，我们将正式开始讲述智能合约语法部分。本体的智能合约API分为7个模块，分别是Blockchain&BlockAPI、RuntimeAPI、StorageAPI、NativeAPI、UpgradeAPI、ExecutionEngineAPI以及
langchain chroma 与 chromadb笔记 phynikesi langchain 笔记 chromadb
chromadb可独立使用也可搭配langchain框架使用。环境：python3.9langchain=0.2.16chromadb=0.5.3chromadb使用示例importchromadbfromchromadb.configimportSettingsfromchromadb.utilsimportembedding_functions#加载embedding模型en_embeddin
Centos7搭建Zabbix4.x监控HCL模拟网络设备：zabbix-server搭建及监控基础02 wusam zabbix HCL SNMP 网络监控
兰生幽谷，不为莫服而不芳；君子行义，不为莫知而止休。2.HCL网络设备的远程登录及snmp-agent配置华三网络设备的snmp-agent设置方法(1)配置Agent#配置Agent的IP地址为1.1.1.1/24，并确保Agent与NMS之间路由可达。（配置步骤略）#设置Agent使用的SNMP版本为v1/v2c、只读团体名为public，读写团体名为private。system-view[A
python电脑怎么打开任务管理器_利用Python调用Windows API，实现任务管理器功能 weixin_39778400
任务管理器具体功能有：1、列出系统当前所有进程。2、列出隶属于该进程的所有线程。3、如果进程有窗口，可以显示和隐藏窗口。4、强行结束指定进程。通过Python调用WindowsAPI还是很实用的，能够结合Python的简洁和WindowsAPI的强大，写出各种各样的脚本。编码中的几个难点有：1、API的入参是结构体时，怎么解决？答：Python内手动建立结构体。详见：https://baijiah
Linux第零节：Linux命令速查图表（按功能分类）熊峰峰 5.Linux linux php
Linux命令速查图表（按功能分类）思维导图示意Linux命令文件操作权限管理系统管理网络操作文本处理压缩归档ls/cd/pwdmkdir/rm/cpcat/less/findchmodchownps/top/killshutdown/unamecurl/netstatnc/tcpdumpgrep/awk/sedtar/zip/unzip一、文件与目录操作命令功能描述常用选项示例ls列出目录内容-
JavaScript（JS）单线程影响速度 ok060 javascript 开发语言 ecmascript
js单线程影响速度在JavaScript（JS）中，单线程的本质是其执行模型的核心特点，这意味着同一时间只能执行一个任务。这种设计使得JS在处理诸如DOM操作、用户交互等任务时更为直观和安全，因为它避免了复杂的多线程并发问题，如竞态条件（raceconditions）和死锁（deadlocks）。然而，单线程的特性也确实影响了其处理大量计算或I/O密集型任务时的性能。影响速度的原因阻塞性操作：在单
OpenCV 基础模块 Python 版 ice_junjun OpenCV opencv python 计算机视觉
OpenCV基础模块权威指南（Python版）一、模块全景图plaintextOpenCV架构(v4.x+)├─核心层│├─core：基础数据结构与操作（Mat/Scalar/Point）│└─imgproc：图像处理流水线（滤波→变换→检测）├─交互层│├─highgui：GUI与媒体I/O（显示/捕获/交互）│└─video：视频分析（运动检测/目标跟踪）├─3D视觉层│└─calib3d：相
腾讯面经，有点难度~ 后端go
今天分享组织内的朋友在腾讯安全的实习面经。内容涵盖了QPS测试方法、SQL聚合查询、Linux进程管理、Redis数据结构与持久化、NAT原理、Docker隔离机制、Go语言GMP调度模型、协程控制、系统调用流程、变量逃逸分析及map操作等等知识点。下面是我整理的面经详解：面经详解一个表，里面有数据列，id，name,class，查学生最喜欢的前10个课程，sql语句实现SELECTclass,C
win32汇编环境,网络编程入门之十一品人家 win32汇编网络编程入门教程汇编
;让我们继续上一教程的内容，上一教程里主要是应用WinHTTP的函数的基本应用;在这一教程里，我们将这些乱码就成可识的,同时研究一下如何读大容量的网页，比如超过1万字节的网页;win32汇编环境,网络编程入门之十;让我们继续上一教程的内容，上一教程里主要是应用WinHTTP的函数的基本应用;在这一教程里，我们将这些乱码就成可识的,同时研究一下如何读大容量的网页，比如超过1万字节的网页;>>>>>>
DunTrust IP SSL证书——支持多端口验证 https
市面上99%的证书品牌的IPSSL证书在签发过程中会涉及默认80或者443端口开放问题，但是也有少数服务商也支持其他端口验证。一、IPSSL证书概述IPSSL证书是一种用于保护IP地址安全的SSL证书，它能够对IP地址进行HTTPS加密，确保传输数据的安全性和完整性。IPSSL证书通常用于没有域名或需要直接使用IP地址进行访问的场景。二、多端口验证的支持情况市面上99%的证书品牌的IPSSL证书在
内网IP地址SSL证书申请指南安全
SSL/TLS证书是保障网站和服务安全的重要工具，能够加密数据传输并验证服务器身份。然而，对于局域网/内网IP地址而言，申请SSL证书的过程具有一定的特殊性，以下是一份详细的攻略：一、了解局域网/内网IP地址的特殊性唯一性问题：局域网/内网IP地址在内部网络中可能具有唯一性，但在整个互联网中并不唯一。访问限制：局域网/内网IP地址通常只能在内部网络中访问，无法从外部网络直接访问。二、选择证书颁发机
ResNet改进(11)：添加 Squeeze-and-Excitation模块和替换Mish激活函数点我头像干啥 ResNet 改进【有效涨点！】深度学习 pytorch python
本专栏代码均经过测试，可以直接替换项目中的模型，一键运行！采用最新的即插即用模块，有效涨点！！1.SE模块和Mish激活函数SE模块是一种通道注意力机制，旨在增强网络对重要特征通道的关注，从而提升模型的表达能力。它通过显式地建模通道之间的依赖关系，动态调整每个通道的特征响应。SE模块的核心思想：Squeeze：通过全局平均池化（GlobalAveragePooling,GAP）将每个通道的空间维度
Python入门(函数) 高育良00003 python 开发语言
一.基础认识一种映射关系1.1什么是函数呢？概念函数是可以重复执行的语句块，可以重复调用作用用于封装语句块，提高代码的重用性1.2函数的定义语法：deffunction():#def为关键字，function为函数名#语句想要执行的操作returnre#re为返回值二.函数的调用函数名后+小括号()表示函数的执行2.1基本用法语法：函数名(实际调用的参数)2.2调用传参2.2.1位置传参最为常见，
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

爬虫/scrapy基础入门篇

Scrapy基础入门篇

Scrapy下载安装

Scrapy爬虫工作流程：

Scrapy 框架由五大组件构成

创建scrapy爬虫项目

scrapy项目创建，编写步骤

步骤一： 创建项目：在对应项目目录下创建scrapy项目。使用 scrapy startproject 项目名（比如D:\python_spider_learning\spide_project\scrapy_project\learning>在这个文件夹下创建）

1.注意：直接在pycharm里安装scrapy后，scrapy startproject 项目名会报错，这是可以把对应虚拟环境的scripts添加到环境变量中，如：D:\python_spider_learning\spide_project\venv\Scripts 2.分析创建文件里的每一个文件含义：

步骤二：进入项目：cd 项目名称。或者在pycharme中选中文件夹Terminal

步骤三：创建爬虫：命令创建爬虫：scrapy genspider 爬虫名称 域名（scrapy genspider xiao 4399.com） (gen:生成)

步骤四：可能需要修改start_url,修改成需要抓取的页面

步骤五：对数据进行解析。在spider里面的parse(response)方法中进行解析

步骤六：在Pipeline中完成数据的存储工作。

步骤七：设置settings.py文件将Pipeline进行生效设置

步骤八：运行项目：scrapy 命令：scrapy crawl 爬虫名（ scrapy crawl xiao），运行后，会打印出日志。

数据解析

在spider里面的parse(response)方法中进行解析 scrapy中xpath和css（）可以混合用

用xpath和css混合解析

在Pipeline中完成数据的存储工作

设置settings.py文件将Pipeline进行生效设置

运行项目

你可能感兴趣的:(爬虫,1024程序员节,网络,安全,爬虫,网络安全,python)

步骤一：创建项目：在对应项目目录下创建scrapy项目。使用 scrapy startproject 项目名（比如D:\python_spider_learning\spide_project\scrapy_project\learning>在这个文件夹下创建）

1.注意：直接在pycharm里安装scrapy后，scrapy startproject 项目名会报错，这是可以把对应虚拟环境的scripts添加到环境变量中，如：D:\python_spider_learning\spide_project\venv\Scripts
2.分析创建文件里的每一个文件含义：

步骤三：创建爬虫：命令创建爬虫：scrapy genspider 爬虫名称域名（scrapy genspider xiao 4399.com）
(gen:生成)

在spider里面的parse(response)方法中进行解析
scrapy中xpath和css（）可以混合用