小白菜_scc

从零入门Scarpy【1】：框架、数据流和实战案例

一 Scrapy 框架介绍

二 Scrapy 的运作流程

三 Pycharm 中创建 Scrapy 项目

四制作简单 Scrapy 爬虫

五运行爬虫

Scrapy英文文档 https://docs.scrapy.org/en/latest
Scrapy1.7中文文档 https://www.osgeo.cn/scrapy/

一 Scrapy 框架介绍

Scrapy Engine：引擎。负责Scheduler 、Downloader、Spider、ItemPipeline 中间的通讯、信号、数据传递等，是整个框架的核心
Scheduler：调度器。负责接受Scrapy Engine发送过来的Request请求，并按照一定的方式将其加入队列中，当Scrapy Engine需要时，交还给Scrapy Engine
Downloader Middlewares：下载器中间件。位于Scrapy Engine和Downloader之间的钩子框架，主要处理Scrapy Engine与Downloader之间的请求及响应。主要功能包括更换代理IP，更换Cookies，更换User-Agent，自动重试等
Downloader：下载器。负责下载Scrapy Engine发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine，由Scrapy Engine交给Spiders来处理
Spiders：蜘蛛。它负责从Responses中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给Scrapy Engine，再次进入Scheduler
Spider Middlewares：蜘蛛中间件。位于Scrapy Engine和Spider之间的钩子框架，主要处理Spider输入的响应和输出的结果及新的请求（比如进入Spider的Responses和从Spider出去的Requests）。一般不用设置
Item：项目。它定义了爬取结果的数据结构，爬取的数据会被赋值成该Item对象
Item Pipeline：项目管道。负责处理由Spider从网页中抽取的项目，它的主要任务是清洗、验证和存储数据
另，框架是个宝，多看一遍，多Scrapy的理解就多清晰一些

二 Scrapy 的运作流程

Engine首先找到处理某网站的Spider，并向该Spider请求第一个要爬取的URL
Engine从Spider中获取到第一个要爬取的URL，并通过Scheduler以Request的形式调度
Engine向Scheduler请求下一个要爬取的URL
Scheduler返回下一个要爬取的URL给Engine，Engine将URL通过Downloader Middlewares转发给Downloader下载
一旦页面下载完毕，Downloader生成该页面的Response，并将其通过Downloader Middlewares发送给Engine
Engine从下载器中接收到Response，并将其通过Spider Middlewares发送给Spider处理
Spider处理Response，并返回爬取到的Item及新的Request给Engine
Engine将Spider返回的Item给Item Pipeline，将新的Request给Scheduler
重复第二步到最后一步，直到Scheduler中没有更多的Request，Engine关闭该网站，爬取结束

三 Pycharm 中创建 Scrapy 项目

1 创建项目

2 安装Scrapy

3 创建scrapy项目

# 打开terminal 输入以下命令
# scrapy startproject 爬虫项目名
scrapy startproject crawlers

4 创建后的目录如下：

crawlers/
 ├── crawlers/           # project's Python module,you'll import your code from here
 │   ├── spiders/        # a directory where put your spiders
 │   │   └── __init__.py
 │   ├── __init__.py
 │   ├── items.py        # 定义爬取的数据结构和字段信息。实现item
 │   ├── middlewares.py  # 自己定义的中间件。实现Spider Middlewares和Downloader Middlewares
 │   ├── pipelines.py    # 对spider返回数据的处理。实现Item Pipeline
 │   └── settings.py     # 项目的全局配置文件
 └── scrapy.cfg          # Scrapy部署时的配置文件

四制作简单 Scrapy 爬虫

1 目标：获取易车上的所有品牌

2 具体制作流程：

2.1 设置基础的下载中间件（如随机选择UserAgent、使用ProxyAgent）

2.11 在 settings.py 中编写相应配置，如代理池等

2.12 从 settings.py 导入相应配置，编写 middlewares.py ，并在 settings.py 中开启

2.2 明确抓取的字段（编写 items.py）

2.3 制作具体的爬虫（创建并编写 spiders/xxspider.py）

2.4 清洗和存储数据（编写 pipelines.py，并在 settings.py 中开启）

3【settings.py】

# Obey robots.txt rules
# 设置为不遵守robots.txt协议
ROBOTSTXT_OBEY = False


# Crawl responsibly by identifying yourself (and your website) on the user-agent
# 罗列了大量UserAgent的网站。http://useragentstring.com/pages/useragentstring.php
# UserAgent池
UserAgent_Pools=[
   "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.79 Safari/537.36 Edge/14.14393",
   "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0",
   "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1",
   "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36",
   "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60",
   "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0",
   "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko",
   "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)",
   ]


# IP代理池，这里用的是xdaili
import requests
import time
def get_proxy():
    api_url = "http://api.xdaili.cn/xdaili-api//greatRecharge/getGreatIp?spiderId=xxx&orderno=xxx&returnType=2&count=1"
    time.sleep(6)
    r = requests.get(api_url).json()
    ip = r["RESULT"][0]["ip"]
    prot = r["RESULT"][0]["port"]
    thisProxy = ip + ":" + prot
    print("thisProxy:",thisProxy)
    return thisProxy
ProxyAgent = get_proxy()


# Enable or disable downloader middlewares
# 启用的下载中间件均需在这里注册。值越低，优先级越高
DOWNLOADER_MIDDLEWARES = {
      'crawlers.middlewares.RandomUserAgent': 101, 
      'crawlers.middlewares.Proxy': 102,
}

# Configure item pipelines
# 开启pipelines
ITEM_PIPELINES = {'crawlers.pipelines.BrandPipeline': 300}

4 【middlewares.py】

4.1 Downloader Middleware的常用方法

def process_request(self, request, spider)
Called for each request that goes through the downloader middleware.
Should either: return None, return a Response object, return a Request object, or raise IgnoreRequest.
- 如果返回None。Scrapy将继续处理该request，执行其他的下载中间件的process_request方法，直到该request被执行
- 如果返回Response。Scrapy将终止当前流程，也终止继续调用其他process_request方法，将response通过引擎返回给爬虫
- 如果返回Request。Scrapy则终止当前流程，也终止继续调用其他process_request方法，将request返回给调度器，大多数情况是更换新的request请求
- 如果抛出异常。该异常就会交个process_exception方法进行处理; 如果没有任何一个方法处理该异常，那么该请求就直接被忽略了且不做记录

def process_response(self, request, response, spider):
Should either: return None, return a Response object, return a Request object, or raise IgnoreRequest.
- 如果返回Response。则继续被下一个process_response方法处理
- 如果返回Request。Scrapy则终止当前流程，该request通过引擎返回给调度器
- 如果抛出异常。该请求就被忽略了且不做记录

4.1 Spider Middleware的常用方法（一般不用）

process_spider_input(response, spider)
当 Response 通过 Spider Middleware 时，该方法被调用，处理该 Response。

process_spider_output(response, result, spider)
当 Spider 处理 Response 返回结果时，该方法被调用。

process_spider_exception(response, exception, spider)
当 Spider 或 Spider Middleware 的 process_spider_input() 方法抛出异常时，该方法被调用

process_start_requests(start_requests, spider)
该方法以 Spider 启动的 Request 为参数被调用，执行的过程类似于 process_spider_output() ，只不过其没有相关联的 Response 并且必须返回 Request。

from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware
from crawlers.crawlers.settings import UserAgent_Pools,ProxyAgent
# 导入的是静态IP对应的变量ProxyAgent；直接导入获取动态IP的get_proxy会报错
import random

# 自定义的类。随机选择UserAgent
class RandomUserAgent(UserAgentMiddleware):
    def __init__(self, user_agent):
        self.user_agent = user_agent
    def process_request(self, request, spider):
        # 随机选择UserAgent
        current_ua = random.choice(UserAgent_Pools)
        # 设置UserAgent
        request.headers['User-Agent'] = current_ua
        print("当前的UserAgent是:" + str(current_ua))

# 自定义的类。使用IP代理
# request.meta本质是一个Python字典
# 其作用是随着Request的产生传递信息，传递信息的格式必须是字典类型（字典的键值可以是任意类型的，比如值、字符串、列表、字典）
class Proxy(object):
    def process_request(self,request,spider):
        if request.url.startswith("http://"):
            request.meta['proxy']="http://"+ ProxyAgent          # http代理
        elif request.url.startswith("https://"):
            request.meta['proxy']="https://"+ ProxyAgent         # https代理
        print("当前的Proxy是:" + str(ProxyAgent))

其它教程中提到可以利用from_crawler方法读取settings中的信息，尝试之后，发现不能成功，暂未找到原因

class RandomUserAgent(UserAgentMiddleware):
    def __init__(self, user_agent):
        self.user_agent = user_agent
    @classmethod
    def from_crawler(cls, crawler):
        return cls(user_agent=crawler.settings.get('UserAgent_Pools'))
    def process_request(self, request, spider):
        agent = random.choice(self.user_agent)
        request.headers['User-Agent'] = agent
        print("当前的UserAgent是:" + str(agent))

5【items.py】

import scrapy

class BrandItem(scrapy.Item):
    brand_id = scrapy.Field()
    brand_name_ch = scrapy.Field()
    brand_name_spell = scrapy.Field()
    brand_dealers_nums = scrapy.Field()

6.1 创建爬虫文件

scrapy genspider [-t template]
[-t template] 爬虫文件模板。可选参数有basic、crawl、csvfeed、xmlfeed。默认basic（一般选默认即可）
爬虫文件名。参数设置为spider的 name
域名。用于生成 allowed_domains 和 start_urls 蜘蛛的属性

scrapy genspider yiche_brand bitauto.com

6.2 【yiche_brand.py】

parse(response)
This is the default callback used by Scrapy to process downloaded responses, when their requests don’t specify a callback.
The parse method is in charge of processing the response and returning scraped data and/or more URLs to follow.
This method, as well as any other Request callback, must return an iterable of Request and/or dicts or Item objects.
Item传给Item pipline进行处理；Requests交由Scrapy下载，并由指定的回调函数处理（默认parse())，一直进行循环，直到处理完所有的数据为止。

class YicheBrandSpider(scrapy.Spider):
    name = 'yiche_brand'
    allowed_domains = ['bitauto.com']
    # custom_settings 会覆盖 settings 中 DEFAULT_REQUEST_HEADERS 的设置
    # custom_settings = {'refer': 'https://dealer.bitauto.com/beijing/'}
    # 异步加载，在浏览器中呈现的网址是"https://dealer.bitauto.com/beijing/"
    start_urls = ['https://apicar.bitauto.com/CarInfo/getlefttreejson.ashx?tagtype=jingxiaoshang&pagetype=masterbrand']
    
    # 一个def里可以有多个yield
    def parse(self, response):
        item = BrandItem()
        data = response.text
        # 使用正则提取相应信息
        pat_brand_id = 'id:(.*?),name'
        pat_brand_name_ch = 'name:"(.*?)",url'
        pat_brand_name_en = 'url:"(.*?)",cur'
        pat_brand_dealers_nums = 'num:(.*?)}'
        brand_id = re.compile(pat_brand_id).findall(data)
        brand_name_ch = re.compile(pat_brand_name_ch).findall(data)
        brand_name_spell = re.compile(pat_brand_name_en).findall(data)
        brand_dealers_nums = re.compile(pat_brand_dealers_nums).findall(data)
        # 理论上提取出来的品牌ID、品牌中文名、品牌中文拼音、品牌经销商数的数量是一致的
        brand_len = [len(brand_id), len(brand_name_ch), len(brand_name_spell), len(brand_dealers_nums)]
        # 利用集合的特性
        if len(set(brand_len)) == 1:
            print(len(brand_id), len(brand_name_ch), len(brand_name_spell), len(brand_dealers_nums))
            for i in range(len(brand_id)):
                item['brand_id'] = brand_id[i]
                item['brand_name_ch'] = brand_name_ch[i]
                item['brand_name_spell'] = brand_name_spell[i]
                item['brand_dealers_nums'] = brand_dealers_nums[i]
                yield item
        else:
            print('品牌ID、品牌中文名、品牌中文拼音、品牌经销商数的数量不一致的')

6.3【pipeline.py】

process_item(item, spider)
每个Item Pipeline必须实现process_item方法，该方法用来处理每一项由Spider爬取到的数据
其中参数Item是爬取到的一项数据（Item或字典）。Spider是爬取此项数据的Spider对象。
process_item在处理某项item时，如果返回了一项数据（Item或字典），返回的数据会递送给下一级级Item Pipeline（如果有）继续处理；如果抛出（raise）一个DropItem异常（scrapy.exceptions.DropItem），那么该Item既不会被继续处理，也不会被导出。通常，在检测到无效数据或想要过滤掉某些数据的时候使用

open_spider(self, spider)
在spider开启的（数据爬取前）调用该函数，通常用于数据爬取前的某些初始化工作，如打开数据库连接
参数spider就是被开启的Spider对象

close_spider(self, spider)
在spider关闭时（数据爬取后）调用该函数，通常用于数据爬取后的收尾工作，如关闭数据库连接
参数spider就是被关闭的Spider对象

import pymysql

class BrandPipeline(object):
    def __init__(self):
        # 链接数据库
        self.db = pymysql.connect(host="localhost", user="root", password="xxx", port = 3306, database ="crawlers")
        # 创建游标
        self.cur = self.db.cursor()
    def process_item(self, item, spider):
        brand_id = item['brand_id']
        brand_name_ch = item['brand_name_ch']
        brand_name_spell = item['brand_name_spell']
        brand_dealers_nums = item['brand_dealers_nums']
        val = (brand_id,brand_name_ch,brand_name_spell,brand_dealers_nums)
        # 插入数据语句。ignore代表忽略重复值
        s_ins = """insert ignore into yiche_brand(brand_id,brand_name_ch,brand_name_spell,brand_dealers_nums)
        values (%s, %s, %s, %s)"""
        # 执行语句
        self.cur.execute(s_ins,val)
        # 提交数据
        self.db.commit()
        # 交给后边的管道Pipeline处理继续处理
        # 如果不让后面管道Pipeline，可以抛出异常：raise DropItem("Duplicate item: %s" % item)
        return item
    def close_spider(self,spider):
        # 关闭数据库
        self.db.close()

五运行爬虫

scrapy crawl yiche_brand

end

python电脑怎么打开任务管理器_利用Python调用Windows API，实现任务管理器功能 weixin_39778400
任务管理器具体功能有：1、列出系统当前所有进程。2、列出隶属于该进程的所有线程。3、如果进程有窗口，可以显示和隐藏窗口。4、强行结束指定进程。通过Python调用WindowsAPI还是很实用的，能够结合Python的简洁和WindowsAPI的强大，写出各种各样的脚本。编码中的几个难点有：1、API的入参是结构体时，怎么解决？答：Python内手动建立结构体。详见：https://baijiah
OpenCV 基础模块 Python 版 ice_junjun OpenCV opencv python 计算机视觉
OpenCV基础模块权威指南（Python版）一、模块全景图plaintextOpenCV架构(v4.x+)├─核心层│├─core：基础数据结构与操作（Mat/Scalar/Point）│└─imgproc：图像处理流水线（滤波→变换→检测）├─交互层│├─highgui：GUI与媒体I/O（显示/捕获/交互）│└─video：视频分析（运动检测/目标跟踪）├─3D视觉层│└─calib3d：相
Python入门(函数) 高育良00003 python 开发语言
一.基础认识一种映射关系1.1什么是函数呢？概念函数是可以重复执行的语句块，可以重复调用作用用于封装语句块，提高代码的重用性1.2函数的定义语法：deffunction():#def为关键字，function为函数名#语句想要执行的操作returnre#re为返回值二.函数的调用函数名后+小括号()表示函数的执行2.1基本用法语法：函数名(实际调用的参数)2.2调用传参2.2.1位置传参最为常见，
python本地连接minio 伶星37 python 网络服务器
在你浏览器能成功访问到你的minio网页，并且成功登录之后。接下来如果你想用python连接数据库，并且想用python连接minio，就可以用这个blog。连接代码client=Minio("localhost:9000",#9000是默认端口号access_key="admin",#你的账户secret_key="password",#你的密码secure=False,#这点我会详细说明)为什
逆向爬虫-筑基篇-第二层-壹-计算机网络和因特网-008 蓝花楹下逆向爬虫计算机网络网络
第二层网络初探计算机网络和因特网计算机网络与因特网之史分组交换之兴：1961-1972昔时，电话网为天下通信之主宰，其以电路交换之术，使语音恒速传于发收之间。然至20世纪60年代，计算机之重要日增，分时计算机亦现于世。彼时，智者思虑如何将计算机相连，使地理分布之用户共享其能。用户之流量，多具突发之性，如发一令于远机，继而静待其应，或思其答。当此之时，天下有三组智者，各自发明分组交换之术，以代电路交
头歌实践教学平台 Python程序设计实训答案（三）学习的锅头哥实践教学平台实训答案 python
第七阶段文件实验一文本文件的读取第1关：学习-Python文件之文本文件的读取任务描述本关任务：使用open函数以只写的方式打开文件，打印文件的打开方式。相关知识为了完成本关任务，你需要掌握：文本文件；open函数及其参数；文件打开模式；文件对象常用属性；关闭文件close函数。#请在下面的Begin-End之间按照注释中给出的提示编写正确的代码##########Begin###########
python基础之--面相对象--OOP基本特性暴龙胡乱写博客 python 开发语言人工智能
python基础之–面相对象–OOP基本特性文章目录python基础之--面相对象--OOP基本特性一，OOP基本特性1.1封装1.2继承/派生1.2.1基础概念1.2.3继承实现1.3多态1.4对象对成员的操作（补充）1.5私有属性1.6重写魔术方法二，super函数2.1基本使用2.2super().\__init__()一，OOP基本特性OOP的四大基本特性是封装、继承、多态和抽象。1.1封
Dify1.01版本vscode 本地环境搭建运行实践 hamish-wu vscode 编辑器 dify 大模型 python flask
dify是python编写的低代码AI开发平台，是常用的大模型开发平台。本文基于最新的1.0.1版本实践完成，有需要的可以私信交流。咨询免费，详细文档及视频需要一定成本，大概相当于节约的时间成本。搭建环境windows11开发工具vscode搭建步骤：1.Startthedocker-composestackwindow环境下运行docker命令，需要下载docker官网镜像，会遇到timeout
vscode python 入门教程(一) window 10 环境下安装pyenv hamish-wu Python python 开发语言 pyenv
python的环境配置方法很多，由于python有两个大版本，很多时候需要切换某个固定的版本才能运行三方包，所以推荐使用pyenv配置python环境变量pyenv的安装安装方法：Invoke-WebRequest-UseBasicParsing-Uri"https://raw.githubusercontent.com/pyenv-win/pyenv-win/master/pyenv-win/i
mongodb与爬虫的关系 getapi mongodb 爬虫数据库
MongoDB与爬虫之间的关系主要体现在数据存储和管理的层面。爬虫（WebCrawler或Spider）是一种自动化工具，用于从互联网上抓取网页内容或特定数据。而MongoDB是一个NoSQL数据库，常被用来存储和管理爬虫抓取到的数据。以下是它们之间关系的具体分析：1.爬虫的数据存储需求爬虫在运行过程中会抓取大量的非结构化或半结构化数据（例如HTML页面、JSON数据、图片链接等）。这些数据通常具
1-5 Python 入门之运算符的使用 Sa_sa_ki_Haise python
第1关：算术、比较、赋值运算符100任务要求参考答案评论201任务描述相关知识算术运算符比较(关系)运算符赋值运算符编程要求测试说明任务描述在编程时，我们常常需要对数值或对象进行算术、比较运算和赋值运算，以此来实现我们的功能需求。本关介绍Python中的一些基本运算符，并要求对给定的苹果和梨的数量进行算术运算、比较、赋值运算，然后输出相应的结果。相关知识要实现上述功能，需要用到Python中的各种
rabbitmq + minio +python 上传文件伶星37 rabbitmq python ruby
功能实现RabbitMq接收hello里面传来的消息根据消息在MobileFile里面新建文件新建文件上传到miniopython新建文件importospath='./MobileFile'file_path=os.path.join(path,"new_file.txt")withopen(file_path,"w")asfile:pass转换成函数格式importosdefcreatefil
vscode python 入门教程(二) vscode使用gti 管理代码 hamish-wu vscode ide 编辑器
vscode代码管理需要用管道git的命令，这点和idea的代码管理区别比较大。作为java开发需要自己熟悉适应一下。一、GitHub新建一个仓库过程略二、本地git项目初始化gitinitvscode中可以看到文件状态gitstatus使用gitremote命令吧本地git仓库和远程git仓库链接起来[email protected]提交代码gitcommit-m"评论
Python进阶之-加密库cryptography使用详解夏天Aileft Python python 网络加密
✨前言cryptography库是一个强大的Python加密库，提供了对加密算法和协议的高层和低层访问。它是用来实现数据加密、签名、密钥管理等功能的。以下是一些常见用法的详解，帮助你理解如何使用这个库。✨安装首先，你需要确保安装了cryptography库：pipinstallcryptography✨1.对称加密对称加密是指加密和解密使用相同的密钥。Fernet是cryptography库中提供
python列表添加元素的三种方法定义集合数据对象_python 学习第三天可迭代对象（列表，字典，元组和集合）... weixin_39852491
列表，字典，元组和集合列表list列表是由一系列特定元素组成的，元素和元素之间没有任何关联关系，但他们之间有先后顺序关系列表是一种容器列表是序列的一种列表是可以被改变的序列Python中的序列类型简介（sequence）字符串（str）列表（list）元组（tuple）字节串（bytes）字节数组（bytearray）创建空列表的字面值L=[]#L绑定空列表创建非空列表：L=[1,’two’,3,
python~集合详解鱼跃龙 python python集合详解 set集合
集合的基本操作首先需要明确的是：集合(set)是一个无序的不重复元素序列，多用来进行排重；不支持切片和索引取值！1.创建集合>>>a={1,2,4,4}>>>a{1,2,4}>>>type(a)**创建空集合时需要注意：不能直接用大括号，只能用set()；否则创建的是一个字典>>>b=set()>>>type(b)>>>c={}>>>type(c)2.添加元素add()方法是将要添加的元素作为一个
Python密码学：cryptography库零度° python python 密码学
在数字时代，确保数据的安全性和隐私至关重要。Python中的cryptography库是一个全面的包，为Python开发者提供了密码学原语和配方。它支持高级配方和常见密码学算法的低级接口。cryptography库概述cryptography库旨在易于使用且默认安全。它包括各种密码学操作的高级和低级API，如：对称加密非对称加密哈希函数消息认证码（MAC）数字签名密钥管理cryptography库
Python---frozenset集合爱听雨声的北方汉快快乐乐学Python Python
frozenset是set的不可变版本，因此set集合中所有能改变集合本身的方法（如add、remove、discard、xxx_update等），frozenset都不支持；set集合中不改变集合本身的方法，fronzenset都支持。frozenset的作用主要有以下两点：1、当集合元素不需要改变时，使用frozenset代替set更安全。2、当某些API需要不可变对象时，必须用frozens
(python)保障信息安全的加密库-cryptography Marst·Zhang 基础知识实用工具 python
前言cryptography是一个广泛使用的Python加密库，提供了各种加密、哈希和签名算法的实现。它支持多种加密算法，如AES、RSA、ECC等，以及哈希函数（如SHA-256、SHA-384等）和数字签名算法(如DSA、ECDSA等).目录常见用途密码学函数主要功能优点缺点总结常见用途数据加密使用对称加密算法（如AES）对数据进行加密，确保数据在传输或存储过程中的机密性。数字签名生成和验证数
Python if-else对缩进的要求宇寒风暖 python编程 python 开发语言学习笔记
在Python中，缩进是语法的一部分，用于表示代码块的层次结构。if-else语句的代码块必须通过缩进来定义，缩进不正确会导致语法错误或逻辑错误。1.缩进的基本规则1.1缩进的作用缩进用于表示代码块的层次结构。同一代码块中的语句必须具有相同的缩进级别。缩进通常使用4个空格，这是Python官方推荐的风格。1.2示例x=10ifx>5:print("x大于5")#缩进4个空格print("这是if代
一文弄懂 Python assert 断言宇寒风暖 python编程 python 开发语言学习笔记
在Python中，assert是一种用于调试的语句，用于检查某个条件是否为True。如果条件为False，assert会抛出AssertionError异常，并可选地输出错误信息。assert通常用于在开发阶段验证程序的假设条件，确保代码的正确性。1.assert的基本语法1.1语法assertcondition,messagecondition：需要检查的条件表达式。message：可选参数，当
开源项目常见问题解决方案——cryptography 周屹隽
开源项目常见问题解决方案——cryptographycryptographycryptographyisapackagedesignedtoexposecryptographicprimitivesandrecipestoPythondevelopers.项目地址:https://gitcode.com/gh_mirrors/cr/cryptography项目基础介绍cryptography是一个
python 利用pandas实现从CSV导出并格式化后写入.jsonl文件风_流沙 python工具备忘录 python pandas 开发语言
你可以使用pandas库来读取CSV文件，然后通过一些格式化操作将数据转换为JSONL格式并写入文件。JSONL（JSONLines）格式是一种每行一个JSON对象的文件格式。下面是一个示例，演示了如何使用pandas读取CSV文件，处理数据并将其导出到JSONL文件中：示例代码：importpandasaspdimportjson#读取CSV文件df=pd.read_csv('data.csv'
Python文件加密库之cryptography使用详解 Rocky006 python 开发语言
概要在现代信息社会中，数据的安全性变得越来越重要。为了保护敏感信息，文件加密技术被广泛应用。Python的cryptography库提供了强大的加密功能，可以轻松实现文件加密和解密。本文将详细介绍如何使用cryptography库进行文件加密，包含具体的示例代码。cryptography库简介cryptography是Python中一个功能强大且易用的加密库，提供了对称加密、非对称加密、哈希算法、
【Python系列】高效Parquet数据处理策略：合并与分析实践小团团0 python 开发语言
在大数据时代，数据的存储、处理和分析变得尤为重要。Parquet作为一种高效的列存储格式，被广泛应用于大数据处理框架中，如ApacheSpark、ApacheHive等。Parquet是一个开源的列存储格式，它被设计用于支持复杂的嵌套数据结构，同时提供高效的压缩和编码方案，以优化存储空间和查询性能。以下将详细介绍如何使用Python对Parquet文件进行数据处理与合并，并提供相应的源码示例。一、
cryptography，一个神奇的 Python 库！ Sitin涛哥 Python python 开发语言
更多资料获取个人网站：ipengtao.com大家好，今天为大家分享一个神奇的Python库-cryptography。Github地址：https://github.com/pyca/cryptography在当今数字化时代，信息安全越来越受到重视。数据加密是保护数据安全的重要手段之一，而Python的cryptography库提供了丰富的功能来支持各种加密算法和协议。本文将深入探讨crypto
深度讨论Python for循环观智能 python 开发语言
作者的其他文章推荐：强化学习再受关注！for循环使用于遍历可迭代对象的Python语句，工作原理如下：#for循环foriteminiterable:print(item)#等价于iterator=iter(iterable)#获取迭代器whileTrue:try:item=next(iterator)#获取下一个元素print(item)exceptStopIteration:break#迭代结
Python第六章08：元组操作练习题苹果.Python.八宝粥 python 开发语言
#元组定义操作练习题"""定义一个元组，内容是：('周杰伦',11,['football','music'])，记录一个学生的信息（姓名、年龄、爱好）请通元组（tuple）的功能，对其进行如下操作：1.查询其年龄所在的下标位置2.查询学生的姓名3.删除学生爱好中的football4.增加爱好：coding"""my_tuple=('周杰伦',11,['football','music'])#1.查
Python第六章07：元组的定义和操作苹果.Python.八宝粥 python 前端开发语言
#tuple元组的定义和操作#tuple元组定义用小括号：(1,2,3,4,5),可以是不同类型元素#给变量定义元组时，写括号不写tuple：a=(1,2,3,4,5)#变量=（）变量=tuple（）空元组变量#tuple元组定义完成后，不可以修改，但是，如果元组中嵌套了一个列表时，元组中列表的内容可以修改#封装数据后，不希望被篡改数据，就使用元组tuple#1.定义一个元组t1=("halibo
利用Python爬虫获取Shopee（虾皮）商品详情：实战指南小爬虫程序猿 python 爬虫开发语言
在跨境电商领域，Shopee（虾皮）作为东南亚及台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，获取Shopee商品详情都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Python爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Python爬虫获取Shopee商品详情，并提供完整的代码示例。一、为
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

从零入门Scarpy【1】：框架、数据流 和 实战案例

一 Scrapy 框架介绍

二 Scrapy 的运作流程

三 Pycharm 中创建 Scrapy 项目

四 制作简单 Scrapy 爬虫

五 运行爬虫

你可能感兴趣的:(爬虫,python)

从零入门Scarpy【1】：框架、数据流和实战案例

四制作简单 Scrapy 爬虫

五运行爬虫