源源佩奇

python爬虫基础小案例， scrapy框架，思路和经验你全都有。

一、scrapy介绍

二、爬取步骤

三、代码

1、创建爬虫项目 scrapy startproject 项目名字注意: 项目名字不能出现中文，也不能以数字开头。

2、创建爬虫文件

3.进入itmes.py

4.进入spiders

5.进入pipelines.py

四、运行scrapy 文件

一、scrapy介绍

简单介绍一下scrapy吧。

Scrapy 框架是一个基于Twisted的一个异步处理爬虫框架，应用范围非常的广泛，常用于数据采集、网络监测，以及自动化测试等。

Scrapy 框架主要由五大组件组成，它们分别是：

调度器(Scheduler) ：它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
下载器(Downloader) :负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理
爬虫（Spider）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)
实体管道(Item Pipeline)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.
Scrapy引擎(Scrapy Engine)：负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

这么说大家可能还是不太明白，直接上图（此图来自一位bilibili的up主）：

步骤如下：

注：红色字体部分是给下一个步骤的数据

spiders url --》引擎（Scrapy Engine）url --》调度器（Scheduler）请求 --》引擎（Scrapy Engine）请求 --》下载器(Downloader) 请求 --》互联网数据 --》引擎（Scrapy Engine）数据 --》spiders 解析数据结果 --》引擎（Scrapy Engine）if(就交给管道下载数据) if(有 url 则重复上面步骤) 注意的一点是连个可以同时存在也可以单独存在

话不多说，直接开始干！！！！

二、爬取步骤

这次要爬取的是当当网中的电子书

点击此处，进入网址，可以看到很多的书。而我们需要的是数据：书的图片，书名，作者，价格

1.爬取思路

首先查看有多少页，会发现，这个网站没有页数，究其原因，是一个滚动条的 ajax 请求，当滚动条滑倒最底下的时候，就发出一条请求。说这么一堆可能听不懂，上图。

这时候你会发现里面多了很多条请求，我们直接看到最上面一条，因为是ajax的请求，肯定是一个json的一个嵌套格式，直接打开英文是”response“，中文是“响应”，我的是中文所以就点击响应，看看有没有我们所需要的数据。

有数据吧，那就是他了。

http://e.dangdang.com/media/api.go?action=mediaCategoryLeaf&promotionType=1&deviceSerialNo=html5&macAddr=html5&channelType=html5&permanentId=20220424124301850188613824148624365&returnType=json&channelId=70000&clientVersionNo=6.8.0&platformSource=DDDS-P&fromPlatform=106&deviceType=pconline&token=&start=63&end=83&category=QCWX&dimension=dd_sale&order=0

复制url 放到搜索栏里面在进行请求一次，检验一下是不是正确的。

结果如下，密密麻麻的数据，有密集恐惧症的估计得没，而我们今天的任务就是从这些数据中提取出我们想要的数据。

要多页爬取，所以我们还要刚才一样在操作一次，下一条的请求URL，和这条url有什么区别。

这时候就有两条url

http://e.dangdang.com/media/api.go?action=mediaCategoryLeaf&promotionType=1&deviceSerialNo=html5&macAddr=html5&channelType=html5&permanentId=20220424124301850188613824148624365&returnType=json&channelId=70000&clientVersionNo=6.8.0&platformSource=DDDS-P&fromPlatform=106&deviceType=pconline&token=&start=63&end=83&category=QCWX&dimension=dd_sale&order=0
http://e.dangdang.com/media/api.go?action=mediaCategoryLeaf&promotionType=1&deviceSerialNo=html5&macAddr=html5&channelType=html5&permanentId=20220424124301850188613824148624365&returnType=json&channelId=70000&clientVersionNo=6.8.0&platformSource=DDDS-P&fromPlatform=106&deviceType=pconline&token=&start=84&end=104&category=QCWX&dimension=dd_sale&order=0

规律找到了，很简单。start（从第几本书开始） end（结束的那一本书）

思路有了，那就开始写代码

三、代码

在python 中的 Terminal 也就是终端中，创建scrapy框架

1、创建爬虫项目 scrapy startproject 项目名字
注意: 项目名字不能出现中文，也不能以数字开头。

项目结构如下：玩过django的人应该都知道

2、创建爬虫文件

        在spiders文件夹中创建爬虫文件 
               cd 项目的名字\项目的名字\spiders
        进入spiders文件后创建爬虫文件：
        创建爬虫文件         
               scrapy genspider 爬虫文件的名字 要爬取的网页

注：URL记得用 ” “包起来不然可能会报错

创建成功后会出现，也就是我们刚刚创建的文件夹

3.进入itmes.py

数据取到后接下里就是定义数据结构了

import scrapy


class ScrapyDyttCsdnItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    
    #定义好数据结构
    name = scrapy.Field()   #书名
    author = scrapy.Field() #作者
    imgSrc = scrapy.Field() #图片
    price = scrapy.Field()  #价格
    pass

4.进入spiders

进入我们刚刚创建好的文件 spiders文件下的 dytt.py

进入该文件，会发现，看注释

import scrapy


class DyttSpider(scrapy.Spider):
    name = 'dytt'
    #链接范围，不在该范围内的url请求，都会报错，一般只写域名
    allowed_domains = ['e.dangdang.com']
    #执行文件请求的url，也就是我们创建文件的是给的url，
    #但是又不懂是不是，这是因为框架内部的原因弄的，大家不用在意，把刚才的url重新复制在里面就可以了。
#改一下strat 和 end 这两个是前面提过的 strat=0  和 end=20
#意思也就是从索引0开始，一直到索引20，也就是21本书
    start_urls = ['http://e.dangdang.com/media/api.go?action=mediaCategoryLeaf&promotionType=1&deviceSerialNo=html5&macAddr=html5&channelType=html5&permanentId=20220424124301850188613824148624365&returnType=json&channelId=70000&clientVersionNo=6.8.0&platformSource=DDDS-P&fromPlatform=106&deviceType=pconline&token=&start=0&end=20&category=QCWX&dimension=dd_sale&order=0']

    def parse(self, response):
#页面返回来的数据全在response 中，response.text 看看数据有没有获取到
        print(response.text)

3、运行爬虫代码
                scrapy crawl 爬虫文件的名字
                eg: scrapy crawl dytt

密密麻麻的数据已经获取到了，说明代码已经好了，接下来就是解析数据了，看到这些数据别说是我们了，就算哪些最牛逼的大神都头痛，有没有好的办法呢？当然是有的。

既然书是从strat开始 end结束，那能不能只获取一本书呢。

试试，改 strat=0 和 end=0 只获取一本书

在浏览器输入根改后的链接

http://e.dangdang.com/media/api.go?action=mediaCategoryLeaf&promotionType=1&deviceSerialNo=html5&macAddr=html5&channelType=html5&permanentId=20220424124301850188613824148624365&returnType=json&channelId=70000&clientVersionNo=6.8.0&platformSource=DDDS-P&fromPlatform=106&deviceType=pconline&token=&start=0&end=0&category=QCWX&dimension=dd_sale&order=0

结果如下，这样是不是就舒服多了，接下来就是了解 json 数据结构，找到我们需要数据的位置

结构已近给你们找好了，如果你们也想自己找的话可以试试，挺好玩的。

print(doc['data']["saleList"][0]['mediaList'][0]["authorPenname"])  #作者
print(doc['data']["saleList"][0]['mediaList'][0]["coverPic"])       #图片
print(doc['data']["saleList"][0]['mediaList'][0]["title"])          #书名字
print(doc['data']["saleList"][0]['mediaList'][0]["lowestPrice"])    #价格

那接下来就是解析数据了

import scrapy
import json

class DyttSpider(scrapy.Spider):
    name = 'dytt'
    #链接范围，不在该范围内的url请求，都会报错，一般只写域名
    allowed_domains = ['e.dangdang.com']
    #执行文件请求的url，也就是我们创建文件的是给的url，
    #但是又不懂是不是，这是因为框架内部的原因弄的，大家不用在意，把刚才的url重新复制在里面就可以了。
    #改一下strat 和 end 这两个是前面提过的 strat=0  和 end=20
    #   意思也就是从索引0开始，一直到索引20，也就是21本书
    start_urls = ['http://e.dangdang.com/media/api.go?action=mediaCategoryLeaf&promotionType=1&deviceSerialNo=html5&macAddr=html5&channelType=html5&permanentId=20220424124301850188613824148624365&returnType=json&channelId=70000&clientVersionNo=6.8.0&platformSource=DDDS-P&fromPlatform=106&deviceType=pconline&token=&start=0&end=20&category=QCWX&dimension=dd_sale&order=0']

    def parse(self, response):
        
        
        json_list = json.loads(response.text)
        #  json_list['data']['saleList']  获取每一本书的信息

        for i in json_list['data']['saleList']: #遍历每一本书 获取其中需要的数据
            author = i['mediaList'][0]["authorPenname"]
            imgSrc = i['mediaList'][0]["coverPic"]
            name = i['mediaList'][0]["title"]
            price =i['mediaList'][0]["lowestPrice"]
            print(author,name,imgSrc,price)

获取数据如下：

这样是不是就舒服多了

接下来把解析好的数据给 items.py 中的类，让items.py 给数据进行封装 dict 字典格式

import scrapy
import json


class DyttSpider(scrapy.Spider):
    name = 'dytt'
    #链接范围，不在该范围内的url请求，都会报错，一般只写域名
    allowed_domains = ['e.dangdang.com']
    #执行文件请求的url，也就是我们创建文件的是给的url，
    #但是又不懂是不是，这是因为框架内部的原因弄的，大家不用在意，把刚才的url重新复制在里面就可以了。
    #改一下strat 和 end 这两个是前面提过的 strat=0  和 end=20
    #   意思也就是从索引0开始，一直到索引20，也就是21本书
    start_urls = ['http://e.dangdang.com/media/api.go?action=mediaCategoryLeaf&promotionType=1&deviceSerialNo=html5&macAddr=html5&channelType=html5&permanentId=20220424124301850188613824148624365&returnType=json&channelId=70000&clientVersionNo=6.8.0&platformSource=DDDS-P&fromPlatform=106&deviceType=pconline&token=&start=0&end=20&category=QCWX&dimension=dd_sale&order=0']

    def parse(self, response):


        json_list = json.loads(response.text)
        #  json_list['data']['saleList']  获取每一本书的信息

        for i in json_list['data']['saleList']: #遍历每一本书 获取其中需要的数据
            author = i['mediaList'][0]["authorPenname"]
            imgSrc = i['mediaList'][0]["coverPic"]
            name = i['mediaList'][0]["title"]
            price =i['mediaList'][0]["lowestPrice"]

            #导入items.py 中的类 也就是我们刚刚定义好的数据结构 会定义成一个字典格式的数据结构
            from scrapy_dytt_csdn.items import ScrapyDyttCsdnItem
            book = ScrapyDyttCsdnItem(author=author,imgSrc=imgSrc,name=name,price=price)

最后就是下载数据，需要交给管道，pipelines.py 文件

import scrapy
import json


class DyttSpider(scrapy.Spider):
    name = 'dytt'
    #链接范围，不在该范围内的url请求，都会报错，一般只写域名
    allowed_domains = ['e.dangdang.com']
    #执行文件请求的url，也就是我们创建文件的是给的url，
    #但是又不懂是不是，这是因为框架内部的原因弄的，大家不用在意，把刚才的url重新复制在里面就可以了。
    #改一下strat 和 end 这两个是前面提过的 strat=0  和 end=20
    #   意思也就是从索引0开始，一直到索引20，也就是21本书
    start_urls = ['http://e.dangdang.com/media/api.go?action=mediaCategoryLeaf&promotionType=1&deviceSerialNo=html5&macAddr=html5&channelType=html5&permanentId=20220424124301850188613824148624365&returnType=json&channelId=70000&clientVersionNo=6.8.0&platformSource=DDDS-P&fromPlatform=106&deviceType=pconline&token=&start=0&end=20&category=QCWX&dimension=dd_sale&order=0']

    def parse(self, response):


        json_list = json.loads(response.text)
        #  json_list['data']['saleList']  获取每一本书的信息

        for i in json_list['data']['saleList']: #遍历每一本书 获取其中需要的数据
            author = i['mediaList'][0]["authorPenname"]
            imgSrc = i['mediaList'][0]["coverPic"]
            name = i['mediaList'][0]["title"]
            price =i['mediaList'][0]["lowestPrice"]

            #导入items.py 中的类 也就是我们刚刚定义好的数据结构 会定义成一个字典格式的数据结构
            from scrapy_dytt_csdn.items import ScrapyDyttCsdnItem
            book = ScrapyDyttCsdnItem(author=author,imgSrc=imgSrc,name=name,price=price)

            #把数据交给管道  piplines.py  进行数据的下载
            yield book

5.进入pipelines.py

进行数据的下载

class ScrapyDyttCsdnPipeline:

    #程序执行前第一个开始此方法，该方法是框架内置方法，方法名一定不能修改，否则会报错
    def open_spider(self):
        #打开文件
        self.fp = open("book.json",'w',encoding='utf-8')

    def process_item(self, item, spider):
        #item 中就是 dytt.py 文件中 yield book 中返回的数据
        #注意 item 要转化成字符串类型，否则会报错
        self.fp.write(str(item))
        return item

    def closer_spider(self):
        #关闭文件
        self.fp.close()

让后在settings.py 文件中把这一行的注释解开，也就是打开管道，管道不带开，数据怎么进去呢，更别提下载数据了。

为了方便大家寻找进入settings 文件后按住 crat+f 进行搜索这个 ITEM_PIPELINES，就能找到了

四、运行scrapy 文件

在终端输入

scrapy crawl 爬虫文件的名字

scrapy crawl dytt

输入之后进行按下回车就可以了

最后文件book.json 文件会在 spiders文件夹下

总共105条，一本书5条数据

105/5=21（本）

所有数据都在这里了，一点都没漏，Perfect！！！

还有不懂的地方可以评论，看到了会及时回复的，谢谢大家的支持。

go执行java -jar 完成DSA私钥解析并签名 DavidSoCool java jar golang
起因，最近使用go对接百度联盟api需要使用到DSA私钥完成签名过程，在百度提供的代码示例里面没有go代码的支持，示例中仅有php、python2和3、java的代码，网上找了半天发现go中对DSA私钥解析支持不友好，然后决定使用在java中完成签名计算过程，生成可执行jar后由外部传入参数获取签名数据。百度联盟api文档说明：1）权限开通后，登录百度联盟媒体平台（union.baidu.com）
【30天玩转python】项目实战：从零开始开发一个Python项目爱技术的小伙子 30天玩转python linux 运维服务器
项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python递推法_如何使用Python递归函数中的递推？热茶走 python递推法
我们大家都知道，一个函数可能存在多种不同的用法，很少是有函数只针对一个方式，那么基于一种函数，我们肯定要了解多个方式，今日针对递归函数里的递推内容给大家介绍哦~递归是什么？是指函数/过程/子程序在运行过程序中直接或间接调用自身而产生的重入现象。下面是个人理解：递归就是在函数内部调用自己的函数被称之为递归。实例：#直接调用自己：deffunc:print('fromfunc')funcFunc#间接
python递推式_Python 递推式构造列表(List Comprehensions) man One python递推式
你需要构造一个新的列表,列表中的元素是从一个已知列表中的元素计算而得到的.比如你要创建一个列表,里面的元素是另一个列表中的元素加23后得到的.使用递推式构造列表是最理想的方法:thenewlist=[x+23forxintheoldlist]如果你希望用一个列表中大于5的元素构造一个新的列表,使用递推式也是很方便的:thenewlist=[xforxintheoldlistifx>5]如果你希望将
Dash 简介 tankusa dash
Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
视频下载插件：yt-dlp 小怪兽长大啦 python
Yt-dlp插件使用下载方法方法一：Python插件下载使用pip工具安装即可:pipinstallyt-dlp.Python已经配置过环境变量，下载yt-dlp时不需要配置。方法二：直接下载EXE可执行文件网上下载yt-dlp应用程序：https://github.com/yt-dlp/yt-dlp/releases配置环境变量。常用使用命令（配置好环境变量后，控制台下输入命令即可）直接下载视频
Python __init__.py 模块详解鱼丸丶粗面 Python __init__.py
文章目录1概述2导入演示2.1执行顺序：先父后子2.2导入所有模块（含子模块）1概述1.工具:Pycharm场景:在创建一个PythonPackage时，会默认在该包下生成一个'__init__.py'文件2.目的:'进行一些初始化操作'(1)当importpackage时，"自动"执行'__init__.py'文件中的内容(2)常用于导入模块2导入演示2.1执行顺序：先父后子目录结构：目录结构简
Python __init__.py 愚昧之山绝望之谷开悟之坡 python init
Python__init__.py作用详解尼古拉苏关注12018.06.1012:57:34字数745阅读45,278转载于：https://www.cnblogs.com/tp1226/p/8453854.html__init__.py该文件的作用就是相当于把自身整个文件夹当作一个包来管理，每当有外部import的时候，就会自动执行里面的函数。1.标识该目录是一个python的模块包（modul
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
有趣的学习Python-第十篇：Python的“魔法宝库”：标准库之旅王盼达有趣的学习Python 学习 python 开发语言
Python不仅是一门强大的编程语言，更像是一座充满宝藏的“魔法宝库”，里面装满了各种各样的“魔法工具”（标准库）。这些“魔法工具”可以帮助你轻松地完成各种任务，从文件操作到网络编程，从数据处理到性能优化。接下来，让我们一起探索Python的“魔法宝库”，看看这些“魔法工具”到底有多神奇！10.1操作系统接口：与“魔法世界”互动os模块就像是一个“魔法接口”，可以帮助你与操作系统进行互动。你可以用
有趣的学习Python-第八篇：Python的“魔法盾牌”：错误与异常处理王盼达有趣的学习Python 学习 python 开发语言
在Python的魔法世界里，即使是经验丰富的魔法师也可能遇到一些“魔法失误”。这些失误分为两种：语法错误和异常。别担心，Python为你准备了一面强大的“魔法盾牌”，帮助你应对这些挑战。8.1语法错误：魔法咒语写错了语法错误就像是你在念魔法咒语时，不小心说错了单词。这是学习Python过程中最常见的问题。比如，你可能忘记在while循环后面加上冒号：whileTrueprint('Hellowor
Python字符串操作 weixin_30871905 python
转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1='strcpy'sStr2=sStr1sStr1='strcpy2'printsStr2'''2.连接字符串'''#strcat(sStr1,sStr2)sStr1='strcat'sSt
零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
Python 字符串操作 iteye_13776 Python Python C C++C#
Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
【Python 第五篇章】数据类型蜗牛 | ICU Python 专栏 python windows 开发语言
一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
PySide2是 Qt 库的 Python 绑定之一 WwwwwH_PLUS #Qt qt python 开发语言
PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
Python学习第十一天 Leo来编程 Python学习 python
疑惑：有很多人不知道是不是也分不清什么是单核？什么是多核？什么是时间片？进程？线程？那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子：比如你是一个厨师（计算机）在一个厨房（CPU）里需要同时做3个菜（进程）、每个菜需要准备不同的调料以及协作（线程），那么这个厨师需要不断地切换时间（时间片）来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师，这样的例子太多了因为万物皆对象
python学习第三天 Leo来编程 Python学习 python 开发语言
条件判断条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。#条件判断age=18ifage0:#也可以写if(s>0)但是没必要因为python给个提示建议去掉保证代码的按照缩进来进行更加规范print("这个数字是大于0的数字!")#这行代码属于if语句的代码块elifs==0:print("这个数字是等于0的数字!")#这行代码属于elif语句的代码块else:pr
三种优化算法旅者时光算法算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
使用 Python 合并微信与支付宝账单，生成财务报告 python后端
最近用思源笔记记东西上瘾，突然想每个月存一份收支记录进去。但手动整理账单太麻烦了，支付宝导出一份CSV，微信又导出一份，格式还不一样，每次复制粘贴头都大。干脆写了个Python脚本一键处理，核心就干两件事：把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown（直接拖进思源就能渲染）代码主要折腾了这些：支付宝账单前24行都是废话，直接skiprows=24跳过去，GBK编码差点让我栽跟
Python Flask 在网页应用程序中处理错误和异常 dowhileprogramming python flask 开发语言
PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常在我们所有的代码示例中，我们没有注意如何处理用户在浏览器中输入错误的URL或向我们的应用程序发送错误的参数集的情况。这不是设计意图，但目的是首先关注网页应用程序的关键组件。网页框架的美妙之处在于，它们通常默认支持错误处理。如果发生任何错误，将自
农业生产模拟和农业政策分析：WOFOST模型与PCSE模型安装、运行、数据准备；农田农作物生长模拟和产量预测等 WangYan2022 作物模型农业 WOFOST模型 PCSE模型农田生态系统作物模型农业生产模拟
WOFOST（WorldFoodStudies）和PCSE（PythonCropSimulationEnvironment）是两个用于农业生产模拟的模型：WOFOST是一个经过多年开发和验证的模型，被广泛用于全球的农业生产模拟和农业政策分析；采用了模块化的结构，可以对不同的农作物和环境条件进行参数化和适应；WOFOST可用于长期模拟，能够模拟整个作物生长周期，包括播种、生长、收获等各个阶段；WOF
基于Python+Vue开发的电影订票管理系统源码+运行步骤冷琴1996 Python系统设计 python vue.js 开发语言
项目简介该项目是基于Python+Vue开发的电影订票管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Python的电影订票管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习之路主要功能影片管理：管理系统可以录入、修改和查询影片的基本信息，如
Python通过YOLO格式TXT标签文件在图像中画框 CHERISH_KDX python YOLO 人工智能
使用场景检测数据集标注是否有误：在目标检测算法中需要标注自己的数据集，为了更加方便的检查数据集标注是否有误，可以使用该工具将标注结果绘制在图像中并查看。美化识别结果中的检测框：在一些目标检测场景中，YOLO检测算法原始的检测框绘制会导致重叠、颜色冲突、字体过大等问题。可以使用该工具进行修改。代码importosimportcv2classcheck_label:def__init__(self,c
基于llama_cpp 调用本地模型（llama）实现基本推理月光技术杂谈大模型初探 llama llama.cpp python LLM 集成显卡本地模型 AI
零基础实践本地推理模型基本应用：基于llama_cpp的本地模型调用。本文先安装llama_cpppython库，再编写程序，利用其调用llama-2-7b-chat.Q4_K_M.ggu模型。背景llama_cpp是一个基于C++的高性能库（llama.cpp）的Python绑定，支持在CPU或GPU上高效运行LLaMA及其衍生模型（如LLaMA2），并通过量化技术（如GGUF格式）优化内存使用
python实现查找满足条件的数字 qq_恰同学少年 python
问题：一个四位数，知道其前两位和后两位分别相等，并且这个数还是一个平方数，求出这个数。一个四位数，范围只能是1000~9999，前两位和后两位分别相等，也就是说，它的结构应该是aabb。最后，这个数是一个平方数。有的小伙伴可能不知道啥叫平方数，暂且解释下，所谓的平方数就是指该数等于一个整数的平方。比如3的平方是9，那么我们就说9是个平方数。第一步，这是个四位数，前两位和后两位分别相等，我们将满足条
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite

python爬虫基础小案例， scrapy框架，思路和经验你全都有。

一、scrapy介绍

二、爬取步骤

三、代码

1、创建爬虫项目 scrapy startproject 项目名字 注意: 项目名字不能出现中文，也不能以数字开头。

2、创建爬虫文件

3.进入itmes.py

4.进入spiders

5.进入pipelines.py

四、运行scrapy 文件

你可能感兴趣的:(scrapy框架,python)

1、创建爬虫项目 scrapy startproject 项目名字
注意: 项目名字不能出现中文，也不能以数字开头。