Syc1102g

Python爬虫|Scrapy 基础用法

scrapy 框架

scrapy 框架
- 1. scrapy 是什么？
- - ① scrapy 架构组成 (基本模块概述)
  - ② scrapy 工作原理
  - ③ scrapy 工作原理图
- 2. scrapy 框架的基本使用
- - ① 基本使用方法
  - ② spiders 自定义文件内部
  - ③ response 常用的方法
- 3. scrapy shell
- - ① 什么是 scrapy shell？
  - ② 安装 ipython
  - ③ 进入到 scrapy终端
- 4. pipelines 管道封装
- - 4.1 yield 关键字
  - 4.2 管道封装(单管道)
  - - ① 确定数据结构
    - ② 获取网页内容
    - ③ 管道操作
    - ④ 开启管道(单)
  - 4.3 开启多管道
- 5. 日志信息和日志等级
- 6. scrapy 的 post请求
- 7. 设置代理
- 8. CrawlSpider
- - ① CrawlSpider 概述
  - ② 运行原理图
  - ③ CrawlSpider案例
- 9. ★ 写代码注意点(业务逻辑)
- 10. 案例代码 (使用CrawlSpider)
- - ① football.py (spiders)
  - ② items.py
  - ③ piplines.py
  - ④ settings.py
  - ⑤ start.py (启动文件)
- 11. scrapy 的一些注意点 (特性)
- - ① scrapy 采用异步下载
  - ② 使用默认方法下载图片注意点
  - ③ meta 为只读属性
  - ④ 导入 settings 失败

1. scrapy 是什么？

Scrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理
或存储历史数据等一系列的程序中。

① scrapy 架构组成 (基本模块概述)

调度器(Scheduler)
　　调度器，可以把它假设成为一个URL（抓取网页的网址或者说是链接）的优先队列，由它来决定下一个要抓取的网址是什么，同时去除重复的网址（不做无用功）。用户可以自己的需求定制调度器。
下载器(Downloader)
　　下载器，是所有组件中负担最大的，它用于高速地下载网络上的资源。Scrapy 的下载器代码不会太复杂，但效率高，主要的原因是整个 Scrapy框架都在建立在 twisted 这个高效的异步模型上的, Scrapy 下载器也是是建立在 twisted 这个高效的异步模型上的。
爬虫(Spider)
　　爬虫，是用户最关心的部分。用户定制自己的爬虫(通过定制正则表达式等语法)，用于从特定的网页中提取自己需要的信息，即所谓的实体(Item)。例如使用 Xpath 提取感兴趣的信息。
用户也可以从中提取出链接，让Scrapy继续抓取下一个页面。
实体管道(Item Pipeline)
　　实体管道，用于接收网络爬虫传过来的数据，并经过几个特定的次序处理数据，典型的任务包括验证实体的有效性、清除不需要的信息、存入数据库（持久化实体）、存入文本文件等。
Scrapy引擎(Scrapy Engine)
　　Scrapy 引擎是整个框架的核心，用来处理整个系统的数据流，触发各种事件。它用来控制调试器、下载器、爬虫。实际上，引擎相当于计算机的CPU，它控制着整个流程。
中间件(Middlewares)
　　整个 Scrapy 框架有很多中间件，如下载器中间件、网络爬虫中间件等，这些中间件相当于过滤器，夹在不同部分之间截获数据流，并进行特殊的加工处理。

② scrapy 工作原理

（1）引擎 ‐‐‐> 自动运行，无需关注，会自动组织所有的请求对象，分发给下载器 
（2）下载器 ‐‐‐> 从引擎处获取到请求对象后，请求数据 
（3）spiders ‐‐‐> Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例 如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说，Spider就是您定义爬取的动作及 分析某个网页(或者是有些网页)的地方。 
（4）调度器 ‐‐‐> 有自己的调度规则，无需关注 
（5）管道（Item pipeline） ‐‐‐> 最终处理数据的管道，会预留接口供我们处理数据 
    当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理。 每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行 一些行为，同时也决定此Item是否继续通过pipeline，或是被丢弃而不再进行处理。 
 以下是item pipeline的一些典型应用： 
     1. 清理HTML数据 
     2. 验证爬取的数据(检查item包含某些字段) 
     3. 查重(并丢弃) 
     4. 将爬取结果保存到数据库中

③ scrapy 工作原理图

2. scrapy 框架的基本使用

① 基本使用方法

1. 创建 scrapy项目：
    先切换到项目所要放置的位置: cd /d D:\Pycharm\untitled2\Python-爬虫\10. Scrapy 框架
    终端输入: scrapy startproject 项目名称
        注意:
            1. 项目名称不能以数字开头！
            2. 爬虫文件不能以汉字开头，项目名称可以，但不建议

    项目组成：
        spiders
            __init__.py 自定义的爬虫文件.py ‐‐‐> 由我们自己创建，是实现爬虫核心功能的文件
        __init__.py 
		items.py ‐‐‐> 定义数据结构的地方，是一个继承自 scrapy.Item的类
        middlewares.py ‐‐‐> 中间件 代理
        pipelines.py ‐‐‐> 管道文件，里面只有一个类(可以增加)，用于处理筛选出来的的实体数据(如将数据存储在数据库中），默认是300优先级，值越小优先级越高（1‐1000）
        settings.py ‐‐‐> 配置文件 比如：是否遵守robots协议，User‐Agent定义等

2. 创建爬虫文件
        (1) 切换到项目中的 spiders目录下
         cd 目录名字/目录名字/spiders
         cd scrapy_baidu_01\scrapy_baidu_01\spiders

        (2) 创建爬虫文件
         scrapy genspider 爬虫名字 网页的域名
         scrapy genspider baidu http://www.baidu.com

        爬虫文件的基本组成：
            继承scrapy.Spider类
                name = 'baidu' ‐‐‐>  运行爬虫文件时使用的名字
                allowed_domains ‐‐‐>  爬虫允许的域名，在爬取的时候，如果不是此域名之下的 url，会被过滤掉
                start_urls ‐‐‐>  声明了爬虫的起始地址，可以写多个url，一般是一个
                parse(self, response) ‐‐‐> 解析数据的回调函数
                    response.text ‐‐‐> 响应的是字符串
                    response.body ‐‐‐> 响应的是二进制文件
                    response.xpath()‐> xpath方法的返回值类型是selector列表
                    extract() ‐‐‐> 提取的是 selector对象的是 data
                    extract_first() ‐‐‐> 提取的是 selector列表中的第一个数据

3. 运行爬虫代码
    scrapy crawl 爬虫名称
    【注意】：应在 spiders 文件夹内执行
    将 settings文件中 的 ROBOTSTXT_OBEY = True 注释掉，就不用遵守 robots君子协议了

【注意1】：start.py 文件和 scrapy_cfg 文件处于同一级目录

【注意2】：此启动方法会使得代码中的相对路径出错，原本是相对于 piplines.py 或者 settings.py 所在目录那一级，现在是相对于 start.py 文件！

设置请求头

在 settings.py 文件中取消以下代码段,添加请求头

# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
   'Accept-Language': 'en',
}
# 其中可以加入请求头内容

② spiders 自定义文件内部

name = 'baidu'  # 爬虫的名字  用于运行爬虫的时候 使用的值
allowed_domains = ['http://www.baidu.com']  # 允许访问的域名
# 注意如果你的请求的接口是html为结尾的  那么是不需要加/的
start_urls = ['http://www.baidu.com/']  # 起始的url地址  指的是第一次要访问的域名，在 allowed_domains的后面添加一个/ 
# 是执行了start_urls之后 执行的方法   方法中的response 就是返回的那个对象
# 相当于 response = urllib.request.urlopen()
#       response  = requests.get()
def parse(self, response):
    print('ok!')

③ response 常用的方法

response.text  # str 字符串 数据
response.body  # 二进制 bytes 数据
response.status  # 状态码
response.url  # 页面 url

response.xpath()  # 使用 xpath 语法，通过 xpath 方法调用返回的是 seletor列表
response.css()  # 使用 css语法(非常不建议，十分麻烦)
	# 使用 css_selector 查询元素，返回一个 selector列表对象 
    # 获取内容 ：response.css('#su::text').extract_first() 
    # 获取属性 ：response.css('#su::attr(“value”)').extract_first()    不好用！
    
response.extract()  # 提取 selector对象的 data属性值 (如果是多个值，返回列表！)
	# 提取 selector对象的值 
    # 如果提取不到值，那么会报错 
    # 使用 xpath 请求到的对象是一个 selector对象，需要进一步使用 extract() 方法拆包，转换为 unicode字符串
response.extract_first()  # 提取 selector列表的第一个数据  # 对列表的操作!
	# 提取 seletor列表中的第一个值 
    # 如果提取不到值，会返回一个空值 
    # 返回第一个解析到的值，如果列表为空，此种方法也不会报错，会返回一个空值
    
response.getall()  # getall()方法和extract()方法一样，返回的都是符合要求的所有的数据，存在一个列表里
response.get()  # get()方法和 extract_first() 方法返回的是一样的，都是列表里的第一个数据
    # get() 、getall() 方法是新的方法，extract() 、extract_first()方法是旧的方法。
    # extract() 、extract_first()方法取不到就返回None。
    # get() 、getall() 方法取不到就raise一个错误
    '''
    	extract_first() 不能针对单个选择器！get()、getall()、extract()都可以！
    		如:对象].extract_first()两者都是可以拿到内容的
    		   而对象;get()、getall()、extract()都可以
   	'''
    
# 注意：每一个selector对象可以再次的去使用xpath或者css方法

3. scrapy shell

① 什么是 scrapy shell？

Scrapy终端，是一个交互终端，供您在未启动spider的情况下尝试及调试您的爬取代码。其本意是用来测试提取
数据的代码，不过您可以将其作为正常的Python终端，在上面测试任何的Python代码。
该终端是用来测试XPath或CSS表达式，查看他们的工作方式及从爬取的网页中提取的数据。在编写您的spider时，该
终端提供了交互性测试您的表达式代码的功能，免去了每次修改后运行spider的麻烦。
一旦熟悉了Scrapy终端后，您会发现其在开发和调试spider时发挥的巨大作用。

② 安装 ipython

如果您安装了 IPython ，Scrapy终端将使用 IPython (替代标准Python终端)。 IPython 终端与其他相比更为强大，提供智能的自动补全，高亮输出，及其他特性。

③ 进入到 scrapy终端

进入到scrapy shell的终端,直接在window的终端中输入: scrapy shell 域名
如果想看到一些高亮 或者 自动补全  那么可以安装 ipython:  pip install ipython
# scrapy shell www.baidu.com

4. pipelines 管道封装

懒加载

也叫延迟加载，指的是在长网页中延迟加载图像，是一种很好优化网页性能的方式。

懒加载的优点：

提升用户体验，加快首屏渲染速度；
减少无效资源的加载；
防止并发加载的资源过多会阻塞 js 的加载；

懒加载的原理：

首先将页面上的图片的 src 属性设为空字符串，而图片的真实路径则设置在 data-original 属性中，当页面滚动的时候需要去监听 scroll 事件，在 scroll 事件的回调中，判断我们的懒加载的图片是否进入可视区域，如果图片在可视区内则将图片的 src 属性设置为 data-original 的值，这样就可以实现延迟加载。

因此，如果图片有 data-original属性，在提取链接时，就用 data-original属性获取链接，不要用 src 了！

一般第一张图片没有 data-original属性，后面的有，要判断一下

# 第一张图片和其他的图片的标签的属性是不一样的
# 第一张图片的 src 是可以使用的  其他的图片的地址是 data-original

4.1 yield 关键字

在 spiders 目录下的主爬虫文件中使用！

1. 带有 yield 的函数不再是一个普通函数，而是一个生成器 generator，可用于迭代 
2. yield 是一个类似 return 的关键字，迭代一次遇到 yield 时就返回 yield 后面(右边)的值。
重点是：下一次迭代时，从上一次迭代遇到的yield后面的代码(下一行) 开始执行
3. 简要理解：yield就是 return 返回一个值，并且记住这个返回的位置，下次迭代就从这个位置后(下一行)开始

yield 在 scrapy 中的推送方式

在 scrapy 中，yield 将内容推送给引擎来处理(引擎交给piplines 处理)

# 1. 推送 item对象
	# 获取一个book就将book交给pipelines,一个book就是一个item对象
    book = ScrapyDangdangItem(name=name, price=price, img_src=img_src)
    yield book  # 数据提交给引擎,用 yield关键字
    # 或这样写
    # book = ScrapyDangdangItem()
    # book['name'] = name,
    # book['price'] = price
    # book['img_src'] = img_src
    # yield book  # 数据提交给引擎,用 yield关键字
    
# 2. 直接推送字典dict
	# 可以直接 yield 一个字典对象
    yield {
        'src':src,
        'name',name,
        'price':price,
    }


# 3. 推送 request请求
	# 继续请求
	yield scrapy.Request(url=url, callback=self.parse)
    '''
    	scrapy.Request就是scrpay的get请求
        url就是请求地址
        callback 是要执行的那个函数,注意不需要加（）
     '''

4.2 管道封装(单管道)

① 确定数据结构

在 items.py 文件中的数据结构对象中创建给每一个下载对象创建 scrapy.Field()

class ScrapyDangdang095Item(scrapy.Item):
    # define the fields for your item here like:
    # 这里的数据结构通俗的说就是你要下载的数据都有什么

    # 图片
    src = scrapy.Field()
    # 名字
    name = scrapy.Field()
    # 价格
    price = scrapy.Field()

② 获取网页内容

在 spiders 目录下的主 py文件中拿到需要下载的内容后，导入 items.py 文件中所需要的"数据结构对象"

# 在将主py文件中的parse(self,response)函数中把拿到的scr、name、price传入"数据结构对象",并复制给一个对象, 然后yield 出去
def parse(self, response):
    src = 获取 src 数据
    name = 获取 name 数据
    price = 获取 price 数据
    
    book = ScrapyDangdang095Item(src=src,name=name,price=price)
    yield book
    # 如果是单数据管道,可以直接 yield 一个字典对象,默认传给那个唯一的管道
    '''
    yield {
    	'src':src,
    	'name',name,
    	'price':price,
    }
    '''

③ 管道操作

在 pipelines.py 文件中进行下载的操作

# 如果想使用管道的话 那么就必须在 settings 中开启管道
class ScrapyDangdang095Pipeline:
    # 在爬虫文件开始的之前就执行的一个方法
    def open_spider(self,spider):
        self.fp = open('book.json','w',encoding='utf-8')

    # item 就是 yield 后面的 book对象
    def process_item(self, item, spider):
        
        # 以下这种模式不推荐,因为每传递过来一个对象,就打开一次文件,写完就关闭,对文件的操作过于频繁
        # (1) write方法必须要写一个字符串 而不能是其他的对象
        # (2) w模式,因为上述机制,每一个对象都打开一次文件,会覆盖之前的内容,只能用append模式
        # with open('book.json','a',encoding='utf-8')as fp:
        #     fp.write(str(item))
        
        self.fp.write(str(item))
        return item

    # 在爬虫文件执行完之后  执行的方法
    def close_spider(self,spider):
        self.fp.close()

④ 开启管道(单)

需要在 settings.py 文件中将以下代码取消注释，设置数据结构对象优先级

ITEM_PIPELINES = {
   # 管道:优先级(值越小优先级越高)
   'scrapy_dangdang_095.pipelines.ScrapyDangdang095Pipeline': 300,
}

管道封装(多管道)

4.3 开启多管道

piplines.py 文件中的管道可以开多个，按优先级依次运行，注册之后需要在 settings.py 中配置一下才会生效
每个pipline之间存在着现后逻辑关系，都可以处理item，处理完之后提交到下一个pipline里面
最后的 return item，这个item将会被提交到下一个pipline里面进行处理

① 需要在 settings.py 文件中将以下代码取消注释，设置优先级

ITEM_PIPELINES = {
   # 管道可以有很多个,那么管道是有优先级的,优先级的范围是1到1000,值越小优先级越高
   'scrapy_dangdang_095.pipelines.ScrapyDangdang095Pipeline': 300,

   # DangDangDownloadPipeline
   'scrapy_dangdang_095.pipelines.DangDangDownloadPipeline':301
}

② 在 pipelines.py 文件中进行下载等管道操作

# 如果想使用管道的话 那么就必须在 settings 中开启管道
class ScrapyDangdang095Pipeline:
    # 在爬虫文件开始的之前就执行的一个方法
    def open_spider(self,spider):
        self.fp = open('book.json','w',encoding='utf-8')

    # item就是yield后面的book对象
    def process_item(self, item, spider):
        self.fp.write(str(item))
        return item  # 必须加,否则其他管道就无法获得item了！
    	'''
    		 # 每个pipline之间存在着现后逻辑关系，都可以处理item，处理完之后提交到下一个pipline里面。
   			 # 最后的return item，这个item将会提交到下一个pipline里面进行处理。
    	'''

    # 在爬虫文件执行完之后  执行的方法
    def close_spider(self,spider):
        self.fp.close()

        
# ★第二个管道
import urllib.request

# 多条管道开启
#    (1) 定义管道类
#   （2） 在 settings 中开启管道
# 'scrapy_dangdang_095.pipelines.DangDangDownloadPipeline':301
class DangDangDownloadPipeline:
    def process_item(self, item, spider):

        url = 'http:' + item.get('src')
        filename = './books/' + item.get('name') + '.jpg'

        urllib.request.urlretrieve(url = url, filename= filename)

        return item

5. 日志信息和日志等级

（1）日志级别：
        CRITICAL：严重错误 
        ERROR： 一般错误 
        WARNING： 警告 
        INFO: 一般信息 
        DEBUG： 调试信息 
        默认的日志等级是 DEBUG,只要出现了DEBUG或者DEBUG以上等级的日志,那么这些日志将会打印 
        
（2）settings.py文件设置： 
		默认的级别为DEBUG，会显示上面所有的信息
		在配置文件中 settings.py 
		LOG_FILE : 将屏幕显示的信息全部记录到文件中，屏幕不再显示，注意文件后缀一定是.log (推荐使用该方法)
        		   LOG_FILE = 'log保存路径'
		LOG_LEVEL : 设置日志显示的等级，就是显示哪些，不显示哪些(一般不设置)
       			   LOG_LEVEL = 'WARNING'(不建议)

6. scrapy 的 post请求

(1) 重写 start_requests 方法(spiders目录下的爬虫文件中)： 
		def start_requests(self) 
			url = 'https://fanyi.baidu.com/sug'  # 开始的 url
            data = {
                'kw': 'final'  # post参数
            }
        	yield scrapy.FormRequest(url=url,formdata=data,callback=self.parse_second)
            
(2) start_requests的返回值： 
            yield scrapy.FormRequest(url=url, headers=headers, callback=self.parse_item, formdata=data) 
                    url: 要发送的post地址 
                    headers：可以定制头信息 
                    callback: 回调函数 
                    formdata: post所携带的数据，这是一个字典

用途
	用来模拟登录

7. 设置代理

(1) 到 settings.py 中，打开一个选项 
	DOWNLOADER_MIDDLEWARES = { 
        'postproject.middlewares.Proxy': 543, 
    } 
(2) 到 middlewares.py 中写代码 
	def process_request(self, request, spider): 
        request.meta['proxy'] = 'https://113.68.202.10:9999' 
        return None

8. CrawlSpider

① CrawlSpider 概述

1.继承自 scrapy.Spider
创建爬虫文件时加参数：scrapy genspider ‐t crawl 爬虫文件名域名 # 注意参数 ‐t crawl
2.特点
CrawlSpider可以定义规则，再解析html内容的时候，可以根据链接规则提取出指定的链接，然后再向这些链接发送请求
所以，如果有需要跟进链接的需求，意思就是爬取了网页之后，需要提取链接再次爬取，使用CrawlSpider是非常合适的，不用手动提取想要的 url，这些操作都会由 LinkExtractors 根据链接规则自动提取并爬取
3.应用
① 爬取多页内容
② 爬取详情页，继续一层一层爬取

3.提取链接 
	链接提取器，在这里就可以写规则提取指定链接 
	scrapy.linkextractors.LinkExtractor( 
		allow = (),              # 正则表达式 提取符合正则的链接(提取 http://www.baidu.com 后的即可)
		deny = (),               # (不用)正则表达式 不提取符合正则的链接 
		allow_domains = (),      # (不用)允许的域名 
		deny_domains = (),       # (不用)不允许的域名 
		restrict_xpaths = (),    # xpath，提取符合xpath规则的链接 
		restrict_css = ()        # 提取符合选择器规则的链接) 
4.模拟使用
	正则用法：links1 = LinkExtractor(allow=r'list_23_\d+\.html') 
	xpath用法：links2 = LinkExtractor(restrict_xpaths=r'//div[@class="x"]') 
	css用法：links3 = LinkExtractor(restrict_css='.x') 
5.提取连接
	link.extract_links(response)
6.注意事项 
	【注1】callback只能写函数名字符串, callback='parse_item' 
	【注2】在基本的spider中，如果重新发送请求，那里的callback写的是 callback=self.parse_item 
	【注3】follow=true 是否跟进 就是按照提取连接规则进行提取

② 运行原理图

③ CrawlSpider案例

需求：读书网数据入库

1.创建项目：scrapy startproject dushuproject 
2.跳转到spiders路径 cd\dushuproject\dushuproject\spiders 
3.创建爬虫类：scrapy genspider ‐t crawl read www.dushu.com   // 注意 参数 ‐t crawl
4.items 
5.spiders 
6.settings 
7.pipelines 
	数据保存到本地 
    数据保存到 mysql数据库

9. ★ 写代码注意点(业务逻辑)

数据结构文件(items.py)

定义数据结构，(其本身是一个继承自 scrapy.Item的类)
为了定义常见的输出数据格式，scrapy 提供了 item 类，Item 对象是用来收集提取数据的简单容器。它们提供了一个类似于字典的API，提供了一种方便的语法，用于声明可用字段。
各种各样的 scrapy 组件使用由 item 提供的附加信息，查看已声明的字段，以找出导出的列，可以使用 item 字段元数据定制序列化，trackref 跟踪项目实例以帮助发现内存泄漏

1. 定义数据结构(固定语法: variable = scrapy.Field())

主爬虫文件

解析、匹配数据

1. 向引擎发送 url(allowed_domains、start_urls、可重写 start_urls 方法)
2. 接收自引擎的 response对象,进行处理(解析)

管道文件(piplines.py)

负责处理爬虫从网页中抽取的实体数据，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据，典型的任务包括清理，验证和持久性（如将数据存储在数据库中）

1. 在管道类中写处理数据的方法

# piplines.py 文件中的管道可以开多个，运行，写了之后在settings中配置一下就会生效
# piplines的process_item()必须要 ★ return item，否则其他管道无法获取item
# 原理:每个pipline之间存在着现后逻辑关系，都可以处理item，处理完之后提交到下一个pipline里面
# 最后的return item，这个item将会提交到下一个pipline里面进行处理

配置文件(settings.py )

配置相关信息

# 常用的配置

ROBOTSTXT_OBEY = False  # ★ 是否遵循爬虫协议
USER_AGENT = 'Amazon (+http://www.yourdomain.com)'  # 客户端 User-Agent 请求头
COOKIES_ENABLED = True  # 是否支持cookie，cookiejar进行操作cookie
CONCURRENT_REQUESTS_PER_DOMAIN = 16默认值8  # 每个域名能够被执行的最大并发请求数目

DOWNLOAD_DELAY = 3  # 对同一网址延迟请求的秒数,延时时间不能动态改变,防止下载速度过快对网站服务器造成影响,容易被发现
RANDOMIZE_DOWNLOAD_DELAY = True　　# 启用后，当从同一的网站获取数据时，Scrapy将会等待一个随机的值，延迟时间为0.5到1.5之间的一个随机值乘以 DOWNLOAD_DELAY
# 以上二者适合搭配使用:DOWNLOAD_DELAY 设置两次请求间隔是4秒，RANDOMIZE_DOWNLOAD_DELAY 设置请求间隔随机开启，也就是实际间隔是0.5-1.5倍的DOWNLOAD_DELAY之间(2~6)的随机数。

LOG_FILE = None  # ★ 日志存储文件路径
LOG_LEVEL = 'DEBUG'  # 全局日志级别, 值域: CRITICAL, ERROR, WARNING, INFO, DEBUG
LOG_FORMAT = '%(asctime)s [%(name)s] %(levelname)s: %(message)s'  # 日志格式化样式, 实际使用中配置json字符串结构方便采集

# 能够被单个IP处理的并发请求数
# 默认值0，代表无限制，需要注意两点
    # 如果不为零，那CONCURRENT_REQUESTS_PER_DOMAIN将被忽略，即并发数的限制是按照每个IP来计算，而不是每个域名
    # 该设置也影响DOWNLOAD_DELAY，如果该值不为零，那么DOWNLOAD_DELAY下载延迟是限制每个IP而不是每个域
CONCURRENT_REQUESTS_PER_IP = 16

# ★ 全局ITEM 管道配置
ITEM_PIPELINES = {
    'scrapy_football.pipelines.XXXPipeline': 300,
}

# 全局设置使用的请求头,,不建议配置, 建议在spider中配置或处理层配置
DEFAULT_REQUEST_HEADERS = {  
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',  
    'Accept-Language': 'en'
}

# 局部设置使用的请求头
# 爬虫程序类中设置
    custom_settings = {
        'DEFAULT_REQUEST_HEADERS' : {
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
            'Accept-Language': 'en',
            "User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'
        }
    }

DOWNLOAD_DELAY

默认值：0

Downloader从同一网站上访问页面应该等待的时间。这个设置常常被用来控制爬取的速度，以免对网站造成太大的压力。这个值的单位为秒，并且可以使用小数。

这个值同样被RANDOMIZE_DOWNLOAD_DELAY所影响。在默认的情况下，Scrapy不会每次都等待一个固定的时间，而是使用一个范围在0.5-1.5之间的值乘以DOWNLOAD_DELAY。

当CONCURRENT_REQUESTS_PER_IP的值不为0时，延迟将按照每个IP判断，而不再是Domain。

这个设置可以在Spider中通过download_delay属性进行设置。

RANDOMIZE_DOWNLOAD_DELAY

默认值：True

如果启用，那么DOWNLOAD_DELAY等待的时间将会随机乘以范围在0.5-1.5之间的一个小数。这个设置的作用是使爬虫的等待时间更有随机性，更难以被检测。

10. 案例代码 (使用CrawlSpider)

普通版本_1 (不使用 CrawlSpider) 下载多层请求、多页数据(图片):Scrapy 下载多层请求、多页图片(下载使用urllib.request.urlretrieve方法)
普通版本_2 (不使用 CrawlSpider) 下载多层请求、多页数据(图片):Scrapy 下载多层请求、多页图片 (重写get_media_requests、file_path方法)

① football.py (spiders)

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from ..items import ScrapyFootballItem

class FootballSpider(CrawlSpider):
    name = 'football'
    allowed_domains = ['mynba.tv']
    start_urls = ['http://www.mynba.tv/video/?page=1']

    rules = (
        Rule(LinkExtractor(allow=r'\?page=\d+'), follow=True),
        Rule(LinkExtractor(allow=r'/video/.*?\.html'), callback='parse_item', follow=False),
    )

    def parse_item(self, response):
        # 匹配数据
        game_title = response.xpath('//*[@id="app"]/div/div[4]/div/div[2]/p[1]/text()').extract_first()
        name_1 = response.xpath('//*[@id="app"]/div/div[4]/div/div[1]/p/a/text()').extract_first()
        logo_src_1 = response.xpath('//*[@id="app"]/div/div[4]/div/div[1]/img/@src').extract_first()
        name_2 = response.xpath('//*[@id="app"]/div/div[4]/div/div[3]/a/text()').extract_first()
        logo_src_2 = response.xpath('//*[@id="app"]/div/div[4]/div/div[3]/img/@src').extract_first()
        info = ScrapyFootballItem(game_title=game_title, name_1=name_1, logo_src_1=logo_src_1, name_2=name_2,logo_src_2=logo_src_2)
        yield info

② items.py

import scrapy

class ScrapyFootballItem(scrapy.Item):
    game_title = scrapy.Field()  # 比赛详情标题
    name_1 = scrapy.Field()  # 主队球队名称
    logo_src_1 = scrapy.Field()  # 主队球队logo
    name_2 = scrapy.Field()  # 客队球队名称
    logo_src_2 = scrapy.Field()  # 客队球队logo

③ piplines.py

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter

import xlwt


class ScrapyFootballPipeline:
    def open_spider(self, spider):
        self.workbook = xlwt.Workbook()
        self.worksheet = self.workbook.add_sheet('sheet1')
        self.line_cnt = 0
        self.col_name = ['game_title', 'name_1', 'logo_src_1', 'name_2', 'logo_src_2']
        # 写入表头
        for i in range(4):
            self.worksheet.write(self.line_cnt, i, self.col_name[i])
        self.line_cnt += 1

    def process_item(self, item, spider):
        # 写入数据
        for i in range(4):
            self.worksheet.write(self.line_cnt,i,item[self.col_name[i]])
        self.line_cnt += 1
        self.workbook.save('football_data.xls')

        return item  # 必须加,否则其他管道就无法获得item了！



import urllib.request  # 用于下载图片
class ScrapyFootballPipeline_2:
    def process_item(self, item, spider):
        img_src_1 = item['logo_src_1']
        img_src_2 = item['logo_src_2']
        name_1 = img_src_1.split('/')[-1]
        name_2 = img_src_2.split('/')[-1]
        urllib.request.urlretrieve(img_src_1,filename=f'img/{name_1}')
        urllib.request.urlretrieve(img_src_2,filename=f'img/{name_2}')
        return item

④ settings.py

BOT_NAME = 'scrapy_football'

SPIDER_MODULES = ['scrapy_football.spiders']
NEWSPIDER_MODULE = 'scrapy_football.spiders'

ROBOTSTXT_OBEY = False

DOWNLOAD_DELAY = 3
RANDOMIZE_DOWNLOAD_DELAY = True

ITEM_PIPELINES = {
   'scrapy_football.pipelines.ScrapyFootballPipeline': 300,
   'scrapy_football.pipelines.ScrapyFootballPipeline_2': 301,
}

⑤ start.py (启动文件)

from scrapy import cmdline
cmdline.execute('scrapy crawl football'.split(' '))

11. scrapy 的一些注意点 (特性)

用过几次 scrapy 写爬虫后，对这个框架的一些特性有所感悟

① scrapy 采用异步下载

Scrapy 的下载器代码不会太复杂，但效率高！
主要的原因是 Scrapy 下载器是建立在 twisted 这个高效的异步模型上的(其实整个框架都在建立在这个模型上的)

scrapy 采用异步处理请求，即scrapy发送请求之后，不会等待这个请求的响应（也就是不会阻塞），而是可以同时发送其他请求或者做别的事情。而我们知道服务器对于请求的响应是由很多方面的因素影响的，如网络速度、解析速度、资源抢占等等，其响应的顺序是难以预测的。
scrapy异步的根源，在于它依赖于Twisted框架。Twisted框架是一个Python的event-driven的框架，这里可以理解为是异步I/O的。爬取内容时输出的顺序可能每次运行时都不一样
scrapy也支持多线程

② 使用默认方法下载图片注意点

官方文档

如果使用默认的方法对数据处理:
    	如果单纯获取文本,那么只需start_urls是一个list;
        而如果获取图片,则必须 start_urls与item中存储图片路径字段这两者必须都是 list,并且存储图片路径字段必须是 image_urls
        【注意】:可以在 get_media_requests 中把相应地方重写了

如果涉及下列方式下载图片
    1.用 ImagesPipeline 的默认方法下载或者不修改 ImagesPipeline 的 get_media_requests的返回值
    2.重写 ImagesPipeline 的 get_media_requests 方法,但不修改其返回值(即返回值还是一个 Request请求对象列表)
那么item中存储图片路径字段必须是 list! 即:这里要下载的图片(即使只有一张) url 必须命名为 image_urls 放到 list 中传送给 item
除非重写 ImagesPipeline 的 get_media_requests 的方法的返回值(本是一个请求对象的列表,修改为返回单个Request请求对象即可)

参考链接

③ meta 为只读属性

# request.meta = {"item": item} 这里不行！meta为只读属性！想法是给Requests的meta属性添加值,效果一样,都是为了传参用，但只能是在构造函数中 scrapy.Request(meta=) 才能用，其他地方不允许修改值

④ 导入 settings 失败

 from bizhi import settings  # 记得把根目录标记为: 源/根 后导入

原因: 这个报错的意思是：试图在顶级包（top-level package）之外进行相对导入。也就是说相对导入只适用于顶级包之内的模块

由于在"顶层模块"之外引用包，这里用到"顶层模块"的概念，“顶层模块” 是这执行文件同级的文件

from . import XXX
　　或者　
from .. import XXX

　　时会遇到这样两个错误：
SystemError: Parent module '' not loaded, cannot perform relative impor
　　和   
ValueError: attempted relative import beyond top-level package

其实这两个错误的原因归根结底是一样的：在涉及到相对导入时，package所对应的文件夹必须正确的被python解释器视作package，而不是普通文件夹。否则由于不被视作package，无法利用package之间的嵌套关系实现python中包的相对导入。

文件夹被python解释器视作package需要满足两个条件：

1、文件夹中必须有__init__.py文件，该文件可以为空，但必须存在该文件
2、不能作为顶层模块来执行该文件夹中的py文件（即不能作为主函数的入口模块的__name__ 不能等于__main__）

很多时候就是导入和当前执行的py文件同级的package中的模块时报错: attempted relative import beyond top-level package

此时,该包作为顶层模块(和执行文件同级),已经不被视为一个package了,需要将他们的父级目录标记为源/根

补充：在"from YY import XX"这样的代码中，无论是XX还是YY，只要被python解释器视作package，就会首先调用该package的__init__.py文件。如果都是package，则调用顺序是YY，XX。

也就是说你不能在一个x.py 文件中执行 from .模块名 import * 同时运行 python x.py

另外，练习中“from . import XXX”和“from … import XXX”中的’.‘和’…’，可以等同于linux里的shell中’.‘和’…'的作用，表示当前工作目录的package和上一级的package。

Pycharm中的解决方案:把根目录标记为: 源/根后导入（右键相应文件夹，选择 Mark Directory as Sources 即可）

你可能感兴趣的:(Python爬虫笔记,笔记,python,爬虫,scrapy)

supervisord 命令介绍和使用案例 lisanmengmeng linux 命令工具系统运维 shell编程服务器 linux 运维
supervisord命令介绍和使用案例supervisord是一个用Python编写的进程管理工具，用于监控和管理Linux系统中的进程。它可以将普通的命令行进程转变为后台守护进程（daemon），并监控进程状态，在进程异常退出时自动重启。它通过fork/exec的方式把被管理的进程当作自己的子进程来启动。主要功能:进程管理：能够启动、停止、重启和关闭进程.自动重启：监控进程状态，并在进程崩溃时
ptython setup.py install 设置python包编译时的并行数 leo0308 基础知识 Python python pytorch3d
通过源码编译安装pytorch3d的时候，直接执行pythonsetup.pyinstall时，默认开的并行数很多，有10几个，直接导致机器卡死。通过设置下面的环境变量，可以设置较小的并行数，避免占用过多的资源。exportMAX_JOBS=4设置后，同时只有4个编译的进程。
《JavaScript高级程序设计》——第四章：变量、作用域与内存管理 dorabighead javascript 开发语言 ecmascript
《JavaScript高级程序设计》——第四章：变量、作用域与内存管理大家好！我是小哆啦，欢迎回到《JavaScript高级程序设计》的读书笔记大本营！在这章中，我们要聊的是两个让人头疼又迷人的话题——变量、作用域与内存管理。有些人一提到这些，就会感到一阵头晕目眩，恍若置身一场JavaScript版的迷宫大冒险！但今天，小哆啦会带你们轻松过关，深入了解这些概念，并且保持足够的幽默感，让你既能笑着学
python 自动化数据提取之正则表达式_python 正则提取(2) m0_60607245 程序员 python 学习面试
一、Python所有方向的学习路线Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。二、Python必备开发工具工具都帮大家整理好了，安装就可直接上手！三、最新Python学习笔记当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理
GUI编程（window系统→Linux系统）诚信爱国敬业友善心得 linux python gui
最近有个项目需要将windows系统的程序往Linux系统上面移植，由于之前程序没有考虑过多平台兼容的问题，导致部分功能不可用以下是对近期遇到的问题的总结，以及相应的解决方案和经验分享。1.Python模块安装与管理在Linux系统中，安装和管理Python模块时可能会遇到权限问题或依赖冲突。安装模块：使用pip安装模块时，建议使用--user选项，避免需要管理员权限：bash复制pipinsta
Mysql学习笔记-Mysql基础进阶少年无为 Mysql Mysql 数据库多表查询数据库备份 Mysql查询
#知识点1.DQL:查询语句1.排序查询2.聚合函数3.分组查询4.分页查询2.约束3.多表之间的关系4.范式5.数据库的备份和还原#DQL:查询语句1.排序查询*语法：orderby子句*orderby排序字段1排序方式1，排序字段2排序方式2...*排序方式：*ASC：升序，默认的。*DESC：降序。*注意：*如果有多个排序条件，则当前边的条件值一样时，才会判断第二条件。2.聚合函数：将一列数
嵌入式学习DAY28 --- 线程、同步和互斥问题、如何实现同步和互斥？楼台的春风嵌入式学习多线程 c语言嵌入式 linux ubuntu
嵌入式入门学习笔记，遇到的问题以及心得体会！DAY28概述：一、线程二、同步和互斥问题三、如何实现同步四、如何实现互斥笔记：一、线程1、什么是线程：（1）线程是轻量级的进程（2）线程存在于进程内，不能独立存在（3）线程参与CPU调度，进程是系统资源分配最小单位，线程是系统调度的最小单位（4）在单核CPU中，多线程并发属于伪并发，但是不牵扯虚拟地址空间的切换，所以开销比进程间切换要小很多（5）在多核
spring boot基于知识图谱的阿克苏市旅游管理系统python-计算机毕业设计 QQ1963288475 spring boot 知识图谱旅游 python vue.js django flask
目录功能和技术介绍具体实现截图开发核心技术：开发环境开发步骤编译运行核心代码部分展示系统设计详细视频演示可行性论证软件测试源码获取功能和技术介绍该系统基于浏览器的方式进行访问，采用springboot集成快速开发框架，前端使用vue方式，基于es5的语法，开发工具IntelliJIDEAx64，因为该开发工具，内嵌了Tomcat服务运行机制，可不用单独下载Tomcatserver服务器。由于考虑到
Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python学习心得两大编程思想 lifegoesonwjl python 开发语言 pycharm 前端 c语言
一、两大编程思想：1.面向过程：功能上的封装典型代表：C语言2.面向对象：属性和行为上的封装典型代表：Python、Java二、面向过程与面向对象的异同点：1.区别：面向过程：事物比较简单，可用线性的思维去解决面向对象：事务比较复杂，使用简单的线性思维无法解决2.共同点：（1）面向过程和面向对象都是解决实际问题的一种思维方式；（2）二者相辅相成，并不是对立的；（3）解决复杂问题，通过面向对象方式便
Linux升级Anacodna并配置jupyterLab 伪_装环境部署 linux 服务器 Anaconda python jupyter
在使用Anaconda的过程中，随着项目和需求的发展，可能需要升级Anaconda的Base环境中的Python版本。本文将详细介绍如何安全地进行升级，包括步骤、代码示例与最终流程图。升级Python一、环境准备在进行任何升级之前，建议先检查当前的Python版本以及各个库的兼容性。我们可以通过以下命令检查当前的Python版本：condainfo你会看到类似以下的输出，其中包含了当前Python
【Linux】删除Conda虚拟环境不是伍壹 Linux linux conda 运维
1、查看当前系统的conda虚拟环境condainfo--envscondaenvlist2、创建虚拟的环境condacreate-n（你的环境名字）python=（你需要的版本号，如（3.7,3.8,3.10））3、查看安装了哪些包condalist4、删除虚拟环境condaremove-nname--all5、删除虚拟环境中的包condaremove--name$（需要删除的环境名字）$（需要
动态规划之背包问题--python版本我是小码搬运工 #python基础动态规划背包问题 python版本
动态规划之背包问题–python版本问题已知一个最大量的背包，给定一组给定固定价值和固定体积的物品，求在不超过最大值的前提下，能放入背包中的最大总价值。解题思路该问题是典型的动态规划问题，分为三种不同的类型（0-1背包问题、完全背包和多重背包问题）解题关键–状态转移表达式：B(k,C)=max(B(k−1,C),B(k−1,C−ci)+vi)B(k,C)=max(B(k-1,C),B(k-1,C-
Centos7 搭建 Jupyter + Nginx 服务某龙兄 python nginx linux centos
JupyterNotebook（此前被称为IPythonnotebook）是一个交互式笔记本，支持运行40多种编程语言。JupyterNotebook的本质是一个Web应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。本文讲述如何搭建Jupyter+Nginx服务,仅供学习与交流，请勿用于商业用途一
动态规划之背包问题的Python实现名侦探debug Python 数据结构 python 数据结构动态规划求解
目录1.问题描述2.动态规划之网格法3.python实现1.问题描述题目来源于《算法图解》第9章练习题9.2，如下图所示。对于背包问题，通常的做法有列举法、贪婪算法和动态规划（1）列举法：列举出所有的可能情况，再选择最优解，但当情况很多时，这种算法复杂度很高（2）贪婪算法：在容量允许范围内，每次都拿剩余物品中价值最高的，贪婪算法能够快速解决复杂度很高的问题，但通常得到的是次优解，但就对这个题目而言
总结10个Python赚钱的接单平台兼职月入5000+ begefefsef 面试学习路线阿里巴巴 android 前端后端
前言“如果说当下什么编程语言最靠谱或者比较适合搞副业？”答案肯定100%是：Pythonpython是所有语法中最简单易上手的语言，不需要特别的的英语词汇量，逻辑思维也不需要很差就能上手。而且学会了之后就能编写代码爬取各种数据，制作各种图表，提升工作效率。而且还能利用业余时间接点私活，一个月轻松收入过万不是问题，这样的生活他不香吗？今天就给大家盘点几个基本入门接私活的资源，让你轻松学python，
大学生学完python靠几个接单网站兼职，实现经济独立「已注销」 python 开发语言
大学生学完python靠几个接单网站兼职，实现经济独立程序员就是当今时代的手艺人，程序员可以通过个人的技术来谋生。而在工作之余接私单可以作为一种创富的途径，受到程序员的广泛认可。说句实在话，现在这个时代，很多人仅靠主业顶多维持基本生活，想让自己、家人生活好一点很难。我接的私活并不算多，加起来也就几万左右，只能算一半，我想把一些经验分享出来，毕竟现在生活都不容易，能赚一点是一点。一、程序员接活、新手
Python wifi 安装手机app yichengace python
目的当测试机数量越来越多时，测试包的安装会成为一个问题，用wifi安装来解决这个问题，并且用脚本语言来批量控制思路思路就是py调用pc端的adb命令，向手机发送请求，无线是因为，如果未来测试机越来越多，一台电脑的usb接口数量肯定不够准备工具python，adb，pycharm，测试用app，这里选择qq（https://qd.myapp.com/myapp/qqteam/AndroidQQ/mo
深度学习之目标检测的常用标注工具铭瑾熙人工智能机器学习深度学习深度学习目标检测目标跟踪
1LabelImgLabelImg是一款开源的图像标注工具，标签可用于分类和目标检测，它是用Python编写的，并使用Qt作为其图形界面，简单好用。注释以PASCALVOC格式保存为XML文件，这是ImageNet使用的格式。此外，它还支持COCO数据集格式。2labelmelabelme是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Label
Python 舆论风向分析爬虫：全流程数据获取、清洗与情感剖析西攻城狮北 python 爬虫开发语言实战案例
引言在当今信息爆炸的时代，互联网上充斥着海量的用户言论和观点。了解舆论风向对于企业、政府机构以及研究者等具有重要的意义，可以帮助他们及时把握公众情绪、调整策略与决策。Python作为一种强大的编程语言，在数据爬取与分析方面具有得天独厚的优势，能够助力我们高效地实现舆情监测与深入剖析。一、环境搭建与目标确定1.环境搭建为了顺利完成爬虫与数据分析任务，首先需要确保你的开发环境已经安装了以下Python
PyCharm 集成 DeepSeek：本地运行 or API 直连？打造你的 AI 编程神器！ AI云极【AI智能系列】pycharm 人工智能 ide deepseek
在AI赋能编程的时代，如何让AI辅助写代码，提升开发效率？DeepSeek作为一款开源、强大、免费的AI编程助手，结合PyCharm，能够大幅提升Python编程体验。今天，我们就来详细讲解如何在PyCharm中接入DeepSeek，无论你想使用本地部署的DeepSeek，还是官方API版本，都能轻松实现！为什么选择DeepSeek+PyCharm？DeepSeekR1采用6710亿参数的MoE（
Python3.5源码分析-sys模块及site模块导入小屋子大侠 python Python分析 python源码
Python3源码分析本文环境python3.5.2。参考书籍>python官网Python3的sys模块初始化根据分析完成builtins初始化后，继续分析sys模块的初始化，继续分析_Py_InitializeEx_Private函数的执行，void_Py_InitializeEx_Private(intinstall_sigs,intinstall_importlib){...sysmod=
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
基于python使用scanpy分析单细胞转录组数据探序基因单细胞分析 python 开发语言
探序基因肿瘤研究院整理相关后缀的格式介绍：.h5ad：是一种用于存储单细胞数据的文件格式，可以通过anndata库在Python中处理.loom：高效的数据存储格式（.loom文件），使得用户可以轻松地存储、查询和分析大规模的单细胞数据集。Loompy的设计目标是提供一个快速、灵活且易于使用的工具，以支持生物信息学家和研究人员在单细胞水平上进行数据分析。python的单细胞转录组数据结构说明：da
Java 运行时常量池笔记（详细版小猫猫猫◍˃ᵕ˂◍ java 笔记 python
Java运行时常量池笔记（详细版）Java的运行时常量池（RuntimeConstantPool）是JVM方法区的一部分，用于存储编译期生成的字面量和符号引用。它是Java类文件常量池的运行时表示，具有动态性和共享性。运行时常量池的核心概念1.什么是运行时常量池？运行时常量池是JVM方法区的一部分，存储类文件中常量池的内容。它包含：字面量：如字符串、整数、浮点数等。符号引用：如类名、方法名、字段名
本地搭建小型 DeepSeek 并进行微调非著名架构师大模型知识文档智能硬件人工智能大数据大模型 deepseek
本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/deepseek-ai/deepseek.gitcddeepseek3.安装依赖bash复制pipinstall
侯捷 C++ 课程学习笔记：C++ 面向对象开发的艺术孤寂大仙v c++c++学习笔记
在侯捷老师的C++系列课程中，《C++面向对象开发》这门课程让我对面向对象编程有了更深入的理解。面向对象编程（OOP）是现代软件开发中最重要的编程范式之一，而C++作为支持OOP的语言，提供了强大的工具和特性。侯捷老师通过系统的讲解和实战案例，帮助我掌握了如何在C++中高效地使用面向对象技术。以下是我对这门课程的学习笔记和心得体会。一、课程核心内容：C++面向对象开发的关键特性![侯捷老师的课程详
使用Python和OpenCV实现图像像素压缩与解压东方佑量子变法 python opencv 开发语言
在本文中，我们将探讨如何使用Python和OpenCV库来实现一种简单的图像像素压缩算法。我们将详细讨论代码的工作原理，并提供一个具体的示例来演示该过程。1.引言随着数字媒体的普及，图像处理成为了一个重要的领域。无论是为了减少存储空间还是加快网络传输速度，图像压缩技术都扮演着至关重要的角色。这里，我们提出了一种基于像素重复模式的简单压缩算法，它适用于具有大量连续相同像素值的图像。2.技术栈介绍2.
【Python系列】Python 解释器的站点配置 Kwan的解忧杂货铺@新空间代码工作室 s1 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源