liuguoxin_97

爬虫 scrapy框架应用

scrapy框架

1、scrapy安装与环境依赖

# 1.在安装scrapy前需要安装好相应的依赖库, 再安装scrapy, 具体安装步骤如下: 
(1).安装lxml库: pip install lxml 
(2).安装wheel: pip install wheel 
(3).安装twisted: pip install twisted文件路径 
    ***根据网址进入页面后，找到跟自己电脑相匹配的安装包下载，下载成功后，
    复制到一个文件夹在地址栏用cmd打开切换到python环境中执行命令  twisted: 
    pip install twisted文件路径（T+tab键会自动生成）
	(twisted需下载后本地安装,下载地 址:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted) 	  	  (版本选择如下图,版本后面有解释,请根据自己实际选择) 
(4).安装pywin32: pip install pywin32 
     (注意:以上安装步骤一定要确保每一步安装都成功,没有报错信息,
     如有报错自行百度解决) 
(5).安装scrapy: pip install scrapy 
     (注意:以上安装步骤一定要确保每一步安装都成功,没有报错信息,
     如有报错自行百度解决) 
(6).成功验证:在cmd命令行输入scrapy,显示Scrapy1.6.0-no active project,
证明安装成功

2、创建项目等–命令介绍

# 1.手动创建一个目录test 
# 2.在test文件夹下创建爬虫项目为spiderpro: *(命令)scrapy startproject spiderpro（项目名称） *
# 3.进入项目文件夹: cd spiderpro 
# 4.创建爬虫文件: scrapy genspider 爬虫名 域名（www.baidu.com---意思只能爬取在百度以内的东西）
# 5.启动scrapy的命令：scrapy crawl +'爬虫名'
# 6.解析方法 extract_first()--->目标数据，如果拼错了，不飘红也不报错，就是拿不到数据。
# 7.当在scrapy的框架中，获取列表数据的一条用---extract_first()
# 8.当在scrapy的框架中，获取列表的所有数据用---extract（）

3、项目目录介绍

spiderpro 
	spiderpro # 项目目录 
	__init__ 
	spiders:爬虫文件目录 
		__init__ 
		tests.py:爬虫文件 
	items.py:定义爬取数据持久化的数据结构 
	middlewares.py:定义中间件 
	pipelines.py:管道,持久化存储相关 
	settings.py:配置文件 
venv:虚拟环境目录 
scrapy.cfg: scrapy 项目部署有关
    
#说明: 
    1).spiders:其内包含一个个Spider的实现, 每个Spider是一个单独的文件 
    2).items.py:它
    定义了Item数据结构, 爬取到的数据存储为哪些字段 
    3).pipelines.py:它定义Item Pipeline的实现
    4).settings.py:项目的全局配置 
    5).middlewares.py:定义中间件, 包括爬虫中间件和下载中间
    件 
    6).scrapy.cfg:它是scrapy项目的配置文件, 其内定义了项目的配置路径, 
    部署相关的信息等

4、scrapy五大核心组件与数据流向

# 架构: 
1).Scrapy Engine: 这是引擎，负责Spiders、ItemPipeline、Downloader、Scheduler中间的通 讯，信号、数据传递等等! 
2).Scheduler(调度器): 它负责接受引擎发送过来的requests请求，
	并按照一定的方式进行整理排列， 入队、并等待Scrapy Engine(引擎)来请求时，交给引擎。 
3).Downloader（下载器)：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到 的Responses交还给Scrapy Engine(引擎)，由引擎交给Spiders来处理，
4).Spiders：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进 的URL提交给引擎，再次进入Scheduler(调度器)， 
5).Item Pipeline：它负责处理Spiders中获取到的Item，并进行处理，比如去重，持久化存储（存数据 库，写入文件，总之就是保存数据用的） 
6).Downloader Middlewares(下载中间件)：你可以当作是一个可以自定义扩展下载功能的组件 
7).Spider Middlewares(Spider中间件)：你可以理解为是一个可以自定扩展和操作引擎和Spiders中 间‘通信‘的功能组件（比如进入Spiders的Responses;和从Spiders出去的Requests）


# 工作流: 
spider --> 引擎 --> 调度器 --> 引擎 --> 下载器 --> 引擎 --> spider --> 引擎 --> 管道 --> 数据库
    1).spider将请求发送给引擎, 引擎将request发送给调度器进行请求调度 
    2).调度器把接下来要请求的request发送给引擎, 引擎传递给下载器, 中间会途径下载中间件 
    3).下载携带request访问服务器, 并将爬取内容response返回给引擎, 引擎将response返回给 spider 
    4).spider将response传递给自己的parse进行数据解析处理及构建item一系列的工作, 最后将item 返回给引擎, 引擎传递个pipeline 	
    5).pipe获取到item后进行数据持久化 
    6).以上过程不断循环直至爬虫程序终止
    
    #__init__初始化方法   __new__()  构造方法 ：当spider接收到res响应后定义类，实例化对象存到属性中也就是存在内存上，下一步才准备存到数据库

5、scrapy–爬取科客网站

# 1. itmes.py 里配置想要抓取的字段（想要抓取多少内容）

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy
# 所写的字段
class ProItem(scrapy.Item):
    # define the fields for your item here like:
    img = scrapy.Field()    ******
    title = scrapy.Field()  ******
    image_url = scrapy.Field()   *****所需代码

    
# 2. 在自己定义的爬虫py文件中
# 定义了爬取数据的行为, 定义了数据解析的规则
import scrapy
#  将解析好的数据需要需要实例化存在一个属性中
from ..items import ProItem
class MyproSpider(scrapy.Spider):
    name = 'mypro'    # 爬虫名, 启动项目时用
    # allowed_domains = ['www.baidu.com']   # # 定义了爬取的范围 ，可注释掉，如果不注释则影响爬虫效果
    start_urls = ['http://www.keke289.com/']     ## 起始url, 项目启动时, 会自动向起始url发起请求
	#解析方法
    def parse(self, response):
        #用response响应进行数据解析--》xpath解析的并不是一个真实的列表
        div_list = response.xpath('//article[contains(@class,"article")]')
        for i in div_list:
            title = i.xpath('./div/h2/a/text()').extract_first()
            href = i.xpath('./div/h2/a/@href').extract_first()
            src = i.xpath('./div/a/img/@lazy_src').extract_first()
            #实例化对象
            item = ProItem()
            #将解析的数据找其相对应的字段进行赋值----存储到item属性中（字典）
            item['title'] = title
            item['image_url'] = href
            item['img'] = src
            # yield 将数据发送给管道Pipelines
            yield item
           
        
# 3.在pipelines.py 里进行MongoDB存储
# 导入pymongo模块
import pymongo
class ProPipeline(object):
    def process_item(self, item, spider):
        # python 与 MongoDB 数据库交互
        conn = pymongo.MongoClient('localhost',27017)
        # 创建或连接库
        db = conn.keke
        # 创建或连接表
        table = db.kuke
        table.insert_one(dict(item))
        return item
    
    
# 4. 在settinds.py 里修改所需要的配置
# 此示例中配置文件中的配置的项, 注意是不是全部的配置, 是针对该项目增加或修改的配置项 
# 忽略robots协议 -----》把True改成False(代表不遵守协议)
ROBOTSTXT_OBEY =False 
# UA伪装 ----》换成自己的 UA
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36' 
# 管道类打开以防数据发送不过来 --->把注释解掉即可
ITEM_PIPELINES ={
      'qsbk.pipelines.QsbkPipeline':300, }

6、scrapy实现多页爬取

1). #在起始url中，输入有顺序的每页地址，然后格式化输出。
例：
start_urls = ['http://www.009renti.com/evarenti/RenTiCaiHui/14_%s.html' % for i in range(1,3)]


2). # spider编码在原基础之上, 构建其他页面的url地址, 并利用scrapy.Request发起新的请求, 请求的 回调函数依然是parse: 
#声明page页码数为第一页
page = 1 
base_url = 'http://www.xiaohuar.com/list-1-%s.html' 
# 爬取一共四页的数据所以小于4，因为每次self.page+1,当到第三页时依次加一所以就四页了，要几页写几页
if self.page < 4: 
    #格式化拼接页码数
    page_url = base_url%self.page 
    #依次加一
    self.page += 1 
    #爬取多页收据，将yield函数里  用scrapy.Request再次请求，callback回调其自身函数就OK
    yield scrapy.Request(url=page_url, callback=self.parse) 
    # (其他文件不用改动)
   
####  准确使用
import scrapy
from ..items import BizhiItem
class MybizhiSpider(scrapy.Spider):
    name = 'mybizhi'
    # allowed_domains = ['www.baidu.com']
    1).# start_urls = ['http://sj.zol.com.cn/bizhi/mingxing/%s.html'% i for i in range(1,5)]
    2). #定义起始url为第一页数据
    start_urls = ['http://sj.zol.com.cn/bizhi/mingxing/1.html']
    #定义page=1从第一页开始
    page = 1
    def parse(self, response):
        div_list = response.xpath('//li[@class="photo-list-padding"]')
        for div in div_list:
            title = div.xpath('./a/span/em/text()').extract_first()
            image_url = div.xpath('./a/img/@src').extract_first()
            detail_url = div.xpath('./a/@href').extract_first()
            item = BizhiItem()
            item['title'] = title
            item['image_url'] = image_url
            item['detail_url'] = detail_url
            # 输入爬取多少页的数据
            if self.page < 4:
                #每次加一页，直到全部爬取结束
                self.page += 1
                #将每页拼接到页码上
                url = 'http://sj.zol.com.cn/bizhi/mingxing/%s.html'%self.page
                #再次请求，调用自身函数
                yield scrapy.Request(url=url,callback=self.parse)
            #最后将数据发送到管道，存入MongoDB
            yield item

7、scrapy解析笑话网站例

import scrapy
from ..items import SkillItem

class MyskillSpider(scrapy.Spider):
    name = 'myskill'
    # allowed_domains = ['www.baidu.com']
    start_urls = ['http://www.jokeji.cn/?bmjmxa=ziqzh']
	#自己定义的函数
    def detail_parse(self, response):
        # 将回调传来的值，取出
        item = response.meta['item']
        *****
        当在scrapy的框架中，获取列表数据的一条用---extract_first()
        当在scrapy的框架中，获取列表的所有数据用---extract（）
        *****
        detail_url = response.xpath('//span[@id="text110"]/p/text()').extract()
        # 解析的目标数据是一个大字典用  '' .join()拼接使其变成字符串
        item['detail_url'] = ''.join(detail_url)
        # 最后在发送到管道
        yield item

    def parse(self, response):
        div_list = response.xpath('//div[@class="newcontent l_left"]/ul/li')
        for div in div_list:
            title = div.xpath('./a/text()').extract_first()
            link = div.xpath('./a/@href').extract_first()
            item = SkillItem()
            item['title'] = title
            item['link'] = 'http://www.jokeji.cn'+link
            # 爬取网页xpath解析，实例化对象将其相对应的字段进行赋值，获取详情页连接再次发起去请求，
            # 用yield的SCRAPY.Request的内置参数callback回调一个函数，meta将值传送到回调函数
            yield scrapy.Request(url='http://www.jokeji.cn'+link,callback=self.detail_parse,meta={
     'item':item})

8、scrapy框架下载图片代码

1).item.py定义字段赋值

import scrapy
class BizhiItem(scrapy.Item):
    # 定义需要的字段与爬虫文件相关联
    title = scrapy.Field()
    image_url = scrapy.Field()
    detail_url = scrapy.Field()
    
2). 爬虫py文件

import scrapy
# 导入item的类名内容
from ..items import BizhiItem
class MybizhiSpider(scrapy.Spider):
    name = 'mybizhi'
    # allowed_domains = ['www.baidu.com']
    # start_urls = ['http://sj.zol.com.cn/bizhi/mingxing/%s.html'% i for i in range(1,5)]
    start_urls = ['http://sj.zol.com.cn/bizhi/mingxing/1.html']
    def pic_parse(self, response):
        #接收传送的参数取出来
        item = response.meta['item']
        #图片的名字按照 / 切割
        name = item['image_url'].split('/')[-1]
        # 响应内容，获取图片的二进制流
        content = response.body
        # open 打开的文件，***************imgs文件（图片存储的文件）一定要跟scrapy.cfg平级，不然拿不到***********
        with open('./imgs/%s'%name,'wb') as f:
            #把二进制流写入
            f.write(content)
            # 逻辑工作结束后，最后将item发送至管道
            yield item

    def parse(self, response):
        div_list = response.xpath('//li[@class="photo-list-padding"]')
        for div in div_list:
            title = div.xpath('./a/span/em/text()').extract_first()
            image_url = div.xpath('./a/img/@src').extract_first()
            detail_url = div.xpath('./a/@href').extract_first()
            item = BizhiItem()
            item['title'] = title
            item['image_url'] = image_url
            item['detail_url'] = detail_url
            # 再次请求一个图片地址链接，把赋值好的属性传送过去。
            yield scrapy.Request(url=image_url,callback=self.pic_parse,meta={
     'item':item}) 
            
3).piplines.py 管道py存数据
import pymongo

class BizhiPipeline(object):
    def process_item(self, item, spider):
        # 与MongoDB数据库交互   域名加端口
        conn = pymongo.MongoClient('localhost',27017)
        # 创建数据库或者连接数据库
        db = conn.xxxxx
        # 创建表或者连接表
        table = db.yyyyy
        # 插入数据
        table.insert_one(dict(item))
        return item

     
4).settings.py配置内容
# 此示例中配置文件中的配置的项, 注意是不是全部的配置, 是针对该项目增加或修改的配置项 
# 忽略robots协议 -----》把True改成False(代表不遵守协议)
ROBOTSTXT_OBEY =False 
# UA伪装 ----》换成自己的 UA
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36' 
# 管道类打开以防数据发送不过来 --->把注释解掉即可
ITEM_PIPELINES ={
      'qsbk.pipelines.QsbkPipeline':300, }

9、scrapy 篡改请求与响应，item丢弃

1).-- UA池--->大量UA----->拦截请求  ---->换UA 
2).-- IP代理池---->请求---->换IP
3).-- cookie池---->换cookie
4).-- 拦截响应（动态加载）--selenium抓取（res.scrapy<---->res.selenium）--给引擎--->spider

10、scrapy中间件–分类，作用

# 中间件分类
	- 下载中间键：DownloadMiddleware
    - 爬虫中间件：SpiderMiddleware

# 中间件的作用
	- 下载中间件: 拦截请求与响应, 篡改请求与响应 
    - 爬虫中间件: 拦截请求与响应, 拦截管道item, 篡改请求与响应, 处理item

# 下载中间件的主要方法: 
process_request     #获取拦截非异常请求
process_response    #获取拦截所有响应
process_exception   #获取拦截异常请求

11、下载中间件拦截请求, 使用代理ip案例

1).# spider编码: 
import scrapy 
class DlproxySpider(scrapy.Spider): 
	name = 'dlproxy' 
	# allowed_domains = ['www.baidu.com'] 
	start_urls = ['https://www.baidu.com/s?wd=ip']
def parse(self, response): 
	with open('baiduproxy.html', 'w', encoding='utf-8') as f: 
		f.write(response.text)
        
2).# Downloadermiddleware编码: 
def process_request(self, request, spider): 
    # http://www.goubanjia.com
    request.meta['proxy'] = 'http://111.231.90.122:8888' 
    return None

3).# settings编码
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
ROBOTSTXT_OBEY = False
# 把下载中间件注释打开
Downloader_MIDDLEWARES = {
     
   'proxy.middlewares.ProxySpiderMiddleware': 543,
}

12、下载中间件实现UA池

1). 在middlewares.py
from scrapy import signals
# ua导包需下载 pip install fake-useragent

from fake_useragent import UserAgent
#导入随机
import random
#实例化
ua_chrome = UserAgent()
#定义ua池
ua_pool = []
for i in range(10):
    ua = ua_chrome.Chrome
    ua_pool.append(ua)
    
    # 拦截请求：拦截非异常的请求
    def process_request(self, request, spider):
        # request.meta['proxy'] = 'http://60.217.64.237:38829'
        request.headers['User-Agent'] = random.choice(ua_pool)
        return None
    # 拦截响应：拦截的是所有响应
    def process_response(self, request, response, spider):
        print('*'*50)
        ***** request.headers['User-Agent'] *****取ua
        print(request.headers['User-Agent'])
        print('*'*50)
        return response
   
2).  需要注释的地方，跟修改的地方  在settings.py 里设置
1.USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
2.ROBOTSTXT_OBEY = False
#把下载中间件注释开
3.DOWNLOADER_MIDDLEWARES = {
     
   'proxy.middlewares.ProxyDownloaderMiddleware': 543,
}

3). #在起始url里，用列表推导式里面加入for循环，依次循环就可以在ua池里任意获取
start_urls = ['https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=ip&rsv_pq=cf95e45f000b8d2b&rsv_t=74b1V5e7UWXPDK6YWqzjFSXv%2B9wpMSDHZrF4HMP0TnouyBZ4o6hj%2FuiRWgI&rqlang=cn&rsv_enter=1&rsv_dl=tb&rsv_sug3=2&rsv_sug1=1&rsv_sug7=100&rsv_sug2=0&inputT=1452&rsv_sug4=1453' for i in range(3)]

*************************************************************
简单的UA池
from fake_useragent import UserAgent
for i in range(10):
    USER_AGENT = UserAgent().random
    print(USER_AGENT)
*************************************************************

13、selenium与scrapy框架对接

1).item.py里
# 定义爬取的字段
import scrapy
class NewsItem(scrapy.Item):
    title = scrapy.Field()
    image_url = scrapy.Field()
    
*****************************************************************************************
2).在爬虫的py里
import scrapy
from ..items import NewsItem
from selenium import webdriver
class MynewsSpider(scrapy.Spider):
    name = 'mynews'
    # allowed_domains = ['www.baidu.com']
    # 在起始的url里定义网址爬取的范围
    start_urls = ['https://news.163.com/domestic/']
    # 实例化selenium对象，executable_path=‘驱动程序的工具路径’
    browser = webdriver.Chrome(executable_path=r'D:\爬虫段位\day13\news\chromedriver.exe')

    def image_parse(self, response):
        item = response.meta['item']
        content = response.body
        name = item['image_url'].split('/')[-1].split('?')[0]
        with open('./imgs/%s'% name,'wb') as f:
            f.write(content)
            yield item

    def parse(self, response):
        # 正常的xpath解析
        div_list = response.xpath('//div[contains(@class,"news_article")]')
        for div in div_list:
            title = div.xpath('./div/div/h3/a/text()').extract_first()
            image_url = div.xpath('./a/img/@src').extract_first()
            item = NewsItem()
            item['title'] = title
            item['image_url'] = image_url
            yield scrapy.Request(url=image_url,callback=self.image_parse,meta={
     'item':item})

*****************************************************************************************            
3).pipelines.py里 存数据
import pymongo

class NewsPipeline(object):
    def process_item(self, item, spider):
        conn = pymongo.MongoClient('localhost',27017)
        db = conn.news
        table = db.wynews
        table.insert_one(dict(item))
        return item
    
***************************************************************************************** 
4).middlewares.py里
from scrapy import signals
from scrapy.http import HtmlResponse
# 因为获取js的动态数据所以属于响应拦截
    def process_response(self, request, response, spider):
        # 在爬虫py里已导入自动化工具，用spider导进来运用
        browser = spider.browser
        # 在第一次请求的js动态数据，判断拦截后的响应的url在不在起始url里
        #   注意爬取的连接， 必要时判断
        if response.url in spider.start_urls:
            # 用自动化工具进行请求页面
            browser.get(request.url)
            # js下拉框 下拉一次
            js = 'window.scrollTo(0,document.body.scrollHeight)'
            # 把js 代码放入 browser.execute_script(js)
            browser.execute_script(js)
            # 获取响应后的页面赋给变量
            html = browser.page_source
            # 将拦截后获取的数据在发送给爬虫文件解析----
            # 固定参数 url=browser.current_url（currnet_url代表当前请求的url）,body=html（body请求体）,
            # encoding='utf-8'（文本编码）,request=request（伪装成请求头，返回爬虫网页））

            return HtmlResponse(url=browser.current_url,body=html,encoding='utf-8',request=request)
        return response
    
*****************************************************************************************
5).settings.py设置
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
ROBOTSTXT_OBEY = False
DOWNLOADER_MIDDLEWARES = {
     
   'news.middlewares.NewsDownloaderMiddleware': 543,
}
ITEM_PIPELINES = {
     
   'news.pipelines.NewsPipeline': 300,
}

14、scrapy 持久化与MongoDB交互

# 核心方法讲解: 
open_spider(self, spider): spider开启是被调用 close_spider(self, spider): spider关闭是被调用 from_crawler(cls, crawler): 类方法, 用@classmethod标识, 可以获取配置信息 
Process_item(self, item, spider): 与数据库交互存储数据, 该方法必须实现 
***** # 重点: 所有的方法名都必须一致

1). #在管道pipelines.py
import pymongo
class XiaoxiaoPipeline(object):
    # 初始化方法, __new__: 构造方法, 在内存中开辟一块空间
    def __init__(self,mongo_uri,mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db

    def open_spider(self,spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]

    @classmethod
    # 调用配置中定义的方法
    def from_crawler(cls,crawler):
        return cls(
            mongo_uri = crawler.settings.get('MONGO_URI'),
            mongo_db = crawler.settings.get('MONGO_DB')
        )


    def process_item(self, item, spider):
        self.db['myxiao'].insert(dict(item))
        return item

    def close_spider(self,spider):
        self.client.close()
        
2). # 爬虫文件正常爬取思路
import scrapy
from ..items import XiaoxiaoItem
class MyxiaoSpider(scrapy.Spider):
    name = 'myxiao'
    # allowed_domains = ['www.baidu.com']
    start_urls = ['http://duanziwang.com/']

    def parse(self, response):
        div_list = response.xpath('//article[@class="post"]')
        for div in div_list:
            title = div.xpath('./div/h1/a/text()').extract_first()
            cont = div.xpath('./div[2]/p/text()').extract()
            content = ''.join(cont)
            item = XiaoxiaoItem()
            item['title'] = title
            item['content'] = content
            yield item
            
3). # settings.py 配置

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'

ROBOTSTXT_OBEY = False

ITEM_PIPELINES = {
     
    # 跟中间件的类相对应，后面的值，谁小谁先运行
   'xiaoxiao.pipelines.XiaoxiaoPipeline': 300,
}

MONGO_URI = 'localhost'
MONGO_DB = 'xiaoxiao'

15、scrapy 持久化与Mysql交互

1). # 在中间管道.py里
import pymysql
class MyXiaoxiaoPipeline(object):
    def __init__(self,host,database,user,password,port):
        self.host = host
        self.database = database
        self.user = user
        self.password = password
        self.port = port

    def open_spider(self,spider):
        self.client = pymysql.connect(self.host,self.user,self.password,self.database,charset='utf8',port=self.port)
        self.corsor = self.client.cursor()
	

    @classmethod
    def from_crawler(cls,crawler):
        return cls(
            host=crawler.settings.get('MYSQL_HOST'),
            database = crawler.settings.get('MYSQL_DATABASE'),
            user = crawler.settings.get('MYSQL_USER'),
            password = crawler.settings.get('MYSQL_PASSWORD'),
            port = crawler.settings.get('MYSQL_PORT')
        )


    def process_item(self, item, spider):
        
        
        data = dict(item)
        # data.keys()---->获取所有的键，字段----（title，content）
        keys = ','.join(data.keys())
        # 获取所有的值
        values = ','.join(['%s']*len(data))
        sql = 'insert into %s (%s) values (%s)'% ('myxiao',keys,values)
        self.corsor.execute(sql,tuple(data.values()))
        # 提交
        self.client.commit()
        return item
    
2).在settings.py 里
ITEM_PIPELINES = {
     
   'xiaoxiao.pipelines.MyXiaoxiaoPipeline': 295,
}

MYSQL_HOST = 'localhost'
MYSQL_DATABASE = 'xiaoxiao'
MYSQL_USER = 'root'
MYSQL_PASSWORD = ''
MYSQL_PORT = 3306

ROBOTSTXT_OBEY = False

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'\

16、基于crawlSpider的全站数据爬取

1).# 项目的创建 
scrapy startproject projectname 
scrapy genspider -t crawl spidername www.baidu.com

2).# crawlspider全站数据爬取: 
- CrawlSpider是一个爬虫类, 是scrapy.spider的子类, 功能比spider更强大. 
- CrawlSpider的机制: 
    - 连接提取器: 可以根据指定的规则进行连接的提取 
    - 规则解析器: 根据指定的规则对响应数据进行解析
        
3))# 案例: 基于CrawlSpider对笑话网进行全站深度数据爬取, 抓取笑话标题与内容, 并存储于MongoDB中
# item编码: 
import scrapy 
class JokeItem(scrapy.Item): 
    title = scrapy.Field() 
    content = scrapy.Field()
    
# spider编码: 
import scrapy 
from scrapy.linkextractors import LinkExtractor 
from scrapy.spiders import CrawlSpider, Rule 
from..items import JokeItem 
class ZSpider(CrawlSpider): 
    name = 'z' 
    # allowed_domains = ['www.baidu.com'] 
    start_urls = ['http://xiaohua.zol.com.cn/lengxiaohua/'] 
    link = LinkExtractor(allow=r'/lengxiaohua/\d+.html') 
    link_detail = LinkExtractor(allow=r'.*?\d+\.html') 
    rules = ( Rule(link, callback='parse_item', follow=True), 		                   Rule(link_detail, callback='parse_detail'), )
    def parse_item(self, response): 
        pass 
    def parse_detail(self, response): 
        title = response.xpath('//h1[@class="article- title"]/text()').extract_first() 
        content = response.xpath('//div[@class="article- text"]//text()').extract() 
        content = ''.join(content) 
        if title and content: 
            item = JokeItem() 
            item["title"] = title 
            item["content"] = content 
            print(dict(item)) 
            yield item
            
# pipeline编码: 
class JokePipeline(object): 
    def __init__(self, mongo_uri, mongo_db): 
        self.mongo_uri = mongo_uri 
        self.mongo_db = mongo_db 
    @classmethod 
    def from_crawler(cls, crawler): 
        return cls( 
            mongo_uri=crawler.settings.get('MONGO_URI'), 			                 				mongo_db=crawler.settings.get('MONGO_DB') ) 
    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri) 
        self.db = self.client[self.mongo_db] 
    def process_item(self, item, spider):                          				 	             self.db["joke"].insert(dict(item)) 
        return item 
    def close(self, spider): 
        self.client.close()

17、增量式爬虫

# 概念: 
- 检测网站数据更新, 只爬取更新的内容 
- 核心: 
    去重 
    - url 
    - 数据指纹
# 增量式爬虫: 电影名称与电影类型的爬取 # url: https://www.4567tv.co/list/index1.html

#item.py
import scrapy
class MoveItem(scrapy.Item):
    title = scrapy.Field()
    lab = scrapy.Field()
#爬虫py文件
import scrapy
from ..items import MoveItem

from redis import Redis
class MymoveSpider(scrapy.Spider):
    name = 'mymove'
    # allowed_domains = ['www.baidu.com']
    start_urls = ['https://www.4567tv.co/list/index1.html']
    # 连接redis数据库
    conn = Redis('localhost',6379)
    def detail_parse(self, response):
        title = response.xpath('//div[@class="ct-c"]/dl/dt/text()').extract_first()
        lab = response.xpath('//div[@class="ee"]/text()').extract_first()
        item = MoveItem()
        item['title'] = title
        item['lab'] = lab
        yield item
    def parse(self, response):
        link = response.xpath('//div[contains(@class,"index-area")]/ul/li/a/@href').extract()
        for i in link:
            # 如果link已经存在, 则ret为0, 说明该数据爬过来
            # 如果link不存在, 则ret为1, 说明没爬虫
            ret = self.conn.sadd('link',i)   # 把需要的数据存入redis库
            #  反向思绪
            if ret:
                print('有新数据, 可以爬取---------------------------------')
                yield scrapy.Request(url='https://www.4567tv.co'+i,callback=self.detail_parse)
            else:
                print('没有数据更新, 不需要爬取###############################')
                
# pipelines.py
import pymongo

class MovePipeline(object):
    def process_item(self, item, spider):

        conn = pymongo.MongoClient('localhost',27017)
        db = conn.move
        table = db.mv
        table.insert_one(dict(item))
        return item
    
# settings.py
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
ROBOTSTXT_OBEY = False
ITEM_PIPELINES = {
     
   'move.pipelines.MovePipeline': 300,
}

19、mongo的简易分组聚合统计用django显示

# 连接Mongo 数据库
import pymongo
conn = pymongo.MongoClient('localhost',27017)
db = conn.fqxh
table = db.xh

def login(request):
    # find（）查询所有的数据
    res = table.find()
    return render(request,'aaa.html',locals())

def index(request):
    # 对都需要的值进行排序ASC是正序，DESC倒叙
    res = table.find().sort([('times_date',pymongo.ASCENDING)])
    return render(request,'index.html',locals())


def indexs(request):
# ****以group进行分组，求出爬取浏览次数之和
    ret = table.aggregate([{
     '$group':{
     '_id':'$times_date','cc':{
     '$sum':'$count'}}}])
    li  = []
    for i in ret:
        i['date'] = i['_id']
        li.append(i)
    return render(request,'indexs.html',locals())

def total(request):
    # Mongo的分组聚合统计，按照日期分
    # 统计每天爬取了几次
    res = table.aggregate([{
     '$group':{
     '_id':'$times_date','cc':{
     '$sum':1}}}])
    li = []
    for i in res:
        i['date'] = i['_id']
        li.append(i)
    return render(request,'ccc.html',locals())

你可能感兴趣的:(scrapy框架,爬虫scrapy框架)

批量获取虾皮shopee商品详情信息爬虫 a6229203 爬虫数据库前端
每天100万详情联系736131417v:IpAnt_Proxy在当今的电子商务环境中，数据是至关重要的。对于电商平台的商家和开发者来说，获取商品详情信息是他们日常工作的关键部分。虾皮Shopee作为东南亚最大的电商平台，其商品信息对于商家和开发者来说具有极高的价值。本文将分享如何通过API批量获取虾皮Shopee的商品详情信息，并提供测试代码，让您轻松上手。一、了解虾皮ShopeeAPI虾皮Sh
PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
如何使用PHP爬虫根据关键词获取Shopee商品列表？数据小爬虫@ php 爬虫 android
在跨境电商领域，Shopee作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，根据关键词获取Shopee商品列表都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写PHP爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用PHP爬虫根据关键词获取Shopee商品列表，并提供完整的代码示例。一
如何使用PHP爬虫获取Shopee（虾皮）商品详情？数据小爬虫@ php 爬虫开发语言
在跨境电商领域，Shopee（虾皮）作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，获取Shopee商品详情都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写PHP爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用PHP爬虫获取Shopee商品详情，并提供完整的代码示例。一、为什么选择
从零至巅：逆向爬虫之道 0_0 蓝花楹下逆向爬虫爬虫
逆向爬虫-涅槃吾本一介凡鸟，栖于尘世，碌碌无为，浑浑噩噩，如沧海一粟，渺小而无足轻重。然，虽为小雀，心亦怀鸿鹄之志，欲挥羽向天，如凤凰般，翱翔九天，俯瞰苍茫大地。奈何羽翼未丰，学识浅薄，常感力不从心，困于樊笼，不得展翅高飞。然，吾深知，学如逆水行舟，不进则退。故，今执笔为记，以明志，以自勉。愿以此笔记为舟，载吾渡学海，以勤为桨，以思为帆，逐浪前行，终至彼岸。虽前路漫漫，荆棘丛生，然吾心坚定，誓不负
Python 网络爬虫：从入门到实践一ge科研小菜菜编程语言 Python python
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注网络爬虫是一种自动化的程序，用于从互联网上抓取数据。Python以其强大的库和简单的语法，是开发网络爬虫的绝佳选择。本文将详细介绍Python网络爬虫的基本原理、开发工具、常用框架以及实践案例。一、网络爬虫的基本原理网络爬虫的工作流程通常包括以下步骤：发送请求：向目标网站发送HTTP请求，获取网页内容。解析内容：提取需要的数据，可以是HTML标签
分享Python7个爬虫小案例（附源码）人工智能-猫猫爬虫 python 开发语言
在这篇文章中，我们将分享7个Python爬虫的小案例，帮助大家更好地学习和了解Python爬虫的基础知识。以下是每个案例的简介和源代码：1.爬取豆瓣电影Top250这个案例使用BeautifulSoup库爬取豆瓣电影Top250的电影名称、评分和评价人数等信息，并将这些信息保存到CSV文件中。importrequestsfrombs4importBeautifulSoupimportcsv#请求U
python爬虫系列实例-python爬虫实例，一小时上手爬取淘宝评论(附代码) weixin_37988176
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。1明确目的通过访问天猫的网站，先搜索对应的商品，然后爬取它的评论数据。可以作为设计前期的市场调研的数据，帮助很大。2爬取评论并储存（首先要进行登录，获取cookie）搜索你想收集的信息的评价，然后点开对应的产品图片。找到对应的评价的位置。找到对应的位置之后就可以进行数据的爬取了
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
用python执行js代码：PyExecJS库详解数据知道 2025年爬虫和逆向教程 python javascript 爬虫数据采集 nodejs
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.介绍和安装1.1PyExecJS介绍1.2安装JavaScript运行时1.3安装PyExecJS2.PyExecJS的基本使用2.1执行简单的JavaScript代码2.2使用外部JavaScript文件2.3先编译、后调用2.4传递参数和获取返回值3.PyExecJS的高级功能3.1指定JavaScript运行时3.2处理异步JavaSc
利用Python爬虫获取淘宝商品评论：实战案例分析数据小爬虫@ API python 爬虫开发语言
在数字化时代，数据的价值日益凸显，尤其是对于电商平台而言，商品评论作为用户反馈的重要载体，蕴含着丰富的信息。本文将详细介绍如何利用Python爬虫技术获取淘宝商品评论，包括代码示例和关键步骤解析。淘宝商品评论的重要性淘宝商品评论不仅对消费者购买决策有着重要影响，而且对于商家来说，也是了解市场需求、改进产品和服务的重要途径。因此，获取并分析淘宝商品评论数据，对于电商运营和市场分析具有重要意义。Pyt
Python异步编程 - asyncio库孤寒者 Python全栈系列教程 python 异步编程 asyncio yield 协程
目录：每篇前言：异步IOPython中的异步编程实现方式：协程Python传统协程示例：实现生产者-消费者模型消费者：生产者：运行流程：整体流程：传统协程——>现代协程：asyncio库async/await每篇前言：作者介绍：【孤寒者】—CSDN全栈领域优质创作者、HDZ核心组成员、华为云享专家Python全栈领域博主、CSDN原力计划作者本文已收录于爬虫必备前端技术栈专栏：《爬虫必备前端技术栈
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
并发爬虫实战：多线程高效抓取王者荣耀全英雄皮肤 YiFoEr_Liu 爬虫案例实操爬虫部署 python 爬虫 python 大数据
一、场景与挑战在网络爬虫开发中，我们常常面临以下挑战：需要处理成百上千个页面的数据抓取目标服务器存在反爬机制和请求频率限制单线程模式下载效率低下，难以充分利用带宽本文以王者荣耀英雄皮肤下载为例（日访问量超过1亿的热门游戏），演示如何通过Python并发编程实现高效数据抓取。二、技术选型分析2.1为什么选择并发线程？I/O密集型场景：网络请求占比90%以上GIL限制：Python线程适合I/O密集型
解锁豆瓣高清海报(三)从深度爬虫到URL构造，实现极速下载 dreadp 爬虫 python beautifulsoup html 后端
脚本地址:项目地址:GazerPosterBandit_v2.py前瞻之前的PosterBandit.py是按照深度爬虫的思路一步步进入海报界面来爬取,是个值得学习的思路,但缺点是它爬取慢,仍然容易碰到豆瓣的418错误,本文也会指出彻底解决旧版418错误的方法并提高爬取速度.现在我将介绍优化版,这个版本通过直接构造URL来实现获取海报原图,准确识别、更快爬取.本文会重点讲解动态headers及其应
python爬虫之scrapy框架入门，万字教学，从零开始到实战演练，超详细！！！（21）盲敲代码的阿豪 python之爬虫系统教学 python 爬虫 scrapy
文章目录前言1、scrapy的概念和流程1.1学习目标1.2scrapy的概念1.3scrapy框架的作用1.4scrapy的工作流程1.5总结2、scrapy的入门使用2.1学习目标2.2安装scrapy框架2.3scrapy项目开发流程2.4创建项目2.5创建爬虫文件2.6scrapy项目文件说明2.7案例演示2.8实战案例（抓取链家租房信息，存入本地）2.8.1修改items.py文件，在这
详解如何通过Python的BeautifulSoup爬虫+NLP标签提取+Dijkstra规划路径和KMeans聚类分析帮助用户规划旅行路线 mosquito_lover1 python beautifulsoup 爬虫 kmeans 自然语言处理
系统模块：数据采集模块（爬虫）：负责从目标网站抓取地点数据（如名称、经纬度、描述等）数据预处理模块（标签算法）：对抓取到的地点数据进行清洗和分类。根据地点特征（如经纬度、描述文本）打上标签（如“适合家庭”、“适合冒险”）。地理数据处理模块（地图API）：使用地图API获取地点的详细信息（如地址、距离、路径等）。计算地点之间的距离或路径。路径规划模块：根据用户输入的起点和终点，规划最优路径。支持多种
基于Python爬虫的商业新闻趋势分析：数据抓取与深度分析实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言媒体游戏
在信息化和数字化日益发展的今天，商业新闻成为了行业动向、市场变化、竞争格局等多方面信息的重要来源。对于企业和投资者来说，及时了解商业新闻不仅能帮助做出战略决策，还能洞察市场趋势和风险。在此背景下，商业新闻分析的需求日益增长。通过爬虫技术获取和分析商业新闻数据，不仅可以节省时间和成本，还能高效、精准地进行趋势预测与决策支持。本篇博客将详细介绍如何使用Python爬虫技术抓取商业新闻数据，并进行趋势分
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
Python获取tiktok视频数据信息 api 爬虫程序媛了了 python 开发语言
Tiktok通过ID爬取视频信息api采集页面如图：https://www.tiktok.com/@basketwithball2.0/video/7273119444522650912?q=irving&t=1706683319923请求APIhttp://api.xxxx.com/tt/video/info?video_id=7273119444522650912&token=test请求参数
python、JavaScript 、JAVA等实例代码演示教你如何免费获取股票数据（实时数据、历史数据、CDMA、KDJ等指标数据）配有股票数据API接口说明文档详解参数说明蝶澈乐乐 python javascript java 股票数据接口 api 开发语言
近一两年来，股票量化分析逐渐受到广泛关注。而作为这一领域的初学者，首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据中挖掘出有价值的信息，为我们的投资策略提供有力的支持。在寻找数据的过程中，我尝试了多种途径，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归 OverlordDuke 聚类算法数据可视化爬虫线性回归算法
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归利用数据实现全面分析数据分析与可视化功能创新的聚类分析功能结语在如今房地产市场日益复杂的背景下，对于投资者、购房者和市场分析师来说，了解市场动态并做出明智的决策至关重要。基于此，我们开发了一款基于Python的城市二手房分析与可视化系统，为用户提供了强大的工具，帮助他们深入了解当地房地产市场。利用数据实现全面分析我们的系统利用爬取的58同
爬虫基础--request库详解 amo的代码园_毕设 Java基础爬虫 java spring boot vue.js python 开发语言
爬虫基础–request库详解1.requests模块介绍request库中文文档：https://docs.python-requests.org/zh_CN/latest/user/quickstart.htmlrequests是一个非常流行的PythonHTTP第三方库，它允许你发送各种HTTP请求，处理cookies、会话、连接池、重定向、多种认证方式等，使得处理HTTP请求变得非常便捷，
电商API接口防爬虫实战：日均拦截千万级恶意请求的技术揭秘 lovelin+vI7809804594 python 人工智能 java 大数据数据库
在电子商务蓬勃发展的今天，API（应用程序编程接口）接口作为电商平台与外部系统交互的桥梁，承载着商品管理、订单处理、支付结算、用户管理、数据分析等重要功能。然而，这些功能也使电商API接口成为攻击者的目标，面临着来自多个方面的安全挑战。本文将深入探讨电商API接口防爬虫的策略与技术，揭秘日均拦截千万级恶意请求的实践过程。一、电商API接口的重要性与风险1.API接口的定义与作用API接口是一种定义
基于百度翻译的python爬虫示例魂万劫 python 爬虫开发语言百度翻译
(今年java工作真难找啊，有广州java高级岗位招人的好心人麻烦推一下，拜谢。。）花了一周时间，从零基础开始学习了python，学有所获之后，就总想爬些什么，不然感觉不得劲，所以花了一天时间整出了个百度翻译的爬虫示例，主要卡点花在了找token、sign以及调试请求上。代码有点乱，毕竟是demo，但是功能是实现了的。importrequestsimportjs2pyimportrefromurl
使用Java爬虫根据关键词获取Shopee商品列表？小爬虫程序猿 java 爬虫开发语言
在跨境电商领域，Shopee作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，根据关键词获取Shopee商品列表都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Java爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Java爬虫根据关键词获取Shopee商品列表，并提供完整的代码示例
Cookies 详解：工作原理、使用方法及安全性才华是浅浅的耐心 python java javascript
1.什么是Cookie？Cookie是存储在用户浏览器中的小型文本数据，通常用于保存用户会话信息、个性化设置以及跨页面的数据共享。它是Web服务器与客户端浏览器之间的一种状态管理机制，常用于爬虫的会话凭证。查看方式：打开网站-登录-打开开发正工具-点击网络-刷新-点击一个包-查看表头（有的需要禁用缓存才能看见）2.Cookie的作用会话管理：如用户登录状态的保持。个性化设置：存储用户偏好，如主题、
推特关键词爬虫Python实现最新版（2025.2.20）才华是浅浅的耐心爬虫 python 开发语言
引言随着各类自媒体平台的兴起，数据挖掘和分析变得尤为重要。推特作为全球最大的自媒体平台，越来越来越多的人需要通过爬取其内容进行分析。然后自从马斯克接手推特之后，推特api不可再用，推特的反爬力度也在逐渐增强。今天小编就分享一个推特爬虫的教程。描述这篇文章主要通过关键词爬取帖子内容信息以及帖子作者主页相关信息，用户也可根据自己需要的时间段进行筛选。推特可支持筛选多种语言，我这里先展示中文和英文的。字
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S