辉子2020

爬虫(19)pipline补充+item的讲解+古诗文案例

文章目录

第十九章 pipline补充与item的讲解和古诗文案例
- 1. pipline的补充
- 3. item的使用
- 4. 古诗文案例
- - 4.1 思路
  - 4.2 爬取
  - - 4.2.1 爬取标题
    - 4.2.2 爬取作者和朝代
    - 4.2.3 爬取内容
  - 4.3 使用items
  - 4.4 使用管道pipelines
  - 4.5 保存数据
  - 4.6 翻页
- 5. 垃圾回收

第十九章 pipline补充与item的讲解和古诗文案例

上一章我们讲了怎样创建一个scrapy项目，怎样爬取数据，保存数据。后面讲了一个豆瓣的小案例，来熟悉一下scrapy的使用。我们遗留了一个问题，就是在项目的末尾用的是yiled而不是return。这次课我们来具体研究一下。
我们以前讲过有两种情形可以产生生成器，一个是通过列表推导式，一个是通过yield关键字。生成器可以更加节省内存的空间。由于有时候我们爬取的内容非常的多，return返回数据会占据大量的内存。yield的占用内存小，而且使用灵活。虽然yield和return都有返回数据的作用，但是return在返回之后就结束了程序的运行。而yield在返回数据后，可以继续运行下面的代码。而且yield把数据给pipline，在scrapy中有一个yield scrapy.Request对象。如果有翻页对象，我们的scrapy框架会获取该对象，把链接给引擎，然后由引擎把链接交给调度器。我们通过一个案例来操作一下，讲解这个知识点。

1. pipline的补充

我们打开pipline 。可以定义多个pipline，可能有多个spider，不同的pipline处理不同的item内容。另外一个spider内容也可以做不同的操作，比如存入不同的数据中。
注意：

pipline的权重越小，优先级越高。
pipline中的process_item方法名不能修改为其他的名称。
我们打开settings

我们复制一个改一下名称和值，放在下面:

同时，我们在piplines里面把对应的类创建出来：

记得，这个方法

 def process_item(self, item, spider):
        return item

必须得有，不能改变。
下面我为了验证这两个pipline谁先执行，我把代码做如下改变：

import json
class MyspiderPipeline:

    def process_item(self, item, spider):
    	item['hello'] = 'world' 
        
        return item

    def close_spider(self,item): # 爬虫结束的名字不能改变
        self.f.close()
        print('爬虫结束了')

class MyspiderPipeline1():
    def process_item(self, item, spider):
    	print(item)
        return item

我们在豆瓣里面穿过来得item字典里面已经有了标签得名称，这里如果MyspiderPipeline先执行，那么就在前面得内容后面会跟一个新的键值对"hello":“world”。如果MyspiderPipeline1()先执行，那么打印出来得直接是只有含有标签一个键值对。我们start一下验证：

结果是有’hello’: 'world’的，就验证了我们的说法，值小的先执行。
我们看到pipline中有一个spider,那么它的作用是什么呢？

通过这个参数我们可以获取一个爬虫的名字。下面我们打印一下spider的类型和值。需要在settings和pipelines里面都把第二个pipeline注释一下:

import json
class MyspiderPipeline:

    # def __init__(self):
    #     self.f = open('demo.json','w',encoding='utf-8')

    def open_spider(self,item): # 爬虫开始的名字不能改变
        print('爬虫开始了')

    def process_item(self, item, spider):
        # item_json = json.dumps(item,ensure_ascii=False)
        # self.f.write(item_json+'\n')
        # # print(item)
        # item['hello'] = 'world'
        print(type(spider),spider)
        return item

    def close_spider(self,item): # 爬虫结束的名字不能改变
        # self.f.close()
        print('爬虫结束了')

# class MyspiderPipeline1():
#     def process_item(self, item, spider):
#         print(item)
#         return item

start一下：

我们看到类型是一个DbSpider对象，可以在后面加一个.name获得名字。

 def process_item(self, item, spider):
        # item_json = json.dumps(item,ensure_ascii=False)
        # self.f.write(item_json+'\n')
        # # print(item)
        # item['hello'] = 'world'
        print(spider.name)
        return item

start一下：

我们看到得到的爬虫名字是db。所以我们可以代码改动一下，就得到包含来源信息的结果：

import json
class MyspiderPipeline:

    def open_spider(self,item): # 爬虫开始的名字不能改变
        print('爬虫开始了')

    def process_item(self, item, spider):

        item['come_from'] = spider.name
        print(item)
        return item

    def close_spider(self,item): # 爬虫结束的名字不能改变
   
        print('爬虫结束了')

start一下看看：

爬虫开始了
{'name': '影讯&购票', 'come_from': 'db'}
{'name': '选电影', 'come_from': 'db'}
{'name': '电视剧', 'come_from': 'db'}
{'name': '排行榜', 'come_from': 'db'}
{'name': '分类', 'come_from': 'db'}
{'name': '影评', 'come_from': 'db'}
{'name': '预告片', 'come_from': 'db'}
{'name': '问答', 'come_from': 'db'}
{'name': '精选', 'come_from': 'db'}
{'name': '文化', 'come_from': 'db'}
{'name': '行摄', 'come_from': 'db'}
{'name': '娱乐', 'come_from': 'db'}
{'name': '时尚', 'come_from': 'db'}
{'name': '生活', 'come_from': 'db'}
{'name': '科技', 'come_from': 'db'}
{'name': '分类浏览', 'come_from': 'db'}
{'name': '阅读', 'come_from': 'db'}
{'name': '作者', 'come_from': 'db'}
{'name': '书评', 'come_from': 'db'}
{'name': '购书单', 'come_from': 'db'}
{'name': '音乐人', 'come_from': 'db'}
{'name': '潮潮豆瓣音乐周', 'come_from': 'db'}
{'name': '金羊毛计划', 'come_from': 'db'}
{'name': '专题', 'come_from': 'db'}
{'name': '排行榜', 'come_from': 'db'}
{'name': '分类浏览', 'come_from': 'db'}
{'name': '乐评', 'come_from': 'db'}
{'name': '豆瓣FM', 'come_from': 'db'}
{'name': '歌单', 'come_from': 'db'}
{'name': '阿比鹿音乐奖', 'come_from': 'db'}
{'name': '近期活动', 'come_from': 'db'}
{'name': '主办方', 'come_from': 'db'}
{'name': '舞台剧', 'come_from': 'db'}
爬虫结束了

最后我们总结一下：

可以开启多个管道，值越小优先级越高
可以在管道中获取爬虫的名字： spider.name 可以在item中进行设置。

3. item的使用

前面的案例中，我们在db项目里定义了一个字典，其实在items里面可以直接定义好你所爬取的数据结构。打开items

我们把# name = scrapy.Field()的注释解锁
然后打开项目db做以下操作：

打开pipelines做以下操作：

然后我们start一下：

我们看到也打印出了结果。我们可以在item里查看一下scrapy.Field()方法。

我们看到Field类继承了字典。但是name = scrapy.Field()并不是一个字典对象。

4. 古诗文案例

学完pipelines和items之后，我们来一个案例来熟悉一下scrapy的使用方法。
我们打开古诗文网站：https://www.gushiwen.cn/

我们要爬取的内容就是标题，作者，内容。

4.1 思路

第一步：创建Scrapy项目
我在pycharm中创建了一个新的文件夹 Day19>my_code>Demo

我们copy一下这个路径，cd到这个目录里面：

然后输入：

scrapy startproject gsw

回车，然后就到了这一步：

第二步创建爬虫项目

cd gsw  # cd到古诗文这个文件夹
scrapy genspider gs gushiwen.cn  # 创建项目gs

回车后出现了：

D:\work\爬虫\Day19\my_code\Demo\gsw>scrapy genspider gs gushiwen.cn
Created spider 'gs' using template 'basic' in module:
  gsw.spiders.gs

项目创建成功。
第三步在settings文件里做一些基本配置

第一个，我们打开settings文件，Robot协议，我们改成False
第二个，我们加上LOG的等级

LOG_LEVEL = 'WARNING'

第三个加一个user-agent

user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36

第四个把管道也打开

第四步页面分析
需求是：标题，朝代，作者和内容
除了这几个还需要翻页。

https://www.gushiwen.cn/  # 第一页
https://www.gushiwen.cn/default_1.aspx  # 第一页
https://www.gushiwen.cn/default_2.aspx  # 第二页
https://www.gushiwen.cn/default_3.aspx  # 第三页
https://www.gushiwen.cn/default_4.aspx  # 第四页

下面页面分析，右键，检查。
我们发现，当我们的鼠标停在class = "left"的div标签上的时候，所有的古诗都处于选中的状态。

这个就是最近的总标签了。
而鼠标停在class = "songs"的div标签上时，就有一首诗被选中：

这个就是每一首诗的标签。在这个标签里，我们依次找到了：
我们查找的数据都在class="cont"的div标签里。
标题在p标签里面的a标签里面的b标签里。

作者和朝代在一个class="source"的p标签里的a标签里。内容在class="contson"的div标签里。

4.2 爬取

下面我们操作爬取的过程。

4.2.1 爬取标题

打开spidder文件夹，打开里面的gs项目：

把start_urls里面的url改动一下，换成第一页的url，按照我们前面分析的路径我们找一下标题:

import scrapy


class GsSpider(scrapy.Spider):

    name = 'gs'
    allowed_domains = ['gushiwen.cn' ]
    start_urls = ['https://www.gushiwen.cn/default_1.aspx']

    def parse(self, response):
    
        # gsw_divs是所有古诗文数据所在的返回结果，是列表。
        gsw_divs = response.xpath('//div[@class="left"]/div[@class="sons"]')
        for gsw_div in gsw_divs:
        
            # 因为b标签只有标题有，所以我们的路径就简略写了。
            title = gsw_div.xpat('.//b/text').extract_first()
            print(title)

我们定义一个start

from scrapy import cmdline

cmdline.execute('scrapy crawl gs'.split())

start一下看看

爬下来十首诗，除了这十首诗，其他两个位置有两个None。我们看看网页第一页，在《山中夜坐》和《连州阳山归路》之间是什么

我们看看在这个标签里的内容有些不一样。

我们在这个标签里没有找到b标签，所以返回了一个None。由于这些内容不是我们需要的，所以就忽略了。

4.2.2 爬取作者和朝代

下面我们爬取一下作者和朝代：

import scrapy


class GsSpider(scrapy.Spider):
    name = 'gs'
    allowed_domains = ['gushiwen.cn' ]
    start_urls = ['https://www.gushiwen.cn/default_1.aspx']

    def parse(self, response):
        # gsw_divs是所有古诗文数据所在的返回结果，是列表。
        gsw_divs = response.xpath('//div[@class="left"]/div[@class="sons"]')
        for gsw_div in gsw_divs:
            # 因为b标签只有标题有，所以我们的路径就简略写了。
            title = gsw_div.xpath('.//b/text()').extract_first() # 标题
            source = gsw_div.xpath('.//p[@class="source"]/a/text()').extract() # 作者和朝代
            # print(source)
            try:
                author = source[0]    # 作者
                dynasty = source[1]   # 朝代
            except IndexError:   # 当出现空列表时会报错，我们使用try语句跳过报错                
                continue
            print(title,author,dynasty)

这里我们有必要声明一下几个点：

我们获取作者和朝代的时候，在class="source"的p标签中有两个a标签，其中一个时作者，另一个是朝代，故而这里取出所有，用extract()
source返回的是一个列表，第0个元素是作者，第1个元素是朝代，但遇到特殊情况的时候会出现空列表，这时会报错IndexError：author = source[0] index out of range
为了解决上述报错，我们用try语句，当IndexError：出现时，continue跳到循环开始，重新循环。
start一下：

标题，作者，朝代都出现了。而且没有了None或者空列表。因为continue语句已经把这些跳过了。

4.2.3 爬取内容

下面我们做爬取内容的操作：

        for gsw_div in gsw_divs:
            # 因为b标签只有标题有，所以我们的路径就简略写了。
            title = gsw_div.xpath('.//b/text()').extract_first() # 标题
            source = gsw_div.xpath('.//p[@class="source"]/a/text()').extract() # 作者和朝代
            # print(source)
            try:
                author = source[0]    # 作者
                dynasty = source[1]   # 朝代
            except IndexError:   # 当出现空列表时会报错，我们使用try语句跳过报错
                continue

            content_list = gsw_div.xpath('.//div[@class="contson"]//text()').extract() # 内容
            # 这里//的意思是，获取满足当前节点条件下的所有后代节点，因为文本内容有换行节点，故而用双斜杠取出所有。

            print(title,author,dynasty,content_list)

注意看注释：这里用到了//的知识，因为文本中每一句都有个换行标签，我们需要取出所有文本并返回一个列表，所以，用了双斜杠。我们start一下：

结果中出现了不必要的换行符还有些其他的数字符号，我们可以处理一下。

import scrapy

class GsSpider(scrapy.Spider):
    name = 'gs'
    allowed_domains = ['gushiwen.cn' ]
    start_urls = ['https://www.gushiwen.cn/default_1.aspx']

    def parse(self, response):
        # gsw_divs是所有古诗文数据所在的返回结果，是列表。
        gsw_divs = response.xpath('//div[@class="left"]/div[@class="sons"]')
        for gsw_div in gsw_divs:
            # 因为b标签只有标题有，所以我们的路径就简略写了。
            title = gsw_div.xpath('.//b/text()').extract_first() # 标题
            source = gsw_div.xpath('.//p[@class="source"]/a/text()').extract() # 作者和朝代
            # print(source)
            try:
                author = source[0]    # 作者
                dynasty = source[1]   # 朝代
            except IndexError:   # 当出现空列表时会报错，我们使用try语句跳过报错
                continue
            print(title,author,dynasty) # 打印出标题，作者，朝代
            
            content_list = gsw_div.xpath('.//div[@class="contson"]//text()').extract() # 内容
            # 这里//的意思是，获取满足当前节点条件下的所有后代节点，因为文本内容有换行节点，故而用双斜杠取出所有。
            strs = content_list[:]
        
            for str in strs: # 循环遍历出内容
                print(str)

这里我们先打印每首诗的标题，作者，朝代，然后遍历打印出内容。注意看注释：
我们start一下：

鹦鹉曲·夷门怀古 冯子振 〔元代〕

人生只合梁园住，快活煞几个白头父。指他家五辈风流，睡足胭脂坡雨。说宣和锦片繁华，辇路看元宵去。马行街直转州桥，相国寺灯楼几处。

敬之 佚名 〔先秦〕


敬之敬之，天维显思，命不易哉。无曰高高在上，陟降厥士，日监在兹。维予小子，不聪敬止。日就月将，学有缉熙于光明。佛时仔肩，示我显德行。


咏二疏 陶渊明 〔魏晋〕

大象转四时，功成者自去。
借问衰周来，几人得其趣？
游目汉廷中，二疏复此举。
高啸返旧居，长揖储君傅。
饯送倾皇朝，华轩盈道路。
离别情所悲，余荣何足顾！
事胜感行人，贤哉岂常誉！
厌厌阎里欢，所营非近务。
促席延故老，挥觞道平素。
问金终寄心，清言晓未悟。
放意乐余年，遑恤身后虑！
谁云其人亡，久而道弥著。

庆东原·忘忧草 白朴 〔元代〕

忘忧草，含笑花，劝君闻早冠宜挂。那里也能言陆贾？那里也良谋子牙？那里也豪气张华？千古是非心，一夕渔樵话。

惜红衣·簟枕邀凉 姜夔 〔宋代〕


吴兴号水晶宫，荷花盛丽。陈简斋云：“今年何以报君恩，一路荷花相送到青墩。”亦可见矣。丁未之夏，予游千岩，数往来红香中，自度此曲，以无射宫歌之。 


簟枕邀凉，琴书换日，睡余无力。细洒冰泉，并刀破甘碧。墙头唤酒，谁问讯、城南诗客。岑寂，高柳晚蝉，说西风消息。
虹梁水陌，鱼浪吹香，红衣半狼藉。维舟试望，故国渺天北。可惜渚边沙外，不共美人游历。问甚时同赋，三十六陂秋色？ 


少年游·算来好景只如斯 纳兰性德 〔清代〕

算来好景只如斯，惟许有情知。寻常风月，等闲谈笑，称意即相宜。
十年青鸟音尘断，往事不胜思。一钩残照，半帘飞絮，总是恼人时。

武昌九曲亭记 苏辙 〔宋代〕


　　子瞻迁于齐安，庐于江上。 齐安无名山，而江之南武昌诸山，陂陁蔓延，涧谷深密，中有浮图精舍，西曰西山，东曰寒溪。依山临壑，隐蔽松枥，萧然绝俗，车马之迹不至。每风止日出，江水伏息，子瞻杖策载酒，乘渔舟，乱流而南。山中有二三子，好客而喜游。闻子瞻至，幅巾迎笑，相携徜徉而上。穷山之深，力极而息，扫叶席草，酌酒相劳。意适忘反，往往留宿于山上。以此居齐安三年，不知其久也。


　　然将适西山，行于松柏之间，羊肠九曲，而获小平。游者至此必息，倚怪石，荫茂木，俯视大江，仰瞻陵阜，旁瞩溪谷，风云变化，林麓向背，皆效于左右。有废亭焉，其遗址甚狭，不足以席众客。其旁古木数十，其大皆百围千尺，不可加以斤斧。子瞻每至其下，辄睥睨终日。一旦大风雷雨，拔去其一，斥其所据，亭得以广。子瞻与客入山视之，笑曰：“兹欲以成吾亭邪？”遂相与营之。亭成而西山之胜始具。子瞻于是最乐。


　　昔余少年，从子瞻游。有山可登，有水可浮，子瞻未始不褰裳先之。有不得至，为之怅然移日。至其翩然独往，逍遥泉石之上，撷林卉，拾涧实，酌水而饮之，见者以为仙也。盖天下之乐无穷，而以适意为悦。方其得意，万物无以易之。及其既厌，未有不洒然自笑者也。譬之饮食，杂陈于前，要之一饱，而同委于臭腐。夫孰知得失之所在？惟其无愧于中，无责于外，而姑寓焉。此子瞻之所以有乐于是也。


普天乐·湖上废圃 张可久 〔元代〕

古苔苍，题痕旧。
疏花照水，老叶沉沟。
蜂黄点绣屏，蝶粉沾罗袖。
困倚东风垂杨瘦，翠眉攒似带春愁。
寻村问酒，无人倚楼，有树维舟。

赠去婢 崔郊 〔唐代〕

公子王孙逐后尘，绿珠垂泪滴罗巾。
侯门一入深如海，从此萧郎是路人。

杜司勋 李商隐 〔唐代〕

高楼风雨感斯文，短翼差池不及群。
刻意伤春复伤别，人间惟有杜司勋。

4.3 使用items

我们打开items，为items创建四个filed：

在gs项目中导入GswItem类，因为路径太长，我们可以右键gsw项目文件夹，选择mark Directory as Source Root将其定义为根目录文件夹

然后可以直接更方便的导入，语句是：

from gsw.items import GswItem

后面我们可以将数据传入item:

import scrapy
from gsw.items import GswItem
class GsSpider(scrapy.Spider):
    name = 'gs'
    allowed_domains = ['gushiwen.cn' ]
    start_urls = ['https://www.gushiwen.cn/default_1.aspx']

    def parse(self, response):
        # gsw_divs是所有古诗文数据所在的返回结果，是列表。
        gsw_divs = response.xpath('//div[@class="left"]/div[@class="sons"]')
        for gsw_div in gsw_divs:
            # 因为b标签只有标题有，所以我们的路径就简略写了。
            title = gsw_div.xpath('.//b/text()').extract_first() # 标题
            source = gsw_div.xpath('.//p[@class="source"]/a/text()').extract() # 作者和朝代
            # print(source)
            try:
                author = source[0]    # 作者
                dynasty = source[1]   # 朝代

                content_list = gsw_div.xpath('.//div[@class="contson"]//text()').extract()  # 内容
                # 这里//的意思是，获取满足当前节点条件下的所有后代节点，因为文本内容有换行节点，故而用双斜杠取出所有。

                content = ''.join(content_list).strip()
                item = GswItem()  # 实例化类
                # 写法一
                item['title'] = title
                item['author'] = author
                item['dynasty'] = dynasty
                item['content'] = content
                # 写法二
                # item = GswItem(title=title,author=author,dynasty=dynasty,content=content)
                yield item

            except IndexError:   # 当出现空列表时会报错，我们使用try语句跳过报错
                continue

注意看注释，先实例化GswItem类，然后将爬取的数据传入item，有两种写法。
传入之后，我们在try语句的结尾写上yield item 将数据给管道pipelines

4.4 使用管道pipelines

打开pipelines，在里面写上打印语句。

我们在settings里面已经开启了管道，所以这里可以使用了。直接start一下：

{'author': '冯子振',
 'content': '人生只合梁园住，快活煞几个白头父。指他家五辈风流，睡足胭脂坡雨。说宣和锦片繁华，辇路看元宵去。马行街直转州桥，相国寺灯楼几处。',
 'dynasty': '〔元代〕',
 'title': '鹦鹉曲·夷门怀古'}
{'author': '佚名',
 'content': '敬之敬之，天维显思，命不易哉。无曰高高在上，陟降厥士，日监在兹。维予小子，不聪敬止。日就月将，学有缉熙于光明。佛时仔肩，示我显德行。',
 'dynasty': '〔先秦〕',
 'title': '敬之'}
{'author': '陶渊明',
 'content': '大象转四时，功成者自去。借问衰周来，几人得其趣？游目汉廷中，二疏复此举。高啸返旧居，长揖储君傅。饯送倾皇朝，华轩盈道路。离别情所悲，余荣何足顾！事胜感行人，贤哉岂常誉！厌厌阎里欢，所营非近务。促席延故老，挥觞道平素。问金终寄心，清言晓未悟。放意乐余年，遑恤身后虑！谁云其人亡，久而道弥著。',
 'dynasty': '〔魏晋〕',
 'title': '咏二疏'}
{'author': '白朴',
 'content': '忘忧草，含笑花，劝君闻早冠宜挂。那里也能言陆贾？那里也良谋子牙？那里也豪气张华？千古是非心，一夕渔樵话。',
 'dynasty': '〔元代〕',
 'title': '庆东原·忘忧草'}
{'author': '姜夔',
 'content': '吴兴号水晶宫，荷花盛丽。陈简斋云：“今年何以报君恩，一路荷花相送到青墩。”亦可见矣。丁未之夏，予游千岩，数往来红香中，自度此曲，以无射宫歌之。 \n'
            '簟枕邀凉，琴书换日，睡余无力。细洒冰泉，并刀破甘碧。墙头唤酒，谁问讯、城南诗客。岑寂，高柳晚蝉，说西风消息。虹梁水陌，鱼浪吹香，红衣半狼藉。维舟试望，故国渺天北。可惜渚边沙外，不共美人游历。问甚时同赋，三十六陂秋色？',
 'dynasty': '〔宋代〕',
 'title': '惜红衣·簟枕邀凉'}
{'author': '纳兰性德',
 'content': '算来好景只如斯，惟许有情知。寻常风月，等闲谈笑，称意即相宜。十年青鸟音尘断，往事不胜思。一钩残照，半帘飞絮，总是恼人时。',
 'dynasty': '〔清代〕',
 'title': '少年游·算来好景只如斯'}
{'author': '苏辙',
 'content': '子瞻迁于齐安，庐于江上。 '
            '齐安无名山，而江之南武昌诸山，陂陁蔓延，涧谷深密，中有浮图精舍，西曰西山，东曰寒溪。依山临壑，隐蔽松枥，萧然绝俗，车马之迹不至。每风止日出，江水伏息，子瞻杖策载酒，乘渔舟，乱流而南。山中有二三子，好客而喜游。闻子瞻至，幅巾迎笑，相携徜徉而上。穷山之深，力极而息，扫叶席草，酌酒相劳。意适忘反，往往留宿于山上。以此居齐安三年，不知其久也。\n'
            '\u3000\u3000'
            '然将适西山，行于松柏之间，羊肠九曲，而获小平。游者至此必息，倚怪石，荫茂木，俯视大江，仰瞻陵阜，旁瞩溪谷，风云变化，林麓向背，皆效于左右。有废亭焉，其遗址甚狭，不足以席众客。其旁古木数十，其大皆百围千尺，不可加以斤斧。子瞻每至其下，辄睥睨终日。一旦大风雷雨，拔去其一，斥其所据，亭得以广。子瞻与客入山视之，笑曰：“兹欲以成吾亭邪？”遂相与营之。亭成而西山之胜始具。子瞻于是最乐。\n'
            '\u3000\u3000'
            '昔余少年，从子瞻游。有山可登，有水可浮，子瞻未始不褰裳先之。有不得至，为之怅然移日。至其翩然独往，逍遥泉石之上，撷林卉，拾涧实，酌水而饮之，见者以为仙也。盖天下之乐无穷，而以适意为悦。方其得意，万物无以易之。及其既厌，未有不洒然自笑者也。譬之饮食，杂陈于前，要之一饱，而同委于臭腐。夫孰知得失之所在？惟其无愧于中，无责于外，而姑寓焉。此子瞻之所以有乐于是也。',
 'dynasty': '〔宋代〕',
 'title': '武昌九曲亭记'}
{'author': '张可久',
 'content': '古苔苍，题痕旧。疏花照水，老叶沉沟。蜂黄点绣屏，蝶粉沾罗袖。困倚东风垂杨瘦，翠眉攒似带春愁。寻村问酒，无人倚楼，有树维舟。',
 'dynasty': '〔元代〕',
 'title': '普天乐·湖上废圃'}
{'author': '崔郊',
 'content': '公子王孙逐后尘，绿珠垂泪滴罗巾。侯门一入深如海，从此萧郎是路人。',
 'dynasty': '〔唐代〕',
 'title': '赠去婢'}
{'author': '李商隐',
 'content': '高楼风雨感斯文，短翼差池不及群。刻意伤春复伤别，人间惟有杜司勋。',
 'dynasty': '〔唐代〕',
 'title': '杜司勋'}

4.5 保存数据

打开pipelines在里面写入以下代码：

import json

class GswPipeline:
    def open_spider(self,spider):
        self.fp = open('gsw.txt','w',encoding='utf-8')

    def process_item(self, item, spider):
        item_json = json.dumps(item,ensure_ascii=False)
        self.fp.write(item_json+'\n')

        return item
    def close_spider(self,spider):
        self.fp.close()

那么我start一下出现了以下报错

TypeError: Object of type GswItem is not JSON serializable
意思是GswItes类对象不可JSON序列化，这是因为item是GswItes类对象，而不是字典，不能这样简单传入 json.dumps(item,ensure_ascii=False)，必须转化为字典后传入。 json.dumps(dict(item),ensure_ascii=False)
完整代码：

import json

class GswPipeline:
    def open_spider(self,spider):
        self.fp = open('gsw.txt','w',encoding='utf-8')

    def process_item(self, item, spider):
        item_json = json.dumps(dict(item),ensure_ascii=False)
        self.fp.write(item_json+'\n')

        return item
    def close_spider(self,spider):
        self.fp.close()

再start一下：

这一次成功运行了，创建了txt文件。

4.6 翻页

第一种方法直接将每页的url复制到项目文件gs的列表start_urls中。但这种方法不适合于页数多的情况。当然，如果你找到了url规律，也是可以加代码处理的，比如这个我是这样处理的：

from gsw.items import GswItem
class GsSpider(scrapy.Spider):
    name = 'gs'
    allowed_domains = ['gushiwen.cn' ]
    start_urls = []
    for i in range(10):
        start_urls.append('https://www.gushiwen.org/default_{}.aspx'.format(i+1))

结果也成功爬取的10页的内容：

第二种方法是这样子滴。在gs项目的代码中，前面的部分不变。只需要在后面加上一部分代码，拿到下一页的url，然后生成scrapy.Request对象，yield给引擎，引擎给调度器。然后做重复爬取和存储的操作。下面我们重点介绍这种方法。
我们通过翻页键找到下一页的url
右键最下方的翻页键，检查，我们看到了有关翻页的url部分，在id="amore"的a标签里的href的值里面。

下面的代码我们先找到翻页url:

import scrapy
from gsw.items import GswItem
class GsSpider(scrapy.Spider):
    name = 'gs'
    allowed_domains = ['gushiwen.cn' ]
    start_urls = ['https://www.gushiwen.org/default_1.aspx']

    def parse(self, response):
      
        next_href = response.xpath('//a[@id="amore"]/@href').extract_first()
        print(next_href)

打印一下看看结果

https://www.gushiwen.cn/default_2.aspx
这就是第二页的url，是一个完整的url。如果不完整，我们可以使用scrapy提供的一个工具来拼接完整，下面我们介绍一下这个方法。

import scrapy
from gsw.items import GswItem
class GsSpider(scrapy.Spider):
    name = 'gs'
    allowed_domains = ['gushiwen.cn' ]
    start_urls = ['https://www.gushiwen.org/default_1.aspx']

    def parse(self, response):
       
        next_href = response.xpath('//a[@id="amore"]/@href').extract_first()
        if next_href:  # 做个非空判断，防止页面翻完后报错
            next_url = response.urljoin(next_href) # 补全url: url如果是完整的就不管了，不是完整的就补全了
            res = scrapy.Request(next_url) # 生成对象
            yield res  # yield给引擎
        print(next_href)

需要说明的是，如果页面翻完了会报错，我们需要做一个非空判断。注意看注释。我们start一下：

https://www.gushiwen.cn/default_2.aspx
/default_3.aspx
/default_4.aspx
/default_5.aspx
/default_6.aspx
/default_7.aspx
/default_8.aspx
/default_9.aspx
/default_10.aspx
None

我们看到 print(next_href)只有第二个是完整的，其他的都不是完整的。我们再print(next_url)是用过补全工具后的url。

        if next_href:  # 做个非空判断，防止页面翻完后报错
            next_url = response.urljoin(next_href) # 补全url: url如果是完整的就不管了，不是完整的就补全了
            res = scrapy.Request(next_url) # 生成对象
            yield res  # yield给引擎
            print(next_url)

结果：

https://www.gushiwen.cn/default_2.aspx
https://www.gushiwen.cn/default_3.aspx
https://www.gushiwen.cn/default_4.aspx
https://www.gushiwen.cn/default_5.aspx
https://www.gushiwen.cn/default_6.aspx
https://www.gushiwen.cn/default_7.aspx
https://www.gushiwen.cn/default_8.aspx
https://www.gushiwen.cn/default_9.aspx
https://www.gushiwen.cn/default_10.aspx

我们看到都被补全了。
下面要产生一个url对象yield给引擎，后面要重复操作爬取和存储的内容，所以我们加上之前的代码：

import scrapy
from gsw.items import GswItem
class GsSpider(scrapy.Spider):
    name = 'gs'
    allowed_domains = ['gushiwen.cn' ]
    start_urls = ['https://www.gushiwen.org/default_1.aspx']

    def parse(self, response):
        gsw_divs是所有古诗文数据所在的返回结果，是列表。
        gsw_divs = response.xpath('//div[@class="left"]/div[@class="sons"]')
        for gsw_div in gsw_divs:
            # 因为b标签只有标题有，所以我们的路径就简略写了。
            title = gsw_div.xpath('.//b/text()').extract_first() # 标题
            source = gsw_div.xpath('.//p[@class="source"]/a/text()').extract() # 作者和朝代
            # print(source)
            try:
                author = source[0]    # 作者
                dynasty = source[1]   # 朝代

                content_list = gsw_div.xpath('.//div[@class="contson"]//text()').extract()  # 内容
                # 这里//的意思是，获取满足当前节点条件下的所有后代节点，因为文本内容有换行节点，故而用双斜杠取出所有。
                content = ''.join(content_list).strip()
                item = GswItem()  # 实例化类
                # 写法一
                item['title'] = title
                item['author'] = author
                item['dynasty'] = dynasty
                item['content'] = content
                # 写法二
                # item = GswItem(title=title,author=author,dynasty=dynasty,content=content)
                yield item

            except IndexError:   # 当出现空列表时会报错，我们使用try语句跳过报错
                continue
            # print(title,author,dynasty) # 打印出标题，作者，朝代
        next_href = response.xpath('//a[@id="amore"]/@href').extract_first()
        if next_href:  # 做个非空判断，防止页面翻完后报错
            next_url = response.urljoin(next_href) # 补全url: url如果是完整的就不管了，不是完整的就补全了
            res = scrapy.Request(next_url) # 生成对象
            yield res  # yield给引擎
           # print(next_url)

我们start一下，成功运行了。

一共一百个结果，说明十页古诗都被爬取了。

总结：

先找到下一页的url地址
通过yield scrapy.Request(url)

 # 下面是处理翻页的代码
         next_href = response.xpath('//a[@id="amore"]/@href').extract_first()
         if next_href:  # 做个非空判断，防止页面翻完后报错
             next_url = response.urljoin(next_href) # 补全url: url如果是完整的就不管了，不是完整的就补全了
             res = scrapy.Request(next_url) # 生成对象
             yield res  # yield给引擎

5. 垃圾回收

在程序中没有被引用的内容构成垃圾，所谓垃圾回收机制就是将没有用的对象从内存中删除。python内部自己有一个垃圾回收机制，不用我们自己动手操作，就会用不到的对象从内存中删除。当被引用的时候，会再次激活。这样可以保证程序的运行速度。

你可能感兴趣的:(爬虫)

Python网络爬虫-WebSocket数据抓取程序小勇 faiss 爬虫 python 网络协议 websocket 开发语言
目录前言1、WebSocket请求的分析通常涉及以下几个方面：2、利用WebSocket爬取数据总结最后，创作不易！非常感谢大家的关注、点赞、评论啦！谢谢三连哦！好人好运连连，学习进步！工作顺利哦！博主介绍：✌专注于前后端、机器学习、人工智能应用领域开发的优质创作者、秉着互联网精神开源贡献精神，答疑解惑、坚持优质作品共享。本人是掘金/腾讯云/阿里云等平台优质作者、擅长前后端项目开发和毕业项目实战，
流行编程语言全解析：优势、应用与短板 a小胡哦 python java c++c语言 javascript swift r语言
Python：优势Python以其简洁、易读的语法闻名，新手能快速上手。丰富的库和框架，能极大地提高开发效率。适用领域数据科学与分析：处理和分析大规模数据集，进行数据可视化。典型示例：Google用Python进行数据分析，处理海量数据以支持各种业务决策。机器学习与人工智能：构建和训练模型。典型示例：OpenAI在很多人工智能项目中广泛使用Python，如GPT系列模型的研发。网络爬虫：轻松从网页
052_爬虫_爬虫相关概念（引用《尚硅谷Python爬虫教程（小）小白零基础速通》052章）一个有趣的昵称 python 爬虫开发语言
爬虫解释：通过程序，根据url（http://taobao.com）进行网页的爬取获取有用的信息实用程序模拟浏览器，去向服务发送请求，获取响应信息爬虫的核心爬取网页：爬取整个网页包含了网页中所的内容解析数据：将网页中得到的数据进行解析难点：爬虫和但爬虫之间的博弈爬虫的类型实例通用爬虫百度，360，Google，搜狗等搜索引擎功能访问网页-》抓取数据-》数据储存-》数据处理-》提供检索服务robot
尚硅谷爬虫note007 CSDNy666999 爬虫
一、urllib—异常1.urllib.error.HTTPError2.urllib.error.URLError#_*_coding:utf-8_*_#@Time:2025/2/1411:33#@Author:20250206-里奥#@File:demo26_异常#@Project:PythonProject10-14importurllib.requestimporturllib.error
【Python爬虫(15)】从0到1：Python爬虫实战攻克电商网站动态数据堡垒奔跑吧邓邓子 Python爬虫 python 爬虫开发语言电商网站动态数据
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、准备工作2.1环境搭建2.2目标电商网站分析三、攻克登
字节跳动后端或大数据基础知识面试题及参考答案（2万字长文）大模型大数据攻城狮大数据大厂面试数据结构算法 leetcode
目录Redis的数据类型Redis数据类型的底层数据结构三次握手、四次挥手Redis持久化机制购物车为什么用Redis存，是永久存储吗MySQL的InnoDB索引数据结构哪些SQL的关键字会让索引失效队列、栈、数组、链表有什么不同讲讲爬虫的构成爬虫抓到的数据不清洗吗？不去重吗？对爬虫的更多了解Linux进程间通信机制进程和线程的区别线程私有的数据讲一下堆排序，每次调整的时间复杂度？堆排序是稳定的吗
爬虫快速上手之正则表达式总结 Athena945 python 正则表达式正则表达式 python
目录一、正则表达式二、查找相关方法三、re.Match类的使用四、re.compile()方法的使用五、正则修饰符六、标点符号的特殊意义七、字母的特殊含义八、正则替换九、贪婪模式和非贪婪模式十、正则表达式小结一、正则表达式1、概念正则表达式是一个特殊的字符序列，通常被用来检索、替换那些符合某个模式（规则）的文本；在python中需要通过正则表达式对字符串进行匹配的时候，可以使用re模块实现全部的正
Go分布式爬虫笔记（五）_golang分布式爬虫架构 2401_87198107 golang 分布式爬虫
系统级别优化与架构设计：如何对服务进行拆分如何将服务链接在一起服务调用的关系以及调用频率各种问题：如何让服务随着负载的增加具有可扩展性？是否采用DDD的架构设计？如何进行分布式的协调？选择何种中间件、缓存数据库与存储数据库？使用何种通信方式？如何设计缓存与数据库的关系，才能避免缓存失效之后大量数据直接打到数据库导致的服务响应变慢甚至服务雪崩的问题呢？分布式系统中数据的一致性，如果业务能够接受读取到
这知识点真细，Python获取HTTP响应头和响应体梦想橡皮擦 Python爬虫120 python 浏览器工具爬虫 python爬虫开发者工具
哈喽！大家好，我是【梦想橡皮擦】，10年产研经验，致力于Python相关技术栈传播本文如果觉得不错，动动小手点个赞赞吧本文如果发现错误，欢迎在评论区中指正哦技术博客日更者，我喜欢写文章，如果任意一篇文章对你有帮助，就挺好的~欢迎大家订阅专栏⭐️⭐️《Python爬虫120》⭐️⭐️最近更新：2022年3月23日，橡皮擦的第610篇原创博客文章目录⛳️实战案例场景⛳️可获取的响应头⛳️实战案例场景这
python aiohttp_Python-异步之aiohttp weixin_39864101 python aiohttp
什么是aiohttp？一个异步的HTTP客户端\服务端框架，基于asyncio的异步模块。可用于实现异步爬虫，更快于requests的同步爬虫。aiohttp和requestsrequests版爬虫requests同步方式连续30次简单爬取http://httpbin.org网站importrequestsfromdatetimeimportdatetimedeffetch(url):r=requ
运用python制作一个完整的股票分析系统大懒猫软件 python 开发语言 django beautifulsoup
使用python制作一个股票分析系统，可以通过股票价格走势动态界面，实时动态监测不同类型股票的变化情况。以下是一个完整的股票分析系统开发指南，包括股票价格走势动态界面和实时监测功能。这个系统将结合网络爬虫、数据分析、机器学习和可视化技术，帮助你实时监测不同类型股票的变化情况。1.系统功能概述数据采集：使用网络爬虫技术从财经网站采集股票数据。数据处理：计算技术指标（如KDJ、BOLL）并进行数据预处
使用 Python 爬虫和 FFmpeg 爬取 B 站高清视频大懒猫软件 python 爬虫 ffmpeg
以下是一个完整的Python爬虫代码示例，用于爬取B站视频并使用FFmpeg合成高清视频。1.准备工作确保安装了以下Python库和工具：bash复制pipinstallrequestsmoviepy2.爬取视频和音频文件B站的视频和音频文件通常是分开存储的，需要分别下载视频和音频文件，然后使用FFmpeg合成。Python复制importrequestsfrommoviepy.editorimp
python爬虫模拟点击和输入,python爬虫实战--selenium模拟登录并自动点击半夜梳长长的头发 python爬虫模拟点击和输入
爬虫实战项目。爬虫利器：selenium的使用。任务介绍最近刚刚注册了某个网站：HDHome，该站有新手考核任务，其中有一项是需要达到魔力值5000。在魔力值获取方式中，我们看到这一项：“说谢谢=0.5个魔力值”，而网站存活种子数量达到16000+，也就意味着对每个种子说一下谢谢，轻松达到8000+的魔力值，于是，这个项目应运而生。实现思路：获取种子的页面，在每个页面中找到说谢谢的按钮，并点击后，
爬虫实践——selenium、bs4 lucky_chaichai Python爬虫 selenium requests 爬虫 selenium python
目录一、浏览器的一般设置二、打开网页并获取网页源码的方式1、基于requests库2、基于urlib库3、基于selenium三、HTML解析1、BeautifulSoup2、Selenium动态渲染爬虫：模拟动态操作网页，加载JS(webdriver)3、scrapy框架四、反爬虫操作五、一些常见的异常处理六、url接口调用问题——get、post操作1、get请求2、post请求fromsel
如何提升爬虫获取数据的准确性？小爬虫程序猿爬虫
提升爬虫获取数据的准确性是确保数据分析和后续应用有效性的关键。以下是一些经过验证的方法和最佳实践，可以帮助提高爬虫数据的准确性：1.数据清洗数据清洗是提升数据准确性的重要步骤，主要包括去除重复数据、处理缺失值和异常值。去除重复数据：重复数据会影响分析结果的准确性，可以通过pandas库的drop_duplicates()方法删除重复数据。importpandasaspddf=pd.DataFram
PHP爬虫：获取直播间弹幕数据实战指南 Jason-河山 PHP php 爬虫开发语言
在数字化时代，直播间弹幕作为观众与主播互动的重要方式，其数据的获取与分析对于理解观众行为、优化直播内容具有重要意义。然而，由于技术限制和法律合规性要求，直接获取直播间弹幕数据并非易事。本文将介绍如何使用PHP爬虫技术，合法合规地获取直播间弹幕API返回值，并进行实战分析。1.环境准备与法律合规性在开始之前，确保您的开发环境中已安装PHP和必要的cURL扩展。同时，必须确保您的爬虫行为遵守相关法律法
豆瓣电影TOP250爬虫项目诚信爱国敬业友善爬虫爬虫 python
以下是一个基于Python的豆瓣电影TOP250爬虫项目案例，包含完整的技术原理说明、关键知识点解析和项目源代码。本案例采用面向对象编程思想，涵盖反爬机制处理、数据解析和存储等核心内容。豆瓣电影TOP250爬虫项目一、项目需求分析目标网站：https://movie.douban.com/top250爬取内容：电影名称导演和主演信息上映年份制片国家电影类型评分评价人数短评金句技术挑战：请求头验证分
Python 爬虫中的异常处理数据小爬虫@ python 爬虫 php
在Python中，异常处理通常使用try-except语句块来实现。你可以捕获特定的异常类型，也可以捕获通用异常。1.捕获特定异常针对常见的网络请求异常和解析异常，可以捕获具体的异常类型，例如requests.exceptions.RequestException、AttributeError等。示例代码：importrequestsfrombs4importBeautifulSoupdeffet
Python 爬虫中的解析方法数据小爬虫@ python 爬虫开发语言
1.使用BeautifulSoup解析HTML如果商品描述是通过HTML页面获取的，可以使用BeautifulSoup库来解析HTML内容。示例代码：importrequestsfrombs4importBeautifulSoupdefget_product_description(url):headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win6
Python爬虫：如何优雅地“偷窥”商品详情数据小爬虫@ API python 爬虫开发语言
在这个信息爆炸的时代，获取商品详情已经不再是简单的点击和浏览。我们需要的是速度、效率，还有一点点的...偷偷摸摸。没错，今天我们要聊的是如何使用Python爬虫来“偷窥”商品详情。别担心，我们保证一切都是合法合规的，就像在百货商场里试穿衣服一样，只是看看，不买账。一、爬虫的“伪装术”在开始我们的“偷窥”之旅前，我们需要给我们的爬虫穿上一件“隐身衣”。这是因为许多网站都有反爬虫机制，比如检查你的Us
分享一些处理复杂HTML结构的经验数据小爬虫@ html 前端
在处理复杂HTML结构时，尤其是使用Java爬虫和Jsoup进行数据抓取时，以下是一些实用的经验和技巧，可以帮助你更高效地解析和提取数据：1.缩小解析范围对于复杂的HTML结构，尽量缩小解析范围，只解析所需的元素。使用CSS选择器来定位所需的元素，而不是对整个文档进行解析。2.使用Jsoup的选择器功能Jsoup提供了强大的选择器功能，可以用来处理嵌套的DOM元素。例如，你可以使用select方法
关于网页自动化工具DrissionPage进行爬虫的使用方法 web15117360223 面试学习路线阿里巴巴自动化爬虫运维
目录一.简介二.使用1.安装方式2.基本用法3.模式4.元素交互4.SessionPage5.运行JS6.结语一.简介最近在学python的过程中，发现了一个好用的爬虫库DrissionPage——一个基于python的网页自动化工具。据具官方文档（官方网址：https://drissionpage.cn/）介绍：它既能控制浏览器，也能收发数据包，还能把两者合而为一。可兼顾浏览器自动化的便利性和r
使用Python构建论坛爬虫：抓取论坛主题、标签和讨论量 Python爬虫项目 python 爬虫开发语言信息可视化金融
引言随着互联网的发展，论坛作为一个信息交流的地方，承载了大量的讨论内容、主题和标签。通过抓取论坛的数据，用户可以了解最热的话题、讨论量大的主题以及与特定标签相关的内容。本篇博客将介绍如何使用Python构建一个论坛数据抓取爬虫，从论坛网站上抓取主题、标签和讨论量，并对数据进行存储和分析。目标与背景我们的目标是从多个论坛网站抓取以下内容：论坛主题：讨论的主要内容或话题。标签：与主题相关的分类信息。讨
Python学习教程：必须掌握的Cookie知识点都在这里了 weixin_30387339 python 爬虫 javascript ViewUI
今天我们来全面了解一下Cookie（小饼干）相关的知识！篇幅有点长，在学习Python的伙伴或者有兴趣的你，可以耐心看哦！相信很多同学肯定听过Cookie这个东西，也大概了解其作用，但是其原理以及如何设置，可能没有做过web的同学并不是非常清楚，以前的Python学习教程中其实有跟大家提到过，那今天就带大家详细了解下Cookie相关的知识！一、诞生背景爬虫系列教程的第一篇：HTTP详解中我们便说过
Python 爬虫验证码识别 acheding python python 爬虫 ocr
在我们进行爬虫的过程中，经常会碰到有些网站会时不时弹出来验证码识别。我们该如何解决呢？这里分享2种我尝试过的方法。0.验证码示例1.OpenCV+pytesseract使用Python中的OpenCV库进行图像预处理（边缘保留滤波、灰度化、二值化、形态学操作和逻辑运算），然后结合pytesseract进行文字识别。pytesseract需要配合安装在本地的tesseract-ocr.exe文件一起
Python爬取小说保存为Excel 不知所云975 python
本代码以实际案例介绍，爬取‘笔趣阁最新小说‘列表保存为表格文件。类封装以及网络爬虫以及openpyxl模块可以参考学习。#更新小说目录importrequestsfromlxmlimportetreeimportopenpyxlfromopenpyxl.stylesimportFont,Alignment,Side,Border,PatternFill#定义下载表格的类classDown_exce
python 爬取图片并保存到excel_python制作爬虫并将抓取结果保存到excel中 weixin_39778582 python 爬取图片并保存到excel
学习Python也有一段时间了，各种理论知识大体上也算略知一二了，今天就进入实战演练：通过Python来编写一个拉勾网薪资调查的小爬虫。第一步：分析网站的请求过程我们在查看拉勾网上的招聘信息的时候，搜索Python，或者是PHP等等的岗位信息，其实是向服务器发出相应请求，由服务器动态的响应请求，将我们所需要的内容通过浏览器解析，呈现在我们的面前。可以看到我们发出的请求当中，FormData中的kd
来看看爬虫合不合法度假的小鱼 Python基础爬虫搜索引擎 python
活动地址：CSDN21天学习挑战赛文章目录一、爬虫合不合法二、什么是爬虫三、爬虫的分类四、为什么学网络爬虫一、爬虫合不合法随着Python在最近几年的流行，Python中的爬虫也逐渐进入到大家的视野中，但是很多小伙伴，还是在担心爬虫的合法性。今天就来和大家一起讨论一下爬虫的合法性。大家可能在网上看到很多有关程序员写爬虫被抓这样的新闻只因写了一段爬虫，公司200多人被抓！爬虫的本身是合法的，但是如何
《爬虫写得好，铁窗关到老，做了5年Python code高级开源 2024年程序员学习爬虫 python 开发语言
**我的使命与愿景：**持续稳定输出，赋能中国技术社区蓬勃发展！最近的IT公司违法案件越来越多，看了很多因为爬虫，数字货币，博彩网站外包等被抓的事情，给大家提个醒，打工注意不能违法，写代码背后也有法律风险。一、什么是爬虫？通过爬虫代码，下载互联网上的数据到本地，并且提取出我们需要的信息的过程。二、典型违法案例典型案例（一）：构成非法获取计算机信息系统数据罪张某等非法获取计算机信息系统数据案（上海市
社交媒体文章内容与评论抓取：Python 爬虫实战教程 Python爬虫项目 2025年爬虫实战项目媒体 python 爬虫
社交媒体平台是全球信息交流的重要渠道，成千上万的文章、评论和动态每天都在各大平台上发布。这些数据包含了丰富的用户行为、意见和情感分析的潜力，因此抓取社交媒体平台上的文章内容与评论已成为数据分析、市场研究和情感分析等领域的重要任务。本篇教程将为大家详细介绍如何使用Python编写爬虫，抓取社交媒体平台（如微博、Twitter、Facebook等）的文章内容和评论。我们将涵盖如何使用现代爬虫技术，包括
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key