落阳学编程

python爬虫:带你游览微博博主的前世今生

文章目录

一、前言
二、项目目标
三、环境配置
四、数据提取分析

4.1 用户微博主页分析
4.2 微博详情页分析

五、代码编写

5.1 创建scrapy项目和爬虫
5.2 修改setting.py
5.3 设置items.py
5.4 编写one_people.py
5.5 编写pipelines.py
5.6 编写midelewares.py

六、结果展示

6.1 评论数据展示
6.2 微博数据展示

七、项目总结

一、前言

因为疫情的缘故，最近在家老被疫情微博消息轰炸，还每次都忍不住点进去看，关心国内又增长了多少人出院了多少人，国外，尤其是韩国日本伊朗等又激增了多少人，然后看下面大家的评论，看的我胆战心惊的。疫情不分国界，希望大家都能顺顺利利挺过这次全球灾难。

当然，被困在家也要找点事情做，目前在研究爬虫，因为上面提到的微博的事，刚好就把目标放到微博上来了。

接下来我们就一起来爬取微博数据吧！

二、项目目标

任给一个用户的微博主页链接能够爬取他所有的微博以及点赞数等相关信息。
对任意一条微博，可以爬取到他所有的回复，以及回复的点赞数，被回复数。
将以上两者结合起来，实现对任意一个用户，爬取他的微博信息，所有微博以及每条微博的所有评论信息。
额外拓展(尚未完成): 对每条微博的评论内容再做一次提取，提取评论者id，然后进入评论者主页进行重复爬取，直至完成对整个微博所有用户所有信息的爬取。

三、环境配置

语言：python 3.8.1
开发工具：vscode
浏览器：Chrome
抓包工具：mimtweb
爬虫框架：scrapy 1.8.0

四、数据提取分析

4.1 用户微博主页分析

从电脑进入到微博网站，注意，这里进的是 w.weibo.cn 这个网址，这个是移动端的网址，界面看起来简单很多，少很多干扰因素。

进入到用户微博主页，为了防止你们说我打广告，我进是团团的主页⬇️⬇️

经过chrome的自带工具，我们可以看到这个html页面文件里面什么数据也没有，所以我们判断这个页面的数据是异步加载请求的。我们捕捉这个请求。

对请求进行一一分析之后，找到了这个请求微博用户信息的接口，它返回的是标准的json格式数据。里面除了用户信息还有一些其它的数据，我们暂时不知道有什么用，先留着。

接下来我们需要对接口进行优化，这样做是为了提高爬虫效率同时避免因为一些不必要的参数导致请求失败。

我们来看优化前后的请求对比⬇️

对比优化之后的请求⬇️

经过一番折腾，发现对于这个请求而言，url链接里面的containerid是不必要的，可以删去，同时请求头里面很多参数也是不必要的。cookie里面唯一需要保留的就是这个SUB值，如果失去了它，会请求失败。

优化之后我们可以利用用户id来拼凑出请求它主页信息的接口url。

这是主页的url，u/ 后面那一部分就是用户的id。用这个id拼凑出接口，去掉后面那个containerid值。

现在微博用户信息的接口找到并优化好之后，就需要开始寻找请求这个微博用户的每一条微博的接口。

寻找到了请求微博的接口，但是这部分出现了一个有意思的东西！来观察一下这个新找到的接口。

惊讶的发现，这个接口居然和刚才那个接口惊人的相似！经过分析之后，发现这两个接口之间只有一个地方不同！那就是url后面的containerid值。当尝试把这个containerid值删去之后，请求回来的结果果然又变成了之前请求微博用户信息的结果。

然后先将微博往下翻，让他继续请求新的微博信息，得到这样一个url

与第一次请求微博相比，它又只多了一个参数since_id，并且containerid不变，这样的话，我们可以把它理解成起始量，也就是，从哪开始获取新的微博信息。

接下来的任务是寻找到 containerid 和 since_id的值是从哪获得的。

山重水复疑无路，踏破铁鞋无觅处。柳暗花明又一村，得来全不费功夫。（狗头）containerid 值就存放在刚开始请求用户信息的地方。

看到这一部分内容，再联想到container这个单词，便可大致理解它为一个容器，所以这个id就是专门存储微博的容器id。

然后联想到since_id的作用，它是用来标明这一次请求微博从哪里开始，那么我们应该能在上一次请求微博返回的信息中找到它，不出我的所料⬇️⬇️

然后同样的，优化一下请求微博的接口参数，用户微博主页分析我们就算完成了，来小结一下请求步骤。

获取用户主页url，获得用户id。
利用用户id拼凑出请求微博用户信息的接口。
获取需要的用户信息，并获取微博的containerid值。
再利用上一个接口和containerid值拼凑出请求微博的第一个接口url。
获取微博信息之后，利用里面的since_id再拼凑出第二次请求微博的接口url。
重复第五步直到抓取完毕。

4.2 微博详情页分析

进入一个微博的详情页，简单分析了一下数据来源，发现在详情页里面的微博文本虽然没有直接放在html元素里面呈现出来，但其实并不是异步请求。而是放在了html文件里的js代码内部封装⬇️⬇️

我们可以通过正则从html文件中提取出微博的文本数据。

接下来再寻找评论部分的数据来源。

评论的接口网址是这个

这个接口中的id和mid数值一样且固定为这条微博的id，而这条微博的id可以从4.1中获取或者是微博详情页URL获取。

这样就可以拼凑出第一批评论接口url。

这就是第一批评论的数据来源接口了，为什么非要强调这是第一批呢？因为从第二批开始，接口就有所变化了。看一下对比。

⬇️⬇️⬇️

从这里看出来，从第二批评论开始，接口中就多了一个参数max_id，而经过抓包修改测试，这个参数无法去除，同时数值也需要准确，会不停变化。

那么这个max_id从哪来呢？

还记得4.1 的时候分析的那个数值since_id嘛？从前一个接口里面获取到下一个接口需要的参数。这里也是一样的道理！

来看一下通过获取第一批评论的接口获取到的数据下方：

果不其然这里有我们需要的max_id，这样我们就能很简单的拼凑出再下一批的接口url了。

等一下。你以为这样就算完了？

不！经过我的踩坑，这里还有一个很需要注意的地方，就是那个不起眼的max_id_type。

在上面的接口url中，它一直都等于0，但是事实上，它是会变成1的。并且暂时没有摸清具体什么时候变。

这个坑，如果踩过就很简单，因为max_id_type的值也是与max_id一同知道了的，但是如果没踩过，很容易误认为就永远为0。

优化一下请求的接口参数：
这里的cookie同样只需要SUB，值与4.1相同且不变，如果失去这个SUB会被重定向导致获取不到数据。

小结一下4.2:

从微博详情页html里面用正则提取出文本内容。
利用微博id拼凑出第一批评论请求接口。
从第一批接口中提取数据，同时利用获取的max_Id 和max_id_type拼凑下一个接口。
获取数据，拼凑下一个接口。
重复第四步。

五、代码编写

到了手底下见真章的时候了。开始吧。

5.1 创建scrapy项目和爬虫

不用使用-t crawl模板设置规则来爬去，直接创建一个普通的爬虫就可以

scrapy startproject weibo
cd weibo
scrapy genspider one_people

原谅我粗糙的取名水平。

5.2 修改setting.py

robots协议
爬取延迟
默认请求头，关闭cookie
打开管道和下载中间件

首先把遵守robot协议设置为False，同时把爬取延时设置三秒以上

ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
DOWNLOAD_DELAY = 3

然后设置一下默认的请求头，并且有很重要的一点是：将cookies设置为禁用状态。

因为如果不禁用，那么scrapy框架会根据返回的set-cookie值自动生成cookie，最后导致网页被重定向。

# Disable cookies (enabled by default)
COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
    'host':	'm.weibo.cn',
    'accept':	'application/json, text/plain, */*',
    'user-agent':	'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36',
    'accept-encoding':	'gzip, deflate, br',
    'accept-language':	'zh-CN,zh;q=0.9',
    'cookie':	'SUB=_2A25zUZngDeRhGeBO6FQW9izFyjuIHXVQvSeorDV6PUNbktANLXPVkW1NShqrqT_gNAKqD3jr0wVYJ8UqOFgnZdeJ;'
}

然后就是把下载中间件和管道开起来。下载中间件用来随机更换请求头，有必要的话也用来更换ip，管道用来存储数据。

DOWNLOADER_MIDDLEWARES = {
    'weibo.middlewares.WeiboDownloaderMiddleware': 543,
}

# Enable or disable extensions
# See https://docs.scrapy.org/en/latest/topics/extensions.html
# EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
# }

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    'weibo.pipelines.WeiboPipeline': 300,
}

5.3 设置items.py

为三种爬取的数据聚合设置三个item

item的编写是确定我们要爬取的数据内容，然后可以封装在scrapy.Item类里面从爬虫部分输送到管道部分保存。

class CommentItem(scrapy.Item):
    '''评论item'''
    # 评论时间
    comment_time = scrapy.Field()
    # 评论文本
    text = scrapy.Field()
    # 评论人id
    comment_people_id = scrapy.Field()
    # 评论人name
    comment_people_name = scrapy.Field()
    # 评论点赞数
    comment_likes = scrapy.Field()
    # 评论回复总数
    total_number = scrapy.Field()

class PeopleItem(scrapy.Item):
    '''用户item'''
    # 用户昵称
    name = scrapy.Field()
    # 用户id
    user_id = scrapy.Field()
    # 关注数
    follow_count = scrapy.Field()
    # 粉丝数
    followers_count = scrapy.Field()
    # 描述
    description = scrapy.Field()
    # 微博数
    statuses_count = scrapy.Field()
    # 是否认证
    verified = scrapy.Field()
    # 认证缘由
    verified_reason = scrapy.Field()
    
    
class StatusesItem(scrapy.Item):
    '''微博item'''
    # 最后编辑于
    edit_at = scrapy.Field()
    # 文本
    text = scrapy.Field()
    # 转发数
    reposts_count = scrapy.Field()
    # 评论数
    comments_count = scrapy.Field()
    # 点赞数
    attitudes_count = scrapy.Field()
    # 微博id
    statues_id = scrapy.Field()
    # 详情页URL
    origin_url = scrapy.Field()

5.4 编写one_people.py

长代码警告

import scrapy
import json
from weibo.items import PeopleItem, StatusesItem, CommentItem
import re


class OnePeopleSpider(scrapy.Spider):
    name = 'one_people'
    allowed_domains = ['w.weibo.cn']
    start_urls = ['https://m.weibo.cn/u/3664122147']
    usr_id = start_urls[0].split('/')[-1]

    def start_requests(self):
        '''首先请求第一个js文件，包含有关注量，姓名等信息'''
        js_url = 'https://m.weibo.cn/api/container/getIndex?type=uid&value=' + \
            self.usr_id
        yield scrapy.Request(url=js_url,
                             callback=self.parse_info,
                             dont_filter=True)

    def parse_info(self, response):
        js = json.loads(response.text)
        infos = js['data']['userInfo']
        name = infos['screen_name']
        user_id = infos['id']
        follow_count = infos['follow_count']
        followers_count = infos['followers_count']
        description = infos['description']
        # 微博数
        statuses_count = infos['statuses_count']
        verified = infos['verified']
        verified_reason = ''
        if verified == True:
            verified_reason = infos['verified_reason']
        item = PeopleItem(name=name,
                          user_id=user_id,
                          follow_count=follow_count,
                          followers_count=followers_count,
                          description=description,
                          statuses_count=statuses_count,
                          verified=verified,
                          verified_reason=verified_reason)
        yield item

        weibo_containerid = str(
            js['data']['tabsInfo']['tabs'][1]['containerid'])
        con_url = '&containerid=' + weibo_containerid
        next_url = response.url + con_url
        print(next_url)
        yield scrapy.Request(url=next_url,
                             callback=self.parse_wb,
                             dont_filter=True)

    def parse_wb(self, response):
        try:
            js = json.loads(response.text)
            datas = js['data']['cards']
            for data in datas:
                # 去掉推荐位和标签位
                if len(data) == 4 or 'mblog' not in data:
                    continue
                edit_at = data['mblog']['created_at']
                text = data['mblog']['text']
                reposts_count = data['mblog']['reposts_count']
                comments_count = data['mblog']['comments_count']
                attitudes_count = data['mblog']['attitudes_count']
                statues_id = str(data['mblog']['id'])
                origin_url = data['scheme'].split('?')[0]

                item = StatusesItem(edit_at=edit_at,
                                    text=text,
                                    reposts_count=reposts_count,
                                    comments_count=comments_count,
                                    attitudes_count=attitudes_count,
                                    statues_id=statues_id,
                                    origin_url=origin_url)
                yield item
            if 'since_id' not in js['data']['cardlistInfo']:
                exit(0)
            since_id = str(js['data']['cardlistInfo']['since_id'])
            next_url = ''
            if 'since_id' not in response.url:
                next_url = response.url + '&since_id=' + since_id
            else:
                next_url = re.sub(r'since_id=\d+', 'since_id=%s' %
                                  since_id, response.url)
        except Exception as ret:
            print("=" * 40)
            print("这里出错了: %s" % ret)
            print("="*40)
            print(js)
            print("=" * 40)
        yield scrapy.Request(url=next_url,
                             callback=self.parse_wb,
                             dont_filter=True)
        
        self.comments_url = 'https://m.weibo.cn/comments/hotflow?id={0}&mid={1}'.format(statues_id, statues_id)
        yield scrapy.Request(url=self.comments_url,
                             callback=self.parse_comments,
                             dont_filter=True)

# =========================================================================
# 下面这部分爬取每条微博的评论，
    def parse_comments(self, response):
        js = json.loads(response.text)
        max_id = '&max_id=' + str(js['data']['max_id'])
        next_url = response.url + max_id
        print("=" * 40)
        print(next_url)
        yield scrapy.Request(url=response.url + max_id,
                             callback=self.parse_comments_next,
                             dont_filter=True)

    def parse_comments_next(self, response):
        try:
            js = json.loads(response.text)

            for comment in js['data']['data']:
                comment_time = comment['created_at']
                text = comment['text']
                comment_people_id = comment['user']['id']
                comment_people_name = comment['user']['screen_name']
                comment_likes = comment['like_count']
                total_number = comment['total_number']
                item = CommentItem(comment_time=comment_time,
                                text=text,
                                comment_people_id=comment_people_id,
                                comment_people_name=comment_people_name,
                                comment_likes=comment_likes,
                                total_number=total_number)
                yield item
            max_id = "&max_id=" + str(js['data']['max_id'])
            max_id_type = '&max_id_type=' + str(js['data']['max_id_type'])
            print("=" * 40)
            print(max_id)
            print(max_id_type)
            print("=" * 40)
            yield scrapy.Request(url=self.comments_url + max_id + max_id_type,
                                callback=self.parse_comments_next,
                                dont_filter=True)
        except Exception as ret:
            print("=" * 40)
            print("此处出错！%s" % ret)
            print(response.text)
            print("=" * 40)

这份爬虫代码，已经将爬取用户微博主页和爬取微博详情页结合了起来，能够实现爬取一个微博用户的所有微博和他所有微博的所有评论功能。

具体的实现涉及到了scrapy框架的应用，利用callback不断跳转处理函数来实现处理不同的信息以及拼凑和传递不同的URL。

同时里面有一些看起来无用的调试代码，能让我在运行scrapy爬虫的时候清楚的看到哪里错了，除了什么问题等。

5.5 编写pipelines.py

根据传入进来的item类不同，将信息放入不同的json文件夹里面去
使用了scrapy内置的json导出类

from weibo.items import PeopleItem, StatusesItem, CommentItem


from scrapy.exporters import JsonLinesItemExporter
class WeiboPipeline(object):
    def __init__(self):
        self.comments_fp = open("comments.json", "wb")
        self.people_fp = open('people.json', 'wb')
        self.statuses_fp = open('statuses.json', 'wb')
        self.comments_exporter = JsonLinesItemExporter(self.comments_fp,
                                              ensure_ascii=False)
        self.people_exporter = JsonLinesItemExporter(self.people_fp,
                                              ensure_ascii=False)
        self.statuses_exporter = JsonLinesItemExporter(self.statuses_fp,
                                              ensure_ascii=False)
    
    def process_item(self, item, spider):
        if isinstance(item, CommentItem):
            self.comments_exporter.export_item(item)
        elif isinstance(item, PeopleItem):
            self.people_exporter.export_item(item)
        else:
            self.statuses_exporter.export_item(item)
        
        return item

    def close_item(self, spider):
        print("存储成功！")
        self.comments_fp.close()
        self.people_fp.close()
        self.statuses_fp.close()

5.6 编写midelewares.py

实现自动更换请求头

class WeiboDownloaderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.
    user_agents = [
            'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
            'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
            'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;',
            'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)',
            'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv,2.0.1) Gecko/20100101 Firefox/4.0.1',
            'Mozilla/5.0 (Windows NT 6.1; rv,2.0.1) Gecko/20100101 Firefox/4.0.1',
            'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11'
        ]

    def process_request(self, request, spider):
        user_agent = random.choice(self.user_agents)
        request.headers['User-Agent'] = user_agent

六、结果展示

6.1 评论数据展示

6.2 微博数据展示

七、项目总结

这次微博数据爬取，对我自己也是一个不小的挑战，刚开始并没有使用mitmweb来抓包分析请求，一直在用jupyter和requests来不断更改请求头来确认需要的值和优化请求，经常会碰到请求数据失败和重定向而导致请求不到数据的问题。
同时，微博的这种前一个请求中带有后一个请求需要的参数这种请求方式刚开始也让我很懵逼，摸不着头脑。
与上文提到的一样，就在我以为成功了的时候，那个max_id_type着实坑了我一把，我想当然的以为这个值恒为0，没算到它居然会变。
接下来想去破解js加密的一些内容和登录的内容，然后去尝试抓取手机app的信息。

我是落阳，一个正在努力的无名之辈，谢谢你的关注。欢迎找我一起探讨问题。

获取源代码请关注公众号【程序小员】回复：微博爬虫。

JS通过ASCII码值实现随机字符串的生成（可指定长度以及解决首位不出现数值）觉醒法师 JavaScript javascript 前端开发语言 typescript
在之前写过一篇“JS实现随机生成字符串（可指定长度）”，当时写的过于简单和传统，比较粗放。此次针对此问题，对随机生成字符串的功能进行优化处理，对随机取到的字符都通过程序自动来完成。在写之前，我们先了解下String.charCodeAt、Array.from()、String.fromCharCode等方法，以及随机获取指定范围中的值，这些在此次功能优化中起到关键作用。一、String.charC
BeautifulSoup-爬虫案例（一）羡羡~~羡羡~~~ Python python excel
一个爬虫案例frombs4importBeautifulSoupimportrequestsimportreimportosimportxlrdimportxlwtfromxlutils.copyimportcopyimportrandomimportjsonimportdatetimeimporttimeIS_FIRST=TrueROOT_PATH=os.path.abspath('..')#设
基于Python的三种主流网络爬虫技术吃肉肉335 python 爬虫开发语言
一、网络爬虫是什么网络爬虫，通常也被称为网络蜘蛛或网络机器人，是一种按照一定方法，获取网络各种信息的自动化脚本程序，也可以将其理解为一个在互联网上自动提取网页信息并进行解析抓取的程序。网络爬虫的功能不仅局限于复制网页内容、下载音视频文件，更包括自动化执行行为链以及模拟用户登录等复杂操作。在当前大数据背景下，无论是人工智能应用还是数据分析工作，均依赖于海量的数据支持。如果仅依赖人工采集这一种方式，不
Python网络爬虫核心面试题闲人编程程序员面试 python 爬虫开发语言面试网络编程
网络爬虫1.爬虫项目中如何处理请求失败的问题？2.解释HTTP协议中的持久连接和非持久连接。3.什么是HTTP的持久化Cookie和会话Cookie？4.如何在爬虫项目中检测并处理网络抖动和丢包？5.在爬虫项目中，如何使用HEAD请求提高效率？6.如何在爬虫项目中实现HTTP请求的限速？7.解释HTTP2相对于HTTP1.1的主要改进。8.如何在爬虫项目中模拟HTTP重试和重定向？9.什么是COR
深入解析：使用 Python 爬虫获取苏宁商品详情数据小爬虫@ python 爬虫开发语言
在当今数字化时代，电商数据已成为市场分析、用户研究和商业决策的重要依据。苏宁易购作为国内知名的电商平台，其商品详情页包含了丰富的信息，如商品价格、描述、评价等。这些数据对于商家和市场研究者来说具有极高的价值。本文将详细介绍如何使用Python爬虫获取苏宁商品的详细信息，并提供完整的代码示例。一、爬虫简介爬虫是一种自动化程序，用于从互联网上抓取网页内容。Python因其简洁的语法和强大的库支持，成为
网络安全法详细介绍——爬虫教程小知学网络网络安全 web安全爬虫安全
目录@[TOC](目录)一、网络安全法详细介绍1.网络安全法的主要条款与作用2.网络安全法与爬虫的关系3.合法使用爬虫的指南二、爬虫的详细教程1.准备环境与安装工具2.使用`requests`库发送请求3.解析HTML内容4.使用`robots.txt`规范爬虫行为5.设置请求间隔6.数据清洗与存储三、实战示例：爬取一个公开的新闻网站小知学网络一、网络安全法详细介绍1.网络安全法的主要条款与作用《
【网络安全 | Python爬虫】URL、HTTP基础必知必会秋说爬虫 http 网络安全
文章目录URL概念及组成结构HTTP概念简述浏览器接收资源HTTP协议的结构请求结构请求行请求头请求体请求差异及参数说明响应结构状态行响应头响应体推广URL概念及组成结构在开始爬虫的开发实战前，需要了解的是URL的概念及组成结构，这具有基础性和必要性。URL（UniformResourceLocator，统一资源定位符）是用于在互联网上定位和标识资源的字符串。它提供了一种标准的方式来指示资源的位置
什么是网络爬虫？Python爬虫到底怎么学？糯米导航文末下载资源 python
最近我在研究Python网络爬虫，发现这玩意儿真是有趣，干脆和大家聊聊我的心得吧！咱们都知道，网络上的信息多得就像大海里的水，而网络爬虫就像一个勤劳的小矿工，能帮我们从这片浩瀚的信息海洋中挖掘出需要的内容。接下来，我就带你们一步步看看该怎么用Python搞定网络爬虫。为啥选择Python写爬虫？说到Python，简直是写爬虫的最佳选择！它有许多现成的库，就像拥有了各种好用的工具，使得我们的工作变得
网络爬虫技术如何影响网络安全的德迅云安全-甲锵网络安全爬虫
随着网络的发展和网络爬虫技术的普及，一些人收集某些需要的信息，会使用网络爬虫进行数据抓取。网络爬虫一方面会消耗网络系统的网络资源，同时可能会造成核心数据被窃取，因此对企业来讲如何反爬虫显得非常重要。一、什么是网络爬虫网络爬虫也叫网络蜘蛛，是一种用来自动浏览万维网的网络机器人，按照一定的规则可以自动提取网页内容的程序。网络爬虫主要用于网络资源的收集工作，搜索引擎通过网络爬虫爬取内容并将页面保存下来，
Python爬虫项目合集：200个Python爬虫项目带你从入门到精通人工智能_SYBH 爬虫试读 2025年爬虫百篇实战宝典:从入门到精通 python 爬虫数据分析信息可视化爬虫项目大全 Python爬虫项目合集爬虫从入门到精通项目
适合人群无论你是刚接触编程的初学者，还是已经掌握一定Python基础并希望深入了解网络数据采集的开发者，这个专栏都将为你提供系统化的学习路径。通过循序渐进的理论讲解、代码实例和实践项目，你将获得扎实的爬虫开发技能，适应不同场景下的数据采集需求。专栏特色从基础到高级，内容体系全面专栏内容从爬虫的基础知识与工作原理开始讲解，逐渐覆盖静态网页、动态网页、API数据爬取等实用技术。后续还将深入解析反爬机制
WebRover ：一个功能强大的 Python 库，用于从 Web 内容生成高质量的数据集。数据集
2024-11-30，由Area-25团队开发的一个专门用于生成高质量网络内容数据集的Python库。该数据集旨在为大型语言模型（LLM）和人工智能应用的训练提供丰富的数据资源。数据集地址：WebRoverDataset|自然语言处理数据集|AI模型训练数据集一、让我们一起来看一下WebRoverWebRover通过智能网络爬虫技术，自动从网络中提取与特定主题相关的内容，并支持多种输入格式，如JS
网络爬虫~ rzydal 爬虫
简介网络爬虫，也被称为网页蜘蛛、网络机器人、网页抓取器或网页追逐者，是一种自动化程序或脚本。以下是对网络爬虫的详细介绍一、定义与工作原理网络爬虫按照一定的规则自动地抓取万维网上的信息。它模拟人类用户在网页上的行为，通过发送HTTP请求获取网页内容，并解析网页内容以提取所需信息。通常，网络爬虫从一个或多个种子URL开始，逐步抓取网页中的链接，并递归地访问这些链接，直到满足某个条件（如达到一定的抓取深
初学python爬虫，爬取“豆瓣电影 Top 250”相关信息，并下载电影封面 ~柠月如风~ Python 爬虫 python 爬虫正则表达式
文章目录注：一、爬取“豆瓣电影Top250”相关信息：1、准备工作2、获取数据补充：urllib3、标签解析补充：BeautifulSoup4和re4、保存数据补充：xlwt附：爬取“豆瓣电影Top250”相关信息的完整代码：二、爬取/下载top250电影对应的封面效果展示附：下载电影封面的完整代码：注：所学的视频教程：B站Python爬虫基础5天速成（2021全新合集）Python入门+数据可视
网络爬虫技术如何影响网络安全的 silver687 爬虫
网络爬虫技术对网络安全的影响是多方面的，既有积极的一面，也有消极的一面。以下是具体分析：积极影响1.网络安全监测与漏洞发现网络爬虫可以被用于网络安全监测，帮助企业和机构发现网站或网络系统中的漏洞和安全隐患。例如，通过爬取网站内容，检测是否存在SQL注入、XSS攻击等潜在漏洞。2.威胁情报收集爬虫技术可用于收集网络上的威胁情报，帮助安全研究人员了解最新的攻击手段、恶意软件传播路径等，从而提前做好防御
爬取NBA球员信息并可视化小白入门 Serendipity_Carl 爬虫数分爬虫基础 python 爬虫数据可视化 pycharm 数据分析
网址:虎扑体育-NBA球员得分数据排行第1页步骤:分析页面确定URL地址模拟浏览器向服务器发送请求数据解析提取想要的数据保存数据爬虫所需要的模块requests(发送HTTP请求)parsel(解析HTML内容)pandas(数据保存模块)第一步分析页面--确定是静态页面还是动态页面右击点击查看网页源代码在新窗口中搜索(Ctrl+F)我们所需要的数据通过分析可得此网站为静态页面URL地址为浏览器栏
WebRover：专为训练大型语言模型和 AI 应用程序而设计的 Python 库数据集
2024-11-30，由Area-25团队开发的一个专门用于生成高质量网络内容数据集的Python库。该数据集旨在为大型语言模型（LLM）和人工智能应用的训练提供丰富的数据资源。数据集地址：WebRoverDataset|自然语言处理数据集|AI模型训练数据集一、让我们一起来看一下WebRoverWebRover通过智能网络爬虫技术，自动从网络中提取与特定主题相关的内容，并支持多种输入格式，如JS
svm python 模型绘图_1SVM处理数据并绘图张炜大师傅 svm python 模型绘图
爬虫Python基础、数据分析扩展包Numpy、pandas、matplotlib，Python读取MySQL数据，Python爬虫及Scrapy框架，无监督机器学习算法聚类分析等，以及案例：互联网金融行业客户价值分析等。机器学习机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有
wps2019数据分析加载项_《07版office办公软件中的excle中，为什么在加载项里选择了分析工具库，数据分析还是显示不出来？》 wps数据分析加载项... 孙伟莲 wps2019数据分析加载项
如何利用excle做数据分析excel完全可以解决！可以通过数据透视表，筛选出你的各种需求，但是要求操作要熟练，没办法在这里描述清楚的07版office办公软件中的excle中，为什么在加载项里选择了分析工具库，数据分析还是显示不出来？当你有某一个表格需要导出数据时，点击页面上方的输出，出现一个另存为的对话框，先选择保存的位置，然后输入文件名，在保存类型中选excel点保存！这样你的表格就在你的存
Python 实现简单的爬虫 Java进阶营菌程序员职场 Python python 爬虫后端
Python是一种跨平台的计算机程序设计语言，面向对象动态类型语言，Python是纯粹的自由软件,源代码和解释器cpython遵循GPL(GNUGeneralPublicLicense)协议，随着版本的不断更新和语言新功能的添加，Python越来越多被用于独立的、大型项目的开发。快速抓取网页:使用urllib最基本的抓取功能,将百度首页的内容保存到本地目录下.importurllib.reques
drissionpage爬虫自动化入门案例与视频教程与相关代码十一姐爬虫自动化 drissionpage
目录零、各种关于drissionpage文章视频案例解决方案合集一、dp安装与首次打开网页测试使用二、dp获取网页内容html/text/attr入门三、dp输入点击input/click/eles元素交互等入门四、dp获取cookies信息入门五、dp实现翻页并下载图片入门六、dp实现网页接口数据包监听入门（类似network和fiddler）七、dp实现高并发10倍速度爬取详情页信息八、dp实
淘宝爬虫自动化 qq_42307546 爬虫自动化 python
importjsonimportosimportreimportthreadingimporttimeimportopenpyxlfromDrissionPageimportChromiumOptions,ChromiumPage#创建一个excel文件defcreate_excel(file_name):#实例化工作簿对象workbook=openpyxl.Workbook()#激活当前工作表w
【爬虫】使用 Scrapy 框架爬取豆瓣电影 Top 250 数据的完整教程 brhhh_sehe 爬虫 scrapy
前言在大数据和网络爬虫领域，Scrapy是一个功能强大且广泛使用的开源爬虫框架。它能够帮助我们快速地构建爬虫项目，并高效地从各种网站中提取数据。在本篇文章中，我将带大家从零开始使用Scrapy框架，构建一个简单的爬虫项目，爬取豆瓣电影Top250的电影信息。Scrapy官方文档：ScrapyDocumentation豆瓣电影Top250：豆瓣电影Top250本文的爬虫项目配置如下：系统：Windo
爬虫笔记21——DrissionPage自动化框架的使用墨菲马爬虫笔记爬虫笔记自动化
DrissionPage自动化框架的使用前言DrissionPage的使用1、准备工具及初步了解2、ChromiumPage的使用（操作浏览器）访问页面初始化配置元素定位iFrame切换元素监听动作链的简单使用3、SessionPage的使用（收发数据包）4、WebPage前言有人说，自动化框架降低了逆向的成本，当遇到不会的逆向，我用自动化解决问题，这其实是有道理的，哈哈哈~。但是，自动化框架其实
如何优化爬虫以提高效率数据小小爬虫爬虫
在使用Python爬虫获取数据时，遵循一些最佳实践可以提高爬虫的效率和稳定性，同时避免潜在的法律和道德风险。以下是一些推荐的最佳实践：一、遵守robots.txt协议robots.txt文件是网站用来告诉爬虫哪些页面可以爬取，哪些不可以的规则文件。遵守robots.txt协议是爬虫的基本道德准则，可以避免对网站造成不必要的负担。二、使用合适的库和框架根据项目需求选择合适的爬虫库和框架。常用的库有r
scrapy学习之爬虫练习平台爬取 LLLibra146 爬虫 python
本文章首发于个人博客，链接为：https://blog.d77.xyz/archives/35dbd7c9.html前言为了练习Scrapy，找了一个爬虫练习平台，网址为：https://scrape.center/，目前爬取了前十个比较简单的网站，在此感谢平台作者提供的练习平台。环境搭建开始爬取前，首先要先把环境搭建起来，Pycharm新建项目learnscrapy和对应的虚拟环境，安装好Scr
如何学习爬虫技术：从入门到实践的全面指南 CodeJourney. 学习爬虫
一、引言在当今数字化时代，网络上的数据量呈爆炸式增长，能够高效地获取和处理这些数据变得愈发重要。爬虫技术作为一种从网页中自动提取信息的手段，在各个领域都有着广泛的应用，无论是数据分析、机器学习的数据集构建，还是市场调研、价格监测等商业场景，掌握爬虫技术都能为你打开一扇获取丰富信息资源的大门。然而，对于初学者来说，面对琳琅满目的工具和复杂的网络环境，可能会感到无从下手。本文将带你逐步深入了解爬虫技术
GitHub（修改host）加速访问程序员
GitHub（修改host）加速访问对GitHub访问太难了：访问慢、图片加载不出来项目来源github520代码运行获取host文件项目具体代码#!/usr/bin/python3#-*-coding:utf-8-*-##Author:XueWeiHan#E-mail:[email protected]#Date:2020-05-1915:27#Desc:获取最新的GitHub相关域名对应IPim
webdriver 反爬虫 (selenium反爬虫) 绕过 m0_74824044 爬虫 selenium 测试工具
1.webdriver反爬虫原理爬虫程序可以借助渲染工具从动态网页中获取数据。在这个过程中，“借助”其实是通过对应的浏览器驱动（即WebDriver）向浏览器发出指令的行为。因此，开发者可以根据客户端是否包含浏览器驱动这一特征来区分正常用户和爬虫程序。webdriver属性是我们最常听到的，通过webdriver驱动浏览器就会包含这一属性，因此可用来辨别爬虫程序（可检测的属性远不止这一种）。Web
单片机AT32代码移植后芯片烧录一次后，无法再次烧录 GivemeAK 单片机嵌入式硬件 stm32
最近工作中在移植AT32代码的时候遇到一个现象：现象描述：使用官方开发板调试好代码后准备移植到项目用的同款芯片板子，第一次连接后keil能够识别到芯片，但是第二次准备烧录时，芯片怎么都识别不出来。以为是芯片问题，再次换过芯片后还是烧录一次后就识别不到芯片了。看过官网上的相关文档FAQ，仍然无法解决。分析原因：因为是代码烧录一次后芯片就不能烧录了，所以大概率是芯片代码可能有问题。下面是几个常见的排查
python爬虫——pandas的简单使用张謹礧 python爬虫+可视化 python网络爬虫 python pandas 爬虫
pandas作为爬虫中最重要的包之一，我们要想学好爬虫，就必须要深入了解pandas直接上代码importpandasaspdimportnumpyasnpdata=pd.DataFrame(np.arange(16).reshape((4,4)),index=['a','b','c','d'],#如果不写列索引默认为0，1，2，3columns=['a','b','c','d'])print(d
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri