python爬虫实战(三) 免登录微博超话爬虫+数据可视化

        微博爬虫可以不借助selenium,直接用Chrome下的手机端模式打开,找到其封装的json数据,即可爬取,具体步骤如下。

分析过程

        以东野圭吾超话为例,网址为微博超话。进入页面后,使用Chrome浏览器的检查功能,打开手机端模式如下:

python爬虫实战(三) 免登录微博超话爬虫+数据可视化_第1张图片
        刷新界面,进行抓包,可发现数据的封装地址。
python爬虫实战(三) 免登录微博超话爬虫+数据可视化_第2张图片
接下来,我们分析一下翻页原理,向下滑动界面,对比两者的URL
在这里插入图片描述
python爬虫实战(三) 免登录微博超话爬虫+数据可视化_第3张图片
不难发现,只有since_id不一样。那就找到第一条url的json数据,看看有没有第二条url的since_id。经过分析发现,第二条的url的since_id在第一条url的PageInfo下!这样,我们就可以翻页啦!
python爬虫实战(三) 免登录微博超话爬虫+数据可视化_第4张图片

爬取代码:

微博反爬还是有点厉害的!一开始,我只用了一个用户代理,没爬到几条数据后就被检测出来了。然后,换了随机用户代理后,IP地址又被封了。所以,还是老老实实构建代理池弄吧。(IP都是网上找的免费可用的,自己可以先用代码检测一下活性)

import requests
import json
import re
import os
import time,random
os.chdir('C:/Users/dell/Desktop')
import pandas as pd
from w3lib.html import remove_tags
base_url='''
https://m.weibo.cn/api/container/getIndex?containerid=1008082daf12cb79491a80017ae2546cc6f49f_-_feed&luicode=10000011
&lfid=100103type%3D533%26t%3D10%26q%3D%E4%B8%9C%E9%87%8E%E5%9C%AD%E5%90%BE&since_id=4487749686029266
'''
head_list=["Opera/9.80 (X11; Linux i686; Ubuntu/14.10) Presto/2.12.388 Version/12.16",
    "Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14",
    "Mozilla/5.0 (Windows NT 6.0; rv:2.0) Gecko/20100101 Firefox/4.0 Opera 12.14",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0) Opera 12.14",
    "Opera/12.80 (Windows NT 5.1; U; en) Presto/2.10.289 Version/12.02",
   ]
ip=['114.101.42.16:65309',
    '220.179.255.7:8118',
    '103.44.145.182:8080',
    '115.223.7.110:80']
proxy={'http':random.choice(ip)}
header={'user-agent':random.choice(head_list)}
pat='since_id=(.*)'
inf=[]
for page in range(1,300):
    try:
        r=requests.get(base_url,headers=header,proxies=proxy)
        df=json.loads(r.text)
        since_id=df.get('data').get('pageInfo').get('since_id')
        data=df.get('data').get('cards')[0].get('card_group')
        for item in data:
            send_time=item.get('mblog').get('created_at')
            content=remove_tags(item.get('mblog').get('text'))
            inf.append([send_time,content])
        base_url=re.sub(pat,'since_id='+str(since_id),base_url)
        print('第{}页写入完毕'.format(page))
        time.sleep(random.randint(3,5))
    except:
        print('未爬到数据')
inf1=pd.DataFrame(inf,columns=['发布时间','内容'])
inf1.to_csv('daily_comment.csv',index=False,encoding='gb18030')

数据可视化

        1. 统计各类书籍总讨论次数
python爬虫实战(三) 免登录微博超话爬虫+数据可视化_第5张图片
《白夜行》、《恶意》、《信》讨论较多

2. 按月份统计书籍讨论次数
python爬虫实战(三) 免登录微博超话爬虫+数据可视化_第6张图片
python爬虫实战(三) 免登录微博超话爬虫+数据可视化_第7张图片
python爬虫实战(三) 免登录微博超话爬虫+数据可视化_第8张图片
python爬虫实战(三) 免登录微博超话爬虫+数据可视化_第9张图片
从上图来看,《白夜行》依旧是东野粉的至爱呀,一年中有半年的时间占讨论次数榜首;《恶意》也紧跟其后,分别在1月和8月占据榜首;《信》在2月和9月占据榜首;《祈祷落幕时》在4月讨论次数最多,《沉默的巡游》是最近才出的新书,故占据了3月的榜首。

3. 统计书中人物的讨论次数
python爬虫实战(三) 免登录微博超话爬虫+数据可视化_第10张图片
亮司和雪穗是《白夜行》的男女主角,石神是《嫌疑人X的献身》的男主角。而加贺和汤川则是东野圭吾笔下两个十分有特色的人物。加贺是一名警官,既有缜密的推理能力,心中又有一份温柔,正因为如此,所以深受大家喜爱。而汤川是一名物理学家,时常帮助警方处理案件。相对加贺而言,看待事物更加理性、客观,也深受书迷们的追捧。

4. 讨论词云图
python爬虫实战(三) 免登录微博超话爬虫+数据可视化_第11张图片
5.书籍关联图

对微博文字内容进行分词,并构建共现字典,查看哪些书最容易一起被提到。使用Gephi进行可视化,得到下图:
python爬虫实战(三) 免登录微博超话爬虫+数据可视化_第12张图片

上图的线条越粗,说明两本书的关联程度越高!即微博里的用户经常一起提到这两本书。《白夜行》和《恶意》是经常一起被提到!此外,《白夜行》还和《幻夜》一起被提到的(也难怪《幻夜》是《白夜行》的姊妹篇!)

你可能感兴趣的:(python爬虫实战,python,可视化,json,数据分析)