python微博爬虫分析_基于Python的新浪微博爬虫研究

基于

Python

的新浪微博爬虫研究

吴剑兰

(江苏警官学院,江苏

南京

210031

)

【摘

要】

要:对比新浪提供的

API

及传统的爬虫方式获取微博的优缺点,

采用模拟登陆和网页解析技术,将获取的信息存入数据库中并进行分析。基于

Python

设计实现了新浪微博爬虫程序,可以根据指定的关键词获取相应的微

博内容及用户信息。

【期刊名称】

无线互联科技

【年

(

),

期】

2015(000)006

【总页数】

2

【关键词】

新浪微博;

Python

;爬虫

以新浪官方的搜索平台为搜索入口,输

入后,构造相应

url

。分析网页源代码,可以发现页面上的所有微博内容都在以

&&

STK.pageletM

&&

STK.

pageletM.view({"pid":"plweibodirect",

开头的行中。源代码中大多为反斜线

(“

\

”)

,而中文则以

UTF-8

的格式表示,即“

\

uXXXX”(

X

为数字或字母)

一眼望上去很凌乱。但是如果查看经过处理后的源代码,可以发现每条微博都

有相似的格式,而且是以一种“树”的形式展现的。

4

的提取

这个爬虫程序还

有一个可以对爬取到的微博内容进行分析,提取的功能。使用

TF-IDF

算法来

实现。

TF-IDF

算法的思想如下:为了提取关键词,一个容易想到的思路就是找

到出现次数最多的词。如果某个词很重要,它应该在其中多次出现,于是,进

行“词频”(

TF

)统计。但是,出现次数最多的词是“的”“是”“在”这一

类词,这些词叫做“停用词”,对结果没有帮助,需要过滤掉。

根据这一算法

思想,爬虫程序可以根据爬取的一系列微博条目,获得这些条目的。

[3]

你可能感兴趣的:(python微博爬虫分析)