利用python爬虫电影分析_Python 爬虫实战(1):分析豆瓣中最新电影的影评

目标概述主要做三件事:爬行网页数据,清理数据,并显示它与词云。使用的python版本是1。第一步是访问网页抓取网页数据。Python使用urllib库。代码如下:从urllib importrequestresp = (\u201D) html_data = () .decode html_data (\u201Cutf - 8\u201D)是一个字符串变量,存储web页面的html代码。第二步是解析html代码来获得我们需要的数据。在python中使用BeautifulSoup4库来解析html代码(如果这个库没有安装,请安装它自己)。BeautifulSoup所使用的格式如下:第一个参数的BeautifulSoup (html、\从上面的图中,我们可以看到,div id =\u201Cnowplaying\u201D标签开始与我们想要的数据,其中包含名称、评级,电影的主演和其他信息。

通过这种方式,最新的电影信息。下一步是分析最新的电影简短的评论。例如,《侏罗纪公园2》的简短回顾URL是:?从= playing_poster 26416062电影的id。解析这个标签,代码如下:requrl = \字符串是notNone:(_all (\u201Cp\u201D) [0] .string) 2。数据清洗,以促进数据清洗,我们把数据列表中的一个字符串数组,代码如下:评论=\u201Ck inrange (len (eachCommentList)):评论=评论+ (str (eachCommentList [k])) .strip () importrepattern = (r ' [\\ u4e00 - \\ u9fa5] +)(模式、评论)cleaned_comments = \stopwords = _csv (\u201Cindex_col = False,引用= 3 = 9月\\ t,名字= [' stopword '],编码= ' gbk ') #引用所有引用words_df = 3 = words_df [~ words_()]接下来我们将开始词频统计。

gg({\u201C计数\u201D:})words_stat = words__index () .sort_values(=(\u201C计数\u201D),提升= False)第三,显示在字云未完待续!!!

你可能感兴趣的:(利用python爬虫电影分析)