Python wordcloud库对 华为应用市场最新上架的APP进行分析

  • 本文出自: forever121.cn/,转载请注明出处

4个月前,写了一个爬取华为应用市场最新上架APP的脚本
对 https://appstore.huawei.com/more/newUp 这个URL下进行不定时爬取
现在已经爬取了78万条APP数据

可在csdn上下载文档: https://download.csdn.net/download/qq_42184699/12321776

列名分别为

APP名字 介绍 上架时间 下载量

Python wordcloud库对 华为应用市场最新上架的APP进行分析_第1张图片

 

正好玩玩python中的wordcloud库,进行简单的分析数据

由于官方pypi的源没有收录wordcloud,所以需要使用清华的pip源,安装wordcloud

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ wordcloud

对数据直接进行分析看看

from wordcloud import WordCloud, STOPWORDS

with open(r'C:\Users\12406\Desktop\Market_data.txt', 'rb') as file:
    content = file.read().decode('utf-8')
    file.close()


remove = ['br', 'nbsp', 'lt', '主要功能', '在这里', '应用介绍', '产品介绍', '产品简介', '功能介绍', 'amp', 'APP', ] #过滤掉无用的关键词
 for key in remove:
     STOPWORDS.add(key)

wc = WordCloud(width=3000,height=2100,background_color='white',font_path='msyh.ttc', )
wc.generate(content)
wc.to_file(r'C:\Users\12406\Desktop\output.png')
print('#'*20 + 'ok' + '#' * 20)

得到以下图片

https://pic2.zhimg.com/80/v2-9dcdf9846fe63dd103dafe46367bea61_720w.jpg

由于csdn机器人审核图片含有敏感词,需要大家手动打开链接咯

 

 

可以看到由于疫情的原因,上线或更新了非常多的医疗APP,提供在线开药、视频门诊等功能,推动了互联网医疗行业

股市中互联网医疗概念也应征了这个现象,从恐慌后暴跌,反弹到最高972.89点

 

Python wordcloud库对 华为应用市场最新上架的APP进行分析_第2张图片

还有比较显眼的关键词如:政务服务、幼儿教育

对APP介绍进行词云分析:

这里通过linux文本处理工具,对文本进行过滤,之所以不用python是因为linux可以非常快速的需求关键字

cat Market_data.txt | awk -F' ' '{print $2}' | sort | uniq  |grep -v ' ' > introduce.txt
sz introduce.txt #导出文本

通过Python创建词云

from wordcloud import WordCloud, STOPWORDS

with open(r'C:\Users\12406\Desktop\introduce.txt', 'rb') as file:
    content = file.read().decode('utf-8')
    file.close()

remove = ['br', 'nbsp', 'lt', '主要功能', '在这里', '应用介绍', '产品介绍', '产品简介', '功能介绍', 'amp', 'APP', ] #过滤掉无用关键字

for key in remove:
    STOPWORDS.add(key)

wc = WordCloud(width=3000,height=2100,background_color='white',font_path='msyh.ttc')
wc.generate(content)
wc.to_file(r'C:\Users\12406\Desktop\introduce.png')
print('#'*20 + 'ok' + '#' * 20)

https://pic3.zhimg.com/80/v2-3098ecde6a831a4cbc99d3fc5eefa1ba_720w.jpg

由于csdn机器人审核图片含有敏感词,需要大家手动打开链接咯

uploading.4e448015.gif转存失败重新上传取消uploading.4e448015.gif正在上传…重新上传取消

这张图片里面我比较感兴趣的是,为什么 北京的关键词会怎么高,所以对原数据进行了检查

Python wordcloud库对 华为应用市场最新上架的APP进行分析_第3张图片

uploading.4e448015.gif正在上传…重新上传取消

发现,北京的公司非常喜欢在介绍里面加上“北京”这个关键字增加权重,这可能就是首都的魅力吧

还有其他关键词如:操作简单,娱乐,高效、来吸引用户

对APP上线日期进行统计

cat Market_data.txt  | awk -F' ' '{print $3}' |grep -E 20..-..-.. |sort | uniq -c | sort -n

Python wordcloud库对 华为应用市场最新上架的APP进行分析_第4张图片

可以看到日上线最高的基本都在年底,特别是1月17号(星期五)很多’社畜’就是隔天周六这天回家的,看到还是老板催的紧

Python wordcloud库对 华为应用市场最新上架的APP进行分析_第5张图片

END

~

可以关注我的知乎或订阅我的RSS

你可能感兴趣的:(Python wordcloud库对 华为应用市场最新上架的APP进行分析)