4个月前,写了一个爬取华为应用市场最新上架APP的脚本
对 https://appstore.huawei.com/more/newUp 这个URL下进行不定时爬取
现在已经爬取了78万条APP数据可在csdn上下载文档: https://download.csdn.net/download/qq_42184699/12321776
列名分别为
APP名字 介绍 上架时间 下载量
正好玩玩python中的wordcloud库,进行简单的分析数据
由于官方pypi的源没有收录wordcloud,所以需要使用清华的pip源,安装wordcloud
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ wordcloud
对数据直接进行分析看看
from wordcloud import WordCloud, STOPWORDS
with open(r'C:\Users\12406\Desktop\Market_data.txt', 'rb') as file:
content = file.read().decode('utf-8')
file.close()
remove = ['br', 'nbsp', 'lt', '主要功能', '在这里', '应用介绍', '产品介绍', '产品简介', '功能介绍', 'amp', 'APP', ] #过滤掉无用的关键词
for key in remove:
STOPWORDS.add(key)
wc = WordCloud(width=3000,height=2100,background_color='white',font_path='msyh.ttc', )
wc.generate(content)
wc.to_file(r'C:\Users\12406\Desktop\output.png')
print('#'*20 + 'ok' + '#' * 20)
得到以下图片
https://pic2.zhimg.com/80/v2-9dcdf9846fe63dd103dafe46367bea61_720w.jpg
由于csdn机器人审核图片含有敏感词,需要大家手动打开链接咯
可以看到由于疫情的原因,上线或更新了非常多的医疗APP,提供在线开药、视频门诊等功能,推动了互联网医疗行业
股市中互联网医疗概念也应征了这个现象,从恐慌后暴跌,反弹到最高972.89点
还有比较显眼的关键词如:政务服务、幼儿教育
对APP介绍进行词云分析:
这里通过linux文本处理工具,对文本进行过滤,之所以不用python是因为linux可以非常快速的需求关键字
cat Market_data.txt | awk -F' ' '{print $2}' | sort | uniq |grep -v ' ' > introduce.txt
sz introduce.txt #导出文本
通过Python创建词云
from wordcloud import WordCloud, STOPWORDS
with open(r'C:\Users\12406\Desktop\introduce.txt', 'rb') as file:
content = file.read().decode('utf-8')
file.close()
remove = ['br', 'nbsp', 'lt', '主要功能', '在这里', '应用介绍', '产品介绍', '产品简介', '功能介绍', 'amp', 'APP', ] #过滤掉无用关键字
for key in remove:
STOPWORDS.add(key)
wc = WordCloud(width=3000,height=2100,background_color='white',font_path='msyh.ttc')
wc.generate(content)
wc.to_file(r'C:\Users\12406\Desktop\introduce.png')
print('#'*20 + 'ok' + '#' * 20)
https://pic3.zhimg.com/80/v2-3098ecde6a831a4cbc99d3fc5eefa1ba_720w.jpg
由于csdn机器人审核图片含有敏感词,需要大家手动打开链接咯
转存失败重新上传取消正在上传…重新上传取消
这张图片里面我比较感兴趣的是,为什么 北京的关键词会怎么高,所以对原数据进行了检查
正在上传…重新上传取消
发现,北京的公司非常喜欢在介绍里面加上“北京”这个关键字增加权重,这可能就是首都的魅力吧
还有其他关键词如:操作简单,娱乐,高效、来吸引用户
对APP上线日期进行统计
cat Market_data.txt | awk -F' ' '{print $3}' |grep -E 20..-..-.. |sort | uniq -c | sort -n
可以看到日上线最高的基本都在年底,特别是1月17号(星期五)很多’社畜’就是隔天周六这天回家的,看到还是老板催的紧
END
~
可以关注我的知乎或订阅我的RSS