【Technical Exchange】不懂编程，如何用爬虫获取自己想要的信息

曾几何时你想要在某网站找自己想要的信息，因为不能批量操作而不得不手动复制粘贴，耗费大量时间。后来你得知了有种叫做“爬虫”的东西，可以快速批量的抓取想要的数据和信息，但是了解了它的原理之后又望而却步，需要会编程，需要写代码，学习成本相对较高，而且低级入门的爬取水平并不能很好的达到想要的结果。今天就和大家分享一下如何用工具来爬取我们想要的数据和信息。这篇文章还有另外一个名字：爬取了陈奕迅的5万歌词，看看Eason到底在唱什么。

文章结构

目标：爬取Eason的所有歌词，进行词频分析得到答案

操作方法：① 找寻数据目标站点 ② 选取爬虫工具 ③ 获取数据 ④ 数据清洗 ⑤ 词频分析 ⑥ 结论描述

1.寻找目标站点

在QQ音乐的官网搜索陈奕迅然后点击他的歌词模块，这样这就算找到需要的数据源了，接下来到第二部选取好用的爬虫工具对这些数据进行爬取。

【Technical Exchange】不懂编程，如何用爬虫获取自己想要的信息_第1张图片

Paste_Image.png

2.选取爬虫工具

①这里介绍的我经常用的“八爪鱼”工具，下载安装好八爪鱼后，打开操作界面：如下图

【Technical Exchange】不懂编程，如何用爬虫获取自己想要的信息_第2张图片

Paste_Image.png

②这里使用适合初学者的向导模式，点击之后进行爬取配置

【Technical Exchange】不懂编程，如何用爬虫获取自己想要的信息_第3张图片

Paste_Image.png

③选择第一个模式进行单页可循环采集，第一步和第二步分别是建立任务描述和输入数据源网址，网址就是刚才QQ音乐官网搜索陈奕迅点击歌词模块后的跳转链接

【Technical Exchange】不懂编程，如何用爬虫获取自己想要的信息_第4张图片

Paste_Image.png

④选中至少两个想要抓取的元素，软件会自动抓取其他相同类型的信息

【Technical Exchange】不懂编程，如何用爬虫获取自己想要的信息_第5张图片

Paste_Image.png

⑤这里设置字段，选中下面刚才抓取的数据，给字段命名，例如：陈奕迅歌词信息

【Technical Exchange】不懂编程，如何用爬虫获取自己想要的信息_第6张图片

Paste_Image.png

⑥最后选中翻页按钮，设置翻页次数，一般翻页次数大于原本的页数就可以了

【Technical Exchange】不懂编程，如何用爬虫获取自己想要的信息_第7张图片

Paste_Image.png

4.获取数据

①最后选择采集方式，进行采集

【Technical Exchange】不懂编程，如何用爬虫获取自己想要的信息_第8张图片

Paste_Image.png

②一段时间后，得到采集的数据

【Technical Exchange】不懂编程，如何用爬虫获取自己想要的信息_第9张图片

Paste_Image.png

4.数据清洗

并不是爬取的数据马上就可以拿来用，例如上面excel中的数据，由于爬取方式的粗略导致其中作词，作曲，以及作词人，作曲人这些都包含在爬出的数据里面，这些就属于要清理掉的。其次数据源本来就可能存在问题，例如QQ音乐陈奕迅歌词模块的第20页竟然出现了吴克群的 N首歌曲，按照既定的规则，这些歌词也会被爬取，但是并不是我们需要的，所以也应该被清理掉。

【Technical Exchange】不懂编程，如何用爬虫获取自己想要的信息_第10张图片

Paste_Image.png

5.词频分析

这里给大家推荐几个智能的语意分析系统

Rost：http://www.cncrk.com/downinfo/54638.html

图悦：http://www.picdata.cn/

语义分析系统：http://ictclas.nlpir.org/nlpir/

Tagul：https://tagul.com/

腾讯文智：http://nlp.qq.com/semantic.cgi

Tagxedo词云：http://www.tagxedo.com/

这里我们使用上面第三个（这个语义分析系统相对好用，但是有字数限制，这里简单作为举例用，文本数据很多建议用第一个）：

【Technical Exchange】不懂编程，如何用爬虫获取自己想要的信息_第11张图片

Paste_Image.png

但是个人感觉上面的语义分析工具都不好用，IBM的人工智能沃森分析了鲍勃·迪伦所有歌曲，给出的结论是：鲍勃·迪伦的歌曲里流露出两种情绪，枯萎的爱情和流逝的光阴。真是好文艺，好强大。

6.结论描述

这个语义分析系统可以分析出Eason所有歌曲里面的词频和流露出的情绪，虽然没有沃森那么高级，但也算是一个好用的工具。其它的功能感兴趣的同学可以自己去体验下。

【Technical Exchange】不懂编程，如何用爬虫获取自己想要的信息_第12张图片

Paste_Image.png

写在最后：得到数据源的方式有很多种，无论是粘贴复制，自己写爬虫还是使用工具，重点还是数据的分析和处理，对得到的数据进行各种维度的分析，设计出分析模型。最后分析出什么结论，指导并解决了什么问题才是数据分析的灵魂。

【Technical Exchange】不懂编程，如何用爬虫获取自己想要的信息

文章结构

目标：爬取Eason的所有歌词，进行词频分析得到答案

操作方法：① 找寻数据目标站点 ② 选取爬虫工具 ③ 获取数据 ④ 数据清洗 ⑤ 词频分析 ⑥ 结论描述

1.寻找目标站点

2.选取爬虫工具

4.获取数据

4.数据清洗

5.词频分析

6.结论描述

你可能感兴趣的:(【Technical Exchange】不懂编程，如何用爬虫获取自己想要的信息)