初识爬虫之概念认知篇

认识爬虫

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
初识爬虫之概念认知篇_第1张图片

爬虫也分为“善意爬虫”和“恶意爬虫”,比如像谷歌,百度这样的每天都会海量的网站,来保证用户的需要,这个是用户和网站都很喜欢的,所以叫善意爬虫,但是像一些“抢票软件”“非VIP性下载”,有的时候不但会增加网站的承受压力,还会导致一些资源隐私泄露,所以我们又称之为“恶意爬虫”。

简单来说爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据抓取下来,然后使用一定的规则提取有价值的数据。

初识爬虫之概念认知篇_第2张图片

项目优势

Python:语法优美、代码简洁、开发效率高、支持的模块多。相关的HTTP请求模块和HTML解析模块非常丰富。还有Scrapy和Scrapy-redis框架让我们开发爬虫变得异常简单。所以现在最为常见的就是用Python来写爬虫,我们可以爬取图片,视频,文字。在大数据的背后,我们称之为“数据挖掘”,做数据分析,我们没有数据怎么可以。

应用广泛,优势凸出。在今年的疫情背后,我们依赖大数据的强大,进行数据挖掘,清洗,保障了多少人的生命安全。通过大数据进行人的行踪追查,排查,在海量的人员数据中,提取有价值的东西。这就是爬虫的高级用武之地

初识爬虫之概念认知篇_第3张图片

基本思路

初识爬虫之概念认知篇_第4张图片

发送请求——获得页面——解析页面——存储有价值信息

每一步都需要有扎实的语法基础,和爬虫库的使用概念,我们知道如何看懂别写的代码,知道如何改进别人的缺式,懂得怎样去移植代码,来进行自己的一些操作。

其次就是要学会去看第三方库的一些语法,知道如何安装第三方库是很重要的。

写好一个爬虫项目,作为一个初学者,是非常难的,我们必须要大量的看别人的优质代码,爬虫项目,知道怎样去改善,如何做到最优化,这个才是我们学习的最终目的,当然在这之前,必须要学会一些知识点,不然你看都看不懂代码,怎么去去优化了,哈哈哈哈!

初识爬虫之概念认知篇_第5张图片

爬虫技术步骤

爬虫

Web爬虫是一种自动访问网页的脚本或机器人,其作用是从网页抓取原始数据 - 最终用户在屏幕上看到的各种元素(字符、图片)。 其工作就像是在网页上进行ctrl + a(全选内容),ctrl + c(复制内容),ctrl + v(粘贴内容)按钮的机器人(当然实质上不是那么简单)。

通常情况下,爬虫不会停留在一个网页上,而是根据某些预定逻辑在停止之前抓取一系列网址 。 例如,它可能会跟踪它找到的每个链接,然后抓取该网站。当然在这个过程中,需要优先考虑您抓取的网站数量,以及您可以投入到任务中的资源量(存储,处理,带宽等)。

解析

解析意味着从数据集或文本块中提取相关信息组件,以便以后可以容易地访问它们并将其用于其他操作。要将网页转换为实际上对研究或分析有用的数据,我们需要以一种使数据易于根据定义的参数集进行搜索,分类和服务的方式进行解析。

存储和检索

最后,在获得所需的数据并将其分解为有用的组件之后,通过可扩展的方法来将所有提取和解析的数据存储在数据库或集群中,然后创建一个允许用户可及时查找相关数据集或提取的功能。

爬虫有什么作用

1、网络数据采集

利用爬虫自动采集互联网中的信息(图片、文字、链接等),采集回来后进行相应的储存与处理。并按照一定的规则和筛选标准进行数据归类形成数据库文件的一个过程。但在这个过程中,首先需要明确要采集的信息是什么,当你将采集的条件收集得足够精确时,采集的内容就越接近你想要的。

2、大数据分析

大数据时代,要进行数据分析,首先要有数据源,通过爬虫技术可以获得等多的数据源。在进行大数据分析或者进行数据挖掘的时候,数据源可以从某些提供数据统计的网站获得,也可以从某些文献或内部资料中获得,但从这些获得数据的方式,有时很难满足我们对数据的需求,此时就可以利用爬虫技术,自动地从互联网中获取需要的数据内容,并将这些数据内容作为数据源,从而进行更深层次的数据分析。

3、网页分析

通过对网页数据进行爬虫采集,在获得网站访问量、客户着陆页、网页关键词权重等基本数据的情况下,分析网页数据,从中发现访客访问网站的规律和特点,并将这些规律与网络营销策略等相结合,从而发现目前网络营销活动和运营中可能存在的问题和机遇,并为进一步修正或重新制定策略提供依据

初识爬虫之概念认知篇_第6张图片

建议

学习爬虫前的技术准备

Python基础语法:基础语法﹑运算符﹑数据类型﹑流程控制﹑函数﹑对象模块﹑文件操作﹑多线程﹑网络编程…等

W3C标准:HTML﹑CSS﹑JavaScript﹑Xpath﹑JSON

HTTP标准HTTP的请求过程﹑请求方式﹑状态码含义﹑头部信息以及Cookie状态管理(四).数据库MySQL﹑ MongoDB ﹑Redis…

网络爬虫使用的技术

常用爬虫库:urllib requests selenium 以及scrapy爬虫框架

在数据解析方面相应的库包括:lxml beautifulsoup4 re pyquery…对于数据解析,主要是从 响应页面里提取所需的数据,常用的方法有:xpath路径表达式, Css选择器,正则表达式等

xpath路径表达式,css选择器主要用于提取结构化的数据,而正则表达式主要用于提取非结构化的数据

数据存储:MySQL,MongoDB,Redis

初识爬虫之概念认知篇_第7张图片

总结

学习爬虫是Python语法完成之后的最佳选择,如果说Python语法之后,马上就进阶一些项目,这个也是不可能的,因为爬虫的基础,就是在语法的基础知识之上。

你可能感兴趣的:(Python爬虫语法知识详解,大数据,编程语言,python,数据分析)