爬虫是什么?

为什么要学习爬虫呐?

*    学习爬虫,可以私人订制一个搜索引擎。

*    大数据时代,要进行数据分析,首先要有数据源。

*   对于很多SEO从业者来说,从而可以更好地进行搜索引擎优化。

首先向大家简单的介绍一下什么是爬虫?

模拟客户端向服务器端发起网络请求,接收请求的响应。按照一定的规则(正则,xpath,beautifulsoup4),自动的抓取互联网信息(数据)

那么爬虫的大致流程:

第一步:分析网站,得到目标url根据url,

第二步:发起请求,获取页面的HTML源码(从页面源码中获取数据)

** 提取到目标数据,桌数据的筛选和持久化的存储

** 从页面中提取到新的url地址,

第二部操作爬虫结束:所有的目标url 都提取完毕,并得到数据,而且没有其他的请求任务了,这就意味这爬虫结束

爬虫有:通用爬虫/聚焦爬虫

聚焦爬虫:通常我们自己撸的为聚焦爬虫面向主题爬虫、面向需求爬虫:会针对某种特定的能容去爬取信息,而且保证内容需求尽可能相关

通用爬虫呐就是搜索引擎用的爬虫系统。搜索引擎和web服务商提供的爬虫。

爬虫中请求获取用的包有  urllib  /   requests

urllib 

#构建一个request对象

req = request.Request(url,headers=headers)

#发起请求

response = request.urlopen(req)

# 返回结果,请求状态

print(response.status)/print(response.text)

requests

response=requests.get(url,headers=headers)

print(response.status_code)

print(response.text)

当我们首先获取到首页或则摸个连接后进一步对信息进行提取,去掉无用的信息,这时我们就会用到正则啦,xpath啦,,beautifulsoup4等等

首先正则用法:正则表达式 – 语法 | 菜鸟教程

xpath用法:  XPath 语法

数据存储(mysql)

import pymysql

conn=pymysql.connect(host='localhost',port=3307,user='root',password='密码',db='表名',charset='utf8')

sql =INSERT INTO lagou (%s)VALUES (%s)

#创建游标(执行sql语句)

cursor = mysql_client.cursor()

你可能感兴趣的:(爬虫是什么?)