关于python中的爬虫使用(初学者心得~)【1】

  这一系列的博文是用来记录一个python初学者学习的心路历程,笔者是一名普通高校的电子信息与科学技术专业的学生,本该安安心心学习c语言和c++,但是迫于自己求知欲的驱动(笑~~~),以及后来一些项目的需要,就开始学习python的爬虫啦,也希望这个系列的帖子可以作为其他初学者的参考资料。

 

笔者使用的py版本是3.6.5
    使用的ide是**Sublime Tx3**(在这里前推这款ide 简单好用 而且还很轻量化 )
    Firstly
    大家需要对html 和python的基本语法有一定的了解,记住,一定的了解就行了,不用非常地深。(当然 越深越好~)

 

 首先,先给大家讲一下什么叫爬虫吧。


    一个可以自动登录网页并且获取信息的程序,就可以被称为一个爬虫。
    就好比我们的学校都有自己各自的教务系统网,大家每次想看四六级成绩,看课表,看期末成绩,都得自己上教网去查询。当然,如果是简简单单的只看一次,那是没啥大不了,可如果是想反反复复地了解近期的一些较新的比赛安排和成绩呢,手动输地账号密码,从一个页面跳转到另外一个页面去,不免太过麻烦了。
而这个时候我们肯定希望有一个程序可以自动帮我们从网页上获取这些信息(关于信息是怎么从网页那一端传回来,中间是一个怎样的过程,笔者会在下一次博客中再给大家阐述清楚),这个时候,爬虫就应运而生啦,我们的那些课程表app,还有校园通app都会用到这个爬虫工具的。

 

好,在给大家讲清楚爬虫的概念后,接下来开始安装必要的工具吧!

   注:笔者在这里默认大家已经安装好sublime了哦  安装非常方便的哦!点击这个下载就行啦 然后选download for windows

 

第一步:安装Requests库

   打开我们的window上面的命令行(win键和R键同时按,然后输入cmd即可)

输入

pip install Requests

安装很快就完成了,这是我们安装的第一个爬虫工具,也是现在最强大的爬虫第三方库Requests

 

第二步:安装Beautifulsoup库

继续在命令行中输入

pip install Beautifulsoup

同样,安装很快也完成了。

Beautifulsoup是一个非常强大的既灵活又方便的网页解析库。

 

第三步:先开始实操

 

首先sublime这个ide后 直接ctrl加n新建一个项目 然后在右下角勾选python语言

 然后按ctrl加s保存文件

接下来来介绍requests库的基本使用,我们用它来获取网页中的信息(下一期再继续介绍更为详细的用法)

r = requests.get(url)

其中的url 大家先理解为我们的网站

而我们的网址有两种协议 分别为:

HTTP:是互联网上应用最为广泛的一种网络协议,是一个客户端和服务器端请求和应答的标准(TCP),用于从WWW服务器传输超文本到本地浏览器的传输协议,它可以使浏览器更加高效,使网络传输减少。

  HTTPS:是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,HTTPS的安全基础是SSL,因此加密的详细内容就需要SSL

以上来自度娘~

而其中的get用来构成一个用于向服务器请求资源的requests对象。

requests.get(url)返回一个包含服务器志愿的对象,也就是Response 包含了爬虫返回的全部内容(是不是很简洁明了)

 

先让大家了解一下一些基本的操作,同时也让大家看看这两个工具的威力(使用之前记得先引用哦)

import requests
from bs4 import BeautifulSoup#需要bs4里面的BeautifulSoup模块  

req = requests.get('http://www.qiushibaike.com')
print(type(req))
print(req.status_code)#状态码
print(req.encoding)#编码方式
print(req.cookies)#cookies
html = req.text
soup = BeautifulSoup(html,'lxml')
print(soup.prettify())#把html文件以有缩进的方式打开 可以让我们更加直观的去看到这些代码

在ide中敲下这几段代码后,按ctrl加b,你就能看到这个网站的html信息啦!

 

 

 

这次的记录就先到这里啦,这也是笔者第一次把所学知识整理出来发在论坛上,下期再见叭.

 

 

 

你可能感兴趣的:(学习)