python网络爬虫新手教程!!!

当今时代已经来到了大数据时代,今天王虎剩大将军带领大家(此教程只适合新手小白,并且会创建虚拟环境的小白,编程大佬不喜勿喷哦)。好了,废话不多说,让我们开始编写第一个爬虫项目吧。接下来,我会在pycharm以及cmd命令中带领大家创建第一个爬虫项目。如下图所示,在cmd命令中,安装我们的urllib3(由于对应的python环境版本不同,我们下载对应的python环境模块,王虎剩大将军的python是3.x,故安装urllib3)模块。进入我们的虚拟环境脚本文件夹中输入pip install urllib3.

python网络爬虫新手教程!!!_第1张图片

在安装好urllib3模块后,我们要使用该模块中的request类了(顾名思义,这是一个向网站或服务器请求资源的模块),进入虚拟环境后,我们输入以下指令,来进行对百度页面的源码进行爬取。

import urllib.request    #导入request模块

url = 'http://www.baidu.com'     #输入要爬去的网址

file = urllib.request.urlopen(url)    #调用urlopen函数打开相应的网址

data = file.read() #读取爬取好的源码并将其赋给data变量中存储起来

print(data)#将爬取的源码输出在终端中

python网络爬虫新手教程!!!_第2张图片

。好了我们已经完成了百度首页源码的爬取。接下来我们在pycharm中进行相应源码的爬取。首先我们先打开pycharm这个软件,然后创建一个文件,接着输入以上的代码,url我们可以选取不同的网址,这取决于你要爬取的网站,但是不同的网站有着相应的反爬虫技术(这个在以后的教程中我会提到)。在pycharm中,我们编程必须注意的是编码的问题,所以我们一致采用的编码方式是utf-8。

好了,本次纯小白教程到此结束,如需往后接触更高深的相应的爬虫框架(scrapy),以及使用相应的抓包工具的学习使用。敬请关注王虎剩大将军的教程。

你可能感兴趣的:(python网络爬虫,爬虫,python,网络)