1、 requests模块的安装
打仗不能不带枪 爬虫第一步就要先配置好需要的模块,按徽标键和R后输入
pip install requests
2、掌握爬虫的基本步骤
不管要干嘛先导入requests:import requests
(学过Java后总是习惯性的相加个; 不要加不要加!)
(1.指定url(即要爬取的网站的网址)
先爬个百度界面吧 url='https://www.baidu.com/' 网址要用英文的''单引号引上!
(2.发起请求(请求爬取网站)
reponse=requests.get(url=url) #get方法会返回一个响应对象
(3.获取响应数据(获取爬取的数据)
page_text=reponse.text #即把爬取的数据转换成text格式传递给page_text
(4.持久化存储(将爬取的数据存储在电脑里)
with open('./baidu.html','w',encoding='utf-8') as word:
#使用 with open() 在不需要访问文件的时候将其关闭避免调用close()错误而造成的数据错误
#第一个单引号里是在指定文件的名字,如果输入的文件名在系统中不存在则会创造文件 ;第二个单引号里面的w是写入,读是r ;encoding=utf-8的作用是声明python代码的文本格式是utf-8编码,也即告诉python解释器要按照utf-8编码的方式来读取程序。
word.write(page_text)
print('爬完了')
提示:这里统计学习计划的总量
CSDN 技术博客 1篇
明天要努力哦,为了更好的未来,更从容地面对生活。