python---爬虫51job(1)

这学期学的python,老师每次在上课前会布置作业,因此再次做下梳理,巩固知识点

①使用python编程实现上述过程(访问https://www.51job.com/,在搜索框输入关键字:python java,用右边的加号选择北京、上海、广州、深圳四个城市),不需要使用socket编程来做,使用书上提到的request库或者其它库都可以。)

这个问题是使用urllib.request和requests分别来做的,不得不说requests库的确很简单容易去访问

先分别来说吧:
(1)request库

课本上的代码看的乱七八糟的,所以在网上搜了下相关信息,进行整合得到的代码:

import urllib.request
#导入request库
url="https://search.51job.com/list/010000%252C020000%252C030200%252C040000,000000,0000,00,9,99,python%2520java,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare="
#url---网址(可直接在待爬虫网址上复制)
header={"User-Agent":"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.104 Safari/537.36"}
#谷歌浏览器--开发者工具--network--待爬虫网页部分--headers-request headers可以获得
req=urllib.request.Request(url,headers=header)
#请求参数设置
response=urllib.request.urlopen(req)
#进行请求链接并将网页内容保存在变量response中
html=response.read().decode('gbk')
#读取内容并进行转码————注意该网页使用的是gbk编码方式,不是utf-8
print(html)
#输出即可

(2)requests库

我电脑原来没有requests库,所以需要安装,而后来作业中需要使用BeautifulSoup时也需要进行安装,方式相同

cmd---py -3 -m pip install xxx(我使用的是python3.70版本的,xxx代表欲安装库名)

cmd---py -3 -m pip list(可查询已安装库)

当然也可以在python文件中找到

Scripts文件---

python---爬虫51job(1)_第1张图片

把这里面pip3直接用鼠标拖到cmd窗口 --输入 install xxx即可

(pip3.7,pip还没有试过)

接下来是代码部分,特别简单

import requests
re=request.get("https://search.51job.com/list/010000%252C020000%252C030200%252C040000,000000,0000,00,9,99,python%25E3%2580%2581java,2,1.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=4&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=")
re.encoding="gbk"
print(re.text)

嗯,这就是第一部分任务的代码

还得多实践呀

你可能感兴趣的:(python,基础)