目录
爬虫初步说明
html相关基础
urllib之读取网页内容
http相关基础
requests之webapi调用
爬虫,一句话来说,即模拟浏览器爬取一些内容,如自动下载音乐、电影、图片这种的
具体可能是直接访问网页进行解析,也可能是调用webapi直接获取数据,后者应该更多一些
html、js、css构成了html的三要素
from urllib.request import urlopen
url='http://www.baidu.com'
con=urlopen(url)
cons=con.read()
with open('./output.html','wb') as f:
f.write(cons)
print(cons)
这里是打开了百度首页,然后写入到一个本地html文件,注意这里使用wb方式写入(字节流)
注意:需要通过pip安装urllib
三次握手
四次挥手
http方法:get、post
import requests
import json
def fanyi(inputStr):
txt=input("请输入要翻译的内容:")
url="https://fanyi.baidu.com/sug"
data={
"kw":txt
}
result=requests.post(url,data=data)
# print(result.text)
# printInfo(result.json())
printInfo(result.json()["errno"])
# printInfo(type(result.json()))
print("翻译结果:")
for i in range(len(result.json()["data"])):
printInfo(str(i+1)+":"+result.json()["data"][i]["v"])
if __name__=="__main__":
fanyi("我的翻译机器人")
pass
这里一百度翻译接口为例,通过输入待翻译内容,然后调用翻译接口,将接口返回结果进行解析,输出翻译结果
注意:需要通过pip安装requests
主要用到的就是get、post
这里需要注意header、body这些参数,要根据实际网页请求的内容来,也可以先用postman、apipost测试
再一个需要注意的是,对于返回结果的解析,需要先清楚其类型,才可以更好的解析,如使用type()先打印下类型,就知道下一步要怎么解析了