学爬虫第一课

两个实例

1.爬虫初尝试-抓猫

基本原理很简单

  1. 使用urllib导入网页
  2. 写到本地

代码如下:

import urllib.request

contentL = input("请输入要下载的长度:")
contentW = input("请输入要下载的宽度:")

response = urllib.request.urlopen("http://placekitten.com/g/"+ contentL +"/" +contentW)
cat_img = response.read()

 with open("cat"+ contentL +"_" +contentW+".jpg","wb") as f:
    f.write(cat_img)

2.利用有道翻译实现文本翻译

原理如下:

  1. 通过网页审查元素,找到在翻译过程中本地电脑和服务器之间交换(Network中的header文件中),找到提交的【url】和【data】,备用
  2. 代码原理
    2.1 导入的urllib.request、import urllib.parse、import json分别实现三个功能:访问互联网、对【data】文件进行格式转换、对返回的文本美化

代码如下:

import urllib.request
import urllib.parse
import json

content = input("请输入要翻译的内容:")

url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"
data={}
data["i"] = content
data["from"]="AUTO"
data["to"]="AUTO"
data["smartresult"] = "dict"
data["client"] = "fanyideskweb"
data["salt"]="15624322689236"
data["sign"] = "95a82b8e1faeaba3e17b14d65d8139a0"
data["ts"]="1562432268923"
data["bv"] = "65db4e7e1a2a0ee160ea1e66436196cd"
data["doctype"] = "json"
data["version"]="2.1"
data["keyfrom"]="fanyi.web"
data["action"] =  "FY_BY_CLICKBUTTION"
data = urllib.parse.urlencode(data).encode("utf-8")

response =urllib.request.urlopen(url,data)
html=response.read().decode("utf-8")

target = json.loads(html)

print(target["translateResult"][0][0]["tgt"])

你可能感兴趣的:(学爬虫第一课)