向之所欣

Python爬虫基础之 Urllib

一、Urllib

1.爬虫概述

爬虫：网络爬虫，是一种按照一定规则，自动抓取互联网信息的程序或者脚本，其本质是模拟浏览器打开网页，获取网页中我们想要的数据。常用的百度、谷歌的搜索引擎也是一个爬虫，把互联网中的数据搜集组合起来便于用户检索。

注：爬虫并不是Python独有的，可以做爬虫的语言有很多例如：PHP, JAVA, C#, C++, Python，选择Python做爬虫是因为Python相对来说比较简单，而且功能比较齐全。

2.Urllib简介

Urllib 库，它是 Python 内置的 HTTP 请求库，也就是说我们不需要额外安装即可使用，它包含四个模块：

1.第一个模块 request，它是最基本的 HTTP 请求模块，我们可以用它来模拟发送请求，就像在浏览器里输入网址然后敲击回车一样，只需要给库方法传入 URL 还有额外的参数，就可以模拟实现这个过程了。

2.第二个 error 模块，即异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作，保证程序不会意外终止。

3.第三个 parse 模块是一个工具模块，提供了许多 URL 处理方法，比如拆分、解析、合并等的方法。

4.第四个模块是 robotparser，主要是用来识别网站的 robots.txt 文件，然后判断哪些网站可以爬，哪些网站不可以爬的，其实用的比较少。

简单来说：

1.urllib.request 负责请求；

2.urllib.error 异常处理模块；

3.urllib.parse url 负责解析；

4.urllib.robotparser 负责robots.txt文件的解析；

3.Urllib.request的基本使用

import Urllib.request
	url = 'http://www.baidu.com'	# 定义url
    
    response = urllib.request.urlopen(url)	# 模拟浏览器向服务器发送请求
    
    # print(type(response))	# 打印response的类型 
    
    # content = response.read() # 返回的是二进制字节码码
    
    # 利用decode('编码格式')将二进制字节码转换为字符串
    content = response.read().decode('utf-8')	# 接收内容
    
    print(content)

注：URL是对互联网上得到的资源的位置和访问方法的一种简洁表示，是互联网上标准资源的地址。简单地说URL就是web地址，俗称“网址”。

打印response 的类型为

1.http.client：HTTP 协议客户端；

2.HTTPResponse :

HTTPResponse实例表示客户端发出请求之后，服务端的 HTTP 响应，包含 http code、响应头、响应内容的。HTTPResponse继承自io.BufferedIOBase，拥有 IO 字节流的相关操作方法。HTTPResponse对象支持with上下文管理器，在with语句退出时会自动调用其close()方法。调用HTTPConnection.close()方法关闭套接字连接时也会自动调用HTTPResponse.close()。

4.response的类型和方法

这里的response是指 urllib.request.urlopen(url) 的返回值，实际上，reponse这个词可以换成任何一个，不过对于爬虫来说，一般用这个词代表request的返回值。

import urllib.request

url = 'http://www.baidu.com'

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(url)

# response的类型
# 运行下个语句可知，response的类型是HTTPResponse
# print(type(response))

# 按照一个字节一个字节的方式去读
# content = response.read()
# print(content)

# 返回多少个字节
# content = response.read(5)  读取5个字节
# print(content)

# 读取一行
# content = response.readline()
# print(content)

# 按行读取所有内容
# content = response.readlines()
# print(content)

# 返回状态码，如果是200，那么就证明代码逻辑没有问题
# print(response.getcode())

# 返回url地址
# print(response.geturl())

#获取状态信息
print(response.getheaders())

5.urlretrieve（）下载

urllib.request.urlretrieve(url, filename);

url代表的是下载的路径， filename代表文件的名字。

参数可以是赋值的形式，也可以直接写值。

eg：赋值的形式：

urllib.request.urlretrieve(url=url, filename=filename)

下面给出具体的代码示例，以下载网页源码为例：

import urllib.request

url_page = 'http://www.baidu.com'

urllib.request.urlretrieve(url_page, 'baidu.html')

注：根据下载内容的不同，文件名称的后缀也要做出相应的变化。

eg：网页源码-> .html

图片 -> .jpg

视频 -> .mp4

关于参数赋值和直接写值情况的选择：

若函数参数的顺序不乱，且两参数中间无其它参数，则可采用直接写值的写法。

若参数顺序打乱或顺序不乱两参数中间预留有其它参数（但没有用到）的情况需要赋值。

6.请求对象的定制

url的组成：

eg: https://cn.bing.com/search?q=周杰伦

协议：   http/https(更加安全)

主机（指域名）：   www.baidu.com

端口号： http: 80 https: 443 mysql:3306 oracle:1521 redis:6379 mongodb:27017

路径：search

参数：q=周杰伦

锚点: 锚记/锚点是网页制作中超级链接的一种，又叫命名锚记。它就像定位器一样是一种页面内的超级链接，可以迅速跳到某个节点。

在爬取某些网页时，很有可能会遇到反扒，所以我们需要伪装自己，尽量将自己伪装成正常的浏览器访问服务器。这时候就需要用到UA：User Agent中文名为用户代理，简称UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等。

而UA是需要放到请求头中的

eg:

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'
}

headers是字典类型的，但urllib.request.urlopen()不能接受字典类型的参数，所以需要用到请求对象的定制即：urllib.request.Request(url=url, headers=headers)

返回的对象一般命名为request，完整为: request = urllib.request.Request(url=url, headers=headers)

request 的类型为

爬取百度的完整代码示例：

import urllib.request

#定义url
url = 'https://www.baidu.com'

#请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'
}

#请求对象的定制，因为默认参数url和headers中还有data，所以采用赋值的方式
request = urllib.request.Request(url=url, headers=headers)

#模拟浏览器发送请求
response = urllib.request.urlopen(request)

#解析内容
content = response.read().decode('utf-8')

#输出获取的内容
print(content)

7.urllib_get请求

GET请求一般用于我们向服务器获取数据。

7.1quote()方法

当我们想要爬取搜索结果页面时：

我们通过搜索结果的页面复制的url是 https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E5%91%A8%E6%9D%B0%E4%BC%A6

可以看到 wd=周杰伦已经被自动转换为Unicode码的形式，可以通过更换wd后的值获取任意搜索结果的页面，例如：wd=毛不易就可以得到毛不易搜索页面的结果，不过这就碰到了一个问题，那就是网页不会识别中文，所以需要将中文毛不易转换为Unicode码值，这时就需要用到quote()方法了。

以获取毛不易搜索结果页面源码为例：

import urllib.request
# 导入此包以使用中文转换为Unicode码的函数
import urllib.parse

#原始url
base_url = 'https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd='
#中文转化为Unicode
name = urllib.parse.quote('毛不易')

url = base_url + name

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'
}

request = urllib.request.Request(url=url, headers=headers)

response = urllib.request.urlopen(request)

content = response.read().decode('utf-8')

print(content)

7.2urlencode()方法

与quote()方法类似，不同之处是urlencode()可以将多个中文转化为Unicode

以周杰伦搜索页面为例

import urllib.request
import urllib.parse

base_url = 'https://www.baidu.com/s?'

data = {
    'wd': '周杰伦',
    'sex': '男',
    'location': '中国台湾省'
}

#多个中文转Unicode
data = urllib.parse.urlencode(data)

url = base_url + data

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'
}

#请求对象的定制
request = urllib.request.Request(url=url, headers=headers)

#模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

content = response.read().decodea('utf-8')

print(content)

8.urllib_post请求

之前说过Request请求对象的里有data参数，它就是用在POST里的，我们要传送的数据就是这个参数data，data是一个字典，里面要匹配键值对。

以获取百度翻译为例

import urllib.request
import urllib.parse

# 这个网址是在sug headers中的Request URL（内容是单词的翻译）
# 如果复制翻译网址栏的url那么爬取的就不是单词翻译，具体表现获取的数据是否为json类型
url = 'https://fanyi.baidu.com/sug'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'
}

data = {
    'kw': 'spider'	# 爬取百度翻译中spider的单词解释
}

# post的请求的参数 必须要进行编码
data = urllib.parse.urlencode(data).encode('utf-8')

# post的请求的参数是不会拼接在url后面的，而是需要放在请求定制的参数中
request = urllib.request.Request(url=url, data=data, headers=headers)

resposne = urllib.request.urlopen(request)

# 返回的json数据，需要解析
content = response.read().decode('utf-8')
# print(type(content)) 	json字符串

import json

obj = json.loads(content)   #json字符串变成python字典
# print(type(obj))	 字典类型
print(obj)

在使用百度翻译时若想要翻译英文，就需要切换到英文输入法，否则在network中找不到name为 sug 的选项。

为什么进行encode(utf-8)的编码？

因为请求对象定制中，urllib.request.Request(url=url, data=data, headers=headers)中参数data的数据类型要求是bytes类型，所以需要惊醒encode()编码（对应的解码时 decode()）。

如何看出是json字符串？

因为返回的数据格式是{key:value, key:[{…}]}，即json数据的格式。

json字符串与json对象

（1）JSON字符串

JSON字符串与普通的字符串没有任何特殊的地方，但是之所以称为JSON字符串是因为，这个字符串符合json数据的格式

（2）JSON对象

JSON对象主要是在JavaScript的说法。在面向对象编程中，类的实例化叫做对象，对象拥有不同的属性，键值对就是对象的属性和值。

** python json模块的四种方法**

loads()：将json数据转化成dict数据
dumps()：将dict数据转化成json数据
load()：读取json文件数据，转成dict数据
dump()：将dict数据转化成json数据后写入json文件

9.get请求和post请求的区别

9.1两种请求的简单对比

在客户机和服务器之间进行请求-响应时，两种最常被用到的方法是：GET 和 POST。

GET - 从指定的资源请求数据；

POST - 向指定的资源提交要被处理的数据；

选项	GET	POST
后退按钮/刷新	无害	数据会被重新提交（浏览器应该告知用户数据会被重新提交）。
书签	可以被收藏为书签	不可以被收藏为书签
缓存	能被缓存	不能被缓存
编码类型	application/x-www-form-urlencoded	application/x-www-form-urlencoded或multipart/form-data。为二进制数据使用多重编码。
历史	参数保留在浏览器历史中	参数不会保留在浏览器历史中
对数据长度的限制	只允许ASCII字符	没有限制，也允许二进制数据
安全性	与POST相比，GET的安全性较差，因为发送的数据是URL的一部分	POST比GET更安全，因为参数不会被保存在浏览器历史或web服务器日志中。
可见性	数据在URL中对所有人都是可见的	数据不会显示在URL中

9.2抓取方式的异同

（1）Get方式

GET方法是最常见也是最简单的，HTTP默认的请求方法就是GET。

一般用于我们向服务器获取数据，可以直接将URL输入，不需要其它的转换，即所有需要请求的信息都包含在URL中。

* 没有请求体

* 数据必须在1K之内！

* GET请求数据会暴露在浏览器的地址栏中

常用的操作：

① 在浏览器的地址栏中直接给出URL，那么就一定是GET请求；

② 点击页面上的超链接也一定是GET请求；

③ 提交表单时，表单默认使用GET请求，但可以设置为POST；

get请求就是在url后面以拼接方式传参，但是如果参数是中文时需要转码处理，否则会报错。

（2）Post方式

post用于将数据发送到服务器来创建/更新资源。

通过post发送到服务器的数据存储在 HTTP 请求的请求主体中：

POST /test/demo_form.php HTTP/1.1
Host: w3school.com.cn
name1=value1&name2=value2

post要获取的内容只靠网址是不能获取到的，需要提交一些额外的信息。

这种信息在不同的网页中发挥不同功能，例如在查询天气的网页，可能就是要输入城市信息；在登录某些网页时，又是账号和密码的载体。

post请求：

① 数据不会出现在地址栏中

② 数据的大小没有上限

③ 有请求体

④ 请求体中如果存在中文，会使用URL编码！

一般HTTP请求提交数据，需要编码成URL编码格式，然后做为URL的一部分，或者作为参数传到Request对象中。

特殊点：
Request请求对象里有data参数，而post请求通过Request对象中的data属性来传参，用来存放请求体数据。
data是一个字典，里面要有匹配键值对。

10.urllib_Ajax

AJAX 是 Asynchronous JavaScript and XML（异步的 JavaScript 和 XML）的缩写。

AJAX 是与服务器交换数据并更新部分网页的艺术，在不重新加载整个页面的情况下，对网页的某部分进行更新。 传统的网页（不使用AJAX）如果需要更新内容，必需重载整个网页。

有些网页内容使用AJAX加载，只要记得，AJAX一般返回的是JSON,直接对AJAX地址进行post或get，就返回JSON数据了。

简而言之，AJAX和平时爬取的方式没有太大的不同，只是下载多页数据时，url可能只变化了一部分，只要改变这一部分就能达到更换另一个网页的作用。

eg：以豆瓣电影排行榜的前三页url为例

https://movie.douban.com/j/chart/top_list?type=5&#interval_id=100%3A90&action=&start=0&limit=20

https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=20&limit=20

https://movie.douban.com/j/chart/top_list?type=5&#interval_id=100%3A90&action=&start=40&limit=20

三个网页的url的格式相同，唯一的不同之处就是start=’ '这个属性，所以可以利用这个特性进行多个网页的下载。

10.1Ajax的get请求

和之前的爬虫下载数据相似，不同之处是这里是实现多页爬取。

以下载豆瓣排行榜的前十页数据为例；

import urllib.request
import urllib.parse

# 将各部分封装成方法

# 请求对象的定制
def create_request(page):
    base_url = 'https://movie.douban.com/j/chart/top_list?				type=5&interval_id=100%3A90&action=&'

	# 接在base_url后的属性
	data = {
    	start = (page-1) * 20, # start和页数的关系
    	limit = 20	# 一页有二十条数据
	}
    
    # 转换为Unicode编码
    data = urllib.parse.urlencode(data)	# get请求不需要encode('utf-8')编码
    
    url = base_url + data
    
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 	(KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'
    }

        # 请求对象的定制
    request = urllib.request.Reqeust(url=url, headers=headers)

	return request

# 获取返回内容
def get_content(request):
    response = urllib.request.urlopen(reqeust)
    content = response.read().decode('utf-8')

    return content

# 将数据保存到文件中
def down_load(page, content):
    with open('douban' + str(page) + '.json', 'w', encoding='utf-8') as fp:
        fp.write(content)
        
# 调用函数，下载数据
# 程序的入口
if __name__ == 'main':
    start_page = int(input('请输入起始页码：'))
    end_page = int(input('请输入结束页码：'))
    
    # range(a, b) 左闭右开
    for page in range(start_page, end_page+1):
        # 通过for循环对每一页进行请求对象的定制
        request = create_request(page)
        # 获取响应的数据
        content = get_content(request)
        # 下载数据到文件中
        down_load(page, content)

if name == ‘main’：的意义：
一个python文件通常有两种使用方法，第一是作为脚本直接执行，第二是 import 到其他的 python 脚本中被调用（模块重用）执行。因此 if name == ‘main’: 的作用就是控制这两种情况执行代码的过程，在 if name == ‘main’: 下的代码只有在第一种情况下（即文件作为脚本直接执行）才会被执行，而 import 到其他脚本中是不会被执行的。

10.2Ajax的post请求

以肯德基官网为例

import urllib.request
import urllib.parse

def create_reqeust(page):
	base_url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname'
	
	data = {
        'cname': '北京',
        'pid': '',
        'pageIndex': page,
        'pageSize': '10',
	}
	
	data = urllib.parse.urlencode(data).encode('utf-8')
	
	headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'
    }
    
    request = urllib.request.Request(url=base_url, data=data, headers=headers)
    
    return request
	
def get_content(reqeust):
    response = urllib.request.urlopen(reqeust)
    content = response.read().decode('utf-8')
    
    return content

def down_load(page, content):
    with open('kfc_' + str(page) + '.json', 'w', encoding='utf-8') as fp:
        fp.write(content)

if __name__ == 'main':
    start_page = int(input("请输入起始页码："))
    end_page = int(input("请输入结束页码："))

    for page in range(start_page, end_page + 1):
        # 请求对象定制
        request = create_request(page)
        # 获取网页源码
        content = get_content(request)
        # 下载
        down_load(page, content)

Ajax get请求和post请求的不同之处也就是urllib_get请求和urllib_post请求的不同之处。

11.异常

当代码出现异常时，捕捉这个异常，避免程序遇到异常而崩溃。

利用错误的url进行爬虫访问，从而捕捉异常

import urllib.request
import urllib.error

url = 'https://www.nibuhao.com'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'
}

try:
    request = urllib.request.Request(url=url, headers=headers)
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    print(content)
except urllib.error.HTTPError:
    print("系统正在升级......")
except urllib.error.URLError:
    print("系统正在升级......")

当 try：代码块出现错误时，将会捕捉异常，然后输出“系统正在升级”。

12.Cookie登录

12.1关于Cookie

（1）Cookie是什么?

Cookie 是浏览器访问服务器后，服务器传给浏览器的一段数据。
浏览器需要保存这段数据，不得轻易删除。
此后每次浏览器访问该服务器，都必须带上这段数据。

（2）Cookie的两个作用

识别用户登录
记录用户操作历史

12.2Cookie登录实例

下面以微博的Cookie登录为例：

import urllib.request

url = 'https://weibo.com/set/index'

# cookie    中携带着你的登录信息，如果有登录之后的cookie，那么我们就可以携带着cookie进入到任何页面
# referer   判断当前路径是不是由上一个路径进来的 一般情况下是做图片的防盗链
headers = {
    'cookie': 'PC_TOKEN=b8f7fc90b0; XSRF-TOKEN=b3l2PGnCDcoXHxTywucpnojA; SUB=_2A25JFErhDeThGeFN4lQX9CfNyTqIHXVqYDsprDV8PUNbmtAGLXndkW9NQ6TeAaBTHJqirM75ZCUBwjMaiU_P_qC2; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9Wh-Eo.u-BUA.hSDZlWi_0fj5JpX5KzhUgL.FoM01KqcSh.peoq2dJLoIp7LxKML1KBLBKnLxKqL1hnLBoMNe0.cSoB4eKzc; ALF=1710321201; SSOLoginState=1678785201; WBPSESS=d4xMu9nMFhY85YGY8BTO1g9EOrtW0yuonZm_34TC4IY9qWQIcXbFzn9FvhQhhMUxJQIAQDk677YrrNdq3i9wvhg_h3h0ZFxWvy75Ve_2HkGsyQ1IgoePm_vMWW-DUrIUY1LzJ55up6dRcEzYs9rPDQ==',
    'referer': 'https: //weibo.com/newlogin?tabtype=weibo&gid=102803&openLoginLayer=0&url=https%3A%2F%2Fweibo.com%2F',
    'user-agent': ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36',
}

# 请求对象的定制
request = urllib.request.Request(url=url, headers=headers)
# 模拟浏览器向服务器发送数据
response = urllib.request.urlopen(request)
# 获取响应的数据
content = response.read().decode('utf-8')

with open('weibo.html', 'w', encoding='utf-8') as fp:
    fp.write()

13.handler处理器

handler处理器的作用：
首先简单介绍一下handler处理器：handler处理器是继urlopen()方法之后又一种模拟浏览器向服务器发起请求的方法或技术。
它的意义在于使用handler处理器，能够携带代理ip，这为对抗反爬机制提供了一种策略(很多的网站会封掉短时间多次访问的ip地址)。

13.1 handler处理器的基本使用

例：使用handler处理器获取百度源码

import urllib.request

url = 'https://www.baidu.com'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'
}

request = urllib.request.Request(url=url, headers=headers)

response = urllib.request.urlopen(request)

content = response.read().decode('utf-8')

with open('baidu01.html', 'w', encoding='utf-8') as fp:
    fp.write(content)

13.2代理

（1）为什么要使用代理ip

随着信息的越来越庞大，获取数据的途径也不断增多，各个渠道都不会让使用者轻易的采集到本网的信息，而通过ip访问的频率可以对该ip进行判断，是否属于脚本机器在用，从而进行拦截，导致使用者不能采集该网站的信息。

（2）代理ip的来源

目前免费的ip来源有很多，比如：站大爷快代理芝麻代理等这些每日提供一些免费的ip网站，也可以进行注册长期使用。另外，我们也可以手动去采集一些ip，通过脚本自动判断该ip是否可用，加入到ip池中。

这里以使用代理爬取ip查询网为例：

import urllib.request

url = 'http://www.ip138.com/'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'
}

request = urllib.request.Request(url=url, headers=headers)

# 模拟浏览器访问服务器
# response = urllib.request.urlopen(request)
# 需要代理的ip
proxies = {
    'http': '182.139.110.52:9000'
}

# handler build_opener open
# handler 的参数是需要代理的ip（以字典的形式存在）
handler = urllib.request.ProxyHandler(proxies=proxies)

opener = urllib.request.build_opener(handler)

response = opener.open(request)

# 获取响应信息
content = response.read().decode('utf-8')

# 保存
with open('dali.html', 'w', encoding='utf-8') as fp:
    fp.write(content)

注：代理ip很有可能会失效，所以测试运行可能会不正确

13.3代理池

创建一个含有多个代理ip的字典列表，利用随机函数获取其中任意一个代理ip以达到换区不同ip爬取数据的目的

如：

import request
import random

# 代理池
proxies_pool = [
    {'http': '118.24.219.151:134222'},
    {'http': '118.24.219.151:134333'},
]

# 获取其中一个代理 
proxies = random.choice(proxies_pool)




# 需要代理的ip
proxies = {
    'http': '182.139.110.52:9000'
}

# handler build_opener open
# handler 的参数是需要代理的ip（以字典的形式存在）
handler = urllib.request.ProxyHandler(proxies=proxies)

opener = urllib.request.build_opener(handler)

response = opener.open(request)

# 获取响应信息
content = response.read().decode('utf-8')

# 保存
with open('dali.html', 'w', encoding='utf-8') as fp:
    fp.write(content)

注：代理ip很有可能会失效，所以测试运行可能会不正确

你可能感兴趣的:(Python爬虫基础,python,scrapy,beautifulsoup)

Python 成绩等级判定 Camellia 泡泡 python 笔记
score=int(input("请输入学生成绩:"))if90<=score<=100:grade="A"elif75<=score<=90:grade="B"elif60<=score<=75:grade="C"elifscore<60:grade="D"print("本次考试，等级为:",grade)运行结果：
【Python】PDFMiner.six：高效处理PDF文档的Python工具技术无疆 Python python pdf 开发语言 python3.11 人工智能数据挖掘机器学习
PDF是一种广泛使用的文件格式，特别适用于呈现固定布局的文档。然而，提取PDF文件中的文本和信息并不总是那么简单。幸好有许多Python库可以帮助我们，其中，PDFMiner.six是一个功能强大、专门用于PDF文档解析的库。⭕️宇宙起点什么是PDFMiner.six？主要功能安装PDFMiner.six♨️核心功能和代码示例1.提取PDF文档的纯文本2.从多个页面提取文本3.提取PDF中的表格内
25道Python练手题（附详细答案），赶紧收藏！_python题库字节全栈_rJF python 开发语言
importrandomasrdnumber=rd.randint(0,100)foriinrange(10):choice=int(input("请输入你要猜测的数字："))ifchoice>number:print("你猜大了")elifchoice0and5*x+3*y+z/3==100:count+=1print("="*60)print(f'第{count}种买法，公鸡买了{x}只，母鸡
python爱心代码高级 youyouxiong python 开发语言
在Python中，我们可以使用各种方法来绘制一个“爱心”形状。以下是一个使用turtle模块绘制爱心的高级示例。这个示例将使用更复杂的数学公式和图形操作来绘制一个更精致的爱心形状。importturtleimportmath#设置初始状态window=turtle.Screen()window.bgcolor("black")#设置背景色为黑色love=turtle.Turtle()love.sp
python画一个爱心戴子雯 python绘画 python
大家好这是我的地一篇博客，我要写一个关于python的文章我要用python写一个爱心。不说别的，先看效果效果如下：话不多说，上代码，在这之前要下载python下载这事咱们放在最后现在上代码！！！！！！！！！！！！！！importturtleastt.pensize(2)#笔大小2像素t.pencolor("red")#颜色为红色t.left
brew 安装pip_pip brew wget 安装 weixin_32612253 brew 安装pip
终端播放器安装教程从简书上看到一篇,终端实现网易云音乐的文章,并给出了一个github链接.心里有些痒痒,想看看是什么样子,于是尝试安装.安装过程中有些坎坷,记录以便以后查阅.程序实现是用Python写的.安装使用方式仅仅给了三行命令.安装$pipinstallnetease-musicbox$brewinstallmpg123使用$musicbox下载了源码后,不知道该如何安装.三行命令也是莫名
python实现绘制爱心函数（绘制过程） halo0416 python 开发语言
首先，确保已经安装了matplotlib库和numpy库。如果没有安装，可以通过pip来安装：pipinstallmatplotlibpipinstallnumpy了解心形函数公式：x(t)=y(t)=13cos⁡(t)−5cos⁡(2t)−2cos⁡(3t)−cos⁡(4t)定义函数：defheart_shape(t):x=16*np.sin(t)**3y=13*np.cos(t)-5*np.c
python 绘图（爱心） @小H python 开发语言
#-*-coding:utf-8-*-fromturtleimport*defcurvemove():foriinrange(200):right(1)forward(1)color('red','pink')begin_fill()left(140)forward(111.65)curvemove()left(120)curvemove()forward(111.65)end_fill()don
Mulvus向量库数据插入失败排查 Sirius Wu milvus
Mulvus是一个开源的向量数据库，要判断数据是否成功插入以及在插入失败时进行排查，可以参考以下方法：确认数据是否成功插入1.API返回结果在使用Mulvus提供的API插入数据时，API会返回相应的结果信息。以PythonSDK为例，插入数据的代码通常如下：frompymilvusimportconnections,Collection,FieldSchema,CollectionSchema,
使用 Python 绘制爱心图形（高级版）徐浪老师徐浪老师大讲堂 python 开发语言
以下是一段使用Python绘制高级“爱心”图案的代码，结合数学公式生成精美的爱心形状，并附加一些交互式的效果，比如渐变颜色或动态展示：动态渐变爱心importnumpyasnpimportmatplotlib.pyplotaspltimportmatplotlib.animationasanimation#设置爱心的数学公式defheart_shape(t):x=16*np.sin(t)**3y=
2025计算机毕设全流程实战指南：Java/Python+协同过滤+小程序开发避坑手册启点毕设课程设计 java python 大四论文指南查重降重技巧毕业设计 spring
技术框架的选择是项目开发的关键起点，直接影响开发效率和最终成果质量。然而，许多开发者在选择技术框架时面临困难：现有知识储备不足以支撑复杂项目需求，团队经验有限，框架选择缺乏前瞻性常导致后期问题。尽管技术框架的选择过程充满挑战，但合适的框架能为项目开发和维护奠定基础，而不当的选择则可能带来持续的技术债务和开发困扰。所以，建议对项目技术框架把握不好的同学，最好是找自己的研究生学长或者老师详细的把关机技
pycharm中使用anaconda部署python环境_pycharm部署配置anaconda环境教程 weixin_39796652
本篇文章小编给大家分享一下pycharm部署配置anaconda环境教程，小编觉得挺不错的，现在分享给大家供大家参考，有需要的小伙伴们可以来看看。pycharm部署anaconda环境Pycharm：python编辑器，社区版本Anaconda：开源的python发行版本(专注于数据分析的python版本)，包含大量的科学包环境基本指令(准备工作)：conda--version查看anaconda
python poetry添加某个git仓库的某个分支 waketzheng git
命令行不太清楚怎么弄，但可以通过编辑pyproject.toml实现实例：pypika-tortoise={git="https://github.com/henadzit/pypika-tortoise",branch="do-not-use-builder"}参考：WIPDonotcopypypikaquerybyhenadzit·PullRequest#1851·tortoise/torto
The following modules are *disabled* in configure script:_sqlite3 waketzheng python
Unabletoupgradepast3.6.9-#24byRosuav-PythonHelp-DiscussionsonPython.orgsudoaptinstalllibsqlite3-devcdPython-3.13.1./configure--enable-optimizations--enable-loadable-sqlite-extensionsmakesudomakealtins
CentOS7 python安装Ta-lib 0.6.x【talib不能直接安装，必须先安装ta_lib之c++库才可以】 weixin_43343144 服务器运维
正常流程：CentOS7python安装Ta-lib【talib不能直接安装，必须先安装ta_lib之c++库才可以】_centos7安装ta-lib-CSDN博客不同的版本参考如下！参考官方文档：ta-lib·PyPI务必下载匹配版本的【ta-lib-0.6.4-src.tar.gz】才可以正常安装$wgethttps://github.com/ta-lib/ta-lib/releases/do
【Kivy App】Pyjnius是什么？ Botiway 移动APP Kivy python
Pyjnius是一个Python库，用于在Python中访问Java类和方法，特别适用于在Kivy或其它Python应用中调用AndroidAPI。以下是Pyjnius的详细介绍、安装和使用方法：1.Pyjnius是什么？Pyjnius是一个Python-to-Java的桥接工具，允许Python代码直接调用Java类和方法。它基于JavaNativeInterface(JNI)，主要用于以下场景
基于Python PYQT5 的相机定时采集图像程序，GUI打包独立运行夏时summer time python qt 数码相机相机
基于PythonPYQT5编写相机定时采集图像及手动采集版本介绍Python3.6pyqt55.15.4pyqt5-tools5.15.4.3.2另外就是常用的cv2和numpy包fromPyQt5importQtCore,QtGui,QtWidgetsfromPyQt5importQtCore,QtGui,QtWidgetsimportcv2importnumpyasnpfromdatetime
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
Mac下载python并安装小小酥*
下载pythonPython官网：https://www.python.org/进入官网后点击download，选择MacOSX版本2.安装MAC系统一般都自带有Python2.x版本的环境，你也可以在链接https://www.python.org/downloads/mac-osx/上下载最新版安装。3.设置环境变量程序和可执行文件可以在许多目录，而这些路径很可能不在操作系统提供可执行文件的搜
Python使用minIO上传下载身似山河挺脊梁 python
前提VSCode+Python3.9minIO有Python的例子1.python生成临时文件2.写入一些数据3.上传到minIO4.获取分享出连接5.发出通知#创建一个客户端minioClient=Minio(endpoint='xx',access_key='xx',secret_key='xx',secure=False)#生成文件名current_datetime=datetime.dat
深入理解Python上下文管理器 ……-…… python 开发语言
1.什么是上下文管理器？2.with语句的魔法3.创建上下文管理器的两种方式3.1基于类的实现3.2使用contextlib模块4.异常处理1.什么是上下文管理器？上下文管理器（ContextManager）是Python中用于精确分配和释放资源的机制。它通过__enter__()和__exit__()两个魔术方法实现了上下文管理协议，确保即使在代码执行出错的情况下，资源也能被正确清理。#经典文件
【Appium】Appium征服安卓自动化：GitHub 10.5k+星开源神器，Python代码实战全解析！山河不见老 python 测试 appium android 自动化
Appium一、为什么开发者都在用Appium？二、环境搭建：5分钟极速配置2.1核心工具链2.2安卓设备连接三、脚本实战：从零编写自动化操作3.1示例1：自动登录微信并发送消息3.2示例2：动态滑动屏幕与数据抓取四、避坑指南4.1元素定位优化4.2稳定性增强4.3云真机集成五、生态扩展：超越安卓的自动化版图一、为什么开发者都在用Appium？万星认证：GitHub超10.5k+星标，活跃社区持续
基于Streamlit实现的音频处理示例大霸王龙音视频 ffmpeg
基于Streamlit实现的音频处理示例，包含录音、语音转文本、文件下载和进度显示功能，整合了多个技术方案：一、环境准备#安装依赖库pipinstallstreamlitstreamlit-webrtcaudio-recorder-streamlitopenai-whisperpython-dotx二、完整示例代码importstreamlitasstfromaudio_recorder_stre
npm错误 gyp错误 vs版本不对 msvs_version不兼容澎湖Java架构师前端 html npm node.js 前端
npm错误gyp错误vs版本不对msvs_version不兼容windowsSDK报错执行更新GYP语句第一种方案第二种方案执行更新GYP语句npminstall-gnode-gyp最新的GYP好像已经不支持Python2.7版本，npm会提示你更新都3.*.*版本安装Node.js的时候一定要勾选以下这个，会自动检测安装缺少的环境第一种方案管理员运行CMD（PowerShell也行）执行更新工具
深入了解 ArangoDB 的图数据库应用与 Python 实践 eahba 数据库 python 开发语言
在当前数据驱动的时代，对连接数据的高效处理和分析需求日益增长。ArangoDB作为一个可扩展的图数据库系统，能够加速从连接数据中获取价值。本文将介绍如何使用Python连接和操作ArangoDB，并展示如何结合图问答链来获取数据洞察。技术背景介绍ArangoDB是一个多模型数据库，支持文档、图和键值类型的数据存储。其强大的图形存储和查询能力使其成为处理复杂数据关系的理想选择。通过JSON支持和单一
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
一、Python入门基础 MeyrlNotFound python 开发语言
1.Python简介与环境搭建•了解Python的历史、特点和应用领域Python的历史Python是一种高级编程语言，由GuidovanRossum于1989年发明。Python语言的设计目标是让代码易读、易写、易维护，从而提高开发效率和代码质量。自其诞生以来，Python已从一个简单的系统管理工具发展成为一种广泛应用于多个领域的编程语言。Python的特点1.简单易学：Python的语法简洁明
npm error gyp info 计算机辅助工程 npm 前端 node.js
在使用npm安装Node.js包时，可能会遇到各种错误，其中gyp错误是比较常见的一种。gyp是Node.js的一个工具，用于编译C++代码。这些错误通常发生在需要编译原生模块的npm包时。下面是一些常见的原因和解决方法：常见原因及解决方法Python未安装或版本不兼容：Node.js使用Python来运行gyp。确保你的系统上安装了Python，并且版本与node-gyp兼容。通常推荐使用Pyt
股票量化交易开发 Yfinance 数字化转型2025 python 开发语言
以下是一段基于Python的股票量化分析代码，包含数据获取、技术指标计算、策略回测和可视化功能：pythonimportyfinanceasyfimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfrombacktestingimportBacktest,Strategyfrombacktesti
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj