知乎云烟

Python爬虫的urlib的学习（学习于b站尚硅谷）

一、页面结构的介绍
- 1.学习目标
- 2.为什么要了解页面（html）
- 3. html中的标签（仅介绍了含表格、无序列表、有序列表、超链接）
- 4.本节的演示
二、Urllib
- 1.什么是互联网爬虫？
- 2.爬虫核心
- 3.爬虫的用途
- 4.爬虫的分类（通用爬虫、聚焦爬虫）
- 5.反爬手段
- 6.urllib库使用
- 7.获取百度的页面源码的演示
- 8. urllib的1个类型和6个方法的演示
- - （1）数据类型是HTTPResponse
  - （2）read()方法
  - （3）readline()方法与readlines()
  - （4）返回状态码getcode()
  - （5）返回url地址geturl()
  - （6）获取状态信息getheaders()
- 9. urllib_下载（下载网页、图片与视频）的演示
- 10.请求对象的定制
- - （1）url的组成
  - （2）User Agent的引入
  - （2）User Agent（简称UA）介绍
  - （3）代码演示
- 11.编解码
- - （1）编码的由来
  - （2）get请求的quote方法
  - （3）get请求的quote方法的演示
  - （4）get请求的urlencode方法
  - （5）get请求的urlencode方法的演示
  - （6）寻找爬虫的请求地址的示例（以百度翻译翻译单词为例）
  - （7）post请求百度翻译的演示
  - （8）post请求百度翻译之详细翻译的演示（出现反爬的第二种手段，Cookie）
- 12. ajax的get请求
- - （1）ajax的get请求豆瓣电影第一页
  - （2）ajax的get请求豆瓣电影前十页
- 13. ajax的post请求
- 14.爬虫常见的两个异常（URLError\HTTPError）
- - （1）简介
  - （2）代码演示
- 15.微博的cookie登陆
- 16.Handler处理器的基本使用
- - （1）为什么要学习handler
  - （2）代码演示（handler的语法参考演示的代码）
- 17.代理
- - （1）代理的作用以及步骤
  - （2）代码演示
- 18.代理池

说明：该文章是学习 尚硅谷在B站上分享的视频 Python爬虫教程小白零基础速通的 p51-104而记录的笔记，笔记来源于本人，关于python基础可以去CSDN上阅读本人学习黑马程序员的笔记。 若有侵权，请联系本人删除。笔记难免可能出现错误或笔误，若读者发现笔记有错误，欢迎在评论里批评指正。

一、页面结构的介绍

1.学习目标

1简单了解html的基础语法。

2.为什么要了解页面（html）

如图，比如打开京东的页面，如果对京东售卖物品的分类感兴趣，想要爬取左侧信息。右键，打开检查。

之后，可以看到该网页的html代码，我们需要它的标签结构后，才能针对需要的汉字进行爬取。

3. html中的标签（仅介绍了含表格、无序列表、有序列表、超链接）

HTML是超文本标记语言（HyperText Markup Language）的缩写，是一种用于创建网页结构和内容的标记语言。它是构建和呈现网页的基本语言，用于描述网页的结构，包括文本、图像、链接、多媒体等元素的布局和排版。

4.本节的演示

如下图所示，打开软件，创建一个包含名为“爬虫的学习（尚硅谷）”文件夹的项目，然后创建文件“051_页面结构的介绍.html”。

编写代码后，直接点击浏览器，查看对应效果。代码如下，可参考注释进行理解。


<html lang="en">
    <head>
        <meta charset="UTF-8">  
        <title>标题title>  
    head>

    <body>

        
        <table width="200px" height="20px" border="1px">
            <tr>  
                <td>    
                    姓名  
                td>
                <td>
                    年龄
                td>
                <td>
                    性别
                td>
            tr>
            <tr>
                <td>
                    张三
                td>
                <td>
                    18
                td>
                <td>
                    男
                td>
            tr>
        table>

        
        <ul>
            <li>铁锅炖大鹅li>  
            <li>小鸡炖蘑菇li>
            <li>锅包肉li>
        ul>

        
        <ol> 
            <li>穿上衣服li>
            <li>下床li>
            <li>洗漱li>
        ol>

        
        <a href="http://www.atguigu.com/">尚硅谷a>

    body>

html>

二、Urllib

1.什么是互联网爬虫？

如果我们把互联网比作一张大的蜘蛛网，那一台计算机上的数据便是蜘蛛网上的一个猎物，而爬虫程序就是一只小蜘蛛，沿着蜘蛛网抓取自己想要的数据。

解释1：通过一个程序，根据Url(如http:/www.taobao.com)进行爬取网页，获取有用信息
解释2:使用程序模拟浏览器，去向服务器发送请求，获取响应信息

2.爬虫核心

1.爬取网页：爬取整个网页包含了网页中所有的内容
2.解析数据：将网页中得到的数据进行解析
3.难点：爬虫和反爬虫之间的博弈

3.爬虫的用途

4.爬虫的分类（通用爬虫、聚焦爬虫）

5.反爬手段

6.urllib库使用

7.获取百度的页面源码的演示

本次将以获取百度的页面源码为例，进行演示。首先，如下图，查看百度的页面源代码，知道待会需要获取的内容。然后从其中的html代码中找到编码格式，即html中的charset的值。

先打开软件，创建一个名为“053_urllib的基本使用”的py文件。

编写代码并运行。代码如下，可参考注释进行理解。然后将鼠标的光标放到运行结果上，使用搜索快捷键Ctr+F,可以搜索到“百度”。

"""
使用urllib来获取百度首页的源码
"""

import urllib.request

# 1.定义一个url,即要访问的地址
url = 'http://www.baidu.com'

# 2.模拟浏览器向服务器发送请求，即使用urlopen模拟浏览器打开网址
#   ---> 服务器收到请求后，会进行反馈,包含状态码、页内源码、URL地址等等
response = urllib.request.urlopen(url)

# 3.获取响应中的页面的源码
# read方法 返回的是字节形式的二进制数据 ————数据为b'....'的形式
# 需要将二进制的数据转换成字符串
# 解码 (二进制 ---> 字符串)   decode('编码格式')  编码格式对应于html中的charset的值
content = response.read().decode('UTF-8')

# 4.打印数据
print(content)

8. urllib的1个类型和6个方法的演示

（1）数据类型是HTTPResponse

创建一个名为“054_urllib的1个类型和6个方法”的py文件。

首先，如下编写代码，发现传回的数据类型是HTTPResponse，需要记住。

"""
urllib的1个类型和6个方法的演示
"""
import urllib.request

url = "http://www.baidu.com"

# 模拟浏览器向服务器发送请求
response =urllib.request.urlopen(url)

# 一个类型和六个方法
# response是HTTPResponse的类型
print(type(response))

（2）read()方法

read()方法是按照一字节一字节的方式读取数据，故效率不是很高，如下编写代码并运行。

"""
urllib的1个类型和6个方法的演示
"""
import urllib.request

url = "http://www.baidu.com"

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(url)

# 一个类型和六个方法
# response是HTTPResponse的类型
# # - 1个类型
# print(type(response))

# - 6个方法
# 按照一字节一字节的方式读取数据
content = response.read()
print(content)

如下图所示，仅仅在方法read()里面加一个数字“5”，可以达到仅读取5个字节的效果。

（3）readline()方法与readlines()

readline()方法仅仅只读取一行，如下编程并运行。

"""
urllib的1个类型和6个方法的演示
"""
import urllib.request

url = "http://www.baidu.com"

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(url)

# 一个类型和六个方法
# response是HTTPResponse的类型
# # - 1个类型
# print(type(response))

# - 6个方法

# # 按照一字节一字节的方式读取数据
# content = response.read()
# print(content)

# # 返回5个字节
# content = response.read(5)
# print(content)

# 仅读取一行
content = response.readline()
print(content)

readlines()方法按行读完，如下编程并运行。

"""
urllib的1个类型和6个方法的演示
"""
import urllib.request

url = "http://www.baidu.com"

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(url)

# 一个类型和六个方法
# response是HTTPResponse的类型
# # - 1个类型
# print(type(response))

# - 6个方法

# # 按照一字节一字节的方式读取数据
# content = response.read()
# print(content)

# # 返回5个字节
# content = response.read(5)
# print(content)

# # 仅读取一行
# content = response.readline()
# print(content)

# 按行读完
content = response.readlines()
print(content)

（4）返回状态码getcode()

返回的状态码如果是200，则证明逻辑没有错；如果返回404等逻辑就有错。如下编程并运行。

"""
urllib的1个类型和6个方法的演示
"""
import urllib.request

url = "http://www.baidu.com"

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(url)

# 一个类型和六个方法
# response是HTTPResponse的类型
# # - 1个类型
# print(type(response))

# - 6个方法

# 返回状态码 
print(response.getcode())

（5）返回url地址geturl()

如下编程并运行。

"""
urllib的1个类型和6个方法的演示
"""
import urllib.request

url = "http://www.baidu.com"

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(url)

# 一个类型和六个方法
# response是HTTPResponse的类型
# # - 1个类型
# print(type(response))

# - 6个方法

# 返回url地址
print(response.geturl())

（6）获取状态信息getheaders()

如下编程并运行。

"""
urllib的1个类型和6个方法的演示
"""
import urllib.request

url = "http://www.baidu.com"

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(url)

# 一个类型和六个方法
# response是HTTPResponse的类型
# # - 1个类型
# print(type(response))

# - 6个方法

# 获取状态信息
print(response.getheaders())

9. urllib_下载（下载网页、图片与视频）的演示

创建一个名为“055_urllib_下载”的py文件。

首先，如下图所示，编写代码来下载一个网页。

"""
urllib_下载的演示
"""
import urllib.request

# 下载网页
url_page = "http://www.baidu.com"
urllib.request.urlretrieve(url=url_page,filename='百度.html')  # 两个参数： url:网址（下载路径）;filename:文件名

对于图片，比如搜一搜汉服，把喜欢的图片的链接通过右键、点击“复制图像链接”复制下来，放到PyCharm中，然后进行编程并运行。

"""
urllib_下载的演示
"""
import urllib.request

# 下载网页
# url_page = "http://www.baidu.com"
# urllib.request.urlretrieve(url=url_page, filename='百度.html')  # 两个参数： url:网址（下载路径）;filename:文件名

# 下载图片
url_img = "https://tse2-mm.cn.bing.net/th/id/OIP-C.k_bHY2iwL4tU5aT-NTZZ0wHaK_?w=182&h=270&c=7&r=0&o=5&dpr=1.5&pid=1.7"
urllib.request.urlretrieve(url_img, "汉服.png")

对于视频，找到一个能爬的（网址为“https://haokan.baidu.com/v?vid=15872748450455265454”，好多目前爬不了），然右键点击检查，再点击箭头并点击需要锁定的视频处，再在一串代码中找到vedio后src内的视频网址，双击视频网址后再复制。将该网址放到PyCharm中，然后进行编程并运行。（视频文件录成jif太大，只能来点图）

"""
urllib_下载的演示
"""
import urllib.request

# 下载网页
# url_page = "http://www.baidu.com"
# urllib.request.urlretrieve(url=url_page, filename='百度.html')  # 两个参数： url:网址（下载路径）;filename:文件名

# 下载图片
# url_img = "https://tse2-mm.cn.bing.net/th/id/OIP-C.k_bHY2iwL4tU5aT-NTZZ0wHaK_?w=182&h=270&c=7&r=0&o=5&dpr=1.5&pid=1.7"
# urllib.request.urlretrieve(url_img, "汉服.png")

# 下载视频
url_vedio = "https://vd3.bdstatic.com/mda-pfkn5iha3dssefej/1080p/cae_h264/1687362569032960204/mda-pfkn5iha3dssefej.mp4?v_from_s=hkapp-haokan-hbe&auth_key=1690033157-0-0-2d1b3f972dbbf20fc58570f68a0feff9&bcevod_channel=searchbox_feed&cr=3&cd=0&pd=1&pt=3&logid=2357674890&vid=15872748450455265454&abtest=111611_3&klogid=2357674890"
urllib.request.urlretrieve(url_vedio, "视频.mp4")

10.请求对象的定制

（1）url的组成

注:上图所示的网址的前部分，粘贴到其他地方后有所变化，这是由于编码的不同导致的，粘贴到Visio后的编码是Unicode编码。另外，保留wd值前面的内容后，网页照样正常使用，说明wd后面的内容可能是广告等。

（2）User Agent的引入

如图，之所以爬取的信息比较少，是因为给的信息不够，导致遇到了反爬。产生这种反爬现象的原因就是缺少User Agent。

（2）User Agent（简称UA）介绍

因此，需要伪装一下，可以去网上查一下UA，选择需要的UA。或者如下图，查询并使用自己的UA。

（3）代码演示

先打开软件，创建一个名为“056_请求对象的定制”的py文件。

如下编写代码后，也能获取网页为“https”开头的url的页面源代码了。

import urllib.request

url = "https://www.baidu.com"
'''
    因为urlopen方法中不能存储字典，导致headers不能传递进去
    所以需要请求对象的定制
'''
# 请求对象定制
headers = {
    'User-Agent': 'ozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)'}
request = urllib.request.Request(url=url, headers=headers)  # 此处需关键字传参

response = urllib.request.urlopen(request)
content = response.read().decode('UTF-8')
print(content)

11.编解码

（1）编码的由来

注：a的ASCII码为97，A为65，0为48。

（2）get请求的quote方法

首先，看看get请求在浏览器的代码检查中的位置。

对于get请求的quote方法，它能将汉字等字符转成Unicode编码，代码示例如下。

import urllib.parse
print(urllib.parse.quote(‘周杰伦’))

（3）get请求的quote方法的演示

先打开软件，创建一个名为“057_get请求的quote方法”的py文件。

如下图，本次的需求是获取此网页（即“https://cn.bing.com/search?q=周杰伦”）的页面源码。

由于网址中存在汉字，需要将其中的汉字转变成Unicode编码，如下图，进行编码并运行，确认转换的网址没有问题。

"""
需求 获取“https://cn.bing.com/search?q=周杰伦”的网页源码
# https://cn.bing.com/search?q=%E5%91%A8%E6%9D%B0%E4%BC%A6
"""
import urllib.request
import  urllib.parse

# url = "https://cn.bing.com/search?q=周杰伦"
url = "https://cn.bing.com/search?q="

'''
    url需将汉字转变成Unicode编码，这是因为ASCII码中没有“周杰伦”这三个字
    需要使用urllib.parse下的quote方法
'''
url += urllib.parse.quote('周杰伦')
print(url)

继续编写代码，即可得到该网址的页面源码。

"""
需求 获取“https://cn.bing.com/search?q=周杰伦”的网页源码
# https://cn.bing.com/search?q=%E5%91%A8%E6%9D%B0%E4%BC%A6
"""
import urllib.request
import urllib.parse

# url = "https://cn.bing.com/search?q=周杰伦"
url = "https://cn.bing.com/search?q="

'''
    url需将汉字转变成Unicode编码，这是因为ASCII码中没有“周杰伦”这三个字
    需要使用urllib.parse下的quote方法
'''
url += urllib.parse.quote('周杰伦')
# print(url)  # 测试语句

# 请求对象定制（使用UA），解决反爬的第一种手段
headers = {
    'User-Agent': 'ozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)'
}
request = urllib.request.Request(url=url, headers=headers)

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

# 获取响应的内容
content = response.read().decode("UTF-8")

print(content)

（4）get请求的urlencode方法

对于get请求的quote方法，它只能将一个词转为Unicode编码。当一个网址中出现了多处为汉字的时候，比如“https://cn.bing.com/search?q=周杰伦&sex=男”，该方法使用起来很不方便。
get请求的urlencode方法的应用场景和语法如下图所示。

（5）get请求的urlencode方法的演示

先打开软件，创建一个名为“058_get请求的urlencode方法”的py文件。本次需要获取“https://cn.bing.com/search?q=周杰伦&sex=男&location=中国台湾省”的网页源码。

由于网址中存在汉字，需要将其中的汉字转变成Unicode编码，如下图，进行编码并运行，确认转换的网址没有问题。

"""
get请求的urlencode方法的演示 - 获取下面网址的页面源码
    https://cn.bing.com/search?q=周杰伦&sex=男&location=中国台湾省
"""

import urllib.request
import urllib.parse

# 请求资源路径
base_url = 'https://cn.bing.com/search?'
data = {
    'q': '周杰伦',
    'sex': '男',
    'location': '中国台湾省'
}
new_data = urllib.parse.urlencode(data)
url = base_url + new_data
print(url)  # 测试代码

继续编写代码，即可得到该网址的页面源码。

"""
get请求的urlencode方法的演示 - 获取下面网址的页面源码
    https://cn.bing.com/search?q=周杰伦&sex=男&location=中国台湾省
"""

import urllib.request
import urllib.parse

# 请求资源路径
base_url = 'https://cn.bing.com/search?'
data = {
    'q': '周杰伦',
    'sex': '男',
    'location': '中国台湾省'
}
new_data = urllib.parse.urlencode(data)
url = base_url + new_data
# print(url)  # 测试代码

# 请求对象定制（使用UA），解决反爬的第一种手段
headers = {
    'User-Agent': 'ozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)'
}
request = urllib.request.Request(url=url, headers=headers)

# 模拟服务器发送请求
response = urllib.request.urlopen(request)

# 获取网页源码的数据
content = response.read().decode('UTF-8')

print(content)

（6）寻找爬虫的请求地址的示例（以百度翻译翻译单词为例）

如下图，在百度翻译页面中打开检查里的网络，输入“spider”时，可以在网络里看到很多次请求组成新的页面，在这一堆请求中，哪些才是我们想要的数据呢？才是翻译的接口？该如何寻找呢？

显然图片格式“jpg”、“png”都不是，找其他的对应的负载，然后再慢慢观察。最后发现sug文件记录了输入的“spider”。

然后点击预览，进而验证这就是我们需要的数据，找到我们想要的接口（显示“spider”的sug请求）。

那么怎么通过爬虫程序获取到这个数据呢？查看该sug标头里面的信息，可以知道它的请求地址为“https://fanyi.baidu.com/sug”，请求方式为“POST”。在负载中，发现它的请求参数为“spider”。

参数寻找完毕。需要注意的是，后面在编程时，post请求的参数在转变成Unicode字符后，还需要进行“UTF-8”的编码；post参数是不能直接拼接在url（即请求地址）后面的，而是需要放在请求对象定制的参数中，这一点与get请求不同。

（7）post请求百度翻译的演示

先打开软件，创建一个名为“059_post请求百度翻译”的py文件。

如下进行编程并运行，发现获取的数据的格式为json。

"""
post请求百度翻译的演示
"""

import urllib.request
import urllib.parse

# 请求地址 - 从百度翻译的检查的网络里直接复制过来
url = 'https://fanyi.baidu.com/sug'
# post请求的参数  （必须要进行编码）
data = {
    'kw': 'spider'
}
data = urllib.parse.urlencode(data).encode('UTF-8')

# 请求对象定制（使用UA），解决反爬的第一种手段。
# Request还可以将参数和请求地址产生一种联系
# 注：post参数是不会直接拼接在url（即请求地址）后面的，而是需要放在请求对象定制的参数中。
headers = {
    'User-Agent': 'ozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)'
}
request = urllib.request.Request(url=url, data=data, headers=headers)

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

# 获取响应的数据
content = response.read().decode('UTF-8')

print(content)  # 测试代码
print(type(content))

继续编程并运行。

"""
post请求百度翻译的演示
"""

import urllib.request
import urllib.parse
import json

# 请求地址 - 从百度翻译的检查的网络里直接复制过来
url = 'https://fanyi.baidu.com/sug'
# post请求的参数  （必须要进行编码）
data = {
    'kw': 'spider'
}
data = urllib.parse.urlencode(data).encode('UTF-8')

# 请求对象定制（使用UA），解决反爬的第一种手段。
# Request还可以将参数和请求地址产生一种联系
# 注：post参数是不会直接拼接在url（即请求地址）后面的，而是需要放在请求对象定制的参数中。
headers = {
    'User-Agent': 'ozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)'
}
request = urllib.request.Request(url=url, data=data, headers=headers)

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

# 获取响应的数据
content = response.read().decode('UTF-8')

print(content)  # 测试代码
print(type(content))

# 将json字符串转为python中的json对象，这样就能显示其中的中文了
obj = json.loads(content)
print(obj)

（8）post请求百度翻译之详细翻译的演示（出现反爬的第二种手段，Cookie）

在百度翻译中，还有一个以“v2trans”开头的详细翻译的接口，同样的可以去它的请求地址、请求方法与请求参数，发现请求参数变多了。本次将演示详细翻译的数据爬取，目的是：将再次熟悉百度翻译的post请求以及认识一个新的反爬手段。

打开软件，创建一个名为“060_post请求百度翻译之详细翻译”的py文件。

输入下列代码后运行，会出现未知错误，这是因为未向服务器说明自己的请求标头的信息（第二个反爬手段）。

"""
post请求百度翻译之详细翻译的演示
"""
import urllib.request
import urllib.parse
import json

# 先将接口地址复制过来
url = 'https://fanyi.baidu.com/v2transapi?from=en&to=zh'
# 参数
data = {
    'from': 'en',
    'to': 'zh',
    'query': 'spider',
    'transtype': 'realtime',
    'simple_means_flag': '3',
    'sign': '63766.268839',
    'token': '9f53213d7ab95e5ac27fd0c681269057',
    'domain': 'common',
    'ts': '1690240111733'
}
# post请求的参数必须要进行编码(调用encode编码)
data = urllib.parse.urlencode(data).encode('UTF-8')
# 请求头
headers = {
    'User-Agent': 'ozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)'
}
# 请求对象定制（使用UA），解决反爬的第一种手段。
request = urllib.request.Request(url=url, data=data, headers=headers)

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

# 获取响应的数据
content = response.read().decode('UTF-8')

print(content)  # 测试代码
print(type(content))

# 将json字符串转为python中的json对象，这样就能显示其中的中文了
obj = json.loads(content)
print(obj)

于是将请求标头复制到代码中，并注释一行，发现能有结果。然后再在标头里慢慢注释，发现仅需要“Cookie”就能得到我们想要的结果。

12. ajax的get请求

本次将以第一个案例熟悉本次演示需要熟悉的网页，用第二个案例介绍ajax的get请求。

（1）ajax的get请求豆瓣电影第一页

如下图所示，打开豆瓣网站（https://movie.douban.com/），选择排行榜，选择想要关注的电影类型，比如“动作”。

如下图，打开检查里的网络，再刷新一下网页。现在需要思考哪一个接口才是我们需要找的？

然后一个一个接口不断寻找，找到后，发现接口如下图所示，而且每页是20个电影。

然后点击标头，发现这是一个get请求。

打开软件，创建一个名为“061_ajax的get请求豆瓣电影第一页”的py文件。

将刚刚所找到的接口的请求地址复制到PyCharm中，然后再进行编程并运行。

"""
获取豆瓣电影的第一页的数据并且保存起来
- get请求
"""
import urllib.request
import json

url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=0&limit=20'
headers = {
    'User-Agent': 'ozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)'
}

# 1.请求对象定制（使用UA），解决反爬的第一种手段
request = urllib.request.Request(url=url, headers=headers)
# 2.模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)
# 3.获取响应的数据
content = response.read().decode('UTF-8')
# 4.处理数据(本人加的，只获取感兴趣的内容。 如果有不懂的，可以去阅读本人的CSDN上的python入门中有关json的部分。)
# 假设本次只想储存序号和电影名字
content = json.loads(content)
content_changed = []
for index in content:
    content_changed.append({'rank': index['rank'], 'title': index['title']})

content_changed = json.dumps(content_changed,ensure_ascii=False)
# ensure_ascii=False表示不用转换成ASCII码  如果为了节省空间，请不要写ensure_ascii=False
# 5.数据下载到本地
'''
    open方法默认情况下使用的是gbk的编码
    - 如果我们要想保存汉字那么需要在open方法中指定编码格式为utf-8
'''
# 法1
# fp = open('douban.json', 'w', encoding='UTF-8')
# fp.write(content)
# fp.close()  # 别忘了关闭文件

# 法2
with open('douban.json', 'w', encoding='utf-8') as fp:
    fp.write(content_changed)

（2）ajax的get请求豆瓣电影前十页

如图所示，豆瓣排行榜的动作电影不止一页，鼠标滚轮向下滚动，会发现：随着页面的向下，它会不断地向下加载。这个操作的后端使用的是ajax。如何拿到前十页的数据是本次的关键。

打开软件，创建一个名为“062_ajax的get请求豆瓣电影前十页”的py文件。

先将第一页的数据的请求地址复制到PyCharm中。

然后，如下图所示，然后点击清空已有请求的按钮。接着，将网页向下滑。找到对应地址，并复制到PyCharm中。

同理，找到第三页的地址，并复制到PyCharm中。然后观察这几个地址，发现它们仅仅是“start”的值依次为0、20、40、60…，对应第1、2、3、…页，其他均没有变化。

删去上次运行的结果，即删去文件“douban.json”。

然后，如下进行编程并运行。在运行程序后产生的文件中使用快捷键Ctr+Alt+L,一以便查看文件里的内容。（运行程序时间有点长，说明程序有待优化。）

"""
获取豆瓣电影的前十页的数据并且保存起来
- get请求
"""
'''
# 第一页
# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=0&limit=20
# 第二页
# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=20&limit=20
# 第三页
# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=40&limit=20

# page  1   2   3   4       
# start 0   20  40  60      规律为( page - 1 ) * 20
'''
import urllib.request
import json
import urllib.parse


def create_request(page: int):
    """
    请求对象定制（使用UA），解决反爬的第一种手段
    :param page: 页码
    :return: 请求对象定制的结果request
    """
    # 请求地址
    base_url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&'
    data = {
        'start': (page - 1) * 20,
        'limit': 20
    }
    data = urllib.parse.urlencode(data)
    url = base_url + data
    # 请求头
    headers = {
        'User-Agent': 'ozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)'
    }
    request = urllib.request.Request(url=url, headers=headers)
    return request


def get_content(request):
    """
    获取page页数据
    :param request: 请求对象定制的结果
    :return: 第page页数据
    """
    # (1).模拟浏览器向服务器发送请求
    response = urllib.request.urlopen(request)
    # (2).获取响应的数据
    content = response.read().decode('UTF-8')
    return content


def deal_content(content, content_changed):
    """
    处理page页数据,假设本次只想储存序号和电影名字
    :param content: 从豆瓣上获取的某一页的原始数据
    :param content_changed: 根据需要修改后只含序号和电影名字的数据
    :return: 返回处理原始数据后的只含序号和电影名字的数据
    """
    content = json.loads(content)  # json字符串转成python中的json对象
    for index in content:
        content_changed.append({'rank': index['rank'], 'title': index['title']})
    return content_changed


def down_load(content_changed):
    """
    数据下载到本地
    :param content_changed: 处理过后的数据
    :return: 无返回值
    """
    # 将数据转为json类型
    content_changed = json.dumps(content_changed, ensure_ascii=False)
    # ensure_ascii=False表示不用转换成ASCII码  如果为了节省空间，请不要写ensure_ascii=False
    '''
        open方法默认情况下使用的是gbk的编码
        - 如果我们要想保存汉字那么需要在open方法中指定编码格式为utf-8
    '''
    # 法1
    # fp = open('douban.json', 'w', encoding='UTF-8')
    # fp.write(content)
    # fp.close()  # 别忘了关闭文件

    # 法2
    with open('douban.json', 'w', encoding='utf-8') as fp:
        fp.write(content_changed)


# 程序的入口
if __name__ == '__main__':
    # 1.输入起始、结束页码
    start_page = int(input("请输入起始的页码："))
    end_page = int(input("请输入结束的页码："))

    # 2.从豆瓣上获取对应数据
    content_changed = []
    for page in range(start_page, end_page + 1):
        # 2.1 第page页的请求对象定制
        request = create_request(page)
        # 2.2 获取page页数据
        content = get_content(request)
        # 2.3 处理page页数据(本人加的，只获取感兴趣的内容。 如果有不懂的，可以去阅读本人的CSDN上的python入门中有关json的部分。)
        # 假设本次只想储存序号和电影名字
        content_changed = deal_content(content, content_changed)

    # 3.数据下载到本地
    down_load(content_changed)

13. ajax的post请求

本次将以爬取肯德基的一些信息为例介绍ajax的post请求，具体为北京哪些位置有肯德基，爬取前10页就可以了。如下图，在百度上搜索“肯德基”，点进去后点击“餐厅查询”，将城市选为“北京”。

然后点击检查里的网络，选择第1页，发现有一个接口是我们需要的数据。

为什么说它是ajax请求呢？这是因为出现了“X-Requested-With:XMLHttpRequest”，另外，本次的请求是ajax的post请求。

打开软件，创建一个名为“063_ ajax的post请求肯德基官网”的py文件。

将第1页的请求地址以及负载里的表单信息复制到PyCharm中，同理将第2页、第3页的请求地址以及负载里的表单信息复制到PyCharm中。

观察这几页信息的规律，发现只有“pageIndex”的值不同，依次为1、2、3。

之后如下进行编程并运行，在查看生成的json文件时使用快捷键Ctr+Alt+L有助于浏览结果。

"""
北京哪些位置有肯德基?爬取前10页数据。
- post请求
"""
'''
# 第一页
# http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname
# cname: 北京
# pid:
# pageIndex: 1
# pageSize: 10
# 第二页
# http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname
# cname: 北京
# pid:
# pageIndex: 2
# pageSize: 10
# 第三页
# http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname
# cname: 北京
# pid:
# pageIndex: 3
# pageSize: 10
'''
import urllib.request
import urllib.parse
import json


def crate_request(page: int):
    """
    请求对象定制
    :param page: 页码
    :return: 某一页的请求对象定制
    """
    base_url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname'
    data = {
        'cname': '北京',
        'pid': '',
        'pageIndex': str(page),
        'pageSize': '10'
    }
    # post的参数需要编码
    data = urllib.parse.urlencode(data).encode('UTF-8')

    headers = {
        'User-Agent': 'ozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)'
    }
    return urllib.request.Request(url=base_url, data=data, headers=headers)


def get_content(request):
    """
    获取网页源码
    :param request: 请求对象定制的结果
    :return: 网页源码
    """
    response = urllib.request.urlopen(request)
    content = response.read().decode('UTF-8')
    content = json.loads(content)
    return content


def down_load(all_content):
    fp = open('kfc.json', 'w', encoding='UTF-8')
    all_content = json.dumps(all_content, ensure_ascii=False)
    fp.write(all_content)
    fp.close()


if __name__ == '__main__':
    start_page = int(input("请输入起始页码："))
    end_page = int(input("请输入结束页码："))

    all_content = []
    for page in range(start_page, end_page + 1):
        # 请求对象定制
        request = crate_request(page)
        # 获取网页源码
        content = get_content(request)
        # 将数据添加到存储所有数据的列表all_content中
        all_content.append(content)

    # 下载
    down_load(all_content)

14.爬虫常见的两个异常（URLError\HTTPError）

（1）简介

（2）代码演示

本次以捕获一个CSDN上的网页源码为例进行演示。如下图，点开一个CSDN链接。为了删去一些没用的广告，可以在网址中把离detail最近的那个问号以及后面的部分删除，留下的链接为“https://blog.csdn.net/sulixu/article/details/119818949”。

先打开软件，创建一个名为“064_爬虫的两种异常”的py文件。

如下进行编码，成功获得该链接的网页源码。

import urllib.request

url='https://blog.csdn.net/sulixu/article/details/119818949'
headers = {
    'User-Agent': 'ozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)'
}
# 请求对象定制
request=urllib.request.Request(url=url,headers=headers)
# 模拟浏览器向服务器发送请求
response=urllib.request.urlopen(request)
# 读取数据
content=response.read().decode('UTF-8')
print(content)

然后刻意在url后面加个“1”，发现报错，是一个HTTPError，该错误是URLError的子类。

用户往往看不懂错误，为了不让用户，所以如果再出现HTTPError，就显示“系统正在升级。。。”，所以如下加入try…except语句。

import urllib.request
import urllib.error

url='https://blog.csdn.net/sulixu/article/details/1198189491'
headers = {
    'User-Agent': 'ozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)'
}
try:
    # 请求对象定制
    request=urllib.request.Request(url=url,headers=headers)
    # 模拟浏览器向服务器发送请求
    response=urllib.request.urlopen(request)
    # 读取数据
    content=response.read().decode('UTF-8')
    print(content)
except urllib.error.HTTPError:
    print('系统正在升级。。。')

如果出现URLError，一般是主机地址的参数写错了，比如将url改成“http://www.goudan1111.com”，如下图所示。

同样，为了不直接显示报错，可以进行如下编码，然后运行。

import urllib.request
import urllib.error

# url='https://blog.csdn.net/sulixu/article/details/1198189491'
url ='http://www.goudan1111.com'
headers = {
    'User-Agent': 'ozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)'
}
try:
    # 请求对象定制
    request=urllib.request.Request(url=url,headers=headers)
    # 模拟浏览器向服务器发送请求
    response=urllib.request.urlopen(request)
    # 读取数据
    content=response.read().decode('UTF-8')
    print(content)
except urllib.error.HTTPError:
    print('系统正在升级。。。')
except urllib.error.URLError:
    print('我都说了，系统正在升级。。。')

15.微博的cookie登陆

对于某些需要登陆才能获取相关信息的网站上，此时需要cookie绕过登陆，进入某个页面后，然后才能做一些信息采集。这一节需进行获取微博（“https://weibo.cn/pub/”）上的一些信息进行演示。
由于本次演示需要登陆微博，就不再去跟着演示了。演示的代码无非是在捕获并保存页面源码的基础上修改请求头，对应参数为检查-网络-info-标头-请求标头里的一堆参数。这些参数中，cookie和referer起了主要作用。

"""
微博cookie登陆的演示
- 适用的场景：数据采集的时候   需要绕过登陆      然后进入到某个页面
"""
# 个人后息页面是Utf-8    但是还报错了编码错误     因为并没有进入到个人信息页面而是跳转到了登陆页面
# 那么登陆页面不是Utf-8 所以报错
# cookie中携带着你的登陆后息  如果有登陆之后的cookie 那么我们就可以携带着cookie.进入到任何页面
# referer   判断当前路径是不是由上一个路径进来的 一般情况下是做    图片防盗链

16.Handler处理器的基本使用

（1）为什么要学习handler

（2）代码演示（handler的语法参考演示的代码）

先打开软件，创建一个名为“066_handler处理器的基本使用”的py文件。

如下进行编码，通过使用handler处理器来获取百度首页的网页源码。

"""
handler处理器的基本使用的演示
- 需求：使用handler来访问百度 获取网页源码
"""
import urllib.request

# 要访问的地址
url = 'http://www.baidu.com'

# 请求头
headers = {
    'User-Agent': 'ozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)'
}

# 请求对象定制
request = urllib.request.Request(url=url, headers=headers)

# handler的使用基本上需要三个单词：handler、build_opener、open
# (1)获取handler对象
handler = urllib.request.HTTPHandler()
# (2)获取opener对象
opener = urllib.request.build_opener(handler)
# (3)调用open方法
response = opener.open(request)

content = response.read().decode('UTF-8')
print(content)

17.代理

（1）代理的作用以及步骤

（2）代码演示

先打开软件，创建一个名为“067_代理”的py文件。

如下图所示，搜索“ip”，将网址上带广告的部分删除，然后复制到PyCharm中，并把“https”改成“http”。

在下面代码的基础上，加上Cookies，然后运行可以得到百度搜索“ip”的网页源码。

import urllib.request

url = 'http://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=ip'
# 请求头
headers = {
    'User-Agent': 'ozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)'
}
# 请求对象定制
request = urllib.request.Request(url=url, headers=headers)
# 模拟浏览器访问服务器
response = urllib.request.urlopen(request)
# 获取响应的信息
content = response.read().decode('UTF-8')
# 保存
with open('代理.html', 'w', encoding='UTF-8') as fp:
    fp.write(content)

如下图所示，可以去“快代理”里面找一些代理ip。

如下继续编程，加上代理。运行后发现需要安全验证。后面想办法去windows里设置代理ip，然后得到Cookie，失败了。估计免费的ip不行，得买。

import urllib.request

url = 'http://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=ip'
# 请求头
headers = {
    'User-Agent': 'ozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)'
}
# 请求对象定制
request = urllib.request.Request(url=url, headers=headers)
# 模拟浏览器访问服务器
# response = urllib.request.urlopen(request)

# handler的使用基本上需要三个单词：handler、build_opener、open
# proxies为代理ip
proxies = {
    'http': '58.20.184.187:9091'  # 值为主机+端口号
}

handler = urllib.request.ProxyHandler(proxies=proxies)  # ProxyHandler有代理
opener = urllib.request.build_opener(handler)
response = opener.open(request)

# 获取响应的信息
content = response.read().decode('UTF-8')
# 保存
with open('代理.html', 'w', encoding='UTF-8') as fp:
    fp.write(content)

18.代理池

如果高频次使用一个ip去访问一个网站，这个ip很可能会被封。所以为了避免这种情况，提出了代理池的概念，里面有一堆高匿的ip。
先打开软件，创建一个名为“068_代理池”的py文件。

如下进行编程，由于个人还是不知道怎么获取对应ip的Cookie,因此进入百度还是需要安全验证。

import urllib.request
import random

url = 'https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=ip'
# 请求头
headers = {
    'User-Agent': 'ozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)'
}
# 请求对象定制
request = urllib.request.Request(url=url, headers=headers)
# 模拟浏览器访问服务器
# response = urllib.request.urlopen(request)

# handler的使用基本上需要三个单词：handler、build_opener、open
# proxies为代理ip
proxies_pool = [
    {'http': '58.20.184.187:9091'},
    {'http': '117.68.194.137:9999'}
]
proxies = random.choice(proxies_pool)

handler = urllib.request.ProxyHandler(proxies=proxies)  # ProxyHandler有代理
opener = urllib.request.build_opener(handler)
response = opener.open(request)

# 获取响应的信息
content = response.read().decode('UTF-8')
# 保存
with open('代理池.html', 'w', encoding='UTF-8') as fp:
    fp.write(content)

你可能感兴趣的:(未分类,python,爬虫,html)

python中的dict与set “光光” python
python内置字典：dict支持key-value存储方式，在放进去的时候，必须根据key算出value的存放位置，这样取出来的时候才能根据key拿到value。由于一个key只能对应一个value,所以，多次对一个key放入value,后面的值会将前面的值覆盖掉。如果key不存在，dict就会报错要避免key不存在的错误，有两种方法：1）通过in判断key是否存在>>>d=｛'a':'1'｝>
Python基础---Dict（字典） grace666 Python
1.字典以键值对组成，包含在{}中，字典的键必须为hashable，即不可变（字符串、元组、数字），并且唯一；值可以是任何类型#dict1={[1]:1}#报错：TypeError:unhashabletype:'list'#dict1={{1}:1}#报错：TypeError:unhashabletype:'set'dict1={(1,):1}print(dict1)#{(1,):1}dict1
Markdown 到 PowerPoint 转换工具——md2pptx 伍盛普Silas
Markdown到PowerPoint转换工具——md2pptxmd2pptxMarkdownToPowerPointconverter项目地址:https://gitcode.com/gh_mirrors/md/md2pptxmd2pptx是一个开源项目，它可以将Markdown格式的文本转换为PowerPoint演示文稿。该项目主要使用Python编程语言实现。项目基础介绍md2pptx是一个
Python网络爬虫-WebSocket数据抓取程序小勇 faiss 爬虫 python 网络协议 websocket 开发语言
目录前言1、WebSocket请求的分析通常涉及以下几个方面：2、利用WebSocket爬取数据总结最后，创作不易！非常感谢大家的关注、点赞、评论啦！谢谢三连哦！好人好运连连，学习进步！工作顺利哦！博主介绍：✌专注于前后端、机器学习、人工智能应用领域开发的优质创作者、秉着互联网精神开源贡献精神，答疑解惑、坚持优质作品共享。本人是掘金/腾讯云/阿里云等平台优质作者、擅长前后端项目开发和毕业项目实战，
[生活杂项][运动教程]自由泳 xcy6666 生活
https://v.youku.com/v_show/id_XMzgzMjkwMzg0MA==.html?spm=a2h0k.11417342.soresults.dtitlehttps://v.youku.com/v_show/id_XMzgxNjM2NjY4NA==.html?spm=a2h0k.11417342.soresults.dtitle
python 山脊图_（数据科学学习手札98）纯Python绘制满满艺术感的山脊地图 weixin_39780255 python 山脊图
1简介下面的这幅图可能很多读者朋友们都看到过，这是英国摇滚乐队JoyDivision在1979年发行的其第一张录音室专辑UnknownPleasures的封面，由艺术家PeterSaville基于射电脉冲星信号的数据图创作而成，成为了一种流行文化的符号标志。图1类似图1的风格，在地图制作中也存在着一种山脊地图，基于记录地表海拔信息的高程数据，我们可以利用水平方向上的基于实际位置海拔高度的曲线，来对
【Python 学习 / 5】函数详解（定义、参数、作用域、lambda、内置函数）卜及中 Python基础 python 学习开发语言
文章目录一、函数1.定义函数1.1基本函数定义1.2带参数的函数1.3带返回值的函数2.参数传递2.1位置参数2.2默认参数2.3可变参数2.3.1使用`*args`2.3.2使用`**kwargs`2.4参数的混合使用3.作用域3.1局部和全局变量3.2`global`关键字输出：3.3`nonlocal`关键字输出：4.lambda表达式4.1基本用法4.2与`map()`、`filter()
leetcode简单(181-200)python 九日火 leetcode python
762.PrimeNumberofSetBitsinBinaryRepresentation(e-181)GiventwointegersLandR,findthecountofnumbersintherange[L,R](inclusive)havingaprimenumberofsetbitsintheirbinaryrepresentation.(Recallthatthenumberofs
Java利用itextpdf实现pdf文件生成小码农吗日常栏目 java pdf ajax
前言最近公司让写一个数据页面生成pdf的功能，找了一些市面代码感觉都太麻烦，就自己综合性整合了一个便捷的工具类，开发只需简单组装数据直接调用即可快速生成pdf文件。望大家一起学习！！！代码获取方式：资源下载下载源码后台私信(一键三连哦！！！)二、前期准备1、html模版（放置接口所在项目的resourcess/templates/）需要准备一个要看到的pdf模版，利用html代码形式简单输出，其中
PaddleOCR面板恢复python脚本--针对pdf的面板恢复 zsh669 paddlepaddle ocr 百度 python pdf
问题在做一个项目的时候，使用PaddleOCR提供的模型，实现对图片或者pdf进行面板恢复，并保存为.docx文档。但是，官方的文档只提供了针对图片进行面板恢复的python脚本，没有提供pdf进行面板恢复的python脚本，官方只提供了pdf面板恢复的命令行使用方法，因此，我去看了PaddleOCR的源码，将命令行方法转换为python脚本准备工作环境配置和文档请参考：\ppstructure/
vue中onclick如何调用methods中的方法库库的写代码 js vue.js javascript 前端
文章目录前言一、代码一开始效果二、解决方案前言今天在开发vue项目中使用的第三方地图，地图上绘制的marker内容需要自定义，因为绘制的内容是原生HTML，所以遇到点击事件的时候就用了onclick来定义，此时想要调用methods中的方法，直接通过this.xx是获取不到的，因为onclick后面的事件是调用的window中的事件，所以需要把此事件绑定到window上即可一、代码一开始效果thi
html5 二进制数据解析,JavaScript读写二进制数据的方法详解如果有片海 html5 二进制数据解析
前言二进制是计算技术中广泛采用的一种数制。二进制数据是用0和1两个数码来表示的数，如果想要在前端中处理音频和视频。那你必须要对二进制数据有很好地掌握和操作能力。下面话不多说了，来一起看看详细介绍的吧类型化数组的出现类型化数组是HTML5中引入的API，它能够让开发者使用JavaScript直接操作二进制数据。在类型化数组出现之前，我们是无法直接通过JavaScript操作二进制数据，通常都是操作J
Python库 - transformers 司南锤 PYTHON库 python机器学习 python 开发语言
transformers库是由HuggingFace开发的一个非常流行的Python库，用于自然语言处理（NLP）任务。它提供了大量的预训练模型，这些模型可以用于各种NLP任务，如文本分类、问答、翻译、摘要生成等。以下是关于transformers库的详细介绍：1.主要特点预训练模型：transformers库包含了多种预训练的语言模型，如BERT、GPT、T5、XLNet等。这些模型在大规模文本
【NLP-04】tranformers库保姆级使用教程---以BERT模型为例云天徽上 NLP bert 人工智能深度学习自然语言处理机器学习 numpy 信息可视化
安装要安装一个非常轻量级的Transformers库，您可以执行以下步骤：1、打开终端或命令提示符。2、运行以下命令来安装Transformers库：pipinstalltransformers这将使用pip工具从PythonPackageIndex（PyPI）下载并安装Transformers库。请确保您的计算机上已经安装了pip。然后，您可以在Python代码中导入Transformers库：
利用 OpenCV 进行棋盘检测与透视变换萧鼎 python基础到进阶教程 opencv 人工智能计算机视觉
利用OpenCV进行棋盘检测与透视变换1.引言在计算机视觉领域，棋盘检测与透视变换是一个常见的任务，广泛应用于摄像机标定、文档扫描、增强现实（AR）等场景。本篇文章将详细介绍如何使用OpenCV进行棋盘检测，并通过透视变换将棋盘区域转换为一个标准的矩形图像。我们将基于一段Python代码进行分析，代码的主要任务包括：读取图像并进行预处理（灰度转换、自适应直方图均衡化、去噪）检测边缘并提取棋盘区域计
conda更换环境版本（比如torch版本）挨打且不服66 python python
找到想要的torch版本pytorch官网torch过往的版本创建新环境condacreate--namemyenvpython=3.8condaactivatemyenvconda虚拟环境中安装CUDA和CUDNN深度学习用显卡训练的时候，需要安装与显卡对应的cuda和cudnn。但不同的项目所支持的pytorch版本是不一样的，而pytorch版本和cuda版本之间又是互相依赖的，所以如果可以
流行编程语言全解析：优势、应用与短板 a小胡哦 python java c++c语言 javascript swift r语言
Python：优势Python以其简洁、易读的语法闻名，新手能快速上手。丰富的库和框架，能极大地提高开发效率。适用领域数据科学与分析：处理和分析大规模数据集，进行数据可视化。典型示例：Google用Python进行数据分析，处理海量数据以支持各种业务决策。机器学习与人工智能：构建和训练模型。典型示例：OpenAI在很多人工智能项目中广泛使用Python，如GPT系列模型的研发。网络爬虫：轻松从网页
用conda虚拟环境解决py+torch环境问题 SevenZS Note anaconda python
要事先安装wheelpipinstallwheelcondainstallnb_conda安装nb_conda这样可以在shell切换虚拟环境启动jupyternotebook后切换到虚拟环境创建虚拟环境condacreate-npython36python=3.6condaactivatepython36加载后再pip安装torch1.4+cu101所有版本torch放在某个文件夹，比如桌面后p
【报错】ImportError: cannot import name ‘get_refined_artifact_map‘ from ‘basicsr.losses.loss_util‘ 之群害马 python 深度学习 pytorch
ImportError:cannotimportname'get_refined_artifact_map'from'basicsr.losses.loss_util'(xxx/lib/python3.10/site-packages/basicsr/losses/loss_util.py)解决办法：找到basicsr库网站缺失的部分如下，补充到原来的xxx/lib/python3.10/site
Python 用pytorch从头写Transformer源码，一行一解释；机器翻译实例代码；Transformer源码解读与实战医学小达人 NLP LLMs GPT 深度学习人工智能 transformer python 机器学习
1.Transformer简介Transformer模型被提出的主要动机是解决序列处理任务的长距离依赖问题。传统的RNN和LSTM虽然能够处理序列任务，但因为它们在处理序列时需要一步步前进，因此其他信息无法立即对其产生影响，当序列变长时，长距离依赖的信息很可能会被丢失。为了解决这个问题，Transformer模型被设计出来，内核思想是利用自注意力机制，这样模型可以直接对输入序列的任意两个位置建立直
python正则表达式快速入门_Python 正则表达式入门 weixin_39955938 python正则表达式快速入门
本文主要为没有使用正则表达式经验的新手入门所写。转载请写明出处引子首先说正则表达式是什么？正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语：RegularExpression，在代码中常简写为regex、regexp或RE)，计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那
python正则表达式必知必会的基础豆子前端 python基础 python 正则表达式
文章目录正则表达式re.match()和re.search()SRE_Matchobjectre.match()re.search()（重点）re.flags小结re.sub()re.split()re.findall()re.fullmatch()re.compile()小结方法分类注意细节正则表达式网站参考资料正则表达式本文主要讲的是正则表达式在python中的简单使用，只介绍关键的几个方法函
在conda虚拟环境中安装jupyter lab-----deepseek问答记录溯源006 deepseek回答记录 conda jupyter ide
在Conda虚拟环境中安装JupyterLab的步骤如下：1.创建并激活Conda虚拟环境如果你还没有创建虚拟环境，可以使用以下命令创建一个新的虚拟环境并激活它：condacreate-nmyenvpython=3.x#将`myenv`替换为你的环境名称，`3.x`替换为所需的Python版本condaactivatemyenv2.安装JupyterLab在激活的虚拟环境中，使用以下命令安装Jup
单片机、嵌入式Linux开发大学自学路径 Oriental Son 嵌入式 MCU 单片机单片机学习 stm32 mcu linux
笔者所修读的专业为物联网工程，物联网工程是一门新兴的、热门的专业，其所涉及的学科更是又多又杂，既有计算机方向的编程语言（如C、C++、Java、Python等）、数据结构与算法、操作系统、移动端应用开发、机器学习等；软硬结合的方向有数字电路单片机开发、嵌入式Linux开发等；硬件、电路方向有电路分析、数字电路、模拟电路、传感器原理、RFID、FPGA开发等；涉及信号处理的有信号与系统、通信原理等。
literal用法格桑花浏览器 server html asp div
spell">Literal控件支持Mode属性，该属性用于指定控件对您所添加的标记的处理方式。可以将Mode属性设置为以下值：Transform。添加到控件中的任何标记都将进行转换，以适应请求浏览器的协议。如果向使用HTML外的其他协议的移动设备呈现内容，此设置非常有用。PassThrough。添加到控件中的任何标记都将按原样呈现在浏览器中。Encode。添加到控件中的任何标记都将使用HtmlE
深入解析 Poetry：Python 项目依赖管理的新宠，安装、使用及最佳实践潘智祥 python java 人工智能
在Python的世界里，管理项目依赖和虚拟环境一直是一个令人头疼的问题。虽然有pip和virtualenv这样的工具，但随着项目的复杂性增加，它们的局限性也逐渐显露出来。这时候，Poetry作为一个现代化的依赖管理工具应运而生。它不仅解决了项目依赖管理的问题，同时也集成了虚拟环境管理、发布等功能，成为了Python开发者的新宠。Poetry是什么？Poetry是一个用于管理Python项目依赖和构
【JAVA工程师从0开始学AI】，第二步：从强类型到动态语言：Java工程师的Python语法避坑指南架构默片 JAVA工程师从0开始学AI python java windows
这是一篇介绍Python语法与JAVA语法区别文章，让我们以对比的方式，来学习一下Python的语法。首先我们看一下下面的Python代码，和具体在java当中分别代表了什么意思numbers=[1,2,3,4,5,6,7,8,9]#①创建数字列表（像Java的ArrayList，但不用写泛型）odd_numbers=[]#②准备装奇数的空列表（类似Java的newArrayListnumbers
052_爬虫_爬虫相关概念（引用《尚硅谷Python爬虫教程（小）小白零基础速通》052章）一个有趣的昵称 python 爬虫开发语言
爬虫解释：通过程序，根据url（http://taobao.com）进行网页的爬取获取有用的信息实用程序模拟浏览器，去向服务发送请求，获取响应信息爬虫的核心爬取网页：爬取整个网页包含了网页中所的内容解析数据：将网页中得到的数据进行解析难点：爬虫和但爬虫之间的博弈爬虫的类型实例通用爬虫百度，360，Google，搜狗等搜索引擎功能访问网页-》抓取数据-》数据储存-》数据处理-》提供检索服务robot
为一位经验丰富的程序员量身定制Python学习路线人工智能首选语言：python Python新技术小黄人软件 chatGPT python 学习人工智能
人工智能首选语言：python必学。解释型语言(无编译这个环节)，直接执行代码，面向对象，脚本语言没基础在这里学为一位经验丰富的程序员量身定制Python学习路线，主要应关注于深化已有的编程知识和技能，并探索Python特有的高级特性。以下是推荐的学习路线：基础复习：如果对Python基础不熟悉，先从Python的基础语法、数据类型、控制流程等开始复习。高级语言特性：深入理解装饰器、上下文管理器、
强化学习：原理、概念与代码实践 AndrewHZ 深度学习新浪潮人工智能深度学习强化学习机器学习算法 deepseek
一、引言强化学习（ReinforcementLearning）作为机器学习的一个重要分支，旨在通过智能体（agent）与环境的交互，学习到最优的行为策略，以最大化长期累积奖励。它在机器人控制、游戏、自动驾驶、资源管理等众多领域都取得了显著的成功。本文将深入介绍强化学习的数学原理、核心概念，并通过公式推导来加深理解，同时结合一个具体的实例，使用Python语言进行代码实现，帮助读者全面掌握强化学习的
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

Python爬虫的urlib的学习（学习于b站尚硅谷）

目录

一、页面结构的介绍

1.学习目标

2.为什么要了解页面（html）

3. html中的标签（仅介绍了含表格、无序列表、有序列表、超链接）

4.本节的演示

二、Urllib

1.什么是互联网爬虫？

2.爬虫核心

3.爬虫的用途

4.爬虫的分类（通用爬虫、聚焦爬虫）

5.反爬手段

6.urllib库使用

7.获取百度的页面源码的演示

8. urllib的1个类型和6个方法的演示

（1）数据类型是HTTPResponse

（2）read()方法

（3）readline()方法与readlines()

（4）返回状态码getcode()

（5）返回url地址geturl()

（6）获取状态信息getheaders()

9. urllib_下载（下载网页、图片与视频）的演示

10.请求对象的定制

（1）url的组成

（2）User Agent的引入

（2）User Agent（简称UA）介绍

（3）代码演示

11.编解码

（1）编码的由来

（2）get请求的quote方法

（3）get请求的quote方法的演示

（4）get请求的urlencode方法

（5）get请求的urlencode方法的演示

（6）寻找爬虫的请求地址的示例（以百度翻译翻译单词为例）

（7）post请求百度翻译的演示

（8）post请求百度翻译之详细翻译的演示（出现反爬的第二种手段，Cookie）

12. ajax的get请求

（1）ajax的get请求豆瓣电影第一页

（2）ajax的get请求豆瓣电影前十页

13. ajax的post请求

14.爬虫常见的两个异常（URLError\HTTPError）

（1）简介

（2）代码演示

15.微博的cookie登陆

16.Handler处理器的基本使用

（1）为什么要学习handler

（2）代码演示（handler的语法参考演示的代码）

17.代理

（1）代理的作用以及步骤

（2）代码演示

18.代理池

你可能感兴趣的:(未分类,python,爬虫,html)