Hubert_xx

爬虫学习笔记-python基础+urllib

一、Python基础知识回顾
- 1、pip下载源
- 2、pycharm设置作者信息
- 3、python注释
- 4、变量
- - 4.1 类型转换
  - 4.2 字符串函数
  - - find函数
    - startswith和endswith函数
    - replace函数
    - split函数
    - strip函数：去空格
    - join函数
  - 4.3 列表的增删改查
  - - 4.3.1 添加元素
    - - append函数
      - insert函数
      - extend函数
    - 4.3.2 修改元素
    - 4.3.3 查找元素
    - 4.3.4 删除元素
  - 4.4 元组无法修改
  - 4.5 切片（适用于字符串、列表和元组）
  - 4.6 字典
  - - 4.6.1 获取value的方法
    - 4.6.2 修改和增加字典
    - 4.6.3 删除
    - 4.6.4 遍历字典的key和Value
- 5、运算符
- - 5.1 算术运算符
  - 5.2 比较运算符
  - 5.3 逻辑运算符
- 6、输入与输出
- 7、流程控制语句
- - if判断语句
  - if-else判断语句
  - if-elif判断语句
  - for循环
- 8、函数
- - 8.1 定义和调用函数
  - 8.2 形参和实参
  - 8.3 局部变量和全局变量
- 9、文件的读写
- 10、序列化和反序列化
- - 10.1 序列化：dump函数
  - 10.2 反序列化：load函数
二、Urllib使用（python自带）
- 2.1 使用urllib来获取百度首页的源码
- 2.2 一个类型和六个方法
- 2.3 urlretrieve下载网页/图片/视频
- 2.4 请求对象的定制
- 2.5 编解码
- - 2.5.1 get请求方式：urllib.parse.quote（）
  - 2.5.2 get请求方式：urllib.parse.urlencode（）
  - 2.5.3 post请求实现百度翻译功能
  - 2.5.4 post请求实现百度详细翻译功能
- 2.6 ajax的get请求
- 2.7 ajax的post请求
- 2.8 cookie登录
- 2.9 handler处理器
- 3.0 代理服务器-利用handler

一、Python基础知识回顾

1、pip下载源

`pip install python包`	默认是从 https://files.pythonhosted.org/ 网站（国外网站）上下载，故速度偏慢。
`pip install python包 -i 国内源地址`	中国科技大学：https://pypi.mirrors.ustc.edu.cn/simple/ 阿里云： http://mirrors.aliyun.com/pypi/simple/ 豆瓣：http://pypi.douban.com/simple/ 清华：https://pypi.tuna.tsinghua.edu.cn/simple/

2、pycharm设置作者信息

3、python注释

# 单行

'''
多行
'''

4、变量

变量即是可以变化的量，可以随时进行修改。
程序就是用来处理数据的，而变量就是用来存储数据的

4.1 类型转换

函数	说明
int(x)	转换为整数
float(x)	转换为浮点数
str(x)	转换为字符串
bool(x)	转换为布尔值

转换为整数

print(int('123'))   # 123  字符串转换为整数
print(int(123.78))   # 123  浮点型转换为整数，没有四舍五入，只取整数部分
print(int(True))   # 1  布尔型转换为整数，True为1，False为0

# 以下两种转换失败的情况
print(int('123.78'))   # 浮点型字符串不能转为整数
print(int('12ab'))   # 含非法字符转换失败

转换为浮点数

f1 = float('12.34')
print(f1)  # 12.34
print(type(f1))  #  将浮点型字符串转换成浮点型

f2 = float(12)
print(f2)  # 12.0
print(type(f2))  #  将整数转换成浮点型

转换为字符串

print(str(45))  # 45 将整数转换为字符串
print(str(34.56))  # 34.56 将浮点型转换为字符串
print(str(True))  # True 将布尔型转换为字符串

转换为布尔型

# 1、整数转布尔值，非0的为True，0为False
print(bool(-1))  # True
print(bool(1))  # True
print(bool(0))  # False

# 2、浮点型转布尔值，和整数一样
print(bool(-1.0))  # True
print(bool(1.0))  # True
print(bool(0.0))  # False

# 3、字符串（列表、元祖、字典）转布尔值，只要有内容就是True
print(bool('  '))  # True
print(bool('xx'))  # True
print(bool(''))  # False

# 4、总结为False的情况
print(bool(0))
print(bool(0.0))
print(bool(''))
print(bool(""))
print(bool([]))
print(bool(()))
print(bool({}))

4.2 字符串函数

find函数

find查找指定内容在字符串中是否存在，如果存在就返回该内容在字符串中第一次出现的开始位置索引值，如果不存在，则返回-1.

s1 = 'china'
print(s1.find('a'))  # 4

startswith和endswith函数

判断字符串是不是以谁谁谁开头/结尾。

s1 = 'china'
print(s1.startswith('a'))  # False
print(s1.endswith('a'))  # True

replace函数

替换字符串中指定的内容，如果指定次数count，则替换不会超过count次。

s1 = 'cccdd'
print(s1.replace('c','d'))  # ddddd
print(s1.replace('c','d',2))  # ddcdd

split函数

通过参数的内容切割字符串，且输出列表的形式。

s1 = '1#2#3#4#'
print(s1.split('#'))  # ['1', '2', '3', '4', '']
print(s1.split('2'))  # ['1#', '#3#4#']
print(s1.split('1'))  # ['', '#2#3#4#']

strip函数：去空格

s1 = '   a    '
print(len(s1))  # 8
print(s1.strip())  # a
print(len(s1.strip()))  # 1

join函数

. join()：将序列（也就是字符串、元组、列表、字典）中的元素以指定的字符连接生成一个新的字符串。

# 字符串
b='i love china !'
print(' '.join(b))  # i   l o v e   c h i n a   !
print('-'.join(b)) # i- -l-o-v-e- -c-h-i-n-a- -!
print('*'.join(b))  # i* *l*o*v*e* *c*h*i*n*a* *!

# 列表
a=['i','love','china','!']
print(' '.join(a))  # i love china !
print('-'.join(a)) # i-love-china-!
print('*'.join(a))  # i*love*china*!

# 元组
a=('i','love','china','!')
print(' '.join(a))  # i love china !
print('-'.join(a)) # i-love-china-!
print('*'.join(a))  # i*love*china*!

# 字典
d={"i":11,"love":54,"china!":25}
print(' '.join(d))  # i love china!
print('-'.join(d)) # i-love-china!

os.path.join()：将多个路径进行拼接。或者称之为合并目录。

import os
filedir = os.path.join('/home/ubuntu/a/','b/c/','d')
print(filedir)  # /home/ubuntu/a/b/c/d

4.3 列表的增删改查

4.3.1 添加元素

append函数

在末尾直接添加，不用重新赋值之类的

q=['xm','xh','xh']
temp=input('请输入新的学生姓名：')  # xz
print(q)   # ['xm', 'xh', 'xh']
q.append(temp)
print(q)  # ['xm', 'xh', 'xh', 'xz']

insert函数

在指定位置前插入元素

q=['xm','xh','xl']
q.insert(2,'xz')
print(q)  # ['xm', 'xh', 'xz', 'xl']

extend函数

合并两个列表，通过extend可以将另一个列表中的元素逐一添加到列表中

q=['xm','xh','xl']
b=['a','b','c']
q.extend(b)
print(q)  # ['xm', 'xh', 'xl', 'a', 'b', 'c']
print(b)  # ['a','b','c']

4.3.2 修改元素

通过下标赋值替换原来的元素为新的元素

q=['xm','xh','xl']
q[2]='xz'
print(q)  # ['xm', 'xh', 'xz']

4.3.3 查找元素

所谓的查找，就是看看指定的元素是否存在，主要是in 和 not in。

in（存在）,如果存在那么结果为true，否则为false
not in（不存在），如果不存在那么结果为true，否则false

list=['锅巴肉','大乱炖','红烧鱼']
food = input('请输入你想吃的食物：')  # 糖醋里脊
if food in list:
    print("有")
else:
    print("没有")

if food not in list:
    print("没有")
else:
    print("有")

4.3.4 删除元素

列表元素的常用删除方法有：

del：根据下标进行删除
pop：删除最后一个元素
remove：根据元素的值进行删除

# del
a=[1,2,3,4]
del a[2]
print(a)  # [1, 2, 4]
# pop
a=[1,2,3,4]
a.pop()
print(a)  # [1, 2, 3]
# remove
a=[1,2,3,4]
a.remove(2)
print(a)   # [1, 3, 4]

4.4 元组无法修改

定义只有一个元素的元组，需要在唯一的元素后写一个逗号

a=(11)
print(a,type(a))  # 11 
b=(11,)
print(b,type(b))  # (11,)

4.5 切片（适用于字符串、列表和元组）

索引是通过下标取某一个元素
切片是通过下标取某一段元素

s = 'hello world!'
print(s[4])  # o
print(s[3:7])  # lo w  左包右不包
print(s[1:])  # ello world!
print(s[:4])  # hell
print(s[1:8:2])  # el o

s= ['1','2','3','4']
print(s[1])  # 2
print(s[1:])  # ['2', '3', '4']
print(s[1:3]) # ['2', '3']

4.6 字典

4.6.1 获取value的方法

# 通过key获取value的方法：
# 使用[]的方法当字典中不存在key的时候，会发生异常
person = {'name':'张三','age':28}
print(person['name'])  # 张三
print(person['age'])   # 28
print(person['sex'])   # KeyError: 'sex'

# 不能使用.字典的方式来访问value
print(person.name)  # AttributeError: 'dict' object has no attribute 'name'

# 使用.get的方式时，如果key不存在返回none
print(person.get('name'))  # 张三
print(person.get('age'))   # 28
print(person.get('sex'))   # none

4.6.2 修改和增加字典

# 修改
person = {'name':'张三','age':28}
person['name'] = '李四'
print(person)  # {'name': '李四', 'age': 28}

# 添加
# 上面的方法如果key存在就是修改，不存在就是增加
person = {'name':'张三','age':28}
person['sex'] = '男'
print(person)  # {'name': '张三', 'age': 28, 'sex': '男'}

4.6.3 删除

del：删除字典中指定的某一个元素；或删除整个字典
clear：清空字典但是保留字典对象

# del
# 删除指定元素
person = {'name':'张三','age':28}
del person['age']
print(person)  # {'name': '张三'}
# 删除整个字典
person = {'name':'张三','age':28}
del person
# print(person)   NameError: name 'person' is not defined


# clear
# 清空字典，但是保留字典对象
person = {'name':'张三','age':28}
person.clear()
print(person)   # {}

4.6.4 遍历字典的key和Value

person = {'name':'张三','age':28}

for key in person.keys():
    print(key)
# name
# age

for value in person.values():
    print(value)
# 张三
# 28

for key,value in person.items():
    print(key,value)
# name 张三
# age 28

for item in person.items():
    print(item)
    print(type(item))
'''
('name', '张三')

('age', 28)

'''

5、运算符

5.1 算术运算符

算术运算符在字符串中的应用：

# 如果是两个字符串做加法运算，会直接把这两个字符串拼接成一个字符串。(数字+字符串会报错）
str1 = 'hello'
str2 = 'world'
print(str1+str2)  # helloworld

# 如果是数字和字符串做乘法运算，会将这个字符串重复多次。
str1 = 'hello'
print(str1*10)  # hellohellohellohellohellohellohellohellohellohello

5.2 比较运算符

5.3 逻辑运算符

and:只要有一个运算数是False，结果就是False;只有所有的运算数都为True时，结果才是True。
or:只要有一个运算数是True，结果就是True;只有所有的运算数都为False时，结果才是False。
not：布尔"非" - 如果 x 为 True，返回 False 。如果 x 为False，它返回 True。

6、输入与输出

# 输出
# 普通输出
print('故事里的小黄花，从出生那年就飘着')
# 格式化输出
# scrapy框架的时候
age = 18
name = '红浪漫晶哥'
# %s 代表的是字符串    %d 代表的是数值
print('我的名字是%s,我的年龄是%d' % (name,age))

# 输入
'''
 - input()的小括号中放入的是提示信息，用来在获取数据之前给用户的一个简单提示
 - input()在从键盘获取了数据以后，会存放到等号左边的变量中 
 - input()会把用户输入的任何值都作为字符串来对待
'''
name = input('请输入您的名字')
print('我的名字是:%s' % name)

7、流程控制语句

if判断语句

当满足一定条件时才会执行代码块语句，否则就不执行代码块语句。

if-else判断语句

if-elif判断语句

当xxx1满足时，执行事情1，然后整个if结束
当xxx1不满足时，那么判断xxx2，如果xxx2满足，则执行事情2，然后整个if结束
当xxx1不满足时，xxx2也不满足，如果xxx3满足，则执行事情3，然后整个if结束

score = int(input('请输入您的成绩'))

if score >= 90:
    print('优秀')
elif score >= 80:
    print('良好')
elif score >= 70:
    print('中等')
elif score >= 60:
    print('及格')
else:
    print('不及格')

for循环

8、函数

8.1 定义和调用函数

# 定义函数
def f1():
    print('xxxx1')
    print('xxxx2')

# 调用函数
f1()   # xxxx1  xxxx2

8.2 形参和实参

定义函数的时候 sum(a,b) 我们称a 和 b 为形式参数简称形参
调用函数的时候 sum（1,2）我们称1 和 2 为实际参数简称实参

# 定义函数
def sum(a,b):
    c=a+b
    print(c)

# 按照位置一一对应关系来传递参数
sum(100,200)  # 300
# 关键字传参
sum(b = 200,a = 100)  # 300

8.3 局部变量和全局变量

局部变量：就是在函数内部定义的变量，其作用范围是这个函数内部，即只能在这个函数中使用，在函数的外部是不能使用的。

全局变量：如果一个变量，既能在一个函数中使用，也能在其他的函数中使用，这样的变量就是全局变量。在函数外边定义的变量叫做全局变量，全局变量能够在所有的函数中进行访问。

9、文件的读写

参数	说明
r	只读，文件不存在，报错。
w	只用于写入，文件存在，清空后重新写入，不存在，创建后写入。
a	追加，存在就在原本基础上向后追加写入，不存在，创建后写入。
r+	读写，存在就在前面进行改写，写入几个就覆盖之前的结果，不存在报错。
W+	读写，文件存在，清空后重新写入，不存在，创建后写入，比w多了读的功能。
a+	读写，存在就在原本基础上向后追加写入，不存在，创建后写入。多了读。
rb wb ab rb+ Wb+ ab+	和上面一样，就是加了二进制的打开方式。

运行：

f = open('test.txt','w')
f.write('hello world,i am here\n'*5)
f.close()

生成test.txt

使用read(num)可以从文件中读取数据，num表示要从文件中读取的数据的长度（单位是字节），如果没有传入 num，那么就表示读取文件中所有的数据。

f = open('test.txt','r')
content = f.read(5)  # 最多读5个数据
print(content)

print('-'*30)

content = f.read()  # 从上次读取的位置继续读完剩下的
print(content)

f.close()

readlines可以按照行的方式把整个文件中的内容进行一次性读取，并且返回的是一个列表，其中每一行为列表的一个元素。

f = open('test.txt','r')
content = f.readlines()
print(content)
print(type(content))

for temp in content:
    print(temp)

f.close()

10、序列化和反序列化

文件的写入默认只能是字符串，但是如果是一个对象(例如列表、字典、元组等)，就无法直接写入到一个文件里，需要对这个对象进行序列化，反之，从文件的字节序列恢复到内存中，就是反序列化。Python中提供了JSON模块用来实现数据的序列化和反序列化。

10.1 序列化：dump函数

dump方法将对象转换为字符串的同时，指定一个文件对象，把转换后的字符串写入到这个文件里。

import json
f = open('a.txt','w')
names = ['z3','l4','w5','z6']
json.dump(names,f)
f.close()

10.2 反序列化：load函数

load方法可以将一个JSON字符串反序列化成为一个Python对象。

import json
f = open('a.txt','r')
result = json.load(f)
print(result)  # ['z3', 'l4', 'w5', 'z6']
print(type(result))  # 
f.close()


f = open('a.txt','r')
result = f.read()
print(result)  # ['z3', 'l4', 'w5', 'z6']
print(type(result))  # 
f.close()

二、Urllib使用（python自带）

2.1 使用urllib来获取百度首页的源码

# 使用urllib来获取百度首页的源码
import urllib.request

# (1)定义一个url  就是你要访问的地址
url = 'http://www.baidu.com'

# (2)模拟浏览器向服务器发送请求 response响应
response = urllib.request.urlopen(url)

# （3）获取响应中的页面的源码  content 内容的意思
# read方法  返回的是字节形式的二进制数据
# 我们要将二进制的数据转换为字符串
# 二进制--》字符串  解码  decode('编码的格式')
content = response.read().decode('utf-8')

# （4）打印数据
print(content)

2.2 一个类型和六个方法

一个类型 HTTPResponse
六个方法 read readline readlines getcode geturl getheaders

import urllib.request

url = 'http://www.baidu.com'

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(url)

# 一个类型和六个方法
# response是HTTPResponse的类型
print(type(response))   # 

# read：按照一个字节一个字节的去读
content = response.read()
print(content)

# 指定返回多少个字节
content = response.read(5)
print(content)

# readline：读取一行
content = response.readline()
print(content)
# 按行读完
content1 = response.readlines()
print(content)

# 返回状态码  如果是200了 那么就证明我们的逻辑没有错
print(response.getcode())

# 返回的是url地址
print(response.geturl())

# 获取是一个状态信息
print(response.getheaders())

2.3 urlretrieve下载网页/图片/视频

import urllib.request

# 下载网页
url_page = 'http://www.baidu.com'
# url代表的是下载的路径  filename文件的名字
urllib.request.urlretrieve(url_page,'baidu.html')

# 下载图片
url_img = 'https://img1.baidu.com/it/u=3004965690,4089234593&fm=26&fmt=auto&gp=0.jpg'
urllib.request.urlretrieve(url= url_img,filename='lisa.jpg')

# 下载视频
url_video = 'https://vd3.bdstatic.com/mda-'
urllib.request.urlretrieve(url_video,'syz.mp4')

2.4 请求对象的定制

UA介绍：User Agent中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等
语法：request = urllib.request.Request()

import urllib.request
url = 'https://www.baidu.com'
headers = {
    'User-Agent': ' Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Mobile Safari/537.36'
}

# 因为urlopen方法中不能存储字典 所以headers不能传递进去
# 因此，先用request请求对象的定制，然后再urlopen请求
request = urllib.request.Request(url=url,headers=headers)
response = urllib.request.urlopen(request)
content = response.read().decode('utf8')
print(content)

2.5 编解码

Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了。

get请求方式的参数必须编码，参数是拼接到url后面，编码之后不需要调用encode方法
post请求方式的参数必须编码，参数是放在请求对象定制的方法中，编码之后需要调用encode方法

2.5.1 get请求方式：urllib.parse.quote（）

将百度搜索的“周杰伦”网址粘贴到pycharm会自动解码成 https://www.baidu.com/s?wd=%E5%91%A8%E6%9D%B0%E4%BC%A6，原理就是urllib.parse.quote方法将中文解码成对应的unicode编码。

# 百度搜索获取周杰伦的网页信息
import urllib.request
import urllib.parse

url = 'https://www.baidu.com/s?wd='

# 请求对象的定制为了解决反爬的第一种手段
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}

# 将周杰伦三个字变成unicode编码的格式
# 我们需要依赖于urllib.parse
name = urllib.parse.quote('周杰伦')
print(name)  # %E5%91%A8%E6%9D%B0%E4%BC%A6
url = url + name  # 解码后完整的地址
print(url)  # https://www.baidu.com/s?wd=%E5%91%A8%E6%9D%B0%E4%BC%A6

# 请求对象的定制
request = urllib.request.Request(url=url,headers=headers)
# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)
# 获取响应的内容
content = response.read().decode('utf-8')
# 打印数据
print(content)

2.5.2 get请求方式：urllib.parse.urlencode（）

现实浏览器输入周杰伦，其实后面还有好多编码参数，因此还要将更多的筛选条件变成unicode字符。因此使用urllib.parse.urlencode（）解决多参数的问题。

2.5.3 post请求实现百度翻译功能

图1 寻找url

图2 寻找翻译功能

import urllib.request
import urllib.parse

# 耐心寻找符合条件的网址
url = 'https://fanyi.baidu.com/sug'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}

data = {
    'kw':'spider'
}

# post请求的参数 必须要进行编码,编码后还需调用encode
data = urllib.parse.urlencode(data).encode('utf-8')

# post的请求的参数 是不会拼接在url的后面的  而是需要放在请求对象定制的参数中
request = urllib.request.Request(url=url,data=data,headers=headers)

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

# 获取响应的数据
content = response.read().decode('utf-8')
print(content)  # 输出字符串的编码：{"errno":0,"data":[{"k":"spider","v":"n. \u8718\u86db; \u661f\u5f6
# 字符串--》json对象
import json
obj = json.loads(content)
print(obj)  
# {'errno': 0, 'data': [{'k': 'spider', 'v': 'n. 蜘蛛; 星形轮，十字叉; 带柄三脚平底锅; 三脚架'},

2.5.4 post请求实现百度详细翻译功能

找到:v2transapi?from

head需要全部导出且注释掉编码，其中cookie有决定作用：

import urllib.request
import urllib.parse

url = 'https://fanyi.baidu.com/v2transapi?from=en&to=zh'

# 对应网页上的内容，需要将Accept-Encodin注释掉，因为我们用的是utf-8
headers = {
    'Accept': '*/*',
    # 'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Connection': 'keep-alive',
    'Content-Length': '135',
    'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
    'Cookie': 'BIDUPSID=DAA8F9F0BD801A2929D96D69CF7EBF50; PSTM=1597202227; BAIDUID=DAA8F9F0BD801A29B2813502000BF8E9:SL=0:NR=10:FG=1; __yjs_duid=1_c19765bd685fa6fa12c2853fc392f8db1618999058029; REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; BDUSS=R2bEZvTjFCNHQxdUV-cTZ-MzZrSGxhbUYwSkRkUWk2SkxxS3E2M2lqaFRLUlJoRVFBQUFBJCQAAAAAAAAAAAEAAAA3e~BTveK-9sHLZGF5AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAFOc7GBTnOxgaW; BDUSS_BFESS=R2bEZvTjFCNHQxdUV-cTZ-MzZrSGxhbUYwSkRkUWk2SkxxS3E2M2lqaFRLUlJoRVFBQUFBJCQAAAAAAAAAAAEAAAA3e~BTveK-9sHLZGF5AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAFOc7GBTnOxgaW; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; BAIDUID_BFESS=DAA8F9F0BD801A29B2813502000BF8E9:SL=0:NR=10:FG=1; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; PSINO=2; H_PS_PSSID=34435_31660_34405_34004_34073_34092_26350_34426_34323_22158_34390; delPer=1; BA_HECTOR=8185a12020018421b61gi6ka20q; BCLID=10943521300863382545; BDSFRCVID=boDOJexroG0YyvRHKn7hh7zlD_weG7bTDYLEOwXPsp3LGJLVJeC6EG0Pts1-dEu-EHtdogKK0mOTHv8F_2uxOjjg8UtVJeC6EG0Ptf8g0M5; H_BDCLCKID_SF=tR3aQ5rtKRTffjrnhPF3-44vXP6-hnjy3bRkX4Q4Wpv_Mnndjn6SQh4Wbttf5q3RymJ42-39LPO2hpRjyxv4y4Ldj4oxJpOJ-bCL0p5aHl51fbbvbURvD-ug3-7qqU5dtjTO2bc_5KnlfMQ_bf--QfbQ0hOhqP-jBRIE3-oJqC8hMIt43f; BCLID_BFESS=10943521300863382545; BDSFRCVID_BFESS=boDOJexroG0YyvRHKn7hh7zlD_weG7bTDYLEOwXPsp3LGJLVJeC6EG0Pts1-dEu-EHtdogKK0mOTHv8F_2uxOjjg8UtVJeC6EG0Ptf8g0M5; H_BDCLCKID_SF_BFESS=tR3aQ5rtKRTffjrnhPF3-44vXP6-hnjy3bRkX4Q4Wpv_Mnndjn6SQh4Wbttf5q3RymJ42-39LPO2hpRjyxv4y4Ldj4oxJpOJ-bCL0p5aHl51fbbvbURvD-ug3-7qqU5dtjTO2bc_5KnlfMQ_bf--QfbQ0hOhqP-jBRIE3-oJqC8hMIt43f; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1629701482,1629702031,1629702343,1629704515; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1629704515; __yjs_st=2_MDBkZDdkNzg4YzYyZGU2NTM5NzBjZmQ0OTZiMWRmZGUxM2QwYzkwZTc2NTZmMmIxNDJkYzk4NzU1ZDUzN2U3Yjc4ZTJmYjE1YTUzMTljYWFkMWUwYmVmZGEzNmZjN2FlY2M3NDAzOThhZTY5NzI0MjVkMmQ0NWU3MWE1YTJmNGE5NDBhYjVlOWY3MTFiMWNjYTVhYWI0YThlMDVjODBkNWU2NjMwMzY2MjFhZDNkMzVhNGMzMGZkMWY2NjU5YzkxMDk3NTEzODJiZWUyMjEyYTk5YzY4ODUyYzNjZTJjMGM5MzhhMWE5YjU3NTM3NWZiOWQxNmU3MDVkODExYzFjN183XzliY2RhYjgz; ab_sr=1.0.1_ZTc2ZDFkMTU5ZTM0ZTM4MWVlNDU2MGEzYTM4MzZiY2I2MDIxNzY1Nzc1OWZjZGNiZWRhYjU5ZjYwZmNjMTE2ZjIzNmQxMTdiMzIzYTgzZjVjMTY0ZjM1YjMwZTdjMjhiNDRmN2QzMjMwNWRhZmUxYTJjZjZhNTViMGM2ODFlYjE5YTlmMWRjZDAwZGFmMDY4ZTFlNGJiZjU5YzE1MGIxN2FiYTU3NDgzZmI4MDdhMDM5NTQ0MjQxNDBiNzdhMDdl',
    'Host': 'fanyi.baidu.com',
    'Origin': 'https://fanyi.baidu.com',
    'Referer': 'https://fanyi.baidu.com/?aldtype=16047',
    'sec-ch-ua': '"Chromium";v="92", " Not A;Brand";v="99", "Google Chrome";v="92"',
    'sec-ch-ua-mobile': '?0',
    'Sec-Fetch-Dest': 'empty',
    'Sec-Fetch-Mode': 'cors',
    'Sec-Fetch-Site': 'same-origin',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest',
}

# 对应网页上的内容
data = {
    'from': 'en',
    'to': 'zh',
    'query': 'love',
    'transtype': 'realtime',
    'simple_means_flag': '3',
    'sign': '198772.518981',
    'tk': '5483bfa652979b41f9c90d91f3de875d',
    'domain': 'common',
}
# post请求的参数  必须进行编码 并且要调用encode方法
data = urllib.parse.urlencode(data).encode('utf-8')
# 请求对象的定制
request = urllib.request.Request(url = url,data = data,headers = headers)
# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)
# 获取响应的数据
content = response.read().decode('utf-8')

import json
obj = json.loads(content)
print(obj)

2.6 ajax的get请求

alt+ctrl+l ：自动分行
案例：爬取豆瓣电影动作类排行榜第一页

检查-找到top_list?type=5&interv

图1 寻找包含页面信息的链接

图2 获取URL，利用GET请求

import urllib.request

url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=0&limit=20'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'
}

# (1) 请求对象的定制
request = urllib.request.Request(url=url,headers=headers)

# （2）获取响应的数据
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
# print(content)

# (3) 数据下载到本地，生成douban1.json文件
# open方法默认情况下使用的是gbk的编码  如果我们要想保存汉字 那么需要在open方法中指定编码格式为utf-8
# encoding = 'utf-8'
# fp = open('douban.json','w',encoding='utf-8')
# fp.write(content)

with open('douban1.json','w',encoding='utf-8') as fp:
    fp.write(content)

案例：爬取豆瓣电影动作类排行榜前10页–利用ajax

'''
观察总结规律：

第一页：https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=0&limit=20
第二页：https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=20&limit=20
第三页：https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=40&limit=20

page    1  2   3   4
start   0  20  40  60
limit  20  20  20  20

start =（page - 1）*20
'''

# 下载豆瓣电影1-10页的数据

import urllib.request
import urllib.parse

# （1） 请求对象的定制:request
def creat_request(page):
    base_url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&'
    # get请求参数方式，后面不需要加encode
    data = {
        'start': (page - 1) * 20,
        'limit': 20
    }
    data = urllib.parse.urlencode(data)  # start=0&limit=20
    url = base_url + data
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
    }
    request = urllib.request.Request(url=url,headers=headers)
    return request

# （2） 获取响应的数据 content
def get_content(request):
    response = urllib.request.urlopen(request)
    content =  response.read().decode('utf-8')
    return content

# （3）下载
def down_load(page,content):
    with open('douban'+ str(page) +'.json', 'w', encoding='utf-8') as fp:
        fp.write(content)

# 1、程序入口
if __name__ == '__main__':
    start_page = int(input('起始页码：'))  # 1
    end_page = int(input('结束页码：'))   # 10

    for page in range(start_page,end_page+1):
        # 1.1 请求对象的定制(每一页） request
        request = creat_request(page)

        # 1.2 获取响应的数据 content
        content = get_content(request)

        # 1.3 下载
        down_load(page,content)

2.7 ajax的post请求

案例：KFC官网北京地区前10页餐厅地址

图1 寻找包含页面信息的接口

图2 获取URL，利用post请求

图3 获取post的相关data参数

'''
规律：
第1页：
http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname
cname: 北京
pid:
pageIndex: 1
pageSize: 10

第2页：
http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname
cname: 北京
pid:
pageIndex: 2
pageSize: 10
'''

import urllib.request
import urllib.parse

def create_request(page):
    base_url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname'
    data = {
        'cname': '北京',
        'pid':'',
        'pageIndex': page,
        'pageSize': '10'
    }
    data = urllib.parse.urlencode(data).encode('utf-8')
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
    }
    request = urllib.request.Request(url=base_url, headers=headers, data=data)
    return request

def get_content(request):
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    return content

def down_load(page,content):
    with open('kfc_' + str(page) + '.json','w',encoding='utf-8') as fp:
        fp.write(content)

if __name__ == '__main__':
    start_page = int(input('开始页码：'))
    end_page = int(input('结束页码：'))

    for page in range(start_page,end_page+1):
        # 请求对象定制
        request = create_request(page)
        # 响应
        content = get_content(request)
        # 下载
        down_load(page,content)

2.8 cookie登录

'''
适用的场景：数据采集的时候 需要绕过登陆 然后进入到某个页面

思路：请求头信息补充，将header中的信息都放进去，其中cookie起决定性因素，还有referer不同网站也会定期验证
'''


import urllib.request

url = 'https://weibo.cn/6451491586/info'

headers = {
    # ':authority': 'weibo.cn',
    # ':method': 'GET',
    # ':path': '/6451491586/info',
    # ':scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    # 'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-CN,zh;q=0.9',
    'cache-control': 'max-age=0',
    # cookie中携带着你的登陆信息   如果有登陆之后的cookie  那么我们就可以携带着cookie进入到任何页面
    'cookie': '_T_WM=24c44910ba98d188fced94ba0da5960e; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WFxxfgNNUmXi4YiaYZKr_J_5NHD95QcSh-pSh.pSKncWs4DqcjiqgSXIgvVPcpD; SUB=_2A25MKKG_DeRhGeBK7lMV-S_JwzqIHXVv0s_3rDV6PUJbktCOLXL2kW1NR6e0UHkCGcyvxTYyKB2OV9aloJJ7mUNz; SSOLoginState=1630327279',
    # referer  判断当前路径是不是由上一个路径进来的    一般情况下 是做图片防盗链
    'referer': 'https://weibo.cn/',
    'sec-ch-ua': '"Chromium";v="92", " Not A;Brand";v="99", "Google Chrome";v="92"',
    'sec-ch-ua-mobile': '?0',
    'sec-fetch-dest': 'document',
    'sec-fetch-mode': 'navigate',
    'sec-fetch-site': 'same-origin',
    'sec-fetch-user': '?1',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',
}
# 请求对象的定制
request = urllib.request.Request(url=url,headers=headers)
# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)
# 获取响应的数据
content = response.read().decode('utf-8')

# 将数据保存到本地
with open('weibo.html','w',encoding='utf-8')as fp:
    fp.write(content)

2.9 handler处理器

虽然用urllib.request.Request(url,headers,data)解决了urllib.request.urlopen(url)不能定制请求头的问题，但是随着业务逻辑的复杂，如每次登陆cookie动态变化和代理动态变化的情况，利用Handler定制更高级的请求头，就不用每次单独定制了。

基本应用：

# 需求 使用handler来访问百度  获取网页源码

import urllib.request

url = 'http://www.baidu.com'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}

request = urllib.request.Request(url = url,headers = headers)

# handler   build_opener  open

# （1）获取hanlder对象
handler = urllib.request.HTTPHandler()

# （2）获取opener对象
opener = urllib.request.build_opener(handler)

# (3) 调用open方法
response = opener.open(request)

content = response.read().decode('utf-8')

print(content)

3.0 代理服务器-利用handler

import urllib.request

url = 'http://www.baidu.com/s?wd=ip'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}

# 1、原始方法
# 请求对象的定制
request = urllib.request.Request(url = url,headers= headers)

# 模拟浏览器访问服务器
response = urllib.request.urlopen(request)

# 获取响应的信息
content = response.read().decode('utf-8')

# 保存
with open('daili1.html','w',encoding='utf-8')as fp:
    fp.write(content)

# 2、Handler方法利用代理ip
# 请求对象的定制
request = urllib.request.Request(url = url,headers= headers)

# 代理ip
proxies = {
    'http':'20.74.169.104:8118'
}
# handler  build_opener  open
handler = urllib.request.ProxyHandler(proxies = proxies)

opener = urllib.request.build_opener(handler)

response = opener.open(request)

# 获取响应的信息
content = response.read().decode('utf-8')

# 保存
with open('daili2.html','w',encoding='utf-8')as fp:
    fp.write(content)

代理池：

# 创建代理池
proxies_pool = [
    {'http':'118.24.219.151:16817'},
    {'http':'118.24.219.151:16817'},
]

import random

proxies = random.choice(proxies_pool)

你可能感兴趣的:(爬虫,python,爬虫,学习)

JDK8 Stream 数据流效率分析，Java开发你需要了解的那些事气质大叔程序员后端面试 java
此外还有一系列特化流，如IntStream，LongStream，DoubleStream等），Java8引入的的Stream主要用于取代部分Collection的操作，每个流代表一个值序列，流提供一系列常用的聚集操作，可以便捷的在它上面进行各种运算。集合类库也提供了便捷的方式使我们可以以操作流的方式使用集合、数组以及其它数据结构；作为阅读福利，小编也整理了一些Java学习笔记（包含面试真题+脑图
「Python数据分析」Pandas基础，筛选数据利器：布尔索引奕澄羽邦 python 数据分析 pandas
我们在处理数据的时候，数据筛选是一个重要的过程。利用布尔索引，我们可以选择需要的数据区间。布尔索引，是利用各种不等式，以及与或非操作，来对数据区间进行选择。在pandas中，与操作，对应的是&这个符号，表示选取两个数据集重合的部分。或操作，对应的是|这个符号，表示选择两个数据集中，只要在一个数据集中出现的部分。非操作，对应的是~这个符号，表示选取一个数据集中，相反的部分。我们下面通过具体的例子，来
【数学建模】灰色关联分析模型详解与应用烟锁池塘柳0 数学建模数学建模算法
灰色关联分析模型详解与应用文章目录灰色关联分析模型详解与应用引言灰色系统理论简介灰色关联分析基本原理灰色关联分析计算步骤1.确定分析序列2.数据无量纲化处理3.计算关联系数4.计算关联度灰色关联分析应用实例实例：某企业生产效率影响因素分析灰色关联分析在各领域的应用灰色关联分析的Python实现灰色关联分析的局限性结论引言在数据分析领域，我们经常面临样本量少、信息不完全、数据不确定性高的情况。传统的
数据分析_python进行数据筛选1_行筛选 Monkey*王 python 数据分析 pandas
以titanic的训练数据为例进行展示，为了简化取前十行为例首先导入模块，导入数据importpandasaspdimportnumpyasnpdf=pd.read_csv(r"C:\Users\admin\Desktop\train.csv")df=df.head(10)df.index=['a','b','c','d','e','f','g','h','i','g']筛选单行1.利用df[行索
MyBatis-Plus中使用@Transactional注解的5大陷阱，你中招了吗？墨瑾轩 Java乐园 mybatis
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣MyBatis-Plus中使用@Transactional注解的5大陷阱，你中招了吗？在使用MyBatis-Plus进行持久层开发时，事务控制是确保数据一致性的重要手段。然而，在实践中，不当的使用@Transactional注解可能导致各种意想不到的问题。本文
学习积累规划一个DBA的成功之路小藤椅 Oracle基础知识数据库 db2 sql server informix ibm oracle
一个DBA的数据库学习经验：选定发展方向1999年，我在开始读研时就给自己确定了以后的发展方向。当时有两个方向：网络，数据库技术。因为在2000年之时，网络大热，市场上拥有CCNP、CCIE证书的人特别牛。所以我当时也考下了CCNP证书，但后来发现网络方向涉及很多硬件层面的东西，这些都对厂商的依赖性太强，个人发挥空间不大。而我喜欢钻研，所以慢慢开始转向专攻数据库技术。在认准数据库这个方向后，我开始
Python的那些事第四十六篇：基于属性的测试库hypothesis研究暮雨哀尘 Python的那些事 python 开发语言属性测试库 hypothesis 执行流程构建
一、引言（一）研究背景随着软件系统复杂性的不断增加，软件测试在确保软件质量方面的重要性愈发凸显。传统测试方法在面对大规模、复杂软件系统时，往往存在测试用例设计不全面、测试执行效率低下等问题。基于属性的测试作为一种新兴的测试方法，通过定义软件系统的属性来指导测试用例的设计与执行，为解决上述问题提供了新的思路。（二）研究意义本研究旨在深入探讨基于属性的测试库的构建与应用，以提高软件测试的效率和质量，降
C语言经典算法之二叉树的后序遍历（递归实现） JJJ69 C语言经典算法算法 c语言开发语言数据结构
目录前言A.建议B.简介一代码实现二时空复杂度A.时间复杂度：B.空间复杂度：三优缺点A.优点：B.缺点：四现实中的应用前言A.建议1.学习算法最重要的是理解算法的每一步，而不是记住算法。2.建议读者学习算法的时候，自己手动一步一步地运行算法。tips：文中的（如果有）对数，则均以2为底数B.简介在C语言中，二叉树的后序遍历（PostorderTraversal）是一种按照“左子树-右子树-根节点
【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练 Donvink 大模型 #AIGC stable diffusion AIGC 人工智能机器学习深度学习
目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
开源模型应用落地-qwen模型小试-调用Qwen2-7B-Instruct-进阶篇（十二）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言经过前五篇“qwen模型小试”文章的学习，我们已经熟练掌握qwen大模型的使用。然而，就在前几天阿里云又发布了Qwen2版本。无论是语言模型还是多模态模型，均在大规模多语言和多模态数据上进行预训练，并通过高质量数据进行后期微调以贴近人类偏好。本文将介绍如何使用Transformers库进行模型推理（相较于qwen1系列，使用方式上有较大的调整），现在，我们赶紧跟上脚步，去体验一下新版本模型
3月20日复盘四万二千正式复盘 python 前端机器学习
挑战全栈第八天！今天更新Python中的迭代器和生成器，以及函数式编程的内容。8.3super().init()super().__init__()是Python中用于调用父类（基类）构造函数的一种方式。它通常用于子类的构造函数中，以确保父类的构造函数被正确调用和初始化。这在继承（inheritance）中尤为重要，因为父类的初始化代码可能包含设置实例变量或执行其他重要的初始化任务。classPa
Python + Qt Designer构建多界面GUI应用程序：Python如何调用多个界面文件懒大王爱吃狼 python python qt 命令模式 mysql 数据库 Python基础开发语言
引言QtDesigner是一个用户友好的图形用户界面设计工具，它可以帮助开发人员通过拖放的方式快速创建界面。在实际开发中，往往需要设计多个界面文件，并在Python代码中进行统一管理和使用。本文将介绍如何在Python中使用QtDesigner设计好的多个界面文件的常用方法。方法一：单独加载并显示如果界面文件相对独立，并且没有复杂的依赖关系，可以考虑单独加载并显示每个界面文件。fromPyQt5i
PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验
Java IDEA中Gutter Icons图标的含义路宇 java笔记 java intellij-idea 开发语言 gutter-icons 图标 Java开发工具
前些天发现了一个蛮有意思的人工智能学习网站,8个字形容一下"通俗易懂，风趣幽默"，感觉非常有意思,忍不住分享一下给大家。点击跳转到教程前言：很多人刚开始用IDEA来学习编程，会发现下面这些图标。但是我们有时候并不知道它的含义和设置显示与隐藏，下面给大家讲解一下装订线图标位于左侧编辑器中。它们调用一些基本操作以及其他特定于框架和技术的功能。设置步骤File->Setting进到idea的设置页面。接
STM32F407 SPI1源代码 heraldww keil ARM stm32 单片机嵌入式硬件
头文件#ifndef__spi1_PA567_H#define__spi1_PA567_H#include"sys.h"#include"project_config.h"#include"gpio.h"////本程序只供学习使用，未经作者许可，不得用于其它任何用途//ALIENTEKSTM32F407开发板//SPI驱动代码//正点原子@ALIENTEK//技术论坛:www.openedv.co
【科大讯飞笔试题汇总】2024-04-21-科大讯飞春招笔试题-三语言题解(CPP/Python/Java) 春秋招笔试突围最新互联网春秋招试题合集 python java 开发语言春招笔试互联网大厂笔试题
大家好这里是KK爱Coding，一枚热爱算法的程序员✨本系列打算持续跟新科大讯飞近期的春秋招笔试题汇总～ACM银牌|多次AK大厂笔试｜编程一对一辅导感谢大家的订阅➕和喜欢KK这边最近正在收集近一年互联网各厂的笔试题汇总，如果有需要的小伙伴可以关注后私信一下KK领取，会在飞书进行同步的跟新，5月1日之前限时免费领取哦，后续会由ACM银牌团队持续维护~。文章目录01.硬币最少组合问题问题描述输入格式输
如何快速提取PDF中的图片？这款免费工具让你事半功倍！ 10211234567890 pdf编辑 pdf pdf提取图片 pdf数据提取 pdf提取
在日常学习和工作中，PDF文件几乎成了我们处理文档的标配。但你是否遇到过这样的烦恼：想从PDF里提取图片，却只能手动截图，效率低还容易模糊？尤其是面对几十页的复杂文档，简直让人抓狂……别急！今天分享一个亲测高效的解决方案——完全免费、无需注册、一键提取PDF图片的工具，3分钟搞定难题！为什么你需要专业的PDF图片提取工具？手动截图太麻烦：图片位置分散、尺寸不一，截图后还需裁剪整理，耗时耗力。图片质
华为ensp--BGP路径选择Community 华为路由bgp
学习新思想，争做新青年，今天学习的是BGP路径选择Community实验目的·理解团体属性的概念与作用·熟悉运用团体属性来控制路由传递的方法·理解No-Export、No-Advertise、No-Export-Subconfed属性的区别实验内容本实验网络中，R1属于AS100，R2、R3和R4属于AS编号为200的一个联盟，R5属于AS300。在联盟AS200中，R2和R4属于成员AS2001
Pycharm python解释器 unsupported python 3.1 解决大表哥在曾母暗沙 Python PyCharm python pycharm ide 解释器模式
Pycharm环境unsupportedpython3.1解决1.问题重现2.原因分析3.解决方法1.问题重现之前使用Pycharm2024.1.1的时候，环境配置的Python3.11.9，现在改成使用Pycharm2020.2.2，结果Python解释器显示“unsupportedpython3.1”，如下图：2.原因分析因为Pycharm2020.2.2支持的Python最高版本就是Pyth
计算机网络笔记再战——理解几个经典的协议HTTP章4 charlie114514191 计算机网络学习计算机网络笔记 http 学习网络协议网络
计算机网络笔记再战——理解几个经典的协议10HTTP章4确保Web安全的HTTPSHTTP是不安全的，它使用的是明文传递，这意味着潜在的报文纂改。这里我们将学习更加安全的HTTPS协议通信使用明文（不加密），内容可能会被窃听不验证通信方的身份，因此有可能遭遇伪装无法证明报文的完整性，所以有可能已遭篡改HTTP本身没有办法加密，但是可以跟SSL（SecureSocketLayer）或者是TLS（Tr
【MYSQL学习】5分钟学会MySQL登录，新手也能轻松搞定？墨瑾轩 MySql入门~精通 mysql 学习 adb
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣5分钟学会MySQL登录，新手也能轻松搞定？引言嘿，小伙伴们！今天我们来聊聊MySQL的登录问题。对于初学者来说，登录数据库可能是你接触MySQL的第一步，也是最重要的一步。那么，MySQL是如何登录的呢？有哪些常见的问题需要注意？别急，今天我就带你一步步了解
知识库在意图识别中扮演着**数据支撑**和**语义理解辅助**的双重角色 PersistDZ 大数据与AI 人工智能
知识库在意图识别中扮演着数据支撑和语义理解辅助的双重角色，而训练智能客服的意图识别Agent需要结合知识库的结构化数据与机器学习技术。以下是详细解析：一、知识库在意图识别中的作用1.提供标注数据意图标签定义：知识库中存储了预先定义的意图分类体系（如“订单查询”“退换货”“投诉”等），为模型提供明确的训练目标。标注样本：知识库包含大量用户对话历史及其对应的意图标签，是训练监督学习模型的核心数据源。2
K8S学习之基础四十：配置altermanager发送告警到钉钉群云上艺旅 K8S学习 kubernetes 学习钉钉 prometheus 云原生容器
配置altermanager发送告警到钉钉群创建钉钉群，设置机器人助手(必须是管理员才能设置)，获取webhookwebhook：https://oapi.dingtalk.com/robot/send?access_token=25bed933a52d69f192347b5be4b2193bc0b257a6d9ae68d81619e3ae3d93f7c6#创建cm，配置钉钉群信息vialertm
dig 命令深入学习服务器linuxdns解析
一、dig命令有什么用dig命令（DomainInformationGroper）是一个用于查询DNS(域名系统）记录的强大工具，它提供了详细的DNS信息，主要用于帮助用户诊断、调试和验证与域名解析相关的问题。除了dig命令，还有一种跟dig功能是差不多的命令nslookup二、dig命令安装如果您的Linux系统默认没有安装dig，可能会提示dig:commandnotfound。请使用以下命令
申请 Let's Encrypt 的免费 TLS 证书实现网站的 https 访问 python
因为这个使用apt安装的python第三方包的版本为什么这么滞后？原因，所以我不是用sudo把证书弄到系统路径，而是选择到普通用户路径下面╭─pon@aliyun2core2GB~/certbot╰─➤tree.├──config│ ├──accounts│ │ └──acme-v02.api.letsencrypt.org│ │ └──directory│ │ └──9401598
一切皆是映射：DQN训练加速技术：分布式训练与GPU并行 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
python面试题详解 __wishing__ python
十道经典面试题（python）1.一行代码实现累加1-100之和print(sum(range(1,101)))输出结果：5050分析：利用sum函数进行累加。range控制序列。2.一行代码实现列表去重#声明需要去重的列表list1=[1,1,2,2,3,3,4,4]list1=list(set(list1))</
LangChain入门：使用Python和通义千问打造免费的Qwen大模型聊天机器人南七小僧人工智能网站开发 AI技术产品经理服务器数据库 windows
前言LangChain是一个用于开发由大型语言模型（LargeLanguageModels，简称LLMs）驱动的应用程序的框架。它提供了一个灵活的框架，使得开发者可以构建具有上下文感知能力和推理能力的应用程序，这些应用程序可以利用公司的数据和APIs。这个框架由几个部分组成。LangChain库：Python和JavaScript库。包含了各种组件的接口和集成，一个基本的运行时，用于将这些组件组合
大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
pygmsh 项目常见问题解决方案葛雨禹
pygmsh项目常见问题解决方案pygmsh:spider_web:GmshforPython项目地址:https://gitcode.com/gh_mirrors/py/pygmsh1.项目基础介绍和主要编程语言项目名称:pygmsh项目简介:pygmsh是一个结合了Gmsh和Python的开源项目。它通过提供Gmsh的Python接口，简化了复杂几何体的创建过程。pygmsh提供了许多有用的抽
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/