SevenZS

爬虫学习笔记

一、初识爬虫

1. 简单的爬虫

2. web请求

3. http协议

4. requests入门

二、数据解析与提取

1. 概述

2. Regular Expression 正则表达式

3. re模块

4. 豆瓣电影练习

5. 电影天堂练习

6. bs4 北京新发地、热搜榜

7. 抓取图库图片

8. Xpath语法

9. xpath猪八戒网练习

三. request模块进阶

1. 模拟用户登录 cookie

2. 防盗链处理

3. 代理

4. 爬取网易云音乐评论

四. 多线程

1. 多线程的两种写法

2. 多进程

3. 线程池和进程池

4. 抓取新发地菜价

5. 多任务异步协程

6. aiohttp模块

7. 抓取一本电子书

8. 抓取一部视频

五、selenium

1. 拉钩网

2. 页面切换

3. 无头浏览器

4. 破解验证码并登录

5. 12306

六. 数据存储

1. json

json的保存

json的读取

2. csv

3. mysql

一、初识爬虫

1. 简单的爬虫

from urllib.request import urlopen

url = "http://www.baidu.com/"
resp = urlopen(url)
message = resp.read().decode("utf-8")

print(message)

with open("my_spyder.html", mode="w", encoding="utf-8") as f:
    f.write(message)
print("over!")

open的时候要指定encoding是utf-8，windows系统默认gbk，会乱码。

baidu网址输入的时候注意是http，没有s。

2. web请求

1.服务器渲染：再服务器那边直接把数据和html整合在一起，统一返回给浏览器

再页面源代码中能看到数据

2.客户端渲染：第一次请求html骨架，第二次请求数据。进行数据展示

在页面源代码中看不到数据

熟练使用浏览器抓包工具 f12里看

3. http协议

请求：

请求行：包括请求方式，请求url地址，协议
请求头：放一些服务器要使用的附加信息
请求体：一般放一些请求参数

响应：

状态行：协议状态码
响应头：放一些客户端要使用的一些附加信息
响应体：服务器返回的真正客户端要用的内容

请求头重最常见的一些重要内容：

User-Agent：请求载体的身份识别（用什么发送的请求）
Referer：防盗链（这次请求从哪个页面来？反爬用到）
cookie：本地字符串数据信息（用户登录信息，反爬的token）

响应头重一些重要的内容：

cookie：本地字符串数据信息
各种神奇的莫名其妙的字符串（需要经验，一般都是token字样，防止各种攻击和反爬）

请求方式：

GET: 显式提交
POST: 隐式提交

4. requests入门

import requests

url = "https://www.sogou.com/web?query=周杰伦"
resp = requests.get(url)

print(resp)

此处用vscode一直报错无法找到requests，换用pycharm可以使用，输出为200.

不知道为什么。

print(resp.text)

输出页面后被拦截，因为被检测到是自动程序发出的。

打开指定页面，审查元素找到User-Agent复制过来。用来伪装成正常访问请求。

url = "https://www.sogou.com/web?query=周杰伦"

dic = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36"
}
resp = requests.get(url, headers=dic)

修改请求头。

审查元素可以看到用的是post还是get。

百度翻译使用的是get。使用英文输入法输入单词，在network中监视，找到sug，发现翻译是通过https://fanyi.baidu.com/sug实现，并且使用的是GET。

找到form-data为输入的表单信息，因此只要替换form-data就可以实现自定义输入。

import  requests

url = "https://fanyi.baidu.com/sug"

s = input("输入需要翻译的英文单词:")
dat = {
    "kw": s
}

# 发送post请求，发送数据必须放在字典中
resp = requests.post(url, data=dat)
print(resp.json()) # 将服务器返回的内容直接返回为json() =>字典

直接resp.text会出现乱码，用json可以解释成字典。

请求url太长可以考虑封装

这些内容都包含在url里。

url = "https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action="

重新封装

url = "https://movie.douban.com/j/chart/top-list"

# 重新封装参数
param = {
    "type": "24",
    "interval_id": "100:90",
    "action": "",
    "start": 0,
    "limit": 20
}

requests.get(url=url, params=param)
print(resp.text)

如果发现异常，说明可能被挡了，优先考虑user-agent。添加后就可以了

import requests

url = "https://movie.douban.com/j/chart/top_list"


# 重新封装参数
param = {
    "type": "24",
    "interval_id": "100:90",
    "action": "",
    "start": 0,
    "limit": 20
}

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36"
}

resp = requests.get(url=url, params=param, headers=headers)

print(resp.json())

二、数据解析与提取

1. 概述

本课程提供三种解析方式：

re解析，运行最快
bs4解析，最简单，但效率不高
xpath解析，比较流行，写起来简单

2. Regular Expression 正则表达式

上手难度高。速度快，效率高，准确性高。

正则的语法：使用元字符进行排列组合用来匹配字符串

语法测试网站：开源中国-正则表达式测试

常用元字符

每个元字符默认只匹配一个字符串。

. 匹配除换行符以外的任意字符

\w 匹配字母数字下划线

\s 匹配任意空白符

\d 匹配数字

\n 匹配一个换行符

\t 匹配一个制表符

^ 匹配字符串的开始（开始的时候必须符合要求

$ 匹配字符串的结尾（结尾的时候除了要求，不能有别的

\W 匹配非字母数字下划线

\D 匹配非数字

\S 匹配非空白符

a|b 匹配字符a或字符b

() 匹配括号内的表达式，也表示一个组

[...] 匹配字符组中的字符

[^...] 匹配除了字符组中字符的所有字符

量词：

控制前面的元字符出现的次数

* 重复零次或多次

+ 重复一次或更多次

？重复零次或一次

{n} 重复n次

{n,} 重复n次或更多次

{n,m} 重复n到m次

.* 贪婪匹配（尽可能多的匹配）

.*? 惰性匹配（尽可能少的，可以理解为就近匹配）

3. re模块

# findall: 匹配字符串中所有的符合正则的内容，返回的是列表    不常用
lst = re.findall(r"\d+", "我的电话号码是：123, 我朋友的电话：456")
print(lst)

# finditer: 匹配字符串中所有的内容，返回的是迭代器
it = re.finditer(r"\d+", "我的电话号码是：123, 我朋友的电话：456")
print(it)
for i in it:
    print(i.group())

# search，全文匹配，找到一个结果就返回 返回的是match对象，拿数据需要.group()
s = re.search(r"\d+", "我的电话号码是：123, 我朋友的电话：456")
print(s.group())

# match是从头开始匹配
s = re.match(r"\d+", "123, 我朋友的电话：456")
print(s)

# 预加载正则表达式 返回迭代器
obj = re.compile(r"\d+")
ret = obj.finditer("123, 我朋友的电话：456")
for it in ret:
    print(it.group())

ret = obj.findall("今天100000度")
print(ret)

# (?P<分组名>正则) 可以单独从正则匹配的内容中进一步提取内容
obj = re.compile(r"(?P.*?)", re.S)
 # re.S 让.能匹配换行符

result = obj.finditer(s)
for it in result:
    print(it.group("number"))
    print(it.group("id"))

()相当于隔开，c语言里的大括号。

？P用这个为正则表达式命名，之后直接用名字调用

4. 豆瓣电影练习

import requests
import re
import csv

url ="https://movie.douban.com/top250"

dic = {
    "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36 Edg/98.0.1108.56"
}

resp = requests.get(url, headers=dic)
page_content = resp.text

# 解析数据
obj = re.compile(r'.*?.*?(?P.*?)'
                 r'.*?.*?
(?P.*?) '
                 r'.*?(?P.*?)'
                 r'.*?(?P.*?)人评价', re.S)
# 开始匹配
result = obj.finditer(page_content)
f = open("data.csv", mode="w", encoding="utf-8")
csvwriter = csv.writer(f)
for it in result:
    # print(it.group("name"))
    # print(it.group("year").strip())
    # print(it.group("score"))
    # print(it.group("aud_num"))
    dic = it.groupdict()
    dic['year'] = dic['year'].strip()
    csvwriter.writerow(dic.values())
resp.close()

5. 电影天堂练习

1. 定位到2022必看片

2. 从2022必看片中提取子页面的链接地址

3. 请求子页面的链接地址，拿到所需的下载地址

import re
import requests

domain = "https://dytt89.com/"
resp = requests.get(domain, verify=False)
resp.encoding = 'gb2312' # 审查元素找到mata后，指定字符集
# print(resp.text)

# 那到ul里面的li
obj1 = re.compile(r"2022必看热片.*?(?P.*?)", re.S)
obj2 = re.compile(r".*?)
.*? '
                  r'', re.S)

result1 = obj1.finditer(resp.text)
child_href_list = []
for it in result1:
    ul = it.group('ul')

    # 提取子页面连接
    result2 = obj2.finditer(ul)
    for itt in result2:
        # 拼接子页面的url地址： 域名+子页面地址
        child_href = domain + itt.group('href').strip('/')
        child_href_list.append((child_href))

# 提取子页面内容
for href in child_href_list:
    child_resp = requests.get(href, verify=False)
    child_resp.encoding = 'gb2312'
    result3 = obj3.search(child_resp.text)
    print(result3.group("movie"))
    print(result3.group("download"))



resp.close()

6. bs4 北京新发地、热搜榜

1. 拿到页面源代码

2. 使用bs4进行解析，拿到数据

import requests
import re
from bs4 import BeautifulSoup
import csv

# 原网址有变化，用之前的方法可以提取
#
# url = "http://www.xinfadi.com.cn/getPriceData.html"
# resp = requests.get(url)
# obj = re.compile(r'.*?"prodName":"(?P.*?)","prodCatid".*?')
#
# result = obj.finditer(resp.text)
# for it in result:
#     dic = it.groupdict()
#
#     print(dic['name'])

# 视频教程方法
# 使用微博热搜榜
url = "https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6"
dic = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36 Edg/98.0.1108.56",
    "cookie": "f12 复制"
}
resp = requests.get(url, headers=dic)

f = open("resou.csv", mode="w", encoding="utf-8")
csvwriter = csv.writer(f)

# print(resp.text)
# 解析数据
# 1. 把页面交给BeautifulSoup进行处理，生成bs对象
page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器

# 2. 从bs对象中查找数据
# find(标签， 属性=值)
# find_all(标签， 属性=值)
tbody = page.find("tbody")  # 括号里可以加上 attr={"class":""}指定
# 拿到所有数据
trs = tbody.find_all("a")[1:]  # 一层层套
for tr in trs:  # tr为每一行数据
    name = tr.text
    csvwriter.writerow([name])

f.close()
resp.close()

7. 抓取图库图片

1. 拿到主页源代码，然后提取子页面连接，href

2. 通过href拿到子页面内容，找到 img->src

3. 下载图片

import requests
from bs4 import BeautifulSoup
import time

url = "https://www.umeitu.com/bizhitupian/weimeibizhi/"
resp = requests.get(url)
resp.encoding = "utf-8"

main_page = BeautifulSoup(resp.text, "html.parser")
alist = main_page.find("div", class_="TypeList").find_all("a")

for a in alist:
    href = a.get('href')
    # 拿到子页面源代码
    child_page_resp = requests.get("https://www.umeitu.com"+href)
    child_page_resp.encoding = "utf-8"
    child_page_text = child_page_resp.text
    # 从子页面中拿到下载路径
    child_page = BeautifulSoup(child_page_text, "html.parser")
    p = child_page.find("p", align="center")
    img = p.find("img")
    src = img.get("src")
    # 下载图片
    img_resp = requests.get(src)
    pic = img_resp.content #这里是字节
    img_name = src.split("/")[-1] # 拿到url最后一个/以后的内容
    with open("img/"+img_name, mode="wb") as f:
        f.write(pic) # 图片内容保存文件

    print("complete", img_name)
    time.sleep(1)
    img_resp.close()
    child_page_resp.close()



resp.close()

点excluded后，该文件夹不会进入索引。提高pycharm速度

8. Xpath语法

Xpath是XML文档中搜索内容的一门语言

html是xml的一个子集

安装lxml模块

from lxml import etree

tree = etree.parse("b.html")
# result = tree.xpath("/html")
# result = tree.xpath("/html/body/ul/li/a/text()")
# result = tree.xpath("/html/body/ul/li[1]/a/text()")  # 顺序从1开始数

# result = tree.xpath("/html/body/ol/li/a[@href='dapao']/text()")  # [@xxx=xxx] 属性筛选

ol_li_list = tree.xpath("/html/body/ol/li")

for li in ol_li_list:
    # 从每一个li中提取到文字信息
    result = li.xpath("./a/text()")  # 在li中继续去寻找。相对查找
    print(result)
    result2 = li.xpath("./a/@href")
    print(result2)

print(tree.xpath("/html/body/ul/li/a/@href"))

print(tree.xpath("/html/body/div[1]/text()"))
print(tree.xpath("/html/body/ol/li/a/text()"))

9. xpath猪八戒网练习

1. 拿页面源代码

2. 提取和解析数据

import requests
from lxml import etree

url = "https://beijing.zbj.com/search/f/?kw=saas"
resp = requests.get(url)

# 解析
html = etree.HTML(resp.text)

# 拿到每一个服务商的dib
divs = html.xpath("/html/body/div[6]/div/div/div[2]/div[5]/div[1]/div")
for div in divs:
    ## '//*[@id="utopia_widget_76"]' == /div/div   id在网页中应该是唯一的
    price = div.xpath("./div/div/a[2]/div[2]/div[1]/span[1]/text()")[0].strip("¥")
    title = "saas".join(div.xpath("./div/div/a[2]/div[2]/div[2]/p/text()"))  # 因为搜索的部分高亮被跳过，一定是saas，所以用saas连接
    com_name = div.xpath("./div/div/a[1]/div[1]/p/text()")[1].strip("\n\n")
    location = div.xpath("./div/div/a[1]/div[1]/div/span/text()")[0]
    print(title)


resp.close()

三. request模块进阶

模拟浏览器登陆 -> 处理cookie

防盗链处理 -> 抓取梨视频数据

代理 -> 防止被封ip

1. 模拟用户登录 cookie

带着cookie 去请求到书架url -> 书架上的内容

必须把上面的操作连起来

可以使用session进行请求 -> session可以认为是一连串的请求，在这个过程中的cookie不会丢失

没有书架的网站账号，用了99166网站的。

尝试用xpath一直没抓出来，网站结构写的太乱糟糟了，标签没有class，直接硬怼的属性。所以用了bs4提取。结构实在是乱，太乱了。

import requests
from bs4 import BeautifulSoup


# 会话
session = requests.session()
data = {
    "username": "xxx",
    "password": "xxx"
}

# 1. 登录
url = "http://www.99166.com/login.asp?action=chk"
session.post(url, data=data)


# 2. 拿数据
# session里有cookie
resp = session.get("http://www.99166.com/user/cesuanlog.asp")
resp.encoding = "gbk"

# print(resp.text)
page = BeautifulSoup(resp.text, "html.parser")
tds = page.find_all("td", attrs={"width": "320", "align": "center"})
for td in tds:
    a = td.find("a")
    if a != None:
        print(a.text)


resp.close()

结果：

2. 防盗链处理

梨视频网页中的视频链接，和审查元素中找到的链接不同，审查元素中的链接无法访问。

找规律

通过拼接的方式找到视频下载地址

1. 拿到contIs

2. 拿到videoStatus返回的json. -> srcURL

3. srcURL里面的内容进行修整

4. 下载视频

referer防盗链，意思是溯源后的上级，必须是xxx才是正常的。加上去就好了。

找到页面后通过json()返回字典，可以在页面审查直接看，比较清晰。

import requests

url = "https://www.pearvideo.com/video_1656589"
contId = url.split("_")[1]

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36 Edg/98.0.1108.62",
    # 防盗链：溯源
    "Referer": url
}

videoStatusUrl = f"https://www.pearvideo.com/videoStatus.jsp?contId={contId}&mrd=0.8691664046016876"

resp = requests.get(videoStatusUrl, headers=headers)
dic = resp.json()
srcUrl = dic['videoInfo']['videos']['srcUrl']
systemTime = dic['systemTime']
srcUrl = srcUrl.replace(systemTime, f"cont-{contId}")

# 下载视频
with open("a.mp4", mode="wb") as f:
    f.write(requests.get(srcUrl).content)



resp.close()

3. 代理

通过第三方的一个机器去发送请求

import requests

# 220.133.119.75:3128
proxies = {
    "https": "https://220.133.119.75:3128"
}

resp = requests.get("https://www.baidu.com", proxies=proxies)
resp.encoding = "utf-8"
print(resp.text)

resp.close()

4. 爬取网易云音乐评论

页面源代码和框架源代码都没有数据。

发现表单数据加密

1. 找到未加密的参数

2. 想办法把参数进行加密（必须参考网易的逻辑） params, encSecKey

3. 请求到网易，拿到评论

如何加密的？

从下往上调用，最上面一个是发送。点击。

点左下角

这一行是发送数据。设置断点后刷新。

找到发送的参数。

url = "https://music.163.com/weapi/comment/resource/comments/get?csrf_token="

需要的是get，但是这里是cdns，因此放开，进行下一次拦截，直到出现get。

不知道为什么edge一直失败，换了chrome可以。

发现params不是人类能读懂的，因此在call stack里找怎么加密的。

一个个点开，看params什么时候能看懂。

发现在这里还是正常的，在t0x.be0x后加密了。

找到加密函数

i0x为加密前，data为加密后

i0x里面的内容为真正的参数

一行行往下跑。

bVj0x为加密后的内容。名字可能不固定。

搜索window.asrsea，发现只有2个地方使用。

找到加密过程。带走。

function d的参数找到

var bVj0x = window.asrsea(JSON.stringify(i0x), bsR5W(["流泪", "强"]), bsR5W(Xp7i.md), bsR5W(["爱心", "女孩", "惊恐", "大笑"]));

function d(d, e, f, g)

对照看

d: 数据

e: bsR5W(["流泪", "强"])扔进console运行

f: 很长的定值

g: 定值

找到encSecKey一波带走

固定i后， h一定是固定的

记得把i给复制下来。

    function d(d, e, f, g) {  d:数据， e:010001, f:很长的定值, g: 定值
        var h = {}  # 空对象
          , i = a(16);  # i是一个十六位的随机值
        return h.encText = b(d, g),
        h.encText = b(h.encText, i),  # 返回的是params
        h.encSecKey = c(i, e, f),  # 得到的就是encSecKey，e和f是定值，i是随机数。  把i固定后得到的一定是固定的。
        h # 执行上面三行后返回h
    }

完整可运行代码

# 1. 找到未加密的参数               # window.arsea(参数, xxx, xxx, xxx)
# 2. 想办法把参数进行加密（必须参考网易的逻辑） params => encText, encSecKey => encSecKey
#
# 3. 请求到网易，拿到评论

import requests
from Crypto.Cipher import AES
from base64 import b64encode
import json

url = "https://music.163.com/weapi/comment/resource/comments/get?csrf_token="

# 请求方式POST
data = {
    "csrf_token": "",
    "cursor": "-1",
    "offset": "0",
    "orderType": "1",
    "pageNo": "1",
    "pageSize": "20",
    "rid": "R_SO_4_33756249",
    "threadId": "R_SO_4_33756249"
}

# 服务于d的
e = '010001'
f = '00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7'
g = '0CoJUm6Qyw8W8jud'
i = '3VjcxTHNACdNwKAo'  # 手动固定 网页中是随机的


def get_encSecKey():  # 由于i固定，所以encSecKey固定，c()也是固定的
    return "40ab2cd7e589b154526d013a88e1f33ab8145ad6f1080bde14b0c58bcb66a11a3dc9e4c95ec261c47fc30b8ad68ee129c8ad85067c57fca2d540229d17567d2585462d4fe598c4125072afff14843d7320d8524414727916859bb77f1de0cbab1cc328359ae80882edbf4077bf36e82be1301224d2ae9b8fd8c27bc597d6b93c"


# 把参数进行加密
def get_params(data):  # 默认这里接收到的字符串
    first = enc_params(data, g)
    second = enc_params(first, i)
    return second  # 返回的是params


# 转化成16的倍数，为下方加密算法服务
def to_16(data):
    pad = 16 - len(data) % 16
    data += chr(pad) * pad
    return data


# 加密过程
def enc_params(data, key):  # 加密过程
    iv = "0102030405060708"
    data = to_16(data)
    aes = AES.new(key=key.encode("utf-8"), IV=iv.encode("utf-8"), mode=AES.MODE_CBC)
    bs = aes.encrypt(data.encode("utf-8"))  # 加密，加密内容的长度必须是16的倍数 “123456 chr(10)*10” 逻辑很奇怪，如果正好16，后面要放16个chr(16)
    # bs无法被utf-8识别
    return str(b64encode(bs), "utf-8")  # 转化成字符串返回


"""
    function a(a) {  # 返回随机16位字符串
        var d, e, b = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", c = "";
        for (d = 0; a > d; d += 1)  # 循环16次
            e = Math.random() * b.length,  # 随机数
            e = Math.floor(e),  # 取整
            c += b.charAt(e);  # 字符串
        return c
    }
    function b(a, b) {
        var c = CryptoJS.enc.Utf8.parse(b)  # b为密钥
          , d = CryptoJS.enc.Utf8.parse("0102030405060708")
          , e = CryptoJS.enc.Utf8.parse(a)  # 数据
          , f = CryptoJS.AES.encrypt(e, c, {  # c为密钥
            iv: d,  # 偏移量
            mode: CryptoJS.mode.CBC  # 模式：cbc
        });
        return f.toString()
    }
    function c(a, b, c) {  # c里面不产生随机数
        var d, e;
        return setMaxDigits(131),
        d = new RSAKeyPair(b,"",c),
        e = encryptedString(d, a)
    }
    function d(d, e, f, g) {  d:数据， e:010001, f:很长的定值, g: 定值
        var h = {}  # 空对象
          , i = a(16);  # i是一个十六位的随机值
        return h.encText = b(d, g),  # g是密钥
        h.encText = b(h.encText, i),  # 返回的是params  两次加密，i是密钥
        h.encSecKey = c(i, e, f),  # 得到的就是encSecKey，e和f是定值，i是随机数。  把i固定后得到的一定是固定的。
        h # 执行上面三行后返回h
    }
    function e(a, b, d, e) {
        var f = {};
        return f.encText = c(a + e, b, d),
        f
    }
"""

# 发送请求，得到评论结果
resp = requests.post(url, data={
    "params": get_params(json.dumps(data)),  # 用json把字典转化为字符串
    "encSecKey": get_encSecKey()
})

page_content = resp.json()
page_content2 = page_content['data']['comments']

length = len(page_content2)

for i in range(0, length):
    page_content2_0 = page_content2[i]
    name = str(i)+"."+page_content2_0['user']['nickname']
    content = page_content2_0['content']
    print(name+": "+content)

resp.close()

四. 多线程

1. 多线程的两种写法

from threading import Thread

# 写法一：小脚本
# def func():
#     for i in range(10):
#         print("func", i)
#
# if __name__ == '__main__':
#     t = Thread(target=func)
#     t.start()  # 给一个状态，具体时间cpu决定
#
#
#     for i in range(10):
#         print("main", i)

# 写法二：业界大佬
class MyThread(Thread):
    def run(self):  # 线程被执行的时候，被执行的是run()
        for i in range(10):
            print("子线程", i)

if __name__ == '__main__':
    t = MyThread()
    # t.run()  # 方法调用了 是单线程
    t.start()  #开启线程

    for i in range(10):
        print("主线程", i)

2. 多进程

开进程资源消耗大，一般不用。两种写法和上面相似。

from multiprocessing import Process
from threading import Thread

# def func():
#     for i in range(10):
#         print("子进程", i)
#
# if __name__ == '__main__':
#     p = Process(target=func)
#     p.start()
#
#     for i in range(10):
#         print("主进程", i)

def func(name):
    for i in range(10):
        print(name, i)

if __name__ == '__main__':
    t1 = Thread(target=func, args=("周杰伦",))  # args里必须是元组，因此要加逗号
    t1.start()

    t2 = Thread(target=func, args=("王力宏",))
    t2.start()

3. 线程池和进程池

线程池：一次性开辟一些线程，用户直接给线程池提交任务。线程任务的调度交给线程池使用。

from concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor

def fn(name):
    for i in range(1000):
        print(name, i)


if __name__ == '__main__':
    with ThreadPoolExecutor(50) as t:
        for i in range(100):
            t.submit(fn, name=f"线程{i}")
    # 等待线程池中的任务全部执行完毕，才继续执行守护
    print("123")

4. 抓取新发地菜价

1. 如何提取单个页面的数据

2. 线程池，多个页面同时抓取

由于新发地页面变了，表格是嵌入的所以换了网址实验。

import requests
from lxml import etree
import csv
from concurrent.futures import ThreadPoolExecutor

f = open("data.csv", mode="w", encoding="utf-8")
csvwriter = csv.writer(f)

header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36 Edg/98.0.1108.62",
    "cookie": "9PT8_2132_saltkey=b1ZDzjBp; 9PT8_2132_lastvisit=1646288784; 9PT8_2132_auth=a903Vhka5sWHUU09/bxTH+w+rJsAh6x4tJy5BqnqjMpOZ2V6eU5pYUsPrEGFerNCIGzlk/ZY3ADvY4gguiDdnsZC; 9PT8_2132_lastcheckfeed=9630|1646292433; 9PT8_2132_nofavfid=1; 9PT8_2132_ulastactivity=12eeUu18XL+NY229Pivd5vy7xlFNWDpeEj2y7ZjgCwluONc6WK7h; 9PT8_2132_visitedfid=2; 9PT8_2132_smile=1D1; 9PT8_2132_st_t=9630|1646395297|b399934743bf5543e8b1f247a0e2eea8; 9PT8_2132_forum_lastvisit=D_2_1646395297; 9PT8_2132_sid=ZgvFBC; 9PT8_2132_lip=222.94.236.130,1646396059; 9PT8_2132_st_p=9630|1646396147|23f1c7005cb442a13c0599b2c429e1fe; 9PT8_2132_viewid=tid_891; 9PT8_2132_sendmail=1; 9PT8_2132_lastact=1646396241	forum.php	ajax"
}



def download_one_page(url):
    # 拿到源代码
    resp = requests.get(url, headers=header)
    html = etree.HTML(resp.text)
    table = html.xpath("/html/body/div[6]/div[4]/div/div/div[4]/div[2]/form/table")[0]
    # tbodys = table.xpath("./tbody")[0]
    tbodys = table.xpath("./tbody[position()>1]")
    for tbody in tbodys:
        txt = tbody.xpath("./tr/th/p[1]/a[2]/text()")
        # 对数据做简单的处理： \\ /去掉
        txt = (item.replace("\\", "").replace("/", "") for item in txt)
        csvwriter.writerow(txt)
    print("thread down!")
    resp.close()

if __name__ == '__main__':
    # for i in range(1, 29):  # 效率极其低下
    #     download_one_page(f"http://txxxxx.xyz/forum.php?mod=forumdisplay&fid=2&page={i}")

    with ThreadPoolExecutor(10) as t:
        for i in range(1, 29):  # 效率极其低下
            t.submit(download_one_page, f"http://txxxxx.xyz/forum.php?mod=forumdisplay&fid=2&page={i}")

        print("down!")

5. 多任务异步协程

time.sleep(3)  #阻塞线程

input()  #也是阻塞状态

request.get(csdn)  #返回数据前也是阻塞状态

协程：当程序遇见了IO操作，可以选择性的切换到其他任务上

在微观上是一个任务一个任务的进行切换，切换条件一般是IO操作

在宏观上，多任务一起执行

多任务异步操作

上方所讲的一切是在单线程的条件下。

time.sleep是同步操作

import asyncio
import time

async def func1():
    print("For mother RUSSIA!")
    time.sleep(3)  # 当程序出现同步操作的时候，异步中断
    print("For mother RUSSIA!")

async def func2():
    print("Kirov reporting.")
    time.sleep(2)
    print("Kirov reporting.")

async def func3():
    print("It is a day of jugment.")
    time.sleep(1)
    print("It is a day of jugment.")


if __name__ == '__main__':
    f1 = func1()  # 此时函数是异步协程函数，此时函数执行得到一个协程对象
    f2 = func2()
    f3 = func3()
    tasks = [
        f1, f2, f3
    ]
    t1 = time.time()
    # 一次性启动多个任务（协程）
    asyncio.run(asyncio.wait(tasks))
    t2 = time.time()
    print(t2-t1)

asyncio.sleep是异步操作，await是挂起。一定要挂起。

import asyncio
import time

async def func1():
    print("For mother RUSSIA!")
    # time.sleep(3)  # 当程序出现同步操作的时候，异步中断
    await asyncio.sleep(3)
    print("For mother RUSSIA!")

async def func2():
    print("Kirov reporting.")
    await asyncio.sleep(2)
    print("Kirov reporting.")

async def func3():
    print("It is a day of jugment.")
    await asyncio.sleep(1)
    print("It is a day of jugment.")


if __name__ == '__main__':
    f1 = func1()  # 此时函数是异步协程函数，此时函数执行得到一个协程对象
    f2 = func2()
    f3 = func3()
    tasks = [
        f1, f2, f3
    ]
    t1 = time.time()
    # 一次性启动多个任务（协程）
    asyncio.run(asyncio.wait(tasks))
    t2 = time.time()
    print(t2-t1)

一般用集成后的写法

async def main():
    # 第一种写法
    # f1 = func1()
    # await f1  # 一般await放在协程对象前面

    # 第二种写法（推荐）
    tasks = [
        func1(),
        func2(),
        func3()
    ]
    await asyncio.wait(tasks)

    # py3.8以后用这个
    tasks = [
        asyncio.create_task(func1()),  
        asyncio.create_task(func2()),
        asyncio.create_task(func3()),
    ]
    await asyncio.wait(tasks) 

if __name__ == '__main__':
    t1 = time.time()
    asyncio.run(main())
    t2 = time.time()
    print(t2 - t1)

6. aiohttp模块

requests.get() 同步 -> aiohttp 异步

import asyncio
import aiohttp

urls = [
    "http://kr.shanghai-jiuxin.com/file/2020/0513/a73863b7af2aceed8d89cfcc5fe02892.jpg",
    "http://kr.shanghai-jiuxin.com/file/2020/1031/563337d07af599a9ea64e620729f367e.jpg",
    "http://kr.shanghai-jiuxin.com/file/2020/0807/abd1252381fc4c24865ca1513766f489.jpg"
]


async def aiodownload(url):
    name = "img/" + url.rsplit("/", 1)[-1]
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as resp:
            # resp.content.read()  # <==> resp.text
            # resp.json()
            with open(name, mode="wb") as f:
                f.write(await resp.content.read())  # 读取内容是异步的，需要await挂起

    print(name, "down")

    # aiohttp.ClientSession()  <==> requests
    # 发送请求
    # 得到图片内容
    # 保存


async def main():
    tasks = []
    for url in urls:
        tasks.append(aiodownload(url))

    await asyncio.wait(tasks)

if __name__ == '__main__':
    # asyncio.run(main())  #  windows专属错误
    # iohttp内部使用了_ProactorBasePipeTransport
    # 程序退出释放内存时自动调用其__del__方法导致二次关闭事件循环。
    # 一般的协程程序是不会使用_ProactorBasePipeTransport的，
    # 所以asyncio.run()还是可以正常运行。
    loop = asyncio.get_event_loop()
    loop.run_until_complete(main())

7. 抓取一本电子书



# 所有章节
# http://dushu.baidu.com/api/pc/getCatalog?data={"book_id":"4306063500"}
# 章节内部内容
# http://dushu.baidu.com/api/pc/getChapterContent?data={"book_id":"4306063500","cid":"4306063500|1569782244","need_bookinfo":1}

import requests
import asyncio
import aiohttp
import aiofiles
import json

"""
1. 同步操作：访问所有章节
2. 异步操作，访问章节具体内容，下载所有文章内容
"""

async def aiodownload(cid, b_id, title):
    data = {
        "book_id": b_id,
        "cid": f"{b_id}|{cid}",
        "need_bookinfo": 1
    }
    data = json.dumps(data)
    url = f"http://dushu.baidu.com/api/pc/getChapterContent?data={data}"

    async with aiohttp.ClientSession() as session:
        async with session.get(url) as resp:
            dic = await resp.json()

            async with aiofiles.open("xiyouji/"+title, mode="w", encoding="utf-8") as f:
                await f.write(dic['data']['novel']['content'])




async def getCatalog(url):
    resp = requests.get(url)
    dic = resp.json()
    tasks = []
    for item in dic['data']['novel']['items']:  # item对应每个章节的名称和cid
        title = item['title']
        cid = item['cid']
        # 准备异步任务
        tasks.append(aiodownload(cid, b_id, title))

    await asyncio.wait(tasks)


if __name__ == '__main__':
    b_id = "4306063500"
    url = 'http://dushu.baidu.com/api/pc/getCatalog?data={"book_id":"' + b_id + '"}'
    asyncio.run(getCatalog(url))

8. 抓取一部视频

一般的视频网站怎么做？

用户上传 -> 转码(把视频做处理，2K，1080等等) -> 切片处理（单个文件拆分） 60

用户在进行拉动进度条

需要一个文件记录：1. 视频播放顺序，2.视频存放的路径

# M3U txt json ==>文本

抓取一个视频：

1. 找到m3u8

2. 通过m3u8下载到ts文件

3. 通过各种手段（不仅是变成手段）把ts合并成一个mp4文件

素材：91看剧

注意里面有个note，是做校验用的。

有的网页（很少）反爬会启用校验。启动校验的时候还具有时效性，超过一定时间note就会失效，刷新后重新分配note。

只需要注意有没有key加密。

91看剧新的网址用不了。

五、selenium

selenium是自动化测试工具，能像人一样操作浏览器。

可以从selenium中提取网页上的各种信息

pip install selenium

chromedriver.storage.googleapis.com/index.html

Microsoft Edge Driver - Microsoft Edge Developer

找对应的谷歌驱动，下载解压后放到解释器的文件夹里。运行pycharm的时候能看到。

比如就在Anaconda里

# 让selenium启动chrome
from selenium.webdriver import ChromiumEdge

# 1. 创建浏览器对象
web = ChromiumEdge()
# 2. 打开一个网址
web.get("http://www.baidu.com")

print(web.title)

web.close()

1. 拉钩网

from selenium.webdriver import ChromiumEdge
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time

web = ChromiumEdge()

web.get("http://lagou.com")

# 找到某个元素 点击
el = web.find_element(by=By.XPATH, value='//*[@id="changeCityBox"]/ul/li[2]/a')
el.click()  # 点击事件

time.sleep(1)  # 浏览器太慢，缓缓

# 找到输入框
web.find_element(by=By.XPATH, value='//*[@id="search_input"]').send_keys("Python", Keys.ENTER)

time.sleep(2)  # 不停一下后面来不及加载
# 查找存放数据的位置，进行数据提取
# 找到页面中存放数据的所有li
div_list = web.find_elements(by=By.XPATH, value='//*[@id="jobList"]/div[1]/div')
for div in div_list:
    job_name = div.find_element(by=By.TAG_NAME, value='a').text
    job_price = div.find_element(by=By.CLASS_NAME, value='money__3Lkgq').text
    company_name = div.find_element(by=By.XPATH, value='./div[1]/div[2]/div[1]/a').text
    print(f"{job_name}: {job_price}. {company_name}")
# web.close()

2. 页面切换

from selenium.webdriver import ChromiumEdge
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time

web = ChromiumEdge()

web.get("http://lagou.com")

web.find_element(by=By.XPATH, value='//*[@id="cboxClose"]').click()

time.sleep(1)

web.find_element(by=By.XPATH, value='//*[@id="search_input"]').send_keys("Python", Keys.ENTER)

time.sleep(1)

# 进入第一个链接
web.find_element(by=By.XPATH, value='//*[@id="jobList"]/div[1]/div[1]/div[1]/div[1]/div[1]/a').click()

time.sleep(1)

# 新窗口默认不切换，要手动切换
web.switch_to.window(web.window_handles[-1])

# 提取内容
job_detail = web.find_element(by=By.XPATH, value='//*[@id="job_detail"]/dd[2]/div').text
print(job_detail)

# 关掉此窗口后，还要切换
web.close()
web.switch_to.window(web.window_handles[0])

有iframe的情况

web.get("https://www.91kanju2.com/vod-play/541-2-1.html")

iframe = web.find_element(by=By.XPATH, value='//*[@id="player_iframe"]')
web.switch_to.frame(iframe)
# web.switch_to.default_content()  # 切回默认的地方
# 没找到合适的可输出文本
tx = web.find_element(by=By.XPATH, value='//*[@id="main-message"]/p').text
print(tx)

3. 无头浏览器

无头就靠前几行。直接复制就好了，一般不变。

from selenium.webdriver import ChromiumEdge
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.select import Select
import time

# 准备好参数配置
opt = Options()
opt.add_argument("__headless")
opt.add_argument("--disable-gpu")  # 不显示

web = ChromiumEdge(options=opt)

web.get("")

# 定位到下拉列表
sel_el = web.find_element(by=By.XPATH, value='')
# 对元素进行包装，包装成下拉菜单
sel = Select(sel_el)
# 让浏览器调整选项
for i in range(len(sel.options)):
    sel.select_by_index()  # 索引位置
    # sel.select_by_value()  # option里的value
    # sel.select_by_visible_text()  # 可见文本
    time.sleep(2)
    # 提取数据
    table = web.find_element(by=By.XPATH, value='')
    print(table.text)

print("down!")
web.close()

源代码和编译后的代码不一样，怎么看编译后的代码

# 如何拿到页面代码elements（经过数据加载以及js执行之后的结果的html）
web.page_source

4. 破解验证码并登录

1. 图像识别

2. 选择互联网上成熟的验证码破解工具

超级鹰为例

from selenium.webdriver import ChromiumEdge
from selenium.webdriver.common.by import By

# 在超级鹰注册后下下来的的demo
from chaojiying import ChaojiyingClient

web = ChromiumEdge()

web.ger("http://www.chaojiying.com/user/login")

img = web.find_element(by=By.XPATH, value='/html/body/div[3]/div/div[3]/div[1]/form/div/img').screenshot_as_png
chaojiying = chaojiying = ChaojiyingClient('超级鹰的id', '超级鹰的password', '创建生成的任务id')
dic = chaojiying.PostPic(img, 1902)  # 1902是超级鹰网站给的验证码了类型代码
verify_code = dic['pic_str']

# 输入用户名密码
web.find_element(by=By.XPATH, value='/html/body/div[3]/div/div[3]/div[1]/form/p[1]/input').send_keys('登陆网站的账号')
web.find_element(by=By.XPATH, value='/html/body/div[3]/div/div[3]/div[1]/form/p[2]/input').send_keys('登陆网站的密码')
web.find_element(by=By.XPATH, value='/html/body/div[3]/div/div[3]/div[1]/form/p[3]/input').send_keys(verify_code)

# 点击登录
web.find_element(by=By.XPATH, value='/html/body/div[3]/div/div[3]/div[1]/form/p[4]/input').click()

5. 12306

from selenium.webdriver import ChromiumEdge
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.edge.options import Options
import time

# 如果程序被识别selenium了怎么办
# 1.chrome的版本号小于88
# 在你启动浏览器的时候(此时没有加载任何网页内容),向页面嵌入js代码,去掉webdriver
# web = ChromiumEdge()
#
# web.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument",{
#     "source": """
#     window.navigator.webdriver = undefined
#         Object.defineProperty(navigator, 'webdriver',{
#             get:() ==> undefined
#         })
#     """
# })
# web.get(xxx)
# 2.chrome的版本号大于88
option = Options()
option.add_argument('--disable-blink-features=AutomationControlled')

web = ChromiumEdge(options=option)

web.get("https://kyfw.12306.cn/otn/resources/login.html")

time.sleep(3)

web.find_element(by=By.XPATH, value='//*[@id="J-userName"]').send_keys('登录名')
web.find_element(by=By.XPATH, value='//*[@id="J-password"]').send_keys('登陆密码')

time.sleep(1)
web.find_element(by=By.XPATH, value='//*[@id="J-login"]').click()

time.sleep(2)

#移动再点击
# ActionChains(web).move_to_element_with_offset(start, x, y).click().perform()

# 拖拽
btn = web.find_element(by=By.XPATH, value='//*[@id="nc_1_n1z"]')
ActionChains(web).drag_and_drop_by_offset(btn, 300, 0).perform()

六. 数据存储

1. json

json的保存

在python中只有基本数据类型才能转换成json格式的字符串。即：int, float,str,list,dict,tuple。

json是列表里面放字典。

import json

persons = [
    {
        "username": "伊利亚",
        "age": 2,
        "country": "CCCP"
    },
    {
        "username": "布拉金斯基",
        "age": 3,
        "country": "RUSSIA"
    }
]
json_sdr = json.dumps(persons)  # 直接转换成字典
# print(type(json_sdr))
# print(json_sdr)
with open('./person.json', 'w', encoding="utf-8") as fp:
    # fp.write(json_sdr)
    json.dump(persons, fp, ensure_ascii=False)  # 传文件指针 一定要把ascii给关了，否则会转换成英文字符

dumps是直接转化dic，不可以保存为文件， dump会转换成指针可以保存为文件。

json的读取

json_str = '[{"username": "伊利亚", "age": 2, "country": "CCCP"}, {"username": "布拉金斯基", "age": 3, "country": "RUSSIA"}]'
persons = json.loads(json_str)
print(type(persons))
for person in persons:
    print(person)


with open('person.json', 'r', encoding="utf-8") as fp:
    persons = json.load(fp)
    for person in persons:
        print(person)

2. csv

读取csv文件

import csv

def read_csv_demo1():
    with open('testx.csv', 'r', encoding='utf-8') as fp:
        # reader是一个迭代器
        reader = csv.reader(fp)
        next(reader)  # 跳过表头
        for x in reader:
            education = x[3]
            age = x[0]
            print({'education': education, 'age': age})

def read_csv_demo2():
    with open('testx.csv', 'r', encoding='utf-8') as fp:
        #  不会包含标题
        #  返回字典
        reader = csv.DictReader(fp)
        for x in reader:
            value = {"education": x['education'], 'age': x['age']}
            print(value)


if __name__ == '__main__':
    read_csv_demo2()

写入csv

newline默认是\n换行

def write_csv_demo1(headers, values):
    with open('classroom1.csv', 'w', encoding='utf-8', newline='') as fp:
        writer = csv.writer(fp)
        writer.writerow(headers)
        writer.writerows(values)   # 写入多行数据

def write_csv_demo2(headers, values):
    with open('classroom2.csv', 'w', encoding='utf-8', newline='') as fp:
        writer = csv.DictWriter(fp, headers)
        writer.writeheader()  # 写入表托数据
        writer.writerows(values)


if __name__ == '__main__':

    headers = ['name', 'age', 'height']
    values1 = {
        ('伊利亚', 2, 180),
        ('布拉金斯基', 2, 178),
        ('伊万', 2, 179)
    }
    write_csv_demo1(headers, values1)

    values2 = [
        {'name': '伊利亚', 'age': 2, 'height': 180},
        {'name': '布拉金斯基', 'age': 2, 'height': 178},
        {'name': '伊万', 'age': 2, 'height': 179}
    ]
    write_csv_demo2(headers, values2)

3. mysql

import pymysql

host = 'localhost'
user = 'root'
pasw = '1234'
name = 'test'


try:
    db = pymysql.connect(host=host, user=user, password=pasw, database=name)
    print('ok')
    cur = db.cursor()
    cur.execute('drop table if exists Student')
    sql = 'create table Student(Name char(20), Email char(20), Age int)'
    cur.execute(sql)
    print("成功")
    sql = 'drop table if exists stuinfo'
    cur.execute(sql)
    print("删了")
except pymysql.err as e:
    print("no")

插入

sql = """
insert into user(id, username, age, password) values(null, %s, %s, %s)
"""
# 不管里面是什么类型，都要写%s 字符串类型

username = 'spider'
age = 21
password = '12345'

cursor.execute(sql, (username, age, password))
conn.commit()

查找

# fetchone
sql = """
select username, age from user where id=1
"""
cursor.execute(sql)
result = cursor.fetchone()
print(result)

sql = """
select * from user
"""
cursor.execute(sql)
while True:
    result = cursor.fetchone()
    if result:
        print(result)
    else:
        break

# fetchall 所有  fetchmany 前几个
sql = """
select * from user
"""
cursor.execute(sql)
results = cursor.fetchall()
for result in results:
    print(result)

删除

# 删除和更新
sql = """
delete from user where id=4
"""
cursor.execute(sql)
# 插入删除更新都需要commit提交
conn.commit()

sql = """
update user set username='brakinski' where id=3
"""
cursor.execute(sql)
conn.commit()

你可能感兴趣的:(python,爬虫,学习,python)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

爬虫学习笔记

一、 初识爬虫

1. 简单的爬虫

2. web请求

3. http协议

4. requests入门

二、数据解析与提取

1. 概述

2. Regular Expression 正则表达式

3. re模块

4. 豆瓣电影练习

5. 电影天堂练习

6. bs4 北京新发地、热搜榜

7. 抓取图库图片

8. Xpath语法

9. xpath猪八戒网练习

三. request模块进阶

1. 模拟用户登录 cookie

2. 防盗链处理

3. 代理

4. 爬取网易云音乐评论

四. 多线程

1. 多线程的两种写法

2. 多进程

3. 线程池和进程池

4. 抓取新发地菜价

5. 多任务异步协程

6. aiohttp模块

7. 抓取一本电子书

8. 抓取一部视频

五、selenium

1. 拉钩网

2. 页面切换

3. 无头浏览器

4. 破解验证码并登录

5. 12306

六. 数据存储

1. json

json的保存

json的读取

2. csv

3. mysql

你可能感兴趣的:(python,爬虫,学习,python)

一、初识爬虫