浩淇害死猫

python爬虫学习_junior

一.爬虫简介

1.1 什么是爬虫

通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。

1.2 爬虫的价值

目前是大数据时代，谁掌握的数据越多，谁就更加具有主导权，获取更多的数据，使这些数据能够数据产品化、商业化。

爬虫工程师（

1.本科及以上学历，计算机相关专业，3年及以上工作经验； 2.熟悉Python/C#/Java语言中的一种，至少3年相关的开发经验 3.有Python分布式抓取系统的开发、架构经验，至少熟悉并使用过一种主流爬虫架构，如Scrapy、Gocolly、Webmagic等优先； 4.熟悉前端页面技术，如html、js、ajax等； 5.有海量数据爬取、解析、清洗、存储相关项目经验； 6.熟悉网页抓取原理及技术，能够总结分析不同网站，网页的结构特点及规律； 7.熟悉反爬策略的应对，能够解决封账号、封IP、验证码、JS加密等问题； 8.熟悉Linux系统环境； 9.熟悉Mysql、Redis、MongoDB等数据库，有过数据库调优和海量数据存储经验者优先。

）

1.3爬虫合法性

法律中不被禁止

具有违法风险

善意爬虫恶意爬虫

1.4爬虫带来的风险可以体现在如下两方面

爬虫干扰了被访问网站的正常运营

爬虫抓取了受到法律保护的特定类型的数据或信息

1.5如何在使用编写爬虫的过程中避免进入局子的厄运

时常的优化自己的程序，避免干扰被访问网站的正常运行

在使用，传播爬取到的数据时，审查抓取到的内容，如果发现了涉及到用户隐私或商业机密等敏感内容需要及时停止爬取或传播

总结：

1.不要爬敏感信息（比如公民的个人信息）

2.不要占用别人网站的大部分流量

3.不要爬取商业化信息

1.6爬虫在使用场景中的分类

通用爬虫：

抓取系统重要组成部分。抓取的是一整张页面数据。

聚焦爬虫：

是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。

增量式爬虫：

监测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

1.7爬虫的矛与盾

1.8反爬机制

门户网站，可以通过指定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。

1.9反反爬策略

爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站中相关的数据。

1.10robots.txt协议

君子协议。规定了网站中哪些数据可以被爬虫爬取那些数据不可以被爬取。

1.11 http协议

概念：就是服务器和客户端进行数据交互的一种形式。

1.12常用请求头信息

User-Agent：请求载体的身份标识（谁请求）

Connection:请求完毕后，是断开连接还是保持连接

1.13常用响应头信息

Content-Type:服务器响应回客户端的数据类型

1.14https协议：

安全的http协议，安全的超文本传输协议

1.15加密方式

对称密钥加密

（客户端制定加密方式，然后客户端加密，将加密的信息以及加密方式传递给服务器，服务器解密并且读取密文）

安全隐患（可以拦截传输过程获取加密信息和密钥）

非对称密钥加密

（服务器端制定加密方式，发送给客户端，客户端将使用该加密方式的密文传输给客户端）

包含公开密钥和私有密钥

安全隐患（1.如果公钥被挟持，第三方可能篡改公钥加密方式，并且将纂改之后的密钥传递给客户端，无法保证公钥是服务器端提供的。

2.非对称加密方式的效率较低

）

证书密钥加密（https采用）

公钥被证书认证机构认证，如果客户端接受的密钥无数字签名（或者数字签名不对）则该密钥不是服务器传输的签名。

二.requests模块

2.1模块介绍

-urllib模块（古老的网路请求模块，封装爬虫代码十分麻烦）

-request模块（简洁、高效）

2.2request模块介绍

requests模块：python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高。

作用：模拟浏览器发请求。

2.3requests模块如何使用（requests模块的编码流程）

一、指定url

二、发起请求

三、获取响应数据

四、持久化存储

2.4 环境安装

pip install requests

2.5实战编码（爬取搜狗首页的页面数据）

# -- coding:utf-8 --
import  requests
if __name__=="__main__":
    # step1:指定url
    url='https://www.sogou.com/'
    # step2:发起请求
    # get方法会返回一个响应对象
    response = requests.get(url=url)
    # step3:获取响应数据.text返回的是字符串形式的响应数据
    page_text = response.text
    print(page_text)
    # step4:持久化存储
    with open('./sogou.html','w',encoding='utf-8') as fp:
        fp.write(page_text)
    print('爬取数据结束！')

2.6实战巩固

2.6.1 爬取搜狗指定词条对应的搜索结果页面（简易网页采集器）

采用的反爬机制（UA检测机制、UA伪装）

#反爬机制
# UA伪装 
# UA：User-Agent(请求载体的身份标识)
# UA检测：门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求的载体身份标识为某一款浏览器，
# 说明该请求是一个正常请求。但是检测到载体身份标识不是基于某一款浏览器的，则标识该请求为不正常请求（爬虫）
# 则服务器端就很有可能拒绝该次请求。
#为了防止该情况，每次都要进行UA伪装
# UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器
import requests
if __name__ == "__main__":
    #UA伪装：将对应的User-Agent
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134 Safari/537.36 Edg/103.0.1264.71'
    }
    #指定url
    url='https://www.sogou.com/web?'
    #处理url携带的参数:封装到字典中
    kw=input('enter a word:')
    param={
        'query':kw
    }
    # 发起请求,对指定的url发起的请求对应的是携带参数的，并且请求过程中处理了参数
    response = requests.get(url=url,params=param,headers=headers)
    #获取响应数据
    page_text =response.text
    fileName =kw+'.html'
    with open(fileName,'w',encoding='utf-8') as fp:
        fp.write(page_text)
    print(fileName,"保存成功!")

2.6.2 破解百度翻译

抓取ajax信息，在network中改成XHR，如图，sug，

post请求（携带了参数）

响应数据是一组json数据

import requests
import json
if __name__ == "__main__":
    #指定url
    post_url = "https://fanyi.baidu.com/sug"
    #post请求参数处理(同get请求一致)
    word=input("end a word:")
    data={
        'kw':word
    }
    #进行UA伪装
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134 Safari/537.36 Edg/103.0.1264.71'
    }
    #进行请求发送
    response = requests.post(url=post_url,data=data,headers=headers)
    #获取响应数据;json()方法返回的是obj(如果确认响应的数据是json类型的，才可以使用json())
    #观察content-Type
    dic_obj=response.json()
    #持久化存储
    fileName=word+'.json'
    fp=open(fileName,'w',encoding='utf-8')
    json.dump(dic_obj,fp=fp,ensure_ascii=False)#中文不能Ascii编码
    print("over")

2.6.3 爬取豆瓣电影分类排行榜

import requests
import json
if __name__ == '__main__':
    url='https://movie.douban.com/j/chart/top_list'
    param={
        'type':'24',
        'interval_id':"100:90",
        'action':'',
        'start':'1',#从接口中的第几部电影去取
        'limit':'20',#一次取出的个数是
    }
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134 Safari/537.36 Edg/103.0.1264.71'
    }
    response = requests.get(url=url,params=param,headers=headers)
    list_data=response.json()
    fp=open('./douban.json','w',encoding='utf-8')
    json.dump(list_data,fp=fp,ensure_ascii=False)
    print('over')

2.6.4 爬取肯德基餐厅查询指定地点信息

import requests
import json
if __name__ =="__main__":
    post_url='http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134 Safari/537.36 Edg/103.0.1264.71'
    }
    keyword=input('餐厅关键字：')
    op = {
        'cname':'',
        'pid':'',
        'keyword':keyword,
        'pageIndex':"1",
        'pagesize':'10',
    }
    response=requests.post(url=post_url,data=op,headers=headers)
    list_json=response.json()
    fp=open("./kfc.json",'w',encoding='utf-8')
    json.dump(list_json,fp=fp,ensure_ascii=False)
    print('over')

2.6.5 爬取药监总局中基于中华人民共和国化妆品生产许可证相关数据（抓取动态加载信息）

首页地址：化妆品生产许可信息管理系统服务平台 (nmpa.gov.cn)

url动态加密暂时解决不了

三.数据解析

3.1 数据解析概述

3.1.1聚焦爬虫：爬取页面中指定的页面内容。（75%以上的需求）

编码流程:

1.指定url

2.发起请求

3.获取响应数据

4.数据解析

5.持久化存储

3.1.2 数据解析分类：

正则
bs4
xpath（重点）

3.1.3 数据解析原理概述

解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储

1.先进性通用爬虫解析

2.进行指定标签的定位

3.标签或者标签对应的属性中存储的数据值进行提取（解析）

3.2 正则表达式

Regular Expression 正则表达式，一种使用表达式的方式对字符串进行匹配的语法规则。我们抓取到的网页源代码本质上就是一个超长的字符串，想从里面提取内容，用正则合适。

正则的优点：速度快、效率高、准确性高。

正则的缺点：新手上手难度有点高。

正则的语法：使用元字符进行排列组合用来匹配字符串

元字符：具有固定含义的特殊字符

字符	作用
.	匹配除换行符以外的任意字符（默认只匹配一位字符串）
\w	匹配字母或数字或下划线
\s	匹配任意的空白符
\d	匹配数字
\n	匹配换行符
\t	匹配一个制表符
^	匹配字符串的开始（与下一个元字符匹配）
$	匹配字符串的结尾
\W	匹配非字母或数字或下划线
\D	匹配非数字
\S	匹配非空白符
a\|b	匹配字符a或字符b
()	匹配括号内的表达式，也表示一个组
[...]	匹配字符组中的字符
[^...]	匹配除了字符组中字符的所有字符

量词：控制前面的元字符出现的次数

*	重复零次或更多次
+	重复一次或更多次
?	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

贪婪匹配和惰性匹配

.*	贪婪匹配
.*？	惰性匹配

3.3 re模块使用

import re
# findall:匹配字符串中所有的符合正则的内容
list=re.findall(r"\d+","我的电话号是:10086,女朋友的电话是：10010")
print(list)

#finditer:匹配字符串中所有的内容[返回的是迭代器],从迭代器中拿到内容需要.group()
it = re.finditer(r"\d+","我的电话号是:10086,女朋友的电话是：10010")
for i in it:
    print(i)
    print(i.group())
#search,找到一个结果就返回，返回的结果是match对象，拿数据需要.group()
s=re.search(r"\d+","我的电话号是:10086,女朋友的电话是：10010")
print(s.group())
#match是从头开始匹配
s=re.match(r"\d+","10086,女朋友的电话是：10010")
print(s.group())

#预加载正则表达式
obj=re.compile(r"\d+")
ret=obj.finditer("我的电话号是:10086,女朋友的电话是：10010")
for i in ret:
    print(i)
    print(i.group())
ret=obj.findall("我爱你1万年")
print(ret)

love='''
李逍遥
赵灵儿
林月如
刘晋元
阿奴
'''
#re.S:让.能匹配换行符
#(?P<分组名字>正则) 可以单独从正则匹配的内容中进一步提取内容
obj=re.compile(r'(?P.*?)',re.S)
ret=obj.finditer(love)
for i in ret:
    print(i.group("name"))
    print(i.group("number"))

3.3.1 手刃豆瓣top250电影排行

网址：豆瓣电影 Top 250

#拿到页面源代码 requests
#通过re来提取想要的有效信息  re
import requests
import re
import csv
url = 'https://movie.douban.com/top250'

# 进行UA伪装
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134 Safari/537.36 Edg/103.0.1264.71'
}

response=requests.get(url=url,headers=headers)

# print(response.text)

page_context = response.text
#解析数据
obj = re.compile(r'.*?.*?(?P.*?).*?'
                 r'.*?
(?P.*?) .*?(?P.*?)'
                 r'.*?(?P.*?)',re.S)
#开始匹配
result=obj.finditer(page_context)
fp=open("data.csv",'w')
csvwriter=csv.writer(fp)
for it in result:
    dic=it.groupdict()
    dic['year']=dic['year'].strip()
    # print(it.group('name'))
    # print(it.group('score'))
    # print(it.group('num'))
    # print(it.group('year').strip())
    csvwriter.writerow(dic.values())
fp.close()
print('over')

3.3.2 屠戮盗版天堂信息

网址：https://www.dy2018.com/

#1.定位到2022必看片
#2.从2020必看片中提取到子页面的连接地址
#3.请求子页面的连接地址，拿到我们想要的下载地址....
import requests
import re
import time
import random
domain ="https://www.dy2018.com/"
user_agent_list = [
    # "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36",
    #                 "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
    #                 "Mozilla/5.0 (Windows NT 10.0; WOW64) Gecko/20100101 Firefox/61.0",
    #                 "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36",
    #                 "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36",
    #                 "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36",
    #                 "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)",
    #                 "Mozilla/5.0 (Macintosh; U; PPC Mac OS X 10.5; en-US; rv:1.9.2.15) Gecko/20110303 Firefox/3.6.15",
                    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134 Safari/537.36 Edg/103.0.1264.77"
                    ]
headers = {'User-Agent': random.choice(user_agent_list)}
response=requests.get(url=domain,headers=headers) #去掉安全验证
response.encoding='gb2312' #指定字符集
response.close()
#拿到ul里面的li
obj1=re.compile(r"2022必看热片.*?(?P.*?)",re.S)
obj2=re.compile(r".*?)
.*?'
                r'',re.S)
result=obj1.finditer(response.text)
child_href_list=[]
for it in result:
    ul=it.group('ul')
    #提取子页面链接：
    result1=obj2.finditer(ul)
    for it2 in result1:
        #拼接子页面的url地址：域名+子页面地址
        child_href = domain +it2.group('href').strip("/")
        # print(it2.group('href'))
        child_href_list.append(child_href) #把子页面链接保存起来
#提取子页面内容
for href in child_href_list:
    print(href)
    time.sleep(3)
    child_response=requests.get(url=href,headers=headers,verify=False)
    child_response.encoding='gbk'
    url=obj3.search(child_response.text)
    print(url.group("movie_name"))
    print(url.group("download"))
    # break
    # print(child_response.text)

3.4 bs4 解析

3.4.1 bs4解析 -HTML语法

3.4.2 bs4解析入门--搞搞菜价（未使用bs4，原网址内容改变）

url=北京新发地 (xinfadi.com.cn)

#安装bs4
import requests
import json
if __name__ =="__main__":
    posr_url='http://www.xinfadi.com.cn/getCat.html'
    headers={
        'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134 Safari/537.36 Edg/103.0.1264.77"
    }
    data={
        'prodCatid':'1186'
    }
    response=requests.post(url=posr_url,data=data,headers=headers)
    list_json=response.json()
    fp=open('./food.json','w',encoding='utf-8')
    json.dump(list_json,fp=fp,ensure_ascii=False)
    print("nice!!!")

3.4.3 抓取优美图库图片

url=【唯美壁纸】桌面壁纸唯美小清新唯美手机壁纸电脑桌面壁纸高清唯美大全 - 优美图库 (umei.cc)

# 1.拿到主页面的源代码，然后提取到子页面的链接地址，href
# 2.通过href拿到子页面的内容，从子页面中找到图片的下载地址 img ->src
# 3.下载图片
import requests
import time
from bs4 import BeautifulSoup
if __name__== '__main__':
    domain='https://www.umei.cc'
    post_url='https://www.umei.cc/bizhitupian/weimeibizhi/'
    headers={
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134 Safari/537.36 Edg/103.0.1264.77'
    }
    # data={
    #     'next':'1',
    #     'table':'news',
    #     'action':'getmorenews',
    #     'limit':'10',
    #     'small_length':'120',
    #     'classid':'67'
    # }
    response=requests.get(url=post_url,headers=headers);
    response.encoding='utf-8' #处理乱码
    # print(response.text)
    #把源代码交给bs
    main_page =BeautifulSoup(response.text,'html.parser')

    # print(main_page)
    alist=main_page.find("div",class_='swiper-wrapper after').find_all('a') #把范围第一次缩小
    # print(alist)
    for a in alist:
        href=domain+a.get('href') #直接通过get就可以拿到属性值
        #拿到子页面的源代码
        child_page_response=requests.get(url=href,headers=headers)
        child_page_response.encoding='utf-8'
        child_page_text=child_page_response.text
        #从子页面中拿到图片的下载路径
        child_page=BeautifulSoup(child_page_text,'html.parser')
        child_alist=child_page.find("div",class_="content-box").find('img')
        src=child_alist.get('src')
        #下载图片
        img_response=requests.get(url=src,headers=headers)
        img_name=src.split("/")[-1] #拿到url中的最后一个/以后的内容
        with open("img/"+img_name,mode='wb') as fp:
            fp.write(img_response.content) #图片内容写入文件
        print('nice!!!',img_name)
        time.sleep(1)
    print("all over")

3.5 Xpath

3.5.1 xpath解析基础

xpath解析原理：
    1.实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中
    2.调用etree对象中的xpath方法结合xpath表达式实现标签的定位和内容的捕获
环境的安装：
    pip install lxml
如何实例化一个etree对象
    1.将本地的html文档中的源码数据加载到etree对象中：
    etree.parse(filePath)
    2.可以将从互联网上获取的源码数据加载到该对象中
    etree.HTML('page_text')
    xpath('xpath表达式')
xpath表达式：
    /：表示的是从根节点开始定位。表示的是一个层级。
    //：表示的是多个层级。可以表示从任意位置开始定位。
    属性定位：//div[@class="a"]
    索引定位：//div[@class="a"]/p[2] 索引是从1开始的
    取文本：
        /text() 获取的是标签中直系的文本内容
        //text() 标签中非直系的文本内容()
    取属性：
        /@attrName  /src

a,html




    
    
    
    Document


    热门课程排行榜
    
        Python程序设计
        零基础学习html
        JavaScript全攻略
    
    最新课程排行
    
        版本管理工具介绍
        Canvas 绘图详解
        Pandas数据分析
    


    
    Example Div
    
    
        Example P
    


    1
    2
    3
    李逍遥
    
>
    
    胡歌
    林依晨

林月如
刘晋元
阿奴

from lxml import html
etree=html.etree
if __name__=="__main__":
    parser = etree.HTMLParser(encoding="utf-8")
    #实例化好了一个etree对象，且将被解析的源码加载到了该对象中
    tree=etree.parse('a.html',parser=parser)
    # result=tree.xpath("/html/body/div")
    # result = tree.xpath("/html//div")
    result = tree.xpath("//div")
    print(result)

 result = tree.xpath('//div[@class="a"]')#属性定位

result = tree.xpath('//div[@class="a"]/p[2]')#索引定位

result = tree.xpath('//div[@class="b"]//li[1]/a/text()')[0] #获取文本内容

result = tree.xpath('//div[@class="c"]//text()')[0]

result = tree.xpath('//div[@class="a"]//text()') #取文本下的所有文本内容

result = tree.xpath('//div[@class="a"]/img/@src')

3.5.2 xpath实战 -58二手房

网址：北京二手房网，北京房产网，北京二手房买卖出售交易信息-北京58同城

#需求：爬取58二手房中的房源信息
import requests
from lxml import html
etree=html.etree
if __name__=="__main__":
    #爬取到页面源码数据
    url="https://bj.58.com/ershoufang/"
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134 Safari/537.36 Edg/103.0.1264.77'
    }
    page_text=requests.get(url=url,headers=headers).text
    #数据解析
    tree=etree.HTML(page_text)
    # print(page_text)
    list=tree.xpath('//section[@class="list"]/div[@class="property"]')
    fp=open('58.txt','w',encoding='utf-8')
    for i in list:
        # print(i)
        title=i.xpath('./a/div[@class="property-content"]/div[@class="property-content-detail"]/div[@class="property-content-title"]/h3/@title')[0]
        print(title)
        fp.write(title+'\n')

3.5.3 4k图片解析下载

网址：4K美女壁纸高清4K美女图片彼岸图网 (netbian.com)

#需求：解析下载图片数据 https://pic.netbian.com/4kmeinv/
import requests
import os
from lxml import html
etree=html.etree
if __name__=="__main__":
    #爬取到页面源码数据
    url="https://pic.netbian.com/4kmeinv/"
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134 Safari/537.36 Edg/103.0.1264.77'
    }
    response=requests.get(url=url,headers=headers)
    # response.encoding='utf-8'
    page_text=response.text
    #数据解析:src的属性值
    tree=etree.HTML(page_text)
    # print(page_text)
    list=tree.xpath('//div[@class="slist"]//li')
    # fp=open('58.txt','w',encoding='utf-8')
    #创建一个文件夹
    if not os.path.exists('./picLibs'):
        os.mkdir('./picLibs')
    for i in list:
        # print(i)
        img_src="https://pic.netbian.com"+i.xpath('./a/img/@src')[0]
        img_name=i.xpath('./a/img/@alt')[0]+'.jpg'
        #通用处理中文乱码的解决方案
        img_name=img_name.encode('iso-8859-1').decode('gbk')
        print(img_name,img_src)
        # fp.write(title+'\n')
        #请求图片进行持久化存储
        img_data=requests.get(url=img_src,headers=headers).content
        img_path='picLibs/'+img_name
        with open(img_path,'wb') as fp:
            fp.write(img_data)
            print(img_name+"下载成功!!!")

3.5.4 全国城市名称爬取

网址：PM2.5历史数据_空气质量指数历史数据_中国空气质量在线监测分析平台历史数据

这里采用ctrl +F8 解决debug

方案一：

#需求：解析出所有城市名称
import requests
import os
from lxml import etree
# etree=html.etree
if __name__=="__main__":
    #爬取到页面源码数据
    url="https://www.aqistudy.cn/historydata/"
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134 Safari/537.36 Edg/103.0.1264.77'
    }
    response=requests.get(url=url,headers=headers)
    # response.encoding='utf-8'
    page_text=response.text

    tree=etree.HTML(page_text)

    host_list=tree.xpath('//div[@class="bottom"]//li')

    all_city_names=set()
    for i in host_list:
        # print(i)
        host_city_name=i.xpath('./a/text()')[0]
        all_city_names.add(host_city_name)
    city_names_list=tree.xpath('//div[@class="bottom"]/ul/div[2]/li')
    for li in city_names_list:
        city_name=li.xpath('./a/text()')[0]
        all_city_names.add(city_name)
    print(all_city_names,len(all_city_names))

方案二：

#需求：解析出所有城市名称
import requests
import os
from lxml import etree
# etree=html.etree
if __name__=="__main__":
    #爬取到页面源码数据
    url="https://www.aqistudy.cn/historydata/"
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134 Safari/537.36 Edg/103.0.1264.77'
    }
    response=requests.get(url=url,headers=headers)
    # response.encoding='utf-8'
    page_text=response.text
    all_city_names=set()
    tree=etree.HTML(page_text)
    #解析到热门城市和所有城市对应的a标签
    # //div[@class="bottom"]/ul/li/a           热门城市a标签的层级关系
    # //div[@class="bottom"]/ul/div[2]/li    全部城市a标签的层级关系
    a_list=tree.xpath('//div[@class="bottom"]/ul/li/a | //div[@class="bottom"]/ul/div[2]/li/a')
    for a in a_list:
        city_name=a.xpath('./text()')[0]
        all_city_names.add(city_name)
    print(all_city_names,len(all_city_names))

四.反爬初体验

4.1 验证码识别简介

4.1.1 验证码和爬虫之间的联系

反爬机制:验证码。识别验证码图片中的数据，用于模拟登录操作。

识别验证码的操作：

-人工肉眼识别（不推荐）

-第三方自动识别

五.requests进阶概述

我们之前的爬虫中起始已经使用过headers，headers为HTTP协议中得到请求头，一般存放一些和请求内容无关的数据，有时也会存放一些安全验证信息，比如常见的User-Agent，token，cookie等

通过request发送的请求，我们可以把请求头信息放在headers中，也可以单独进行存放，最终由requess自动帮我们拼接成完整的http请求头。

5.1 处理cookie登录小说网

网址：小说_17K小说网|最新小说下载-一起免费看小说

#登录 ->得到cookie
#带着cookie 去请求到书架url ->书架上的内容
#必须把上面的两个操作连起来
#我们可以使用session进行请求 ->session你可以认为是一连串的请求，在这个过程中cookie不会丢失
import requests
#会话
session=requests.session()
#1. 登录
post_url='https://passport.17k.com/ck/user/login'
data={
    'loginName':'18264971932',
    'password':'123321abc'
}
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134 Safari/537.36 Edg/103.0.1264.77'
}
response=session.post(url=post_url,data=data,headers=headers)
# print(response.text)
# print(response.cookies) #看cookie
#2. 拿书架上的数据
url='https://user.17k.com/ck/author/shelf?page=1&appKey=2406394919'
response1=session.get(url=url,headers=headers).json()
print(response1)

5.2 防盗链抓取梨视频

网址：梨视频官网-有故事的短视频-Pear Video

页面源代码中的网址和接口中的网址不一致

网址区别：

https://video.pearvideo.com/mp4/short/20161209/cont-1015013-10085660-hd.mp4

https://video.pearvideo.com/mp4/short/20161209/1659833692645-10085660-hd.mp4

200秒骑兵史：气吞万里如虎_动历史-梨视频官网-Pear Video

将抓取的网址进行替换更改

防盗链：Referer

import requests
if __name__=='__main__':
    url='https://pearvideo.com/video_1015013'
    contId = url.split("_")[1]
    headers={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36',
        #防盗链：溯源,
        'Referer':url
    }
    videoStatus=f'https://pearvideo.com/videoStatus.jsp?contId={contId}&mrd=0.4600743088042203'
    response=requests.get(url=videoStatus,headers=headers)
    dic=response.json()
    srcUrl=dic['videoInfo']['videos']['srcUrl']
    systemTime=dic['systemTime']
    srcUrl=srcUrl.replace(systemTime,f"cont-{contId}")

    #下载视频
    with open(systemTime+".mp4",mode="wb") as fp:
        fp.write(requests.get(url=srcUrl,headers=headers).content)

5.3 代理

原理：通过第三方去发送请求

代理网站：站大爷 - 企业级高品质Http代理IP_Socks5代理服务器_免费代理IP

import requests
if __name__=='__main__':
    url='https://www.baidu.com'
    proxies={
        'https':'https://代理ip网址'
        #  'https':'https://218.60.8.83:3129'
    }
    headers={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'
    }
    response=requests.get(url=url,headers=headers,proxies=proxies)
    response.encoding='utf-8'
    print(response.text)

5.4 抓取网易云评论信息

可以观察使用接口时调用的js文件，从下往上执行，最开始的在最下方

最后一个js文件的send数据设置断点寻找目标接口

import requests
#pip install pycrypto
#这里需要安装 pip install pycryptodome -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com
from base64 import b64encode
import json
from Crypto.Cipher import AES
if __name__=='__main__':
    #1.找到未加密的参数
    #var bKB5G = window.asrsea(JSON.stringify(i2x), buV2x(["流泪", "强"]), buV2x(Rg8Y.md), buV2x(["爱心", "女孩", "惊恐", "大笑"]));加密语法
    #2.想办法把参数进行加密(必须参考网易的逻辑)param ->encText ，encSecKey->encSecKey
    #3.请求到网易，拿到评论信息
    url='https://music.163.com/weapi/comment/resource/comments/get?csrf_token='
    #请求方式是POST
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'
    }
    data={
        'csrf_token': "",
        'cursor': "-1",
        'offset': "0",
        'orderType': "1",
        'pageNo': "1",
        'pageSize': "20",
        'rid': "R_SO_4_368794",
        'threadId': "R_SO_4_368794"
    }
    # "rid=R_SO_4_368794&threadId=R_SO_4_368794&pageNo=1&pageSize=20&cursor=-1&offset=0&orderType=1"
    print(json.dumps(data))
    e = "010001"
    f = "00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7"
    g = "0CoJUm6Qyw8W8jud"
    i = "WsXy0BKCyb9uStPE"


    # 定死i 以拿到以定死的i的encSecKey 不然它变化
    def get_encSecKey():
        # return "091870ee1d9eaa44f50d8788f77f9c625cafc76c4ade76499875831f8b3ded2f417e4909cb47d8c97bfe5e9eab0466b265e1ad2d96beb0a392f3c54394171f9caba249b01c76630b4c98a63f17236ee783c370a7ff48a6cc7417972afe09a0811027f61bd5c9179deb7174d215e6c3896dc33792d79540b835721ab3e0a95ab0"
        return "2331db0c4f71b25b3ff19e347294e2a75b4bd3b1d7a991f7b9d7feeec08f8cdbd1e653e3205fe7867a2171d2c373113b4aa3920a34afef505cc3f912543cefdc65f13deace2db212ea3353f84d503ceb5a1f4c0474749eb712b2d20760d9b1b3a3b4e57d6787e3e254ddb53dd6fe6734aad97f518a81bb20d1b205c95fca3b2a"

    def get_params(data):  # 默认收到的是字符串，并非字典

        first = enc_params(data, g)
        second = enc_params(first, i)
        return second
    #转化成16倍数
    def to_16(data):
        pad = 16 - len(data) % 16
        # print("pad: %d , data : %s" %(pad,data))
        data += chr(pad) * pad
        return data
    #把参数进行加密
    def enc_params(data, key):
        iv="0102030405060708"
        data=to_16(data)
        aes = AES.new(key=key.encode("utf-8"), IV=iv.encode("utf-8"), mode=AES.MODE_CBC) #创造加密器
        bs0=aes.encrypt(data.encode("utf-8")) #加密,加密对的内容的长度必须是16的倍数

        return str(b64encode(bs0), "utf-8")




    #处理加密过程
    '''
    function a(a) { #返回随机的16位字符串
        var d, e, b = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", c = "";
        for (d = 0; a > d; d += 1) #循环16次
            e = Math.random() * b.length, #随机数
            e = Math.floor(e), #取整
            c += b.charAt(e); #取字符串的某某位置
        return c
    }
    function b(a, b) {  #a时要加密的内容
        var c = CryptoJS.enc.Utf8.parse(b) #b是密钥
          , d = CryptoJS.enc.Utf8.parse("0102030405060708")
          , e = CryptoJS.enc.Utf8.parse(a) #e是数据
          , f = CryptoJS.AES.encrypt(e, c, { #AES加密 c是加密的密钥
            iv: d,  #偏移量
            mode: CryptoJS.mode.CBC # 模式采用CBC
        });
        return f.toString()
    }
    g="0CoJUm6Qyw8W8jud"
    e="010001"
    f="00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7"
    function c(a, b, c) { #c不产生随机数
        var d, e;
        return setMaxDigits(131),
        d = new RSAKeyPair(b,"",c),
        e = encryptedString(d, a)
    }
    function d(d, e, f, g) { d:数据 e:buV2x(["流泪", "强"]) ==010001 f: buV2x(Rg8Y.md)==f g = 0CoJUm6Qyw8W8jud
    
        var h = {} # 空对象
          , i = a(16); # i就是一个16位的随机值，把i设置成定值，得到的key是一个定值
        return h.encText = b(d, g), #g 是密钥
        h.encText = b(h.encText, i), #返回的就是params i也是密钥
        h.encSecKey = c(i, e, f), #得到的就是enSecKey ，e和f是定值
        h
    }
    function e(a, b, d, e) {
        var f = {};
        return f.encText = c(a + e, b, d),
        f
    }
    两次加密：
    数据+g =>b => 第一次加密 +i => b =params
    '''
    resp = requests.post(url, data={
        "params": get_params(json.dumps(data)),
        "encSecKey": get_encSecKey()
    })
    print(resp.status_code)
    print(resp.text)

六.异步爬虫

到目前为止，我们可以解决爬虫的基本抓取流程，但是抓取效率还是不够高，如何提高抓取效率？我们可以选择多线程，多进程、协程等操作完成异步爬虫。

6.1 多线程

第一套写法

#多线程
from threading import Thread #线程类
def func():
    for i in range(1000):
        print("func",i)
if __name__ == '__main__':

    t = Thread(target=func()) #创建线程并给线程安排任务
    t.start() #多线程状态为可以开始工作状态，具体的执行时间由CPU决定
    for i in range(1000):

        print("main",i)

第二套写法

#多线程
from threading import Thread #线程类
class MyThread(Thread):
    def run(self): #当线程被执行的时候，被执行的就是run()
        for i in range(1000):
            print("子线程",i)
if __name__ == '__main__':
    t=MyThread()
    t.start()
    for i in range(1000):
        print("主线程",i)

6.2 多进程

#多进程
from multiprocessing import Process
def func():
    for i in range(1000):
        print("子进程",i)
if __name__ == '__main__':
    p=Process(target=func)
    p.start()
    for i in range(1000):
        print("主进程",i)

6.2.1 多线程获取线程名字

#多线程
from threading import Thread #线程类
def func(name):
    for i in range(1000):
        print(name,i)
if __name__ == '__main__':

    t1 = Thread(target=func,args=("胡歌",)) #传递参数必须是元组
    t1.start()
    t2 =Thread(target=func,args=("李逍遥",))
    t2.start()

6.3 线程池和进程池入门（适当的使用）

好处：我们可以降低系统对进程或者线程创建和销毁的一个频率，从而很好的降低系统的开销。

弊端：池中线程和进程的数量是有上限。

6.3.1线程池的基本使用

单线程串行方式执行

import time
#使用单线程串行方式执行
def get_page(str):
    print("正在下载：",str)
    time.sleep(2)
    print("下载成功：",str)
name_list=['xiaozi','aa','bb','cc']
start_time =time.time()
for i in range(len(name_list)):
    get_page(name_list[i])
end_time=time.time()
print("%d second" %(end_time-start_time))

线程池使用

import time
#导入线程池对应的类
from multiprocessing.dummy import Pool
#使用线程池方式执行
start_time =time.time()
def get_page(str):
    print("正在下载：",str)
    time.sleep(2)
    print("下载成功：",str)
name_list=['xiaozi','aa','bb','cc']
#实例化一个线程池对象
pool =Pool(4)
#将列表中每一个列表元素传递给get_page进行处理
pool.map(get_page,name_list)
end_time=time.time()
print("%d second" %(end_time-start_time))

6.3.2 线程池爬取梨视频的视频数据

网址：万象热点资讯_万象热点新闻-梨视频官网-Pear Video

抓取万象中的热点视频，结合之前的防盗链

import requests
from lxml import etree
from multiprocessing.dummy import Pool
#原则：线程池处理的是阻塞且耗时的操作
if __name__=='__main__':
    domain="https://pearvideo.com"
    first_url='https://pearvideo.com/panorama'
    # url='https://pearvideo.com/video_1015013'
    # contId = url.split("_")[1]
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'
    }
    page_text=requests.get(url=first_url,headers=headers).text
    tree=etree.HTML(page_text)
    li_list=tree.xpath('//ul[@id="listvideoListUl"]/li')
    urls=[]
    for li in li_list:
        detail_url=domain+li.xpath('./div/a/@href')[0]
        headers1 = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36',
            'Referer': detail_url
        }
        name=li.xpath('./div/a/div[2]/text()')[0]+".mp4"
        print(detail_url,name)
        contId = detail_url.split("_")[1]
        print(contId)
        detail_url='https://pearvideo.com/video_'+contId
        videoStatus = f'https://pearvideo.com/videoStatus.jsp?contId={contId}&mrd=0.4600743088042203'
        response = requests.get(url=videoStatus, headers=headers1)
        dic = response.json()
        srcUrl = dic['videoInfo']['videos']['srcUrl']
        systemTime = dic['systemTime']
        srcUrl = srcUrl.replace(systemTime, f"cont-{contId}")
        dic={
            'name':name,
            'url':srcUrl,
            'Referer':detail_url
        }
        urls.append(dic)
print(urls)
def get_video_data(dic):
    url=dic['url']
    print(dic['name'],'正在下载')
    newheaders={
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36',
        'Referer':dic['Referer']
    }
    data=requests.get(url=url,headers=newheaders).content
    #持久化存储操作
    with open(dic['name'], mode="wb") as fp:
        fp.write(data)
        print(dic['name'],'下载成功')
#使用线程池对视频数据进行抓取
pool=Pool(5)
pool.map(get_video_data,urls)
pool.close()
pool.join()

6.4 协程

6.4.1 协程的基本概念

import time

def func():
    print("胡歌")
    time.sleep(3) #让当前的线程处于阻塞状态。cpu不服务于当前线程
    print("地瓜")

if __name__ == '__main__':
    func()

#input()程序也是处于阻塞状态
#request.get(url)在网络请求返回数据之前，程序也是处于阻塞状态
#一般情况下，当程序处于IO操作的时候。线程将会处于阻塞状态

#协程：当程序遇见了IO操作的时候，可以选择的切换到其他任务上
#在微观上是一个任务一个任务的进行切换，切换条件一般就是IO操作
#在宏观上，我们能看到的其实是多个任务一起执行
#多任务异步操作

#上方所讲的一切，都是在单线程的条件下

6.4.2 多任务异步协程

6.4.2.1 示例

import time
import asyncio
async def func():
    print("胡歌")
    time.sleep(3) #让当前的线程处于阻塞状态。cpu不服务于当前线程
    print("地瓜")

if __name__ == '__main__':
    g=func() #此时的函数是异步协程函数，此时函数执行得到的是一个协程对象
    print(g)
    asyncio.run(g) #协程程序运行需要asyncio模块的支持

6.4.2.2 错误写法

import time
import asyncio
async def func1():
    print("胡歌A")
    # time.sleep(3) #当程序出现了同步操作的时候，异步就中断了
    await asyncio.sleep(3) #异步操作的代码
    print("地瓜")

async def func2():
    print("胡歌B")
    # time.sleep(2) #让当前的线程处于阻塞状态。cpu不服务于当前线程
    await asyncio.sleep(2)  # 异步操作的代码
    print("李逍遥")

async def func3():
    print("胡歌C")
    # time.sleep(4) #让当前的线程处于阻塞状态。cpu不服务于当前线程
    await asyncio.sleep(4)  # 异步操作的代码
    print("杨延昭")
async def func4():
    print("胡歌D")
    await asyncio.sleep(5)  # 异步操作的代码
    # time.sleep(5) #让当前的线程处于阻塞状态。cpu不服务于当前线程
    print("景天")

if __name__ == '__main__':
    f1=func1()
    f2=func2()
    f3=func3()
    f4=func4()
    task=[
        f1,f2,f3,f4
    ]
    t1=time.time()
    #一次性启动多个任务(协程)
    asyncio.run(asyncio.wait(task))
    t2=time.time()
    print(t2-t1)

6.4.2.3 正确写法

import time
import asyncio
async def func1():
    print("胡歌A")
    # time.sleep(3) #当程序出现了同步操作的时候，异步就中断了
    await asyncio.sleep(3) #异步操作的代码
    print("地瓜")

async def func2():
    print("胡歌B")
    # time.sleep(2) #让当前的线程处于阻塞状态。cpu不服务于当前线程
    await asyncio.sleep(2)  # 异步操作的代码
    print("李逍遥")

async def func3():
    print("胡歌C")
    # time.sleep(4) #让当前的线程处于阻塞状态。cpu不服务于当前线程
    await asyncio.sleep(4)  # 异步操作的代码
    print("杨延昭")
async def func4():
    print("胡歌D")
    await asyncio.sleep(5)  # 异步操作的代码
    # time.sleep(5) #让当前的线程处于阻塞状态。cpu不服务于当前线程
    print("景天")
async def main():
    # #第一种写法
    # f1=func1()
    # await f1 #一般await挂起操作放在协程对象前面
    #第二种写法(推荐)
    tasks=[
        func1(),
        func2(),
        func3(),
        func4()
    ]
    await asyncio.wait(tasks)

if __name__ == '__main__':
    t1=time.time()
    asyncio.run(main())
    t2=time.time()
    print(t2-t1)

6.4.2.4 在爬虫中的模板

#在爬虫领域的应用
async def download(url):
    print("准备开始下载")
    await asyncio.sleep(2) #网络请求
    print("下载完成")
async def main():
    urls=[
        "https://www.baidu.com",
        "https://www.bilibili.com",
        "https://www.163.com"
    ]
    tasks=[]
    for url in urls:
        d=download(url)
        tasks.append(d)
    await  asyncio.wait(tasks)
if __name__ == '__main__':
    asyncio.run(main())

6.4.2.5 异步协程过时警告

需要将放在tasks里的协程对象封装成tasks对象

async def main():
    # #第一种写法
    # f1=func1()
    # await f1 #一般await挂起操作放在协程对象前面
    #第二种写法(推荐)
    tasks=[
        #在python3.8 之后进行这种方案处理
        asyncio.create_task(func1()),
        asyncio.create_task(func2()),
        asyncio.create_task(func3()),
        asyncio.create_task(func4())
    ]
    await asyncio.wait(tasks)

6.5 异步http请求aiohttp模块

下载图片 aiofile

# request.get() 同步的代码 ->异步操作
# pip install aiohttp -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com

import asyncio
import aiohttp

urls=[
    "http://kr.shanghai-jiuxin.com/file/mm/20211130/zkc0inje5x0.jpg",
    "http://kr.shanghai-jiuxin.com/file/mm/20211129/45b0pc0wuz2.jpg",
    "http://kr.shanghai-jiuxin.com/file/mm/20211129/4crz35ldti5.jpg"

]
async def aiodownload(url):
    name=url.rsplit("/",1)[1]
    async  with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            #请求回来数据，写入文件
            with open(name,mode='wb') as f:
                f.write(await response.content.read()) #读取内容是异步的需要挂起
            #response.content.read()  #等价于response.content
            #response.text() 文本数据
            #response.json()
    print(name,"下载完成")
    #aiohttp.ClientSession() #等价于requests模块
    #发送请求
    #保存图片内容
    #保存到文件

async def main():
    tasks=[]
    for url in urls:
        tasks.append(asyncio.create_task(aiodownload(url)))
    await asyncio.wait(tasks)
if __name__ == '__main__':
    asyncio.run(main())

6.6 异步爬虫实战 -扒光一部小说(百度小说西游记整本)

网址：西游记_百度小说 (baidu.com)


'''
1.同步操作：访问getCatlog 拿到所有的章节的cid和名称
2.异步操作：访问getChapterContent 下载所有的文章内容

'''

import requests
import asyncio
import json
import aiohttp
import aiofiles
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'
    }

async def aiodownload(cid,b_id,title):
    data={
        "book_id":b_id,
        "cid":f"{b_id}|{cid}",
        "need_bookinfo":1
    }
    data=json.dumps(data)
    url=f"https://dushu.baidu.com/api/pc/getChapterContent?data={data}"
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            dic=await response.json()
            async with aiofiles.open(title,mode='w',encoding="utf-8") as fp:
                await fp.write(dic['data']['novel']['content']) #把小说内容写出


async def getCatlog(url):
    response=requests.get(url=url,headers=headers)
    dic=response.json()
    tasks=[]
    for item in dic['data']['novel']['items']: #item 就是每一个章节要获取的cid
        title =item['title']
        cid=item['cid']
        tasks.append(asyncio.create_task(aiodownload(cid,b_id,title)))
        print(cid,title)
    await asyncio.wait(tasks)
if __name__ == '__main__':
    b_id="4306063500"
    url='https://dushu.baidu.com/api/pc/getCatalog?data={"book_id":'+b_id+'}'
    asyncio.run(getCatlog(url))

6.7 视频网站的工作原理

#
#一般的视频网站是怎么做的?
#用户上传 ->转码（把视频做处理,2k,1080,标清） ->切片处理(把单个的文件进行拆分) 60
#用户在进行拉动进度条的时候
#==================================== 进度条

#需要一个文件记录：1.视频播放顺序，2.视频存放的路径
#M3U txt json 文本

#想要抓取一个视频:
# 1. 找到m3u8(各种手段)
# 2.通过m3u8下载到ts文件
# 3.可以通过各种手段(不仅是编程手段) 把ts文件合并为一个mp4文件

6.8 抓取看剧柒柒（幸福到万家）

网址：幸福到万家详情介绍-幸福到万家在线观看-幸福到万家迅雷下载 - 看剧柒柒-77影视-77电影-看剧77-77影视-影视大全免费追剧-柒柒看剧 (kanju77.com)

找iframe的url

'''
流程：
    1.拿到主页的源代码，找到iframe
    2.从iframe的页面源代码中拿到m3u8文件
    3.下载m3u8
    4.读取m3u8文件，下载视频
    5.解码
    6.合并视频
'''
import asyncio
import aiofiles
import aiohttp
import requests
from Crypto.Cipher import AES
import time
domain="https://s7.fsvod1.com"
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'
}
async def download_ts(url,name,session):
    print(f"{name}开始下载")
    async with session.get(url) as resp:
        await asyncio.sleep(0.5)
        async with aiofiles.open(f"video/{name}",mode="wb") as fp:
            await fp.write(await resp.content.read())#把下载到的内容写入到文件中
    print(f"{name}下载完毕")
def get_key(url):
    res=requests.get(url)
    return res.text.encode('utf-8')
def download_m3u8(url,name):
    res=requests.get(url,headers)
    time.sleep(0.5)
    with open(name,mode="wb") as fp:
        fp.write(res.content)
async def dec_ts(name,key):
    aes=AES.new(key=key,IV=b"0000000000000000",mode=AES.MODE_CBC)
    async with aiofiles.open(f"video/{name}",mode="rb") as f1,\
        aiofiles.open(f"video2/temp_{name}",mode="wb") as f2:
            bs=await f1.read() #从源文件读取内容
            await f2.write(aes.decrypt(bs)) #把解密好的文件写入
    print(f"{name}处理完毕")

async def aio_dec(key):
    #解密
    tasks=[]
    async with aiofiles.open("幸福到万家_second_m3u8.txt",mode="r",encoding="utf-8") as fp:
        count = 10000
        async for line in fp:
            if line.startswith("#"):
                continue
            line=line.strip()
            count += 1
            name = str(count) + ".ts"
            # line = line.rsplit("hls/")[-1]
            #开始创建异步任务
            task=asyncio.create_task(dec_ts(name,key))
            tasks.append(task)
        await asyncio.wait(tasks)
async def aio_download():
    tasks=[]
    # timeout = aiohttp.ClientTimeout(total=10)  # 将超时时间设置为600秒
    connector = aiohttp.TCPConnector(limit=42)  # 将并发数量降低
    async with aiohttp.ClientSession(connector=connector) as session:#提前准备好session
        async with aiofiles.open("幸福到万家_second_m3u8.txt",mode='r',encoding='utf-8') as fp:
            count=10000
            async for line in fp:
                if line.startswith("#"):
                    continue
                line=line.strip() #去掉没用的空格和换行

                ts_url=domain+line
                # print(ts_url)
                line=line.rsplit("hls/")[-1]
                count+=1
                name=str(count)+".ts"
                task=asyncio.create_task(download_ts(ts_url,name,session)) #创建任务
                tasks.append(task)
            await asyncio.wait(tasks) #等待任务结束

def main():
    # 1.拿到主页面的页面源代码，找到iframe对应的url
    # iframe_src=get_iframe_src(url)
    #拿到m3u8文件的地址
    url="https://s7.fsvod1.com/20220629/JVzrefWe/index.m3u8"
    #下载m3u8文件
    download_m3u8(url,"幸福到万家_first_m3u8.txt")
    #下载第二层m3u8文件
    with open("幸福到万家_first_m3u8.txt",mode="r",encoding="utf-8") as fp:
        for line in fp:
            if line.startswith("#"):
                continue
            else:
                line=line.strip() #去掉空表或者换行符
                #拼接第二层m3u8的下载路径
                #/20220721/q7b0uDF1/1500kb/hls/index.m3u8
                second_m3u8=domain+line
                # print(second_m3u8)
                download_m3u8(second_m3u8,"幸福到万家_second_m3u8.txt")
    #下载视频
    #异步协程

    loop = asyncio.get_event_loop()
    loop.run_until_complete(aio_download())

    # #拿到密钥
    key_url="https://s7.fsvod1.com/20220629/JVzrefWe/1500kb/hls/key.key"
    key=get_key(key_url)
    #解密
    asyncio.run(aio_dec(key))
    # loop.run_until_complete(aio_dec(key))
if __name__ == '__main__':
    main()

注意问题：aiohttp超时问题 ts文件顺序问题

七. selenium 模块

7.1 selenium模块的引入

#能不能让程序连接到浏览器，让浏览器来完成各种复杂的操作，我们只接受最终的结果

#selenium:自动化测试工具
#可以打开浏览器，然后像人一样操作浏览器
#程序员可以从selenium中直接提取网页上的各种信息
#环境搭建:
#   pip install selenium -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com
    #下载浏览器驱动： https://npm.taobao.org/mirrors/chromedriver
    #把解压缩的浏览器驱动 chromedriver 放在python解释器所在的文件夹
#让selenium启动谷歌浏览器
from selenium.webdriver import Chrome
# 1. 创建浏览器对象
web=Chrome()
#2.打开一个网址
web.get("http://www.baidu.com")
print(web.title)

7.2 selenium各种操作抓拉钩

网址：互联网求职招聘找工作-上拉勾招聘-专业的互联网求职招聘网站

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time
web=Chrome()

web.get("http://lagou.com")
el=web.find_element(By.XPATH,'//*[@id="changeCityBox"]/ul/li[1]/a')
#找到某个元素，点击它
# el=web.find_element_by_xpath('//*[@id="changeCityBox"]/ul/li[1]/a')
el.click() #点击事件
time.sleep(1)#让浏览器缓一会
#找到输入框，输入python => 输入回车|点击搜索按钮
web.find_element(By.XPATH,'//*[@id="search_input"]').send_keys("python",Keys.ENTER)
time.sleep(1)
#查找存放数据的位置，进行数据提取
#找到页面中存放数据所有的div
#//*[@id="jobList"]/div[1]/div[1]
div_list=web.find_elements(By.XPATH,'//*[@id="jobList"]/div[1]/div')
for div in div_list:
    job_name=div.find_element(By.TAG_NAME,"a").text
    job_price=div.find_element(By.XPATH,"./div/div/div[2]/span").text
    company_name=div.find_element(By.XPATH,"./div/div[2]/div/a").text
    print(job_name,job_price,company_name)

7.3 selenium--各种操作--窗口之间的切换

7.3.1 窗口的切换

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time
web=Chrome()

web.get("http://lagou.com")
web.find_element(By.XPATH,'//*[@id="cboxClose"]').click()
time.sleep(1)
# el=web.find_element(By.XPATH,'//*[@id="changeCityBox"]/ul/li[1]/a')
# #找到某个元素，点击它
# # el=web.find_element_by_xpath('//*[@id="changeCityBox"]/ul/li[1]/a')
# el.click() #点击事件
# time.sleep(1)#让浏览器缓一会
# #找到输入框，输入python => 输入回车|点击搜索按钮
web.find_element(By.XPATH,'//*[@id="search_input"]').send_keys("python",Keys.ENTER)
time.sleep(1)
web.find_element(By.XPATH,'//*[@id="jobList"]/div[1]/div[1]/div[1]/div[1]/div[1]/a').click()
#如何进入到新窗口进行提取
#注意,在selenium的眼中，新窗口默认是不切换过来的
web.switch_to.window(web.window_handles[-1])
#在新窗口中提取内容
job_detail=web.find_element(By.XPATH,'//*[@id="job_detail"]/dd[2]/div').text
print(job_detail)
web.close()
web.switch_to.window(web.window_handles[0])

7.3.2 获取iframe页面

from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By

web=Chrome()
#如果页面中遇到了 iframe如何处理
web.get("https://kanju77.com/vy/110347-1-1/")
#处理iframe的话，必须先拿到iframe，然后切换视角到iframe，再然后才可以拿数据
iframe=web.find_element(By.XPATH,'//*[@id="playleft"]/iframe')
web.switch_to.frame(iframe)
# web.switch_to.default_content() #切换回原页面
tx=web.find_element(By.XPATH,'/html/head/title').text
print(tx)

7.4 selenium--各种操作--无头浏览器

#让浏览器在后台运行
from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.select import Select
import time
#准备好参数配置
opt=Options()
opt.add_argument("--headless")
opt.add_argument("--disable-gpu")
web=Chrome(options=opt) #把参数配置设置到浏览器
#如果页面中遇到了 iframe如何处理
web.get("https://www.fjnu.edu.cn/")
#如何拿到页面代码(经过数据加载以及js执行之后的结果的html内容)
print(web.page_source)
#定义到下拉列表
# sel_el=web.find_element(By.XPATH,'//*[@id="main"]/div[1]/div/div/h2/select')
# #对元素进行包装，包装成下拉菜单
# sel=Select(sel_el)
# #让浏览器调整选项
# for i in sel.options: #i就是每一个下拉框选项的索引位置
#     sel.select_by_value(i)
#     time.sleep(8)
#     if(i=='3.x'):
#         continue
#     else:
#         text=web.find_element(By.XPATH,'/html/head/title').text
#         print(text)
# web.close()

7.5 selenium--超级鹰处理验证码（超级鹰干超级鹰）

将超级鹰的demo放置在要使用的目录下

网址：用户登录-超级鹰验证码识别代答题平台

# 1. 图像识别
# 2. 选择互联网上成熟的验证码破解工具
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
import time
from chaojiying import Chaojiying_Client
web=Chrome()

web.get("http://www.chaojiying.com/user/login/")
#处理验证码
img=web.find_element(By.XPATH,'/html/body/div[3]/div/div[3]/div[1]/form/div/img').screenshot_as_png
chaojiying = Chaojiying_Client('zhy123321', '123321abc', '937631')
dic=chaojiying.PostPic(img, 1902)
verify_code=dic['pic_str']
#向页面中填入用户名，密码，验证码
web.find_element(By.XPATH,'/html/body/div[3]/div/div[3]/div[1]/form/p[1]/input').send_keys("zhy123321")
web.find_element(By.XPATH,'/html/body/div[3]/div/div[3]/div[1]/form/p[2]/input').send_keys('123321abc')
web.find_element(By.XPATH,'/html/body/div[3]/div/div[3]/div[1]/form/p[3]/input').send_keys(verify_code)
time.sleep(5)
#点击登录
web.find_element(By.XPATH,'/html/body/div[3]/div/div[3]/div[1]/form/p[4]/input').click()

你可能感兴趣的:(Python,python,爬虫,学习)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache