愤怒且自私22

Python爬虫学习笔记

文章目录

爬虫
- 爬虫在使用场景中的分类
- 字符集问题
- 第一个爬虫
- Web请求全过程
- Http协议
- Requests入门
- 数据解析
- - re模块
- bs4解析
- xpath
- requests进阶概述
- - 处理cookie
  - 防盗链
- 代理
爬虫提速
- 多线程
- 多进程
- 线程池和进程池
- 协程
- aiohttp
selenium
- selenium操作
- - 1、抓取数据
  - 2、窗口切换
  - 3、无头浏览器
- 验证码
- - 图像识别！
  - 验证码破解工具
程序被识别到了怎么办？

爬虫

爬虫在使用场景中的分类

通用爬虫

抓取网站系统重要组成部分，抓取的是一整张页面数据。
聚焦爬虫

建立在通用爬虫的基础之上，抓取页面中特定的局部内容。
增量式爬虫

检测网站中数据更新的情况，只会抓取网站中最新更新出来的数据。

字符集问题

window默认是gbk

open(encoding="utf-8")

第一个爬虫

爬虫:通过编写程序来获取到互联网上的资源

读取网页的页面源代码

from urllib.request import urlopen

url = "http://www.baidu.com/"

resp = urlopen(url)



with open("baidu.html",mode="w",encoding="utf-8") as f:
    f.write(resp.read().decode("utf-8"))
print("over!")

resp.close()#关闭resp

Web请求全过程

服务器渲染:在服务器那边直接把数据和html整合在一起，统一返回给浏览器

客户端渲染:

第一次请求只要一个html骨架，第二次请求拿到数据，进行数据展示。

在页面源代码中，看不到数据。

熟练浏览器抓包工具！

Http协议

HTTP是一个客户端终端（用户）和服务器端（网站）请求和应答的标准（TCP）。通过使用网页浏览器、网络爬虫或者其它的工具，客户端发起一个HTTP请求到服务器上指定端口（默认端口为80）。我们称这个客户端为用户代理程序（user agent）。应答的服务器上存储着一些资源，比如HTML文件和图像。我们称这个应答服务器为源服务器（origin server）。在用户代理和源服务器中间可能存在多个“中间层”，比如代理服务器、网关或者隧道（tunnel）。

Requests入门

安装requests

pip install requests

案例1：

import requests

query = input("输入一个搜索关键字")

url = f'https://www.sogou.com/web?query={query}'


headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36"
}

resp = requests.get(url,headers=headers)

print(resp)
print(resp.text)
resp.close()#关闭resp

案例2：

import requests

query = input("输入一个翻译关键字")

url = f'https://fanyi.baidu.com/sug'


headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36"
}
data = {
    "kw":query
}
# 发送post请求，发送的数据必须放在字典中，通过data参数进行传递。
resp = requests.post(url,data=data)

print(resp)
print(resp.json())
#将服务器返回的内容直接处理成json() => dict
resp.close()#关闭resp

设置--->keys--->Surround selection on typing quote or brace

选择直接加双引号！

案例3:

import requests


url = 'https://movie.douban.com/j/chart/top_list'




headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36"
}
#重新封装参数
params = {
    "type": "24",
    "interval_id": "100:90",
    "action": "",
    "start": 0,
    "limit": 20,
}

resp = requests.get(url,params=params,headers=headers)
# resp.request.url和我们直接在链接后面加是一样的！
# resp.request.headers可以看到当前链接的头是什么
# print(resp.request.headers)
print(resp.json())
resp.close()#关闭resp

一定要记得:resp.close()#关闭resp

否则请求过多，请求(堵塞)失败！

文件也记得关闭！

数据解析

三种解析方式:

re解析
bs4解析
xpath解析

正则表达式

Regular Expression

优点: 速度快，效率高，准确度高

元字符	含义
.	匹配除换行符以外的任意一个字符
^	匹配行首
$	匹配行尾
？	重复匹配0次或1次
*	重复匹配0次或更多次
+	重复匹配1次或更多次
{n,}	重复n次或更多次
{n,m}	重复n~m次
[a-z]	任意字符
[abc]	a/b/c中的任意一个字符
{n}	重复n次



\	
将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、或一个八进制转义符。例如，'n' 匹配字符 "n"。'\n' 匹配一个换行符。序列 '\\' 匹配 "\" 而 "\(" 则匹配 "("。

^	
匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性，^ 也匹配 '\n' 或 '\r' 之后的位置。

$	
匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性，$ 也匹配 '\n' 或 '\r' 之前的位置。

*	
匹配前面的子表达式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。

+	
匹配前面的子表达式一次或多次。例如，'zo+' 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等价于 {1,}。

?	
匹配前面的子表达式零次或一次。例如，"do(es)?" 可以匹配 "do" 或 "does" 。? 等价于 {0,1}。

{n}	
n 是一个非负整数。匹配确定的 n 次。例如，'o{2}' 不能匹配 "Bob" 中的 'o'，但是能匹配 "food" 中的两个 o。

{n,}	
n 是一个非负整数。至少匹配n 次。例如，'o{2,}' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。

{n,m}	
m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。例如，"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。

?	
当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串 "oooo"，'o+?' 将匹配单个 "o"，而 'o+' 将匹配所有 'o'。

.	
匹配除换行符（\n、\r）之外的任何单个字符。要匹配包括 '\n' 在内的任何字符，请使用像"(.|\n)"的模式。

(pattern)	
匹配 pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到，在VBScript 中使用 SubMatches 集合，在JScript 中则使用 $0…$9 属性。要匹配圆括号字符，请使用 '\(' 或 '\)'。

(?:pattern)	
匹配 pattern 但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用 "或" 字符 (|) 来组合一个模式的各个部分是很有用。例如， 'industr(?:y|ies) 就是一个比 'industry|industries' 更简略的表达式。

(?=pattern)	
正向肯定预查（look ahead positive assert），在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如，"Windows(?=95|98|NT|2000)"能匹配"Windows2000"中的"Windows"，但不能匹配"Windows3.1"中的"Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。

(?!pattern)	
正向否定预查(negative assert)，在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如"Windows(?!95|98|NT|2000)"能匹配"Windows3.1"中的"Windows"，但不能匹配"Windows2000"中的"Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。

(?<=pattern)	反向(look behind)肯定预查，与正向肯定预查类似，只是方向相反。例如，"(?<=95|98|NT|2000)Windows"能匹配"2000Windows"中的"Windows"，但不能匹配"3.1Windows"中的"Windows"。
(?

 
  *?尽可能少的让*匹配 
  贪婪匹配和惰性匹配 
  .* 贪婪匹配
.*? 惰性匹配
 
   
  re模块 
  findall 
  import re

#findall:匹配字符串中所有符合正则的内容
lst = re.findall(r"\d+","我的电话号是:10086,她的电话号是:1001")
print(lst)
 
  [‘10086’, ‘1001’] 
  finditer 
  import re
#finditer:匹配字符串中所有内容[返回迭代器]
it = re.finditer(r"\d+","我的电话号是:10086,她的电话号是:1001")
for i in it:
    print(i.group())
 
  10086
 1001 
  # search返回的是match对象，拿数据需要.group(),找到一个结果就返回！
s = re.search(r"\d+","我的电话号是:10086,她的电话号是:1001")
print(s.group())
 
  # 从头开始匹配
s = re.match(r"\d+","我的电话号是:10086,她的电话号是:1001")
print(s.group())
 
  AttributeError: 'NoneType' object has no attribute 'group' 
   
   预加载正则表达式 
   
  # 预加载正则表达式
obj = re.compile(r"\d+")

ret = obj.finditer("我的电话号是:10086,她的电话号是:1001")
for i in ret:
    print(i.group())


lst = re.findall(r"\d+","千王之王2000")
print(lst)
    
 
  s = """
    AA 
    BB 
    CC 
    DD 
    EE 
"""

obj = re.compile(r"(?P.*?)
",re.S)
# re.S:让.能匹配换行符

result = obj.finditer(s)
for it in result:
    print(it.group("id"))
    print(it.group("want"))
 
  # (?P<分组名字>正则)可以单独从正则匹配的内容中进一步提取内容
 
  bs4解析 
  bs4 基本使用 
  pip install bs4 -i 清华源 
  拿到页面源代码 
  使用bs4进行解析，拿到数据！ 
  案例—>北京新发地 
  import requests

url = "http://www.xinfadi.com.cn/getPriceData.html"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36"
}
resp = requests.post(url,headers=headers)

print(resp.text)



resp.close()
 
  更换了渲染方式。换其它例子使用bs4 
   
  案例1：生猪价格https://zhujia.zhuwang.cc/ 
  import requests
from bs4 import BeautifulSoup
import csv

url = "https://zhujia.zhuwang.cc/"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36"
}
resp = requests.get(url,headers=headers)

f = open("猪价.csv",mode="w")
csvwriter = csv.writer(f)
# 解析数据
#1 把页面原代码交给bs进行处理。生成bs对象
page = BeautifulSoup(resp.text,"html.parser")#指定html解析器
#2 从bs对象中查找数据
# find#就找第一个和find_all#查找所有
# find(标签,属性=值)
# find_all(标签,属性=值)
#div = page.find("div",class_="bookname") #class是python的关键字
div = page.find("div",attrs={"class":"relevant-areas-detail"})#和上一句语义相同
# print(div)
#拿到所有的tr,做切片
trs = div.find_all("tr")[1:]
# print(trs)
for tr in trs: #每一行
    tds =  tr.find_all("td")#每一行所有的td
    text1 = tds[0].text #.text拿到被标签标记的内容
    text2 = tds[1].text #.text拿到被标签标记的内容
    text3 = tds[2].text #.text拿到被标签标记的内容
    text4 = tds[3].text #.text拿到被标签标记的内容
    text5 = tds[4].text #.text拿到被标签标记的内容
    text6 = tds[5].text #.text拿到被标签标记的内容
    # print(text1,text2,text3,text4,text5,text6)
    csvwriter.writerow([text1,text2,text3,text4,text5,text6])

print("over")
f.close()
resp.close()

 
  案例2：唯美壁纸 
  # 拿到主页面的源代码。然后提取子页面的链接地址，href
# 通过href拿到子页面的内容，拿到图片的地址。
# 下载图片
import requests
from bs4 import BeautifulSoup
import time

url = "https://www.umeitu.com/bizhitupian/weimeibizhi/"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36"
}
resp = requests.get(url,headers=headers);

resp.encoding = 'utf-8'#处理乱码

#把源代码交给bs
main_page = BeautifulSoup(resp.text,"html.parser")#指定html解析器
alist = main_page.find("div",class_="TypeList").find_all("a")
#https://www.umeitu.com/
for a in alist:
    href = a.get('href')#直接通过get可以拿到属性的值
    href = "https://www.umeitu.com/"+href
    #拿到子页面的源代码
    child_page_resp = requests.get(href,headers=headers)
    child_page_resp.encoding='utf-8'
    child_page_text = child_page_resp.text
    #从子页面中拿到图片的下载路径
    child_page = BeautifulSoup(child_page_text,"html.parser")
    div = child_page.find("div",class_="ImageBody")
    img = div.find("img")
    src = img.get("src")

    # 下载图片
    img_resp = requests.get(src,headers=headers)
    img_resp.content #这里拿到的是字节
    img_name = src.split("/")[-1] #拿到url中最后一个/以后的内容
    with open("img/"+img_name,mode="wb") as f:
        f.write(img_resp.content) #图片内容写入文件
    print("over!!!",img_name)
    time.sleep(1)

print("all_over")
resp.close();

# PyCharm会对文件加索引，文件越多，PyCharm越卡，所以我们将文件夹标记为Exluded
# 就不会再对该文件内的文件处理了。

 
  xpath 
  xpath是在XML文档中搜索内容的一门语言 
  html是xml的一个子集 
  安装lxml模块 
  pip install lxml -i xxx 
   
  案例1： xml 
  from lxml import etree

# etree.XML().xpath()
xml = """
    
        1
        野花满地香
        1.23
        香菜
        
            周杰伦
            周润发
            汤姆
            杰瑞
            
                mygold
            
            
                mygold2
            
            
                mygold3
            
        
        
        
            胖陈
            胖不陈
        
    
"""

tree = etree.XML(xml)
result = tree.xpath("/book")
# /表示层级关系，第一个/是根节点
# result = tree.xpath("/book/name")
result = tree.xpath("/book/name/text()")
#text()拿文本
#
# result = tree.xpath("/book/author/nick/text()")
#
# result = tree.xpath("/book/author/div/nick/text()")

# result = tree.xpath("/book/author//nick/text()")#后代
# result = tree.xpath("/book/author/*/nick/text()")#任意节点,通配符

result = tree.xpath("/book//nick/text()")
print(result)

 
  案例2: html 
  
DOCTYPE html>
<html>
    <head>
        <title>这个是标题title>
    head>
    <body>
        <h1>这是一个一个简单的HTML,h1
            <p>Hello World！p>
        h1>

        <ul>
            <li>
                <a href="dapao">大炮a>
                <a href="feiji">飞机a>
                <a href="zhuangjiache">装甲车a>
            li>
            <li>
                <a href="dapao1">大炮1a>
                <a href="feiji1">飞机1a>
                <a href="zhuangjiache1">装甲车1a>
            li>
            <li>
                <a href="dapao2">大炮2a>
                <a href="feiji2">飞机2a>
                <a href="zhuangjiache2">装甲车2a>
            li>
        ul>
        <h2>这是一个一个简单的HTML,h2h2>
        <h3>这是一个一个简单的HTML,h3h3>
        <h4>这是一个一个简单的HTML,h4h4>
        <h5>这是一个一个简单的HTML,h5
            <p>Hello World！1p>
            <p>Hello World！2p>
            <h6>这是一个一个简单的HTML3,h6h6>
            <p>Hello World！4p>
            <p>Hello World！5p>
        h5>
    body>
html>
 
  from lxml import etree

tree = etree.parse("one.html")

# result = tree.xpath("/html")
# result = tree.xpath("/html/body/h5/p/text()")

# result = tree.xpath("/html/body/h5/p[1]/text()")
# xpath的顺序是从1开始数的
# []表示索引

result = tree.xpath("/html/body/ul/li/a[@href='dapao']/text()")
#[@xxx='zzz'] 属性的筛选

ul_li_list = tree.xpath("/html/body/ul/li")

for li in ul_li_list:
    result = li.xpath("./a/text()") #在li中继续去查找。相对查找
    # print(result)
    result2 = li.xpath("./a/@href")
    # print(result2)
    #拿到属性值:@属性值

print(tree.xpath("/html/body/ul/li/a/@href"))

# 可以在浏览器选择元素，直接右键复制xpath

 
   
  requests进阶概述 
  处理cookie 
  登录—>得到cookie 
  带着cookie去请求url得到内容！ 
  必须连续操作！ 
  可以使用session进行请求->session可以是一连串请求，这个过程cookie不会消失！ 
  import requests

# 会话
session = requests.session()

# A->B
# B->A
# A->B
# 登录
url = "..."
data = {
    "loginname" : "xxx",
    "password":"xxx"
}
resp = session.post(url,data=data)

print(resp.cookies)
# 拿数据
# 刚才那个session中是有cookie的
resp = session.get("...")

# 另一种麻烦的方式！
resp = requests.get("...",headers={
    "Cookie":"... ..."
})
print(resp.text)


resp.close()
 
  防盗链 
  案例:梨视频 
  import requests

#拉取视频的网址
url = "https://www.pearvideo.com/video_1748764"

contId = url.split("_")[1]
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36",
    "Referer": "https://www.pearvideo.com/video_1748764"

}
# 溯源，防盗链。能找到上一个网页，能找到当前请求的上一级是谁
videoStatusUrl = f"https://www.pearvideo.com/videoStatus.jsp?contId={contId}&mrd=0.8411394340102853"

resp = requests.get(videoStatusUrl,headers=headers)

dic = resp.json()
srcUrl = dic['videoInfo']['videos']['srcUrl']
systemTime = dic['systemTime']
# 真实视频链接
# https://video.pearvideo.com/mp4/short/20220211/cont-1748764-15825042-hd.mp4
# 得到的视频链接
# https://video.pearvideo.com/mp4/short/20220211/1644843206475-15825042-hd.mp4

srcUrl = srcUrl.replace(systemTime,f"cont-{contId}")

print(srcUrl)
#https://video.pearvideo.com/mp4/short/20220211/cont-1748764-15825042-hd.mp4

# 下载视频

with open("a.mp4",mode="wb") as f:
    f.write(requests.get(srcUrl).content)
    

resp.close()
 
  代理 
  短时间获得大批量数据！ 
  (管理者封ip) 
  原理: 
  通过第三方的机器去发送请求 
  import requests
# 找个免费代理ip网站
# 223.96.90.216:8085
proxies = {
    # "http":"",
    # "https":"000.00.0.00:0000",#旧版本写法
    "http":"http://223.96.90.216:8085"#新版写法
}
resp = requests.get("https://www.baidu.com",proxies=proxies)
resp.encoding = 'utf-8'

print(resp.text)

resp.close()
 
  爬虫提速 
  异步 
  多线程 
  多进程 
  协程 
   
  多线程 
  进程是资源单位，每一个进程至少要有一个线程 
  线程是执行单位， 
  启动每一个程序默认都会有一个主线程 
  第一种写法: 
  from threading import Thread


def func():
    for i in range(1000):
        print("func",i)


if __name__ == '__main__':
    # 创建线程并给线程安排任务
    t = Thread(target=func)
    # 多线程状态为可以开始工作状态，具体执行时间由cpu决定
    t.start();

    # t2 = Thread(...)
    
    for i in range(1000):
        print("main",i)
 
  第二种写法: 
  from threading import Thread

class MyThread(Thread):
    def run(self):#固定的
        pass

if __name__ == '__main__':
    pass

 
  案例: 
  from threading import Thread

class MyThread(Thread):
    def run(self):#固定的 ->当线程被执行的时候，被执行的就是run()
        for i in range(1000):
            print("子线程",i)

if __name__ == '__main__':
    t = MyThread()
    #t.run() 是方法的调用-->单线程
    t.start()#开启线程
    for i in range(1000):
        print("主线程", i)
 
  传参 
  from threading import Thread


def func():
    for i in range(1000):
        print("func",i)


if __name__ == '__main__':

    t1 = Thread(target=func,args=("周杰伦",))
    #传递参数必须是元组

    t1.start();
    

    t2 = Thread(target=func,args=("jay",))
    t2.start();

    # t2 = Thread(...)
    
    for i in range(1000):
        print("main",i)
 
  传参2 
  from threading import Thread

class MyThread(Thread):
    def run(self):#固定的 ->当线程被执行的时候，被执行的就是run()
        for i in range(1000):
            print("子线程",i)

if __name__ == '__main__':
    def __init__(self):#构造函数传参
    t = MyThread()
    #t.run() 是方法的调用-->单线程
    t.start()#开启线程
    for i in range(1000):
        print("主线程", i)
 
   
  多进程 
  from multiprocessing import Process

def func():
    for i in range(1000):
        print("子进程",i)

if __name__ == '__main__':
    p = Process(target=func)
    p.start()
    for i in range(1000):
        print("主进程",i)
 
  第二种写法与多线程相似 
   
  线程池和进程池 
  线程池:一次性开辟一些线程，用户直接给线程池提交任务 
  线程任务的调度交给线程池来完成 
  from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor


def fn(name):
    for  i in range(1000):
        print(name,i)


if __name__ == '__main__':
    #创建线程池
    with ThreadPoolExecutor(50) as t:
        for i in range(100):
            t.submit(fn,name=f"线程{i}")
    # 等待线程池中的任务全部执行完毕，才继续执行(守护)
    print("123")
 
  协程 
  import time

def func():
    print("我爱黎明")
    time.sleep(3) #让当前线程处于阻塞状态，cpu不为我工作
    #input() 程序也是处于阻塞状态
    # request.get() 返回数据之前，程序也是处于阻塞状态
    # 一般情况下，当程序处于io操作时，线程会处于阻塞状态
    print("我爱黎明2")

if __name__ == '__main__':
    func()
    print("123")

# 协程 :当程序遇见了io操作的时候，可以选择性的切换到其它任务上
# 一个任务一个任务进行切换，切换条件一般就是io操作
# 宏观上多个任务一起执行
# 多任务异步操作
# 单线程条件下！
 
  # python写协程程序
import asyncio
async def func():
    print("你好，我是匿蝶")


if __name__ =='__main__':
    g =  func()
    #此时函数是异步协程函数，此时函数执行得到的是一个协程对象
    asyncio.run(g)
 
  # python写协程程序
import asyncio
import time


async def func1():
    print("你好，我是匿蝶")
    # time.sleep(3) #当程序出现了同步操作(requests.get()也是)的时候，异步就中断了。
    await asyncio.sleep(3) #异步操作的代码
    print("你好，我是匿蝶")

async def func2():
    print("你好，我是cao")
    await asyncio.sleep(2)
    print("你好，我是cao")

async def func3():
    print("你好，我是fuck")
    await asyncio.sleep(4)
    print("你好，我是fuck")



if __name__ =='__main__':
    f1 =  func1()
    f2 =  func2()
    f3 =  func3()
    tasks = [
        f1,f2,f3
    ]
    t1 = time.time()
    #协程一次性启动多个任务
    asyncio.run(asyncio.wait(tasks))
    t2 = time.time()
    print(t2-t1)
 
  # python写协程程序
import asyncio
import time

async def func1():
    print("你好，我是匿蝶")
    # time.sleep(3) #当程序出现了同步操作(requests.get()也是)的时候，异步就中断了。
    await asyncio.sleep(3) #异步操作的代码
    print("你好，我是匿蝶")

async def func2():
    print("你好，我是cao")
    await asyncio.sleep(2)
    print("你好，我是cao")

async def func3():
    print("你好，我是fuck")
    await asyncio.sleep(4)
    print("你好，我是fuck")

async def main():
    # 第一种写法:不推荐
    # f1 = func1()
    # await f1
    # await写在async里
    # 一般await挂起操作放在协程对象前面

    # 第二种写法:推荐
    tasks = [
        func1(), func2(), func3(),
    ]
    # await asyncio.wait(tasks)
#版本问题 改为:
    await asyncio.gather(*tasks)

if __name__ =='__main__':
    t1 = time.time()
    asyncio.run(main())
    t2 = time.time()
    print(t2-t1)

 
  协程爬虫模板 
  # python写协程爬虫
import asyncio


async def download(url):
    print("开始下载")
    await asyncio.sleep(3) #异步操作的代码
    print("下载完成")


async def main():

    urls = [
        "baidu.com",
        "bilibili.com",
        "163.com",
    ]

    tasks = []

    for url in urls:
        d = asyncio.create_task(download(url))
        tasks.append(d)

# tasks = [
#	asyncio.create_task(download(url)) for url in urls
#]
    await asyncio.wait(tasks)



if __name__ =='__main__':
    asyncio.run(main())


 
  wait提示3.11抛弃 
  修改后: 
  tasks = [
    asyncio.create_task(func1()),
    asyncio.create_task(func2()),
    asyncio.create_task(func3()),
]
 
  aiohttp 
  浅试一下三张图片: 
  # request.get() 同步的代码--->改为异步操作aiohttp
# pip install aiohttp

import asyncio
import aiohttp

urls = [
    "http://kr.shanghai-jiuxin.com/file/mm/20211130/fqgilkjrjch.jpg",
    "http://kr.shanghai-jiuxin.com/file/mm/20211130/vs55vb4b0d1.jpg",
    "http://kr.shanghai-jiuxin.com/file/mm/20211130/izk1sjb1pbw.jpg"
]

async def aiodown(url):
    # 发送请求 得到图片 保存文件
    # aiohttp.ClientSession() <==> requests
    # 加了with后 会自动帮忙关闭session
    name = url.rsplit("/",1)[1]
    # 从右边切，切一次，得到[1]位置的内容
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as resp:
            # resp.content.read() ===>  resp.content
            # resp.text() ===> resp.text
            # resp.json() ===> resp.json()
            #自己学习一个模块叫aiofiles
            with open(name,mode="wb") as f:
                f.write(await resp.content.read())
            #读取内容是异步的，需要await
            print("写入完成")


async def main():
    tasks = []
    for url in urls:
        tasks.append(asyncio.create_task(aiodown(url)))
    await asyncio.wait(tasks)
if __name__ == '__main__':
    loop = asyncio.get_event_loop()  # 可以防止报错
    loop.run_until_complete(main())
 
  selenium 
  搭建环境: 
  # 能不能让我们的程序连接到浏览器，让浏览器来完成各种复杂的操作，我们只接受最终的结果！
# selenium: 自动化测试工具
# 可以打开浏览器，像人一样操作浏览器
# 我们可以从selenium提取各种信息。
# 怎么用?
# 环境搭建！
# pip install selenium -i 清华源
# 下载浏览器(谷歌浏览器为例)驱动:
# https://registry.npmmirror.com/binary.html?path=chromedriver/
# https://npmmirror.com/package/chromedriver
#把解压缩的浏览器驱动放在python解释器所在的文件夹(运行一下程序会自动显示目录)。
# 让selenium启动谷歌浏览器
from selenium.webdriver import Chrome
# 1、创建浏览器对象
web = Chrome()
# 2、打开一个浏览器网站
web.get("http://www.baidu.com")
# 弹出浏览器并显示Chrome正受到自动测试软件的控制。
print(web.title)

 
  selenium操作 
  1、抓取数据 
  案例: 拉勾网 
  from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time
web = Chrome()

web.get("http://www.lagou.com")


# 找到某个元素，点击它

# el = web.find_element_by_xpath('//*[@id="changeCityBox"]/p[1]/a')
# 上面方法过时，我们要添加from selenium.webdriver.common.by import By并且更改语句
el = web.find_element(By.XPATH,'//*[@id="changeCityBox"]/p[1]/a')

el.click() #点击事件
time.sleep(1)
# 让浏览器缓一会，把东西加载完了，再输入(否则可能报错，未加载完)
# 找到输入框,输入 =>输入回车/点击搜索按钮
web.find_element(By.XPATH,'//*[@id="search_input"]').send_keys("python",Keys.ENTER)
time.sleep(1)
# 查找存放数据的位置，进行数据提取
# 找到页面中存放数据的所有的div
div_list = web.find_elements(By.CLASS_NAME,value='item__10RTO')
for div in div_list:
    # a = web.find_element_by_tag_name("a")方法过期
    a = div.find_element(by=By.TAG_NAME, value='a').text
    span = div.find_element(By.CLASS_NAME,value="money__3Lkgq").text
    com = div.find_element(By.CLASS_NAME,value='company-name__2-SjF')
    c = com.find_element(By.TAG_NAME,value='a').text
    print("岗位:"+a+"   薪资:"+span+"   公司:"+c)
 
  2、窗口切换 
  案例: 拉勾网窗口切换 
  from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time


web = Chrome()

web.get("http://www.lagou.com")

web.find_element(By.XPATH,value='//*[@id="cboxClose"]').click()


time.sleep(1)

web.find_element(By.XPATH,'//*[@id="search_input"]').send_keys("python",Keys.ENTER)

web.find_element(By.XPATH,value='//*[@id="jobList"]/div[1]/div[1]/div[1]/div[1]/div[1]/a').click()

# 如何进入到新窗口进行提取

# 注意:在selenium的眼中，新窗口默认是不切换过来的。

web.switch_to.window(web.window_handles[-1])#window_handles对应选项卡

#在新窗口中提取内容
job = web.find_element(By.XPATH,value='//*[@id="job_detail"]/dd[2]').text
print(job)

# 关掉子窗口，变更selenium窗口视角，回到原来的窗口中！
web.close()
web.switch_to.window(web.window_handles[0])#window_handles对应选项卡

print(web.find_element(By.XPATH,value='//*[@id="jobList"]/div[1]/div[1]/div[1]/div[1]/div[1]/a').text)
 
  还有一种切换！ 
  如果页面中遇到了iframe 
  先定位到iframe再切换视角到iframe再然后再拿数据 
  from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By

import time
web = Chrome()

web.get("https://91kanju.com/vod-play/541-1-1.html")

iframe = web.find_element(By.XPATH,value='//*[@id="player_iframe"]')

time.sleep(1)
web.switch_to.frame(iframe)
# 切入切换iframe

text = web.find_element(By.XPATH,value='/html/head/title').text

# web.switch_to.default_content() 切回原来的视角
print(text)
 
  3、无头浏览器 
  不弹出浏览器。后台跑浏览器 
  from selenium.webdriver.chrome.options import Options


# 准备好参数
opt = Options()
opt.add_argument("--headless")
opt.add_argument("--disable-gpu")
#把参数配置设置到浏览器中
web = Chrome(options=opt)#,chrome_options=opt已过时，可以不用加
 
  案例: 
  from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
from selenium.webdriver.support.select import Select
from selenium.webdriver.chrome.options import Options
import time

# 准备好参数
opt = Options()
opt.add_argument("--headless")
opt.add_argument("--disable-gpu")
#把参数配置设置到浏览器中
web = Chrome(options=opt)#,chrome_options=opt已过时，可以不用加

web.get("https://tool.chinaz.com/")


# 定位到下拉列表
sel_el = web.find_element(By.XPATH,'//*[@id="selDate"]')

# 对元素进行包装，包装成下拉菜单
sel = Select(sel_el)

# 让浏览器调整选项
for i in range(len(sel.options)):#i就是每一个下拉框选项的索引位置
    sel.select_by_index(i)# 按照索引进行切换
    time.sleep(2)
    table = web.find_element(By.XPATH,'//*[@id="rank_up_tab"]')
    print(table.text)#打印所有文本信息
    print("===========================================")

print("运行完毕.")
web.close()
 
   
   怎么获得页面代码? 
   
  
# 怎么获得页面代码Elements?(经过数据加载以及js执行之后的结果的html内容)
print(web.page_source)
 
   
  验证码 
  图像识别！ 
  很难 
  验证码破解工具 
  选择互联网上成熟的验证码破解工具 
  超级鹰 
  注册 
  生成软件id 
  开发文档===>python 
  下载===>chaojiying.py 
  在mian里改就行了。 
  im = open('a.jpg','rb').read() 
  im就是图片的所有字节(图片) 
  chaojiying.PostPic(im,1902) 
  把1902改成自己的要破解的验证码的类型(类型在超级鹰官网看)。 
  返回的pic_str是我们的验证码字符串 
   
  获取图片可以使用(直接是字节) 
  img = we.find_element(...).screenshot_as_png 
   
  写入后点击登录即登录。 
  引入本文件夹的py文件把文件夹标记为Sources Root即可。 
   
  from selenium.webdriver.common.action_chains import ActionChains

# 移动着某个节点，带着偏移量
ActionChains(web).move_to_element_with_offset(...,x,y).click().perform()
 
  ActionChains(web).
 
  btn = web.find_element(By.XPATH,'...')
# 那个span按钮
ActionChains(web).drag_and_drop_by_offset(btn,300,0).perform()#提交事件
 
  执行过程中不要切，可能会导致失败 
  如果没有找到元素，可能是没有加载就在获取。让它多sleep几秒。 
  程序被识别到了怎么办？ 
  chrome的版本小于88 
  在启动浏览器的时候，此时没有加载任何网页内容。向页面嵌入js代码，去掉webdriver 
   
  web = Chrome()		# 创建浏览器对象
# 先嵌入js代码去掉webdriver
web.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
		"source": """
		window.navigator.webdriver = undefined
		Object.defineProperty(navigator, 'webdriver', {
			get: () => undefined
			})
		"""
	})
# 之后便可以正常执行操作
web.get(xxxxxx)
 
   
  大于等于88 
  引入option 
   
  opt = Options()     # 创建配置对象
opt.add_argument("--disable-blink-features=AutomationControlled")	# 添加配置参数
web = Chrome(options=opt)   # 在创建浏览器对象的时候加入配置参数
# 之后便可以正常执行操作
web.get(xxxxx)
 
  还有其它十余种识别selenium的方式。 
  例如淘宝就非常难爬。

利用Python发短信尘盖天科普
#首先注册互亿无线，然后复制发短信界面右上角的apiid和apikey更换代码中的account和password#APIID：1#APIKEY：a9#接口类型：互亿无线触发短信接口，支持发送验证码短信、订单通知短信等。#账户注册：请通过该地址开通账户http://sms.ihuyi.com/register.html#注意事项：#（1）调试期间，请用默认的模板进行测试，默认模板详见接口文档；#（
python怎么用pip怎么用_python的pip怎么用爱文斯坦 python怎么用pip怎么用
详细内容pip是一个Python包管理工具，主要是用于安装PyPI上的软件包，可以替代easy_install工具。pip的一些使用(推荐学习：Python视频教程)1)pip的自我更新$pipinstall-Upip2)安装PyPI软件包$pipinstallSomePackage#latestversion$pipinstallSomePackage==1.0.4#specificversio
chatgpt赋能python：用Python发送短信的简单方法 u012804784 ChatGpt python chatgpt 开发语言计算机
用Python发送短信的简单方法在今天的数字时代，没有任何事情比即时通讯更方便。然而，短信仍然是一种极为有用的通信方式。实际上，正如您所看到的，本文将告诉您如何使用Python在几步内轻松地发送短信。发送短信的三种方法要发送短信，您有三种主要方法：使用SMSAPI-这是一种专为发送短信而设计的API，您可以将其集成到代码中。SMSAPI允许您访问专业工具，例如发送统计和交付报告等，但通常需要收费。
《李航统计学习方法》学习笔记——第五章决策树 eveiiii 统计学习决策树算法剪枝 python 机器学习
决策树5.1决策树模型与学习5.2特征选择5.2.1信息增益5.2.2信息增益比python代码实现例题：信息增益与信息增益比5.3决策树的生成5.3.1ID3算法（python实现）5.3.2C4.5生成算法（python实现）5.4决策树的剪枝5.5CART算法5.5.1CART生成5.5.2CART剪枝习题5.1(python实现）习题5.2(python实现）习题5.3习题5.4参考5.1
python open() 函数参数文件读写参数 licy__ python
open函数的参数读写文件，要通过内置函数open()打开文件，获得文件对象。函数open的参数如下：open(file,mode='r',buffering=-1,encoding=None,errors=None,newline=None,closefd=True,opener=None)参数filefile参数指定了要打开文件的路径。可以是相对路径，比如'text.txt'，就是指当前工作目
Python使用阿里云发送短信的两种方式菲宇 python项目实战 python
参考文档https://help.aliyun.com/document_detail/215764.html安装依赖包pipinstallalibabacloud_tea_openapipipinstallalibabacloud_dysmsapi20170525==2.0.9第一种方式fromaliyunsdkcore.clientimportAcsClientfromaliyunsdkcor
python http服务面向未来的历史 python python3 http server
环境：python3.68centos7.5python3中实现httpserverr有很多种方法，可以使用flask（light），django，tornado等等。也可以使用build-in模块实现，即：http.server-HTTPservers以下代码就是实现的一个httpget请求的完整流程。importjsonimporthttp.serverimportsocketserverfr
Python常见面试题的详解23 ylfhpy Python基础和面试 python 开发语言面试数据库
1.存储过程与触发器有什么区别要点定义用途：存储过程是预编译SQL语句集合，存于数据库，含逻辑控制和变量，用于特定业务，可被调用；触发器是特殊存储过程，特定数据库事件触发，用于数据完整性和审计。调用方式：存储过程需显式调用；触发器由事件自动触发，不可显式调用。参数传递：存储过程可接收输入输出参数；触发器通常无显式参数，基于触发事件表数据操作。存储过程和触发器在数据库中扮演着不同但又重要的角色。存储
用于训练基于pytorch构建的小型字符级语言模型的数据集汇总搏博大模型 pytorch 语言模型人工智能 python 学习机器学习
前文，我们从零开始基于transformer框架在pytorch上构建一个小型字符级语言模型，并编写了完整的python示例，模型是需要训练的，所以在原有代码的基础上，我们寻找一些公开的数据集对模型进行训练。本文需要先了解的前置内容以及代码（如果不训练，仅看如何获取数据集，就可以跳过这部分），可以看的我文章：从零开始构建一个小型字符级语言模型的完整详细教程（基于Transformer架构）-CSD
Python 网络编程实战：手把手教你打造高效 HTTP 服务器！威哥说编程 python 开发语言
随着互联网的普及和发展，越来越多的应用需要通过网络进行数据传输和通信。作为开发者，掌握网络编程的技能是非常重要的。Python是一门非常适合进行网络编程的语言，它拥有简单易用的库，可以帮助我们快速实现高效的网络服务。在本篇文章中，我们将通过实际案例，手把手教你使用Python创建一个高效的HTTP服务器。通过这个实例，你将掌握Python网络编程的基本概念、使用常用的网络库以及如何优化网络服务的性
在 SQLite 中使用 SpatiaLite 实现地理空间数据自动化读写高堂明镜悲白发 sqlite 自动化数据库 GIS
地理空间数据（如坐标点、区域边界）的存储与查询是物联网、位置服务等领域的常见需求。本文提供一套简洁的解决方案，利用SQLite和SpatiaLite扩展，通过触发器和视图实现以下目标：写入简化：直接插入人类可读的坐标文本（如POINT(116.439.9)），自动转为二进制存储。读取简化：查询时自动返回坐标文本，无需手动调用转换函数。代码友好：便于与Python、Java等后端程序集成，隐藏底层空
Python进阶 weixin_30886233 json 数据结构与算法 python
注：本文来源于https://docs.pythontab.com/interpy/，逐个实践操作，增加些原文章中未讲述的知识Python进阶《Python进阶》是《IntermediatePython》的中文译本,谨以此献给进击的Python和Python程序员们!前言Python，作为一个"老练"、"小清新"的开发语言，已受到广大才男俊女的喜爱。我们也从最基础的Python粉，经过时间的摧残慢
【Jenkins】一种闭包（函数嵌套）函数的Jenkinsfile写法，类似于Python的装饰器 luojiaao 汽车软件开发-工具链 jenkins python 运维
defprepare(MapJOB,Closurebody){dir('xxxxx'){sh(script:"gitupdate${JOB.version}")body()}}//调用方法1prepare(version:"3asd8asd7a7ds"){sh(script:"gitcommit")}defJOB=[version:"3asd8asd7a7ds",xxxx:"xxxx"]//调用方
Python之pymysql模块鲸鱼妹子‍ python 数据库 mysql python
文章目录一、环境的配置二、mysql的基本操作三、python操作mysql数据库基础1、连接数据库且创建数据表2、插入数据3、查询数据库4、移动游标指针5、cursor.scroll的用法四、mariadb中如何修改数据库的编码格式一、环境的配置1.需要在自己的linux中安装mariadb-server程序（端口为3306)，并且开启。注意，不能进行网络的安全设定（vim/etc/my.cfv
每天40分玩转Django：简介和环境搭建凡人的AI工具箱 #Django学习 django sqlite python 开发语言后端
Django简介和环境搭建一、课程概述学习项目具体内容预计用时Django概念Django框架介绍、MVC/MTV模式、Django特点60分钟环境搭建Python安装、pip配置、Django安装、IDE选择45分钟创建项目项目结构、基本配置、运行测试75分钟实战练习创建个人博客项目框架60分钟二、Django框架介绍2.1什么是Django？Django是一个高级的PythonWeb框架，它鼓
python的django框架http请求_Django框架学习——Django（四）请求与响应 weixin_39895881
请求回想一下，利用HTTP协议向服务器传参有几种途径？提取URL的特定部分，如/weather/beijing/2018，可以在服务器端的路由中用正则表达式截取；查询字符串（querystring)，形如key1=value1&key2=value2；请求体（body）中发送的数据，比如表单数据、json、xml；在http报文的头（header）中。1、URL路径参数在定义路由URL时，可以使用
python总结报告_python 学习总结 weixin_39628247 python总结报告
数据蛙第一期课程已经进行了两周了，最近一周学习的内容是python相关，这里总结性地概况课程内容，以作知识回顾参考。一、python的基础知识1、数据类型数字型：int、float、Boolean非数字型：字符串、列表、元组、字典可变类型：列表、字典不可变类型：数字、字符串、元组格式化字符串：两种写法a、python的格式化字符串，使用%如果希望输出文字信息的同时输出数据，那就需要使用到格式化操作
python将字符串s和换行符写入文件fp_【python】文件操作徐士萍
本文内容包括：文件的读写操作文件的各种系统操作存储对象遍历文件上代码：importosimportos.pathrootdir="d:/code/su/data"#指明被遍历的文件夹forparent,dirnames,filenamesinos.walk(rootdir):#三个参数：分别返回1.父目录2.所有文件夹名字(不含路径)3.所有文件名字fordirnameindirnames:#输出
pymysql - Python 使用 MySQL Encarta1993 Python python mysql pandas
PyMySQL是在Python3.x版本中用于连接MySQL服务器的一个库，Python2中则使用mysqldb。PyMySQL遵循Python数据库APIv2.0规范，并包含了pure-PythonMySQL客户端库。GitHub-PyMySQL/PyMySQL:PurePythonMySQLClientimportpymysql#连接数据库connection=pymysql.connect(
python学习--mac 下pycharm安装破解逍遥燕 python学习 pycharm
pycharm下载路径：http://www.https://www.jetbrains.com/pycharm/pycharm社区版：https://www.cr173.com/soft/752801.htmlpycharm破解：（1）hosts文件路径：sudovim/etc/hosts（2）将0.0.0.0account.jetbrains.com添加到hosts文件中（3）选择Activa
生成一个完全真实情况下的翌师公会运行机制报告和翌师+ai业务模式的综合价值评估报告太翌修仙笔录人工智能
翌师公会项目全景报告——基于行业基准分析与战略定位研究一、项目本体架构1.组织基因解码核心DNA：markdown知识蒸馏力(35%)+技术融合力(28%)+生态构建力(22%)+合规生存力(15%)进化图谱：mermaidtimeline2023Q4:原型验证2024Q2:MVP发布2025Q1:区域扩展2026Q3:生态闭环2.能力雷达图pythonimportmatplotlib.pyplo
python 基于aiohttp的异步爬虫实战钢铁知识库 python教程 python 爬虫开发语言
钢铁知识库，一个学习python爬虫、数据分析的知识库。人生苦短，快用python。之前我们使用requests库爬取某个站点的时候，每发出一个请求，程序必须等待网站返回响应才能接着运行，而在整个爬虫过程中，整个爬虫程序是一直在等待的，实际上没有做任何事情。像这种占用磁盘/内存IO、网络IO的任务，大部分时间是CPU在等待的操作，就叫IO密集型任务。对于这种情况有没有优化方案呢，当然有，那就是使用
100天精通Python（爬虫篇）——第113天：爬虫基础模块之urllib详细教程大全 m0_74825074 面试学习路线阿里巴巴 python 爬虫开发语言
文章目录1.urllib概述2.urllib.request模块1.urllib.request.urlopen()2.urllib.request.urlretrieve()3.urllib.request.Request()4.urllib.request.install_opener()5.urllib.request.build_opener()6.urllib.request.Abstr
量子计算如何改变加密技术：颠覆与变革的前沿 Echo_Wish 人工智能前沿技术量子计算
量子计算如何改变加密技术：颠覆与变革的前沿大家好，我是Echo_Wish，一名专注于人工智能和Python的自媒体创作者。今天，我们来探讨一个前沿且引人深思的话题——量子计算如何改变加密技术。随着量子计算的快速发展，传统的加密技术面临前所未有的挑战和机遇。本文将详细介绍量子计算对加密技术的影响，并通过实际代码示例展示其可能的应用。一、量子计算的基本概念量子计算是一种基于量子力学原理的新型计算方式，
python pip 国内加速无用功无事忙 python pip 开发语言
python,pip相关学习资料：https://edu.51cto.com/video/1158.htmlhttps://edu.51cto.com/video/2083.htmlhttps://edu.51cto.com/video/3502.htmlPythonpip国内加速指南作为一名刚入行的开发者，你可能会在安装Python库时遇到速度慢的问题。这通常是因为默认的pip源在国外，访问速度
python系列&deep_study系列：使用python操作麦克风录制讲话，实时语音识别转换为文字坦笑&&life AI系列 python 语音识别 xcode
使用python操作麦克风录制讲话，实时语音识别转换为文字使用python操作麦克风录制讲话，实时语音识别转换为文字项目步骤VoskPyaudio完整代码使用python操作麦克风录制讲话，实时语音识别转换为文字在这个项目中，我们将建立一个系统，它可以使用麦克风录制现场讲话，然后通过语音识别进行转录。这可用于自动记录和转录会议、讲座和其他活动，能过自动记录演讲内容。我们将编写代码，来开始和停止录音
python-操作符相关介绍（一）小白快快跑哦 python 开发语言
软件的过程就是数据处理的过程，前面我们讲了python的各种类型的数字，并没有去说操作符，我一直在想是讲完所有python的内置类型再去说这个问题，还是不用等到那么晚。思考再三，我觉得还是把python所遇到的操作符都说一遍，这种操作符很多人都耳熟能祥，但是温故而知新，相信再次的阅读能让你加深印象，初学者也可以通过本章的学习对操作符有一个深入的认知。说到操作符，我们不得不提到表达式，什么是表达式呢
使用Python和Vosk库实现语音识别车载testing python 语音识别开发语言
使用Python和Vosk库实现语音识别在人工智能和机器学习领域，语音识别技术正变得越来越重要。Python作为一种强大的编程语言，拥有丰富的库和框架，可以方便地实现语音识别功能。今天，我们将介绍如何使用Python中的SpeechRecognition库和Vosk模型来实现语音识别。一、SpeechRecognition库的安装SpeechRecognition库是Python中一个简单易用的语
【python】4_异常简易091 python python 开发语言
目录一、异常处理1、异常捕获基本捕获语法：捕获指定异常：捕获多个异常：捕获所有异常：异常else&finally：2、异常的传递性二、模块模块的导入方式1、语法2、as定义别名一、异常处理1、异常捕获基本捕获语法：try:可能发生错误的代码except：如果出现异常执行的代码捕获指定异常：try:print(name)exceptNameErrorase：print("name变量名未定义错误")
Python入门学习指南小码快撩 python 开发语言
Python是一种高级编程语言，因其简洁和易读性而广受欢迎。无论你是编程新手还是有经验的开发者，Python都是一个很好的选择。本文将带你入门Python编程，涵盖基本概念和常用语法。1.安装Python首先，你需要在你的计算机上安装Python。你可以从Python官方网站下载并安装最新版本的Python。安装过程中，请确保勾选“AddPythontoPATH”选项。2.第一个Python程序安
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

Python爬虫学习笔记

文章目录

爬虫

爬虫在使用场景中的分类

字符集问题

第一个爬虫

Web请求全过程

Http协议

Requests入门

数据解析

re模块

bs4解析

xpath

requests进阶概述

处理cookie

防盗链

代理

爬虫提速

多线程

多进程

线程池和进程池

协程

aiohttp

selenium

selenium操作

1、抓取数据

2、窗口切换

3、无头浏览器

验证码

图像识别！

验证码破解工具

程序被识别到了怎么办？

你可能感兴趣的:(Python,python)