银晗

爬虫学习+实战

爬虫

概念：

网络爬虫：就是模拟客户端发送请求，获取响应数据，一种按照一定的规则，自动地抓取万维网上的信息的程序或者脚本

爬虫分类:

通用爬虫：抓取系统中重要的组成部分。抓取的是一整张页面数据
聚焦爬虫：建立在通用爬虫的基础上，抓取的是页面中特定的局部内容。
增量式爬虫：检测网站中数据更新的情况，只会抓取网站中最新更新的数据

爬虫的矛与盾：

反爬机制：门户网站，通过制定相关的策略或技术手段，防止爬虫程序对网站数据的爬取
反反爬：破解门户网站具备的反爬机制，获取数据

爬虫和浏览器的区别：

浏览器：

浏览器向百度服务器发送请求 --> http /www.baidu.com

百度服务器发送数据–> 获取响应数据，进行渲染 -->给用户看

爬虫：

向百度服务器发送请求–> http /www.baidu.com

百度服务器发送数据–> 获取响应数据，并保存数据

URI和URL:

URI全称：Uniform Resource Identifier (统一资源标识符)

URL全程：Universe Resource Locator (统一资源定位符) , URL是URI的子集

举例说明： https：／／github .com/favicon.ico 这是GitHub网站的图标链接

访问协议https · 访问路径github.com · 资源名称favicon.ico

超文本：

hypertext–超文本网页就是超文本解析而成的，网页的源代码就是HTML代码

HTTP和HTTPS协议：

HTTP：Hyper Text Transfer Protocol (超文本传输协议)，用于从网络传输超文本数据到本地浏览器的传送协议，能保证高效而准确的传输超文本文档

HTTPS：Hyper Text Transfer Protocol over Secure Socket Layer (以安全为目标的HTTP通道)，就是HTTP的安全版

就是服务器与客户端进行数据交互的一种形式。

常用请求头信息：

User-Agent：请求载体的身份标识，可以使服务器识别操作系统的版本、浏览器等信息
Conection:请求完之后，是断开连接还是保持连接
Cookie: 为了辨别用户进行会话跟踪而储存在用户本地的数据，功能是维持当前访问会话。就是用户登陆后，服务器会保持登录状态

常用响应头信息：

Content-Type：服务器响应回客户端的媒体类型信息，例如html、json、gif

加密方式：

对称密钥加密：客户端对数据进行加密，锁和密钥一起发给服务器，服务器再用密钥打开锁，发送过程中被拦截密钥会被拿走
非对称密钥加密：服务器制定好加密方式发送给客户端，客户端用该加密方式对数据进行加密，再发送给服务器用私钥进行解密。但是加密方式传输时可能被拦截篡改。
证书密钥加密：先把公开密钥给证书认证机构，给公钥进行签名，公钥封装到证书里，发送给客户端。客户端相信认证机构，客户端通过公钥对报文进行加密发送，服务器接收后用私钥进行解密

响应：

由服务端返回给客户端，分为三部分。响应状态码（Response Status Code）,响应头（Response Headers）,响应体（Response Body）

1.状态码：

200--成功
400--错误请求
403--禁止访问
404--找不到请求的网页
502--错误网关
503--服务器目前无法使用
504--网关超时

2.响应头：响应头，Server、Cookies等信息

3.响应体:请求网页的时候，返回的使HTML代码，请求图片的时候响应的使二进制数据

网页的结构：

title标签使网页的标题 · body是正文内容

div是网页的区块标签，id=“ ” id的内容在网页中是唯一的 class=“ ” 属性标记

HTML文档是树结构，节点树

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gKtR4Fg8-1673159360178)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1632450058735.png)]

为什么有时候解析不到数据？

1.beautifulsoup的标签不规范，无法识别定位

2.xpath的标签嵌套找不到，定位不到

3.js的渲染

使用HTTP请求库得到的源代码和浏览器中看到的数据不一样，是因为js会改变HTML的结点，向其添加内容，最后得到浏览器的页面

4.不要在Elements的选项卡中直接查看源码，那里的代码给渲染过了，要在network中查看

什么是会话（Session）和Cookies

HTTP的特点之一：无状态

指HTTP协议对事务处理是没有记忆能力的，也就是说服务器不知道客户端是什么

意味着如果后续需要处理前面的信息，必须重传

Session

在服务端----网站的服务器

用来保存用户的Session信息

Cookies

在客户端也就可以理解为浏览器端

辨别用户的身份、进行Session跟踪而储存再用户本地终端上的数据

浏览器在下次访问网页时会自动附带上cookies发送给服务器，服务器通过识别Cookies并鉴定出时哪个用户，然后再判断用户是否是登陆状态进而返回对应的响应

1.会话cookies:

cookies放在浏览器内存里，浏览器关闭之后该cookies失效

2.持久cookies:

浏览器关闭，cookies不会消失，cookies会保存会话ID信息到硬盘上，再次打开浏览器，仍然能够找到原来的会话ID，依旧可以处于保持登录状态。

恰恰是这样，这需要服务器为会话机制设置一个失效时间，距离客户端上一次书院会话的时间超过失效时间，服务器就会删除会话以节省空间

代理：

代理–>代理服务器，proxy server

功能：代理网络用户去取得网络信息

理解：代理服务器就是在本机和服务器之间的一个桥，本机向代理发请求，然后代理再向服务器发请求，回来的响应也是经历这样的过程，web服务器无法识别我们的真实IP，从而实现IP伪装

urllib：

有4个模块

request: HTTP请求模块

error: 异常处理模块，如果出现错误，我们可以捕获异常，然后进行重试或者其他操作，保证程序不会意外终止

parse: 工具模块，提供URL的处理方法

robotparse: 识别网站的robot.txt

requests

requests是一个优雅而简单的Python Http请求库，作用是发送请求获取响应数据

使用3步骤：

导入模块
发送get请求，获取响应

从响应中获取数据

import requests

get(url= ,param= ,headers=)
url:请求的路由
param:要访问抓取的参数，用抓包工具用网页上抓取，有些固定的参数自己可以更改，注意数	  据类型是str
headers:User-Agent，抓包工具抓一次就好了
timeout:超时时间，过了这个时间服务器没响应，就返回失败
 
post(url= ,headers= ,data= )	注意和get区分

response = requests.get('http://www.baidu.com')
response.status_code //返回请求状态
response.encoding = 'utf-8'
# print(response.text)
#content :获取响应的二进制数据，图片、图标
response.text = response.content.decode()  
# 默认utf-8 ，如果是gbk ，decode（encoding = ‘gbk’）

text(字符串)，content(二进制) ，json(对象)

#session使用
headers={
    ...
}
proxies={
    ...
}
s = request.Session()
s.header.update(headers)
r = s.get(url,params,headers,timeout,proxies)
r = s.post(url,data)

常用UA：

User_Agent = [
    "Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_2 like Mac OS X; zh-cn) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8H7 Safari/6533.18.5",
    "Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_2 like Mac OS X; zh-cn) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8H7 Safari/6533.18.5",
    "MQQBrowser/25 (Linux; U; 2.3.3; zh-cn; HTC Desire S Build/GRI40;480*800)",
    "Mozilla/5.0 (Linux; U; Android 2.3.3; zh-cn; HTC_DesireS_S510e Build/GRI40) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1",
    "Mozilla/5.0 (SymbianOS/9.3; U; Series60/3.2 NokiaE75-1 /110.48.125 Profile/MIDP-2.1 Configuration/CLDC-1.1 ) AppleWebKit/413 (KHTML, like Gecko) Safari/413",
    "Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; zh-cn) AppleWebKit/533.17.9 (KHTML, like Gecko) Mobile/8J2",
    "Mozilla/5.0 (Windows NT 5.2) AppleWebKit/534.30 (KHTML, like Gecko) Chrome/12.0.742.122 Safari/534.30",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.202 Safari/535.1",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/534.51.22 (KHTML, like Gecko) Version/5.1.1 Safari/534.51.22",
    "Mozilla/5.0 (iPhone; CPU iPhone OS 5_0 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9A5313e Safari/7534.48.3",
    "Mozilla/5.0 (iPhone; CPU iPhone OS 5_0 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9A5313e Safari/7534.48.3",
    "Mozilla/5.0 (iPhone; CPU iPhone OS 5_0 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9A5313e Safari/7534.48.3",
    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.202 Safari/535.1",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; SAMSUNG; OMNIA7)",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0; XBLWP7; ZuneWP7)",
    "Mozilla/5.0 (Windows NT 5.2) AppleWebKit/534.30 (KHTML, like Gecko) Chrome/12.0.742.122 Safari/534.30",
    "Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0",
    "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.2; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET4.0E; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; .NET4.0C)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET4.0E; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; .NET4.0C)",
    "Mozilla/4.0 (compatible; MSIE 60; Windows NT 5.1; SV1; .NET CLR 2.0.50727)",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
    "Opera/9.80 (Windows NT 5.1; U; zh-cn) Presto/2.9.168 Version/11.50",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)",
    "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022; .NET4.0E; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; .NET4.0C)",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/533.21.1 (KHTML, like Gecko) Version/5.0.5 Safari/533.21.1",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; ) AppleWebKit/534.12 (KHTML, like Gecko) Maxthon/3.0 Safari/534.12",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727; TheWorld)",
    "Opera/9.80 (X11; Linux i686; Ubuntu/14.10) Presto/2.12.388 Version/12.16",
    "Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14",
    "Mozilla/5.0 (Windows NT 6.0; rv:2.0) Gecko/20100101 Firefox/4.0 Opera 12.14",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0) Opera 12.14",
    "Opera/12.80 (Windows NT 5.1; U; en) Presto/2.10.289 Version/12.02",
    "Opera/9.80 (Windows NT 6.1; U; es-ES) Presto/2.9.181 Version/12.00",
    "Opera/9.80 (Windows NT 5.1; U; zh-sg) Presto/2.9.181 Version/12.00",
    "Opera/12.0(Windows NT 5.2;U;en)Presto/22.9.168 Version/12.00",
    "Opera/12.0(Windows NT 5.1;U;en)Presto/22.9.168 Version/12.00",
    "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.1",
    "Mozilla/5.0 (Windows NT 6.3; rv:36.0) Gecko/20100101 Firefox/36.0",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10; rv:33.0) Gecko/20100101 Firefox/33.0",
    "Mozilla/5.0 (X11; Linux i586; rv:31.0) Gecko/20100101 Firefox/31.0",
    "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:31.0) Gecko/20130401 Firefox/31.0",
    "Mozilla/5.0 (Windows NT 5.1; rv:31.0) Gecko/20100101 Firefox/31.0",
    "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:29.0) Gecko/20120101 Firefox/29.0",
    "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:25.0) Gecko/20100101 Firefox/29.0",
    "Mozilla/5.0 (X11; OpenBSD amd64; rv:28.0) Gecko/20100101 Firefox/28.0",
    "Mozilla/5.0 (X11; Linux x86_64; rv:28.0) Gecko/20100101  Firefox/28.0",
    "Mozilla/5.0 (Windows NT 6.1; rv:27.3) Gecko/20130101 Firefox/27.3",
    "Mozilla/5.0 (Windows NT 6.2; Win64; x64; rv:27.0) Gecko/20121011 Firefox/27.0",
    "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:25.0) Gecko/20100101 Firefox/25.0",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:25.0) Gecko/20100101 Firefox/25.0",
    "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:24.0) Gecko/20100101 Firefox/24.0",
    "Mozilla/5.0 (Windows NT 6.0; WOW64; rv:24.0) Gecko/20100101 Firefox/24.0",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:24.0) Gecko/20100101 Firefox/24.0"
]

UA：

UA= User-Agent(请求载体的身份标识)

UA伪装：门户网站的服务器会检测对应请求的载体身份标识。如果是某一款浏览器就是一个正常的请求，如果不是就是爬虫，是不正常的请求，服务端可能会拒绝请求，是拿不到数据的。

为了避免被拒绝，爬虫需要进行UA伪装：让爬虫对应的身份标识伪装成某一个浏览器

将 User-Agent封装到一个字典中:

headers={

’ User-Agent‘ = ‘ 网站上的 User-Agent对应的字符串’

}

response.json()  //拿json数据
filename= input+'.json'
fp= open('./douban.json','w', encording='utf-8')
dump.(filename, fp= fp, ensure_ascii=False)

代理：

破解封IP这种反扒机制，突破自身IP访问的限制，隐藏自身IP不会被封。什么是代理服务器：作为一个中转服务器，我们的IP发给代理，代理再发IP给服务器，我们的IP地址不会别封。

代理相关网站：快代理、西祠代理、www.goubanjia.com

代理ip类型：
http：应用到http协议对应的url中
https：应用到https协议对应的url中


代理ip的透明度:
-透明：服务器知道该次请求使用了代理，也知道真实的ip
-匿名：知道使用了代理，不知道真实的ip
-高匿：不知道使用了代理也不知道真实的ip

例如：
proxy = '121.230.211.41'
如果要用户名： proxy = usernamme:password@'121.230.211.41'
proxies={'HTTP/HTTPS':'ip地址',
			  'HTTP':'http'+proxy}
page_text= requests.get(url=url,headers=headers,proxies=proxies).text

数据解析：

数据解析：Beautifulsoup，正则表达式，xpath

概念：解析的局部标签对应的属性中存储的数据值进行提取

进行标签的定位
标签或者标签对应的属性中储存的数据值进行提取

解析图片：

url= '...'
img_data= requests.get(url=url).content

with open('./giutu.jpg','wb') as fp:
	fp.write(img_data)

bs4数据解析：

实例化一个BeautifulSoup对象，并将页面源码数据加载到该对象中
通过BeautifulSoup对象的属性或者方法进行标签定位和数据提取

Beautiful Soup

BeautifulSoup 对象：代表要解析整个文档树，它支持遍历文档树和搜索文档树中描述的大部分的方法

它的作用就是从 HTML 和 BeautifulSoup 对象的创建

fp=open('.html','r',encording='utf-8')
soup= BeautifulSoup(fp,'lxml')

soup.tagName():返回的是html中第一次出现的tagName，tagName就是标签名

find（）方法：

find的作用就是找标签

步骤：

导入模块
准备文档字符串
创建BeautifulSoup标签
查找文档中的标签

find（self ,name=, attrs={}, recursive=True, text= ,**kwargs ）

find_all(name , attrs , recursive , text,**kargs)

参数：

name: 标签名
attrs：属性字典
recursive：是否递归查找
text: 根据文本内容查找

返回：查找到的第一个元素对象

soup = BeautifulSoup('data', 'lxml')  
# BeautifulSoup 会自动修正代码print(soup)

#要准备html的文档
html='''
		...		'''
soup= BeautifulSoup(html , 'lxml')
print(soup)

#查找title和a标签
title= soup.find('title')
a= soup,find('a')  	
#属性定位
soup.find('div',class_=' song')  两个属性定位，标签+属性（可以是id或者attr）

#查找所有的a
soup= find_all('a')
print(a+title)

soup.select('.属性名')  . 代表class_   id/
soup.select('.tang >ul>li>a')[0] 	标签层级选择器，大于号表示一个层级,[]表示第几个
soup.select('.tang >ul a')[0]		空格一次性表示多个层级

soup.select('.tang >ul a')[0].text  直接获取文本

soup.a['标签名']  直接提取文本
#根据属性进行查找
	#查找id 为link1的标签
    a= soup.find(id='link1')
    a= soup.find(attrs={'id':'link1'})		#两种方法
    print(a)
#根据文本内容进行查找
text= soup.find(text=' 要查找的内容')

#Tag对象
print('标签名',a.name)
print('标签所有的属性',a.attrs)
print('标签文本内容',a.text)
Tag可以获取标签的属性和文本

Xpath：

原理：实例化一个etree的对象，且需要将被解析的页面的源码数据加载到该对象中，调用xpath对象的xpath方法获取标签的定位和内容捕获

如何实例化etree对象：

将本地的html文档的源码数据加载到etree中：etree.parse(filepath)
可以将互联网上获取的源码数据加载到该对象中：etree.HTML(‘page_text’)
xpath(‘xpath的表达式’)

tree = etree.parse('test.html')

r= tree.xpath('./html/body/div')
r=tree.xpath('./html/html/div')

#属性定位 tag[@attrname='attrValue']:
r=tree.xpath('//div[@class='song']')

#索引定位 /p[]索引从1开始：(//[@class=标签名]小标签名[第几个])
r=tree.xpath('//div[@class='song']/p[3]')	

#精确文本定位,[0]小技巧去掉列表符
#   /text():拿直系标签的文本
#	//text():拿所有的文本内容
r= tree.xpath('//div[@class='tang']//li[5]/a/text()')[0]	
r= tree.xpath('//div//li[7]//text')[0]

#取属性值  /@attrname
r=tree.xpath('//div[@class='song']/img/@scr')

#属性是多值的匹配 contains(@属性名，标签名)
<li class "li li-first">first item>
result = html.xpath('//li[contain(@class,"li")]/text()')

PyQuery

使用的是CSS选择器

from pyquery import PyQuery as pq
doc = pq(url="...")


doc('#container .list li')

#调用items方法后，会返回一个生成器
for item in doc('#container .list li').items():
    print(item.text())

find()：item.find('css选择器')查找该节点的所有子孙节点
children(): 只拿子节点
parent() / parents()：获取节点的(单个/多个)父节点
siblings(): 获取兄弟节点

pyquery选择返回的结果都是pyquery类型的，可以进行类型转换

获取属性值：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wVJYpUAU-1673159360180)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1635860179367.png)]

或者：a.attr.href

获取文本：

a.text() 返回的是该节点的所有的文本，字符串类型

a.html() 返回当前节点文本

动态更改节点属性

1.addClass 和removeClass

动态更改class属性

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-T6qQT0dQ-1673159360181)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1635860890528.png)]

2.attr方法对属性进行操作

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-poL86Tnx-1673159360181)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1635861027622.png)]

3.text()和html()

可以更改节点内部的内容

4.append、empty、prepend方法

Unicode乱码尝试方法：

UnicodeError是在处理字符串时出现的错误，分为两个子异常类，UnicodeEncode和UnicodeDecodeError

处理这个问题需要使用 encode() 和 decode()方法

encode和decode均可接收encoding与errors两个参数，用来指定编码、解码的错误和出现错误的时候的反应
#注意！解码和解码前后的字符串的长度可能不同，因为二者的长度意义不同。对于Unicode长度为其中字符的长度，str的长度取决于bytes的数目
encode ：将unicode字符串翻译成bytes，也就是str对象
decode ：相反，将bytes翻译为原有的Unicode字符串

unicode字符串就是str->  'hello world'
bytes字符串->	b'hello world'

Encoding Error: UnicodeDecodeError

报错原因：由于指定的编码格式不足以编码指定unicode字符串中的某些字符，说明使用的时错误的编码格式

>>>unicode_seq.encode('ascii')
Traceback (most recent call last):
  File "", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\xf8' in position 13: ordinal not in range(128)
#ascii无法编码u'\xf8'字符

Decoding Error:UnicodeDecodeError

报错原因：你指定的编码格式无法解码该字符串

>>> wrong_seq.decode('utf-8')
Traceback (most recent call last):
  File "", line 1, in <module>
  File "/usr/local/Cellar/python/2.7.13/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0x89 in position 1: invalid start byte
#utf-8无法解码byte流

解决报错的思路：

思路一：Unicode编码解码的顺序
程序的内部是Unicode字符串，程序外部是bytes字符串，所以在程序的入口解码读取到的数据，在程序的出口编码数据

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ucquxuNt-1673159360182)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CPictures%5CSaved%20Pictures%5C70)]

思路二：了解被处理的数据是那种类型
两个方法：1.type()方法查看这个数据的类型  2.repr()方法查看它的Unicode字符串到底是什么

#乱码尝试方法1
 中文转Unicode编码：
 	text = '中国'
 	result = text.encode('unicode_escape')
 Unicode转中文：
 	result = u_str.decode('unicode_escape')

# 乱码尝试方法2
 1.图片：img_name = img_name.encode('iso-8859-1').decode('gbk')
 2.响应数据：response.encoding = 'utf-8'

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NQN8S858-1673159360183)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1632404127737.png)]

Excel：

读取excel，保存为了excel：

 df = pd.DataFrame()

    for i in data:
        df = df.append([[
        i['rank'],
        i['score'],
        i['types'],
        i['regions'],
        i["release_date"],
        i['title'],
        i['actors']]]
        )
    df.columns = ['排名','豆瓣评分','电影类型','国家','上映日期','电影名称','演员']
    df = df.reset_index(drop=True)
    # print(df)

#写入pandas的同时直接保存到excel
#列表符号那些，可以用excel中自带功能进行删除替换处理，快捷键Ctrl+H
    df.to_excel('D:/360Downloads/豆瓣喜剧TOP100.xlsx',sheet_name='Top100',index=False)

wb = xlwt.Workbook(encording='utf-8',style_compression=0)
sh=wb.add_sheet('moviesTop250',cell_overwrite_ok=True)
col = ('表格的表头名')
for i in range(0,8):
	sh.write(0,i,col[i])
#通过for循环将列表中的数据逐一填写到Excel单元格内
for i in range(0,len(dataList)):
    print('%d'%(i+1))
    data= dataList[i]
    for j in range(0,8):
		sh.write(i+1,j,data[j])
sFile = 'D:/360DownLoad:\doubanmovies.xls'
wb.save(sFile)

文件处理：

from openpyxl import Workbook

wb= Workbook()	#创建表
ws= wb.active	#获取当前sheet表
sheet.title = '表名'	#改sheet名

wb2 = load_workbook('文件名字'.xlsx)


#写数据
#method1：直接分配到单元格
sheet["C5"] = 'text'
#method2：附加行
sheet.append([1,2,3])
#method3：自动类型转换
sheet['A3']=''

正则表达式

常用匹配操作：

1.^符和&符的使用，不要单独使用，结合文本例如：^He(\d+)Demo$

2.省略的部分书写(非贪婪模式)：(.*?)

3.遇到不规则的字符：加一个反斜杠例如：\（百度）www… 避免开始匹配不到

修饰符

re.I：使匹配对大小写不敏感
re.L：做本地化识别
re.M：多行匹配，影响^和&
re.S：使 . 符匹配包括换行符在内的所有字符
re.U：根据Unicode字符集解析字符，这个标志影响\w,\W,\b和\B
re.X：给予你更灵活的格式以便于你将正则表达式写得更容易理解

模式

match():从字符串起始的位置匹配正则表达式，如果匹配就返回，没有匹配就返回None
	用.group(索引)来获取匹配到的内容
search():match方法在开头不匹配可能会终止，search可以避免这个问题，sreach可以搜索整个			字符串
sub():不多说，替换
compile():规定一个同一个的正则表达式，可以重复的使用

爬虫中匹配

匹配标签中的内容：
	re.compile( (.*?),html.re.S)
处理字符串：
	s = re.sub('|','',re.S)  去除标签
	s.strip()

字符匹配：

\d:代表任意数字 \D：代表不是数字的（大写的字母一般是和小写的唱反调）
\w：代表字母，数字，下划线，也就是a-z，A-Z，0-9，—。 \W：不是字母数字下划线的
\n：代表一个换行
\r：代表一个回车 \f：代表一个换页 \t：代表一个tab
\s：代表所有的空白字符（包括换行回车换页tab) \S：不是空白的字符
\A:代表字符串的开始 \Z：代表字符串的结束
^:匹配字符串的开始位置 &：匹配字符串的结束位置
\b:匹配一个单词的边界 \B：匹配非单词边界
|：匹配两边的表达式 +（） 要想匹配的不多不少刚刚好，就必须用^和&来规定开始结束
星号：匹配前面的字符串零次或多次例如：zo* 能匹配z、zo、zoo
+：匹配前面的字符串一次或多次例如：zo+能匹配zo、zoo但不能匹配z
？：匹配前面的字符串零次或一次例如：do（es）？可以匹配do或者does
[n]：n是一个非负整数，匹配确定的n次例如o[2]必须匹配到2个o，bob就不能匹配到
[n，]：就是至少匹配n次，可以多不能少 [n,m]：最少匹配n次，最多匹配m次
. : 匹配 \r \n 之外的任何的单个字符
[…]：表示一个范围内的字符例如[a-z]就是a-z间任意一个字符 [^]唱反调
{n}：匹配在{n}前面的东西 n次
()括号可以作为一个分组，括号括起来的内容可以作为中间变量记录下来，要想记录下来并使用把后面的那一部分也括起来然后写（\1）数字就是第几个括号

括号一多容易混，所以用信息加以定义 (？p=< 定义名字>) 例子：(？p=< key1>)

首先导入模块re

校验数字：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mmrJ6avx-1673159360184)(C:\Users\银晗\AppData\Roaming\Typora\typora-user-images\1611386525311.png)]

校验字符的表达式：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-z1rOmeqR-1673159360184)(C:\Users\银晗\AppData\Roaming\Typora\typora-user-images\1611386578655.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RYEO8mCp-1673159360185)(C:\Users\银晗\AppData\Roaming\Typora\typora-user-images\1611386615056.png)]

re模块的方法：
1. 循环所有匹配：re.findall()
  
  re.findall(pattern, string , flags=0)
  
  pattern=正则表达式 string=匹配的字符串
  
  res=re.findall(r‘ r[ua]n’, ‘run ran ren’ ) print(res) 输出run 和ran
  
  注意如果要找单独的单词，请在要匹配的单词首尾各空一个空格
2. re.match(正则表达式，要匹配的字符串) result=re.match() 从左到右匹配字符串，只返回匹配到的
  
  如果match匹配到数据用result.group() 返回数据
3. 替换匹配内容：re.sub()
  
  re.sub( 待替换的字符串,要替换上的字符串，原来整个字符串)
  
  过滤掉网页中那些不需要的符号：re.sub( r‘<.+?>’, ,s)或者(r’‘ )
  
  实例操作：re.sub(r “ http://.+?/)”,lambda x: x.group(1),s) 用匿名函数输出来替换
4. re.search(r’‘ 搜索内容’, ‘匹配内容 ’) :与match不同终端无法继续
5. 分裂内容：re.split()
  
  res=re.split(r ‘ ,;.\ \（分裂标志）’ , ‘a,b;c.d\e’) 就是把，；. \之间的值全部分裂开输出a,b,c,d,e
  
  返回的是列表
6. 包装正则表达式：re.compile()
  
  compile_re=re.complie(r’ r[ua]n ’) 就相当于等效了一下
  
  res=compile_re.findall(‘ run ran ren’)
7. 贪婪模式：只有不设置限制，系统默认一直往后找
  
  用括号括起要关闭贪婪模式的表达式加上一个？

JSon

json模块是Python自带的模块，用于json与python数据之间的相互转换

json.load()方法：

把json字符串，转换为python数据

json_str=‘’‘ … str …’‘’

rs = json.loads(json_str)
读取文件：

with open(‘data.json’) as fp:

python_list = json.load(fp)

python 数据转换为json数据：

json.dumps(obj) 转换为json字符串

json_str = json.dumps(rs, ensure_ascii=Flase) #有中文就要指定ensure_ascii=Flase

python 数据转换为json数据写入文件：

with open('data.json', 'w') as fp:
    json.dump(rs, fp, ensure_ascii=Flase)

文件存储：

1.json文件存储

with open(file = 'result.txt',mode='a',encording='utf-8') as f:
	f.write(json.dumps(content,ensure_ascii=False)+'\n',indent=2)
    #indent表示缩进2个空格

2.csv文件存储

import csv
with open('data.csv','w') as csvfile:
	writer.writerow(['','',''])  //写入每行的数据

不过我还是建议用pandas中转保存！

3.连接MySql数据库：

import pymysql
db = pymqsql.connect(host='localhost',user='root',password='20020520zyh,port=3306')
cursor = db.cursor() //获得mysql的操作游标
// 用execute执行sql语句
cursor.execute('SELECT VERSION()')//获取版本
data = cursor.fetchone()
print('DATABASE version:',data)
cursor.execute("Create database spiders default character set utf-8")
db.close()

高性能异步爬虫：

目的：在爬虫中使用异步实现高性能的数据的爬取

#同步爬虫，单线程，get()很慢，是一个阻塞的方法
response=requests.get(url=url,headers=headers)
if response.status_code == 200:				#判断是否有响应
	return response.content

异步爬虫方式：

多线程，多进程：可以为相关阻塞的操作单独开启线程或者进程，不会等。但是不能无限制的开启多线程

线程池、进程池：可以降低系统对进程或者线程创建和销毁的一个频率，提升效率。但是池中线程数量有上限

from multiprocessing.dummy import Pool

name_list=['aa','bb','cc','dd']
def get_page(str):
{
    print(str)
}
#实例化线程对象
pool=Pool(4)	#四个对象
pool.map(get_page,name_list)	#map(阻塞的方法，对象列表)

单线程+异步协程：
1. event_loop:事件循环，相当于无限循环，把函数注册到事件循环上，当满足某些条件时，函数就会被循环执行
2. coroutine:协程对象，把协程的对象注册到事件循环中，它会被事件循环调用。我们可以使用async关键字来定义一个方法，这个方法在调用时不会立即执行，而是返回一个协程对象。
3. task:任务，它是对协程对象的封装，包含了任务的各个状态。
4. future:代表将来执行或者还没执行的任务，和task没有本质区别
5. async:定义一个协程
6. await:用来挂起阻塞的方法

import asyncio


async def request(url):
    # 用async修饰的函数，调用后返回是一个协程对象
    print('请求的对象是', url)


c = request('www.baidu.com')

# #创建事件循环对象
# loop = asyncio.get_event_loop()
# #将协程对象注册到loop中，然后启动loop
# loop.run_until_complete(c)

# task的使用
loop = asyncio.get_event_loop()
# 基于loop创建一个task对象
task= loop.create_task(c)
print(task)
loop.run_until_complete(task)
print(task)
#future的使用
loop = asyncio.get_event_loop()
task= asyncio.ensure_future(c)
loop.run_until_complete(task)

# 多任务异步协程实现
urls = {
    'www.baidu.com',
    'www.sougou.com',
    'www.goubanjia.com',
}
stasks = []  # 存放任务列表
for url in urls:
    c = request(url)
    task = asyncio.ensure_future(c)
    stasks.append(task)
    # 需要将任务列表封装到wait中
    loop.run_until_complete(asyncio.wait(stasks))
    # 但是在异步协程中出现同步模块的代码，那么无法实现异步

async def requests(url):
    print('正在下载',url)
    # 改一下time.sleep(2)
    await asyncio.sleep(2)

数据分析：

jupyter notebook：

基本操作快捷键：

添加cell：a或者b
删除cell：x
修改成markdown模式：m
修改成code模式：y
执行cell：shift+enter
自动补全：tab
打开帮助文档：shift+tab

Selenium

之前动态加载数据，需要用抓包工具，抓XHR中的参数，用param参数列表进行爬取，selenium更方便

selenium是基于自动化的一个模块

基本使用：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_condition as EC
from selenium.webdriver.support.wait import WebDriverWait

browser = webdriver.Chrome()
try:
    browser.get('https://www.baidu.com') #访问页面
    input = broswer.find_element_by_id('kw') #找到输入框
    input.send_keys('Python') #输入
    input.send_keys(Keys.ENTER) #按回车
    wait = WebdriverWait(broswer,10)  #等待10s
    wait.until(EC.presence_of_element_located((By.ID),'content_left'))
    
    print(broswer.current_url,
         broswer.get_cookies(),
         broswe.page_source())
expect Expection as e:
    print(e)
Fianlly:
    broswer.close()

自动化代码：

发起请求：get（）
broswer= webdriver.Edge()
标签定位：find_element_by_选择器(）
标签交互：send_keys()
执行js程序：excute_script（‘jsCode’）
前进、后退：back()、forward（）
关闭：quit()
点击：click()
清空：clear()
获取cookies:

#选项卡管理
bro.get(...)
bro.execute_script('window.open()')
bro.switch_to_window(bro.window_handles[1])
bro.get(...)
bro.switch_to_window(bro.window_handles[0])

window.open()是JS语句，开启一个选项卡
bro.window_handles :获取当前开启的所有选项卡
switch_to_window(选项卡代号)：切换选项卡

异常处理

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-icAPXOl9-1673159360185)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1632557905053.png)]

标签选择器：

单个标签：find_element_by_选择器（）

选择器：id name xpath link_text tag_name class_name css_selector

多个标签：find_elements_by_选择器()

结点交互：

输入：send_keys(‘内容’)

前进、后退：back()、forward（）

关闭：quit()

点击：click()

清空：clear()

获取结点信息：

通过page_source可以获取网页的源代码，接着可以用解析库解析了，但是selenium提供了选择节点的方法

例：

bro = webdriver.Chrome()
url = 'https://zhihu.com'
bro.get(url)
input = bro.find_element_by_class_name('zu-top-add-question')
print(input.text)

获取结点的信息主要通过属性：

input.id
input.location
input.tag_name
input.size

切换frame：

网页中有一种节点叫做iframe , 也就是子Frame,相当于页面的子页面，它的结构和外部页面一致，但是selenium打开页面之后默认在父级Frame里面操作，不能获取子Frame里面的节点，这时候需要swith_to.frame()来切换Frame

browser.get(url) 
browser.switch_to.frame('iframresult ’) 
browser.switch_to.parent_frame()

等待：

隐式等待：Selenium没有找到节点，就等着直到超出设定时间，则抛出异常

browser=webdriver.Edge()
browser=implicitly_wait(10) 等待10s

显式等待：指定最长等待时间，如果在规定时间内加载出来就返回，超时则抛出异常

wait = WebDriverWait(browser,10)
input = wait.until(EC.presence_of_element_located(By.ID,'q'))

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QZJn26uG-1673159360186)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1632556633791.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cDgiFWOM-1673159360187)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1632556869868.png)]

cookies:

.get_cookies()   

.add_cookies({‘name’:  ,‘domain’:  ,‘values’:  }) 

 delete_all_cookies()

选项卡管理：

bro.get(...)
bro.execute_script('window.open()')
bro.switch_to_window(bro.window_handles[1])
bro.get(...)
bro.switch_to_window(bro.window_handles[0])

window.open()是JS语句，开启一个选项卡
bro.window_handles :获取当前开启的所有选项卡（列表）
switch_to_window(选项卡代号)：切换选项卡

无头浏览器设置：

rom selenium import webdriver
from selenium.webdriver.edge.options import Options
from time import sleep

#创建无头浏览器对象
edge_options = Options()
path = "MicrosoftWebDriver.exe"
EDGE = {
    "browserName": "MicrosoftEdge",
    "version": "",
    "platform": "WINDOWS",
    "ms:edgeOptions": {
        'extensions': [],
        'args': [
            '--headless',
            '--disable-gpu'
        ]}
}
bro = webdriver.Edge(executable_path=path,capabilities=EDGE)

iframe:

#切换浏览器的标签作用域：
bro.switch_to.frame(‘iframeResult’)//切换到子页面
bro.switch_to.parent_frame()

div=bro.find_element_by_id('id')

#动作链
action= ActionChains(bro)
#点击长按指定标签
action.click_and_hold(div)

for i in range(5):
    action.move_by_offset(17).perform()	#perform执行动作链，移动操纵
    sleep(0.3)
action.release()	#释放动作链

隐式等待：
browser=webdriver.Edge()
browser=implicitly_wait(10) 等待10s

显式等待：指定最长等待时间，如果在规定时间内加载出来就返回，超时则抛出异常
wait = WebDriverWait(browser,10)
input = wait.until(EC.presence_of_element_located(By.ID,'q'))

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lJ8SCOOf-1673159360187)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1632556633791.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Wbvz4nGt-1673159360188)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1632556869868.png)]

scrapy：

创建工程：scrapy startproject 文件名

cd 文件名

在spiders子目录中创建一个爬虫文件：scrapy genspider first www.xxx.com

执行工程：scrapy crawl 文件名

进入setting：

进行UA伪装，USER_AGENT='...'
把ROBOTSTXT_OBEY = True 改成Flase 
添加LOG_LEVEL='ERROR'

import scrapy


class FirstSpider(scrapy.Spider):
    name = 'first'  # 爬虫文件的名称
    # allowed_domains = ['www.xxx.com']   允许的域名，start_urls中哪些url可以进行请求，不过一般不用这种机制
    start_urls = ['https://www.baidu.com/', 'https://www.sogou.com/']  # 起始的url列表,可以有多个url

    # 用于数据解析，response参数表示就是start_urls列表的url请求成功后对应响应的对象
    def parse(self, response):
        pass

持久化存储：

#基于终端指令：只可以将parse方法的返回值存储到本地的文本文件中
scrapy crawl 爬虫名 -o ./文件名.csv
#基于管道：在items.py中添加文本对象
文本对象名= scrapy.Field()
#再在pipelines.py中process_item接收持久化储存对象
class QiubaiproPipeline:
    fp= None
    def open_spider(self,spider):
        self.fp= open('./qiubai.txt','w',encoding='utf-8')
		
    def process_item(self, item, spider):
        author= item['author']				#定义属性
        page_text= item['page_text']		#定义属性	
        self.fp.write(author+':'+page_text+'\n')

        return item	#传递下一个管道类，养成习惯
    
    def close_spider(self,spider):
        self.fp.close()
#一个管道类存储一份数据

        
        
        
        
        
        
#再去setting第65-68行开启管道

#爬虫主程序

from qiubaiPro.items import QiubaiproItem
#把工程中items.py文件中 类名导入
item= QiubaiproItem()			
item['author'] = author			#item回倒主程序
item['page_text'] = page_text	#item回倒主程序
yield item



#直接写到mysql数据库:

#重写一个管道类

import pymysql

class mysqlPileLine(object):
    conn= None
    cursor= None
    def open_spider(self,spider):
        #链接对象
        self.conn= pymysql.Connect(host='127.0.0.1',port=3306,user='root',password='20020520zyh',db=qubai,charset='utf8')

    def process_item(self,item,spider):
        #创建游标对象
        self.cursor = self.conn.cursor()

        try:
            self.cursor.execute('insert into qubai values ("%s","%s")'%(item["author"],item["page_text"]))
            self.conn.commit()  #提交
        except Exception as e:
            print('e')
            self.conn.rollback()
		return item
    def close_spider(self,spider):
        self.cursor.close()
        self.conn.close()

#去setting里添加管道
TEM_PIPELINES = {
   'qiubaiPro.pipelines.QiubaiproPipeline': 300,
   'qiubaiPro.pipelines.mysqlPileLine': 301,
}

循环爬取网站多页数据：

class HanSpider(scrapy.Spider):
    name = 'han'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://www.xxx.com/']
    # 通用url模板
    url = '...%d...'
    page_num = 2

    def parse(self, response):
        li_list = response.xpath(' ')
        for li in li_list:
            page_text = li.xpath('... | ... ').extract_first()  # 出现数据为空，直接去找空的情况对应的xpath路径，用或连接
            print(page_text)
            if self.page_num <=11:
                new_url = format(self.url % self.page_num)
                self.page_num+=1
                yield scrapy.Request(url=new_url, callback=self.parse())    #手动发送请求，callback回调函数专门用于数据解析

深度爬取：

#第二层网页的爬取
    def parse_detail(self, response):
        # 接收参数
        item = response.meta['item']

        job_detail = response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[1]/div//text()').extract_first()
        job_detail = ''.join(job_detail)
        print(job_detail)
        item['job_detail'] = job_detail
        yield item  # 提交管道

def parse(self, response):
        li_list = response.xpath(' ')
        for li in li_list:
            page_text = li.xpath('... | ... ').extract_first() 
            # 出现数据为空，直接去找空的情况对应的xpath路径，用或连接
            item['job'] = job
            item['job_area'] = job_area
            
            # 请求传参
            yield scrapy.Request(detail_url, callback=self.parse_detail, meta={'item': item}, dont_filter=True)

图片爬取：

字符串数据：只需要基于xpath进行解析，且提交管道进行持久化存储
图片：xpath解析出图片的src的属性值，单独的对图片地址发起请求获取图片二进制类型的数据

ImagesPipeline:只需要将img的src的属性值解析进行解析，提交到管道，管道就会对src进行请求发送获取图片的二进制数据
    
    
1.xpath解析图片地址
2.将存储图片地址的item存储到制定管道类
 src = li.xpath('./div/a/img/@src2').extract_first()
            src = 'https:'+src
            # print(src)
            item = ImgsproItem()
            item['src'] = src
            yield item
3.重写管道类

from scrapy.pipelines.images import ImagesPipeline
import scrapy
class imagesPileLine(ImagesPipeline):

    #对图片进行请求操作
    def get_media_requests(self, item, info):


        yield scrapy.Request(item['src'])

    #指定图片的存储路径
    def file_path(self, request, response=None, info=None):
        imgName = request.url.split('/')[-1]
        return imgName

    def item_completed(self, results, item, info):
        return item  #返回给下一个即将被执行的管道类，养成习惯
    
4.进入setting更改配置：

开启管道类，并修改类名，改为自定义的管道类名

末尾增加一行存储路径
IMAGES_STORE = './imgs_han'

中间件：

middlewares.py文件中
# import random

	网上找一些ip复制进来
    # user_agent_list=[
    #     '...'
    # ]
    # PROXY_http = [
    #     '...'
    # ]
    #
    # PROXY_https = [
    #     '...'
    # ]
    def process_request(self, request, spider):
        # request.headers['User-Agent'] = random.choice(self.user_agent_list)
        return None

    def process_response(self, request, response, spider):

        return response

    def process_exception(self, request, exception, spider):

        # if request.url.split(':')[0] == 'http':
        #     request.meta['proxy'] = 'http://'+random.choice(self.PROXY_http)
        #
        # else:
        # #代理
        # request.meta['proxy'] = 'https://'+random.choice(self.PROXY_http)
        #
        # return request
       

    
    setting文件中：第55行开启中间件
#DOWNLOADER_MIDDLEWARES = {
#    'imgsPro.middlewares.ImgsproDownloaderMiddleware': 543,
#}

CrawlSpider：

全站数据爬取的方式：基于spider：手动请求；基于CrawlSpider

使用：创建爬虫文件，scrapy genspider -t crawl 文件名 www.xxx.com

 #链接提取器
    link = LinkExtractor(allow=r'type=4&page=\d+')#匹配到了当前页面的链接
#去起始url中，根据指定规则，提取链接  allow="正则表达式"
    rules = (
        #规则解析器对象
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )

全站数据爬取过程：

可以使用链接提取器提取所有的页码链接
让链接提取器提取所有的新闻详情页链接

道类，养成习惯

4.进入setting更改配置：

开启管道类，并修改类名，改为自定义的管道类名

末尾增加一行存储路径
IMAGES_STORE = ‘./imgs_han’




#### 中间件：

```python
middlewares.py文件中
# import random

	网上找一些ip复制进来
    # user_agent_list=[
    #     '...'
    # ]
    # PROXY_http = [
    #     '...'
    # ]
    #
    # PROXY_https = [
    #     '...'
    # ]
    def process_request(self, request, spider):
        # request.headers['User-Agent'] = random.choice(self.user_agent_list)
        return None

    def process_response(self, request, response, spider):

        return response

    def process_exception(self, request, exception, spider):

        # if request.url.split(':')[0] == 'http':
        #     request.meta['proxy'] = 'http://'+random.choice(self.PROXY_http)
        #
        # else:
        # #代理
        # request.meta['proxy'] = 'https://'+random.choice(self.PROXY_http)
        #
        # return request
       

    
    setting文件中：第55行开启中间件
#DOWNLOADER_MIDDLEWARES = {
#    'imgsPro.middlewares.ImgsproDownloaderMiddleware': 543,
#}

CrawlSpider：

全站数据爬取的方式：基于spider：手动请求；基于CrawlSpider

使用：创建爬虫文件，scrapy genspider -t crawl 文件名 www.xxx.com

 #链接提取器
    link = LinkExtractor(allow=r'type=4&page=\d+')#匹配到了当前页面的链接
#去起始url中，根据指定规则，提取链接  allow="正则表达式"
    rules = (
        #规则解析器对象
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )

全站数据爬取过程：

可以使用链接提取器提取所有的页码链接
让链接提取器提取所有的新闻详情页链接

异步爬虫：

目的：在爬虫中使用异步实现高性能的数据的爬取

#同步爬虫，单线程，get()很慢，是一个阻塞的方法
response=requests.get(url=url,headers=headers)
if response.status_code == 200:				#判断是否有响应
	return response.content

异步爬虫方式：

多线程，多进程：可以为相关阻塞的操作单独开启线程或者进程，不会等。但是不能无限制的开启多线程

线程池、进程池：可以降低系统对进程或者线程创建和销毁的一个频率，提升效率。但是池中线程数量有上限

from multiprocessing.dummy import Pool

name_list=['aa','bb','cc','dd']
def get_page(str):
{
    print(str)
}
#实例化线程对象
pool=Pool(4)	#四个对象
pool.map(get_page,name_list)	#map(阻塞的方法，对象列表)

单线程+异步协程：
1. event_loop:事件循环，相当于无限循环，把函数注册到事件循环上，当满足某些条件时，函数就会被循环执行
2. coroutine:协程对象，把协程的对象注册到事件循环中，它会被事件循环调用。我们可以使用async关键字来定义一个方法，这个方法在调用时不会立即执行，而是返回一个协程对象。
3. task:任务，它是对协程对象的封装，包含了任务的各个状态。
4. future:代表将来执行或者还没执行的任务，和task没有本质区别
5. async:定义一个协程
6. await:用来挂起阻塞的方法

import asyncio


async def request(url):
    # 用async修饰的函数，调用后返回是一个协程对象
    print('请求的对象是', url)


c = request('www.baidu.com')

# #创建事件循环对象
# loop = asyncio.get_event_loop()
# #将协程对象注册到loop中，然后启动loop
# loop.run_until_complete(c)

# task的使用
loop = asyncio.get_event_loop()
# 基于loop创建一个task对象
task= loop.create_task(c)
print(task)
loop.run_until_complete(task)
print(task)
#future的使用
loop = asyncio.get_event_loop()
task= asyncio.ensure_future(c)
loop.run_until_complete(task)

# 多任务异步协程实现
urls = {
    'www.baidu.com',
    'www.sougou.com',
    'www.goubanjia.com',
}
stasks = []  # 存放任务列表
for url in urls:
    c = request(url)
    task = asyncio.ensure_future(c)
    stasks.append(task)
    # 需要将任务列表封装到wait中
    loop.run_until_complete(asyncio.wait(stasks))
    # 但是在异步协程中出现同步模块的代码，那么无法实现异步

async def requests(url):
    print('正在下载',url)
    # 改一下time.sleep(2)
    await asyncio.sleep(2)

模拟登录

验证码的识别：

对网页发起request请求，拿到验证码的图片链接
拿到链接之后，再对这个图片的链接发起request请求，拿到content二进制数据
然后打开一个文件，将二进制数据write到这个文件里面
第三方平台进行解码（传入图片文件路径，验证码类型）
登录之后，找到login的数据包，拿到param参数列表，更改icode ，改为验证码识别的内容
再次发送post请求，拿到page_text
利用状态码，看是否是200，是200就成功了

登录成功之后，重新发起详情页的请求后，页面会重新回到登录页面，因为cookies的原因

自动处理cookies：

1.cookies值的来源来自哪里？来源上一次对网页发起请求后生成的

2.使用session对象：

1.可以进行请求的发送

2.如果请求过程中产生了cookie，则该cookie会被自动储存，即携带在session对象中

创建session对象

#自动携带cookie，不用手动写cookies了
session = requests.Session()
response = session.get(url,headers,data)

失败常见原因

1.url错误

2.登陆后的参数列表错误，参数列表除了icode其余都要写成键值对的形式，因为icode每次都会变化

如何保存图片和HTML文件：

#图片数据
with open('./code.jpg','wb') as fp:
	fp.write(img_data)
#HTML文件    
with open('./return.html','w',encoding = 'utf-8') as fp:
	fp.write(login_page_text)

代理使用：

#构建代理池
proxie = { 
        'http' : 'http://xx.xxx.xxx.xxx:xxxx',
        'http' : 'http://xxx.xx.xx.xxx:xxx',
        ....
    }  

response = request.get(url,headers,proxies={'http/https':'代理号'})

异步

协程

协程不是计算机提供，程序员是认为创造。

也叫微线程，是一种用户态内的上下文切换技术，简而言之，其实就是通过，一个线程实现代码块相互切换。

协程的意义

在一个协程中如果遇到IO等待时间，线程不会等待，利用空闲的时候再去干的别的事。

实现协程的方法：

greenlet :早期模块
yield ：生成器
asyncio装饰器
async，await关键字

greenlet

def func1():
	print(1)     #第1步：输出1
	gr2.switch() #第2步：切换到func2
	print(2)   #第5步 输出2
	gr2.switch() #第6步 切换func2
	
def func2():
	print(3)  #第3步 输出3
	gr1.switch() #第4步 切换func1
	print(4) #第7步 输出4
    
gr1 = greenlet(func1)
gr2 = greenlet(func2)

gr1.switch(func1)

yield

def func1():
    yield 1
    yield from func2() #跳到func2
    yield 2
    
def func2():
    yield 3
    yield from func1()
    yield 4
    
f1 = func1()
from item in f1:
    print(item)

asyncio

遇到IO阻塞就自动切换代码块执行，遇到耗时的操作要等待的时候，就立即切换下一个代码块，加快速度

协程函数：asyncio def 函数名

协程对象: 执行协程函数产生的协程对象
asyncio def func():
    print(...)
    
result = func()
asyncio.run(result)

asyncio	描述
get_event_loop()	开启事件循环
run_until_complete(task列表)	执行任务
await()	等待事件结束，返回结果
run()	运行
ensure_future()	创建future对象

理解性代码：

import asyncio

async def func1(): #必须带上关键字async
    print(3)
    await asyncio.sleep()  #模拟耗时操作，自动切换
    print(2)
    
    
async def func2(): 
    print(3)
    await asyncio.sleep()
    print(4)
    
 tasks = [
     asyncio.ensure_future(func1())
     asyncio.ensure_future(func2())
 ]

loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))

事件循环：

理解为一个死循环

1.去检测任务列表，

2.如果任务可执行，就去执行，

3.如果不可执行，就忽略跳过，

4.如果有任务执行完成，就从任务列表中移除

代码操作：

import asyncio

#生成一个事件循环
loop = asyncio.get_event_loop()

#将任务循环放到任务列表
loop.run_until_complete(任务)

await

await + 可等待对象（协程对象、Future对象、Task对象）

#单个协程对象
async def func():
	print('..')
	result = await asyncio.sleep(2)  #等待这个io结束,并返回结果
	print(result)
	
asyncio.run(func())

#多个协程对象
async def others():
    print('start')
    await asyncio.sleep(2)
    print('end')
	return 2
    
    
async def func1():
	print('..')
	result1 = await others() #接收返回的2
	print(result1)
    
async def func2():
	print('..')
    result1 = await others() #遇到IO阻塞，会切换到其他的协程但是不会执行result2
	print(result1)
	result2 = await others() #接收返回的2
	print(result2)	

asyncio.run(func())

Task对象

在事件循环中添加多个任务

Task用于并发调度协程，通过asyncio.create_task(协程对象)的方式创建Task对象，这样可以让协程加入事件循环中等待被调度执行。除此之外，太可以用低级一点的loop.create_task ()或者 ensure_future() 函数，本质上是一样的。

示例代码1：

async def others():
    print('start')
    await asyncio.sleep(2)
    print('end')
	return 2

async def main():
    print('main开始')
    
    task1 = asyncio.create_task(func())
    
    #这里特别解释一下，task1中在执行others函数中 await的sleep的操作时遇到阻塞会自动切换到task2去执行，所以输出第一个start然后接着输出第二个start
    
    task2 = asyncio.create_task(func())
    
    ret1 = await task1
    ret2 = await task2
    
    
asyncio.run(main())

实例代码2：

async def others():
    print('start')
    await asyncio.sleep(2)
    print('end')
	return 2

async def main():
    print('main开始')
    
    task_list =[
        asyncio.create_task(func(),name = '设置task的名字'),
        asyncio.create_task(func())
    ]
    print('main结束')
    
    done,pending = await asyncio.wait(task_list，timeout=2)  
    
    #等待任务列表中的任务全部结束
    #done是已完成的任务的返回值的列表
    #pending是超过timeout时间问完成的任务列表
    
asyncio.run(main())

#另一种写法：
task_list =[
        func(),
        func()，
    ]
#这里会内部自动创建任务，所以列表中就不用创建任务
asyncio.run(asyncio.wait(task_list))

asyncio.Future对象

基于协程，Task继承Future，Task对象内部await结果处理基于Future对象

async def main():
    #创建当前时间循环
	loop = asyncio.get_running_loop()
    
    #创建future对象的任务
    fut = loop.create_future()
    
    #等待任务循环（Future对象），没有结果则会一直等下去
    await fut
    
    
asyncio.run(main())

实例代码：

async def func(fut):
    await asyncio.sleep(2)
    fut.func('666')

async def main():
    #创建当前时间循环
	loop = asyncio.get_running_loop()
	fut = loop.create_future()
	
    #创建任务，绑定func任务
	await loop.create_task( func(fut) )
    
    data = awiat fut
    print(data)

concurrent.futures.Future对象：

使用线程池、进程池实现异步操作时用到的对象

from concurrent.futures import Future
from concurrent.futures.thread import ThreadPoolExcutor
from concurrent.futures.process import ProcessExecutor

def func(values):
    time.sleep(1)
    print(values)
    
#创建线程池
pool = ThreadPoolExecutor(max_workers = 5)
#创建线程池
pool = ProcessPoolExecutor(max_workers = 5)

for i in range(10):
    fut = pool.submit(func , i )
    #创建10个线程，但线程池容量为5
    print(fut)

import time
import asyncio
import concurrent.futures

def func1():
    time.sleep(2)
    return "bb"

async def main():
    loop = asyncio.get_running_loop()
    
    #首先，内部调用THreadPoolExecute方法去线程池中执行func函数，并返回一个concurrent.futures.Future对象
    #然后，调用asyncio.wrap_future对象将concurrent.futures.Future对象包装成asyncio.Future对象，因为concurrent.futures.Future对象不支持await方法，所以需要包装
    fut = loop.run_in_executor(None, func1)
    result = await fut
    print('default thread pool' ,result)
    
    #使用线程池
    with concurrent.futures.ThreadPoolExecutor() as pool:
        result = await loop.run_in_execute(pool,func1)
    #使用进程池   
    with concurrent.futures.ProcessPoolExecute() as pool:
        result = await loop.run_in_execute(pool,func1)
        
 asyncio.run(main())

实战案例：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Hx7C5Yol-1673159330044)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1636385289648.png)]

爬虫内部有三个线程，下载一个图片的同时会执行其他的线程，即下载另一张图片

异步上下文管理器

自动打开和关闭协程函数

定义_ aenyer ()和 _ aexit _ _()方法对async with 语句中的环境进行控制

class AsyncManager:
    def __init__(self):
        self.conn = conn
        
    #第2步：执行函数
    async def do_something(self):
        return 666
    
    #第1步：先执行这里
    async def __aenter__(self):
        #异步连接数据库
        self.conn = await asyncio.sleep(1)
        return self
    
    async def __aexit__(self,exc_type,exc,tb):
        await asyncio.sleep(1)

 	async def func():        
        asynci with AsyncManager() as f:
            result = await f.do_something()
            print(result)
 asyncio.run(func())

异步连接Mysql

pip install aiomysql

import asyncio
import aiomysql

async def execute():
    #连接数据库,先连接'47.93.41.197',遇到阻塞就连接'23.23.67.346'
    conn = await 		    aiomysql.connect(host=host,port=3306,user='root',password=' '，db="mysql")
    
    #网络IO操作，遇到阻塞会自动切换任务
    cur = await conn.cursor()
    
    #网络IO操作，遇到阻塞会自动切换任务
    await cur.execute("SELECT HOST ,USER FROM user")
    await cur.execute('select* from exp ...')
    #网络IO操作，遇到阻塞会自动切换任务
    result = await cur.fetchall()
    print(result)
    
    #网络IO操作，遇到阻塞会自动切换任务
    await cur.close()
    conn.close()
    print("结束")
task_list = [
    execute('47.93.41.197',"root12345"),
    execute('23.23.67.346',"root12345")
]

异步爬虫

pip install aiohttp

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ytlugbKF-1673159330045)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1636416125977.png)]

#网络IO操作，遇到阻塞会自动切换任务
cur = await conn.cursor()

#网络IO操作，遇到阻塞会自动切换任务
await cur.execute("SELECT HOST ,USER FROM user")
await cur.execute('select* from exp ...')
#网络IO操作，遇到阻塞会自动切换任务
result = await cur.fetchall()
print(result)

#网络IO操作，遇到阻塞会自动切换任务
await cur.close()
conn.close()
print("结束")

task_list = [
execute(‘47.93.41.197’,“root12345”),
execute(‘23.23.67.346’,“root12345”)
]


#### 异步爬虫

```python
pip install aiohttp

[外链图片转存中…(img-ytlugbKF-1673159330045)]

你可能感兴趣的:(Python,爬虫,学习,python)

ffmpeg-python安装 neverayever 计算机 ffmpeg python linux
centos-ffmpeg-python安装安装ffmpeg一：下载并解压wgethttp://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gztar-zxvfffmpeg-4.2.tar.gz若linux服务器没网，可以在windows上直接访问http://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gz就可下载，然后上传至服
PHP 网络编程介绍来恩1003 PHP 从入门到精通 php 网络开发语言
PHP学习资料PHP学习资料PHP学习资料在当今数字化时代，网络编程是开发各类应用必不可少的技能。PHP作为一门广泛应用于Web开发的编程语言，同样具备强大的网络编程能力。接下来，我们将深入探讨PHP中网络连接的建立、Socket编程、HTTP请求与响应等网络相关的操作。一、网络连接的建立在PHP中建立网络连接，主要是通过使用内置的函数来实现与远程服务器的通信。最常见的是使用fsockopen函数
PHP 安全与加密：守护 Web 应用的基石来恩1003 PHP 从入门到精通 php 安全前端
PHP学习资料PHP学习资料PHP学习资料在当今数字化时代，Web应用无处不在，而PHP作为一种广泛使用的服务器端脚本语言，承载着无数网站和应用的核心逻辑。然而，随着网络攻击手段日益复杂，PHP应用面临着诸多安全威胁，如SQL注入、XSS攻击等，同时，数据的加密保护也至关重要。本文将深入探讨PHP中的安全问题及加密算法的应用，帮助开发者构建更安全可靠的Web应用。一、PHP安全之殇——SQL注入攻
Python的那些事第二十七篇：Python中的“数据魔法师”NumPy 暮雨哀尘 Python的那些事 python numpy 开发语言数据分析算法数组索引
摘要在这篇幽默风趣的论文中，我们将深入探讨NumPy——Python中最强大的数值计算库之一。它不仅提供了高性能的多维数组对象，还让复杂的数学运算变得像吃冰淇淋一样简单。本文将通过生动的代码示例和幽默的比喻，带你领略NumPy的魔法世界，让你在欢笑中掌握这个强大的工具。一、引言：为什么NumPy是程序员的“超级英雄”？1.1NumPy的起源：从“数据苦力”到“数据魔法师”想象一下，你被困在一个全是
第26篇：pFedLoRA: Model-Heterogeneous Personalized Federated Learning with LoRA使用lora微调的模型异构个性化联邦学习还不秃顶的计科生联邦学习深度学习人工智能开发语言
第一部分：解决的问题联邦学习（FederatedLearning,FL）是一种分布式机器学习方法，允许客户端在本地数据上训练模型，同时通过中心服务器共享学习成果。传统FL框架假设客户端使用相同的模型结构（模型同构），但在实际中可能面对：统计异质性：客户端的数据分布不均（non-IID）。资源异质性：客户端硬件资源有限。模型异质性：客户端可能拥有不同的模型结构。模型异构的个性化联邦学习（MHPFL）
零基础学会asp.net做AI大模型网站/小程序十六：专栏总结借雨醉东风 asp.net 小程序后端
本专栏以实战为主，轻理论。如果哪里有不太懂的，可关注博主后加个人微信（平台规定文章中不能贴联系方式，需先关注博主，再加微信），后续一起交流学习。-------------------------------------正文----------------------------------------目录本专栏总结后续方向项目简介项目结构使用方法项目地址关键特点LLaMA机器学习简介使用LLaMA
GPT (Generative Pre-trained Transformer) 彬彬侠自然语言处理 gpt transformer 预训练 NLP 自然语言处理
GPT(GenerativePre-trainedTransformer)是由OpenAI提出的一个基于Transformer架构的自回归语言模型。GPT模型通过大规模无监督预训练，使用大量的文本数据进行学习，然后再进行微调（fine-tuning）来适应具体的下游任务。GPT的设计目标是能够理解和生成自然语言文本，并且它以其出色的自然语言生成能力在多个领域取得了显著的成果。GPT的基本原理GPT
Python爬虫TLS dme. Python爬虫零基础入门爬虫 python
TLS指纹校验原理和绕过浏览器可以正常访问，但是用requests发送请求失败。后端是如何监测得呢？为什么浏览器可以返回结果，而requests模块不行呢？https://cn.investing.com/equities/amazon-com-inc-historical-data1.指纹校验案例1.1案例：ascii2dhttps://ascii2d.net/importrequestsres
python爬虫Selenium库详细教程_python爬虫之selenium库的使用详解嘻嘻哈哈学编程程序员 python 爬虫 selenium
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化学习资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！2.2访问页面2.3查找元素2.3.1单个元素下面
排序算法：冒泡排序（Python）娱乐不打烊丶排序算法算法数据结构
思路：大家一定都喝过汽水吧，汽水中常常有许多小小的气泡，往上飘，这是因为组成小气泡的二氧化碳比水要轻，所以小气泡才会一点一点的向上浮。而冒泡排序之所以叫冒泡排序，正是因为这种排序算法的每一个元素都可以向小气泡一样，根据自身大小，一点一点向着数组的一侧移动。一图解百惑，上图！那么，话不多说，上代码！defbubble_sort(input_list):#冒泡排序：每次循环，锁定一个最值，并朝着最大或
supervisord 命令介绍和使用案例 lisanmengmeng linux 命令工具系统运维 shell编程服务器 linux 运维
supervisord命令介绍和使用案例supervisord是一个用Python编写的进程管理工具，用于监控和管理Linux系统中的进程。它可以将普通的命令行进程转变为后台守护进程（daemon），并监控进程状态，在进程异常退出时自动重启。它通过fork/exec的方式把被管理的进程当作自己的子进程来启动。主要功能:进程管理：能够启动、停止、重启和关闭进程.自动重启：监控进程状态，并在进程崩溃时
ptython setup.py install 设置python包编译时的并行数 leo0308 基础知识 Python python pytorch3d
通过源码编译安装pytorch3d的时候，直接执行pythonsetup.pyinstall时，默认开的并行数很多，有10几个，直接导致机器卡死。通过设置下面的环境变量，可以设置较小的并行数，避免占用过多的资源。exportMAX_JOBS=4设置后，同时只有4个编译的进程。
【深度学习目标检测|YOLO算法5-1-1】YOLO家族进化史：从YOLOv1到YOLOv11的架构创新、性能优化与行业应用全解析... 985小水博一枚呀论文解读深度学习目标检测 YOLO 人工智能算法架构网络
【深度学习目标检测|YOLO算法5-1-1】YOLO家族进化史：从YOLOv1到YOLOv11的架构创新、性能优化与行业应用全解析…【深度学习目标检测|YOLO算法5-1-1】YOLO家族进化史：从YOLOv1到YOLOv11的架构创新、性能优化与行业应用全解析…文章目录【深度学习目标检测|YOLO算法5-1-1】YOLO家族进化史：从YOLOv1到YOLOv11的架构创新、性能优化与行业应用全解
Vue.js 从新手到专家：第七章高级渲染、动态组件和插件合成 caifox菜狐狸 Vue.js 从新手到专家前端 javascript 开发语言 vue.js ecmascript 前端框架 vite
欢迎来到《Vue.js从新手到专家》的第七章！在这一章中，我们将深入探讨Vue.js的高级渲染技术、动态组件的使用以及如何通过插件扩展应用程序的功能。这些技能将帮助你构建更加灵活和可维护的应用程序。通过学习本章内容，你将掌握以下技能：理解Render函数和JSX的基本概念及其应用场景。学习函数式组件的定义及其实现方式。掌握如何为函数式组件定义Props和Emits。学习如何使用Vue插件全局地添加
python 自动化数据提取之正则表达式_python 正则提取(2) m0_60607245 程序员 python 学习面试
一、Python所有方向的学习路线Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。二、Python必备开发工具工具都帮大家整理好了，安装就可直接上手！三、最新Python学习笔记当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理
GUI编程（window系统→Linux系统）诚信爱国敬业友善心得 linux python gui
最近有个项目需要将windows系统的程序往Linux系统上面移植，由于之前程序没有考虑过多平台兼容的问题，导致部分功能不可用以下是对近期遇到的问题的总结，以及相应的解决方案和经验分享。1.Python模块安装与管理在Linux系统中，安装和管理Python模块时可能会遇到权限问题或依赖冲突。安装模块：使用pip安装模块时，建议使用--user选项，避免需要管理员权限：bash复制pipinsta
Mysql学习笔记-Mysql基础进阶少年无为 Mysql Mysql 数据库多表查询数据库备份 Mysql查询
#知识点1.DQL:查询语句1.排序查询2.聚合函数3.分组查询4.分页查询2.约束3.多表之间的关系4.范式5.数据库的备份和还原#DQL:查询语句1.排序查询*语法：orderby子句*orderby排序字段1排序方式1，排序字段2排序方式2...*排序方式：*ASC：升序，默认的。*DESC：降序。*注意：*如果有多个排序条件，则当前边的条件值一样时，才会判断第二条件。2.聚合函数：将一列数
嵌入式学习DAY28 --- 线程、同步和互斥问题、如何实现同步和互斥？楼台的春风嵌入式学习多线程 c语言嵌入式 linux ubuntu
嵌入式入门学习笔记，遇到的问题以及心得体会！DAY28概述：一、线程二、同步和互斥问题三、如何实现同步四、如何实现互斥笔记：一、线程1、什么是线程：（1）线程是轻量级的进程（2）线程存在于进程内，不能独立存在（3）线程参与CPU调度，进程是系统资源分配最小单位，线程是系统调度的最小单位（4）在单核CPU中，多线程并发属于伪并发，但是不牵扯虚拟地址空间的切换，所以开销比进程间切换要小很多（5）在多核
spring boot基于知识图谱的阿克苏市旅游管理系统python-计算机毕业设计 QQ1963288475 spring boot 知识图谱旅游 python vue.js django flask
目录功能和技术介绍具体实现截图开发核心技术：开发环境开发步骤编译运行核心代码部分展示系统设计详细视频演示可行性论证软件测试源码获取功能和技术介绍该系统基于浏览器的方式进行访问，采用springboot集成快速开发框架，前端使用vue方式，基于es5的语法，开发工具IntelliJIDEAx64，因为该开发工具，内嵌了Tomcat服务运行机制，可不用单独下载Tomcatserver服务器。由于考虑到
Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python学习心得两大编程思想 lifegoesonwjl python 开发语言 pycharm 前端 c语言
一、两大编程思想：1.面向过程：功能上的封装典型代表：C语言2.面向对象：属性和行为上的封装典型代表：Python、Java二、面向过程与面向对象的异同点：1.区别：面向过程：事物比较简单，可用线性的思维去解决面向对象：事务比较复杂，使用简单的线性思维无法解决2.共同点：（1）面向过程和面向对象都是解决实际问题的一种思维方式；（2）二者相辅相成，并不是对立的；（3）解决复杂问题，通过面向对象方式便
Linux升级Anacodna并配置jupyterLab 伪_装环境部署 linux 服务器 Anaconda python jupyter
在使用Anaconda的过程中，随着项目和需求的发展，可能需要升级Anaconda的Base环境中的Python版本。本文将详细介绍如何安全地进行升级，包括步骤、代码示例与最终流程图。升级Python一、环境准备在进行任何升级之前，建议先检查当前的Python版本以及各个库的兼容性。我们可以通过以下命令检查当前的Python版本：condainfo你会看到类似以下的输出，其中包含了当前Python
【Linux】删除Conda虚拟环境不是伍壹 Linux linux conda 运维
1、查看当前系统的conda虚拟环境condainfo--envscondaenvlist2、创建虚拟的环境condacreate-n（你的环境名字）python=（你需要的版本号，如（3.7,3.8,3.10））3、查看安装了哪些包condalist4、删除虚拟环境condaremove-nname--all5、删除虚拟环境中的包condaremove--name$（需要删除的环境名字）$（需要
Android arcgis加载在线底图 Angie洛林 android arcgis
我整理的一些关于【信息系统】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://edu.51cto.com/mic-position/757.html在Android中使用ArcGIS加载在线底图ArcGIS是Esri提供的一套强大的地理信息系统（GIS）解决方案，支持多种平台，包括Android。本文将介绍如何在Android应用中使用ArcGIS加载在线底图，并配有相关代码示
深度学习环境配置——Anaconda安装 tyyhmtyyhm 深度学习环境配置深度学习人工智能
目录Ⅰ.Windows系统安装Anaconda1.1下载安装Ⅱ.Linux系统安装Anaconda（适用于服务器安装）2.1下载2.2安装操作系统：windows11/ubuntu20/ubuntu18更新时间：20240221Ⅰ.Windows系统安装Anaconda1.1下载安装https://www.anaconda.com/download默认安装即可。Ⅱ.Linux系统安装Anacond
动态规划之背包问题--python版本我是小码搬运工 #python基础动态规划背包问题 python版本
动态规划之背包问题–python版本问题已知一个最大量的背包，给定一组给定固定价值和固定体积的物品，求在不超过最大值的前提下，能放入背包中的最大总价值。解题思路该问题是典型的动态规划问题，分为三种不同的类型（0-1背包问题、完全背包和多重背包问题）解题关键–状态转移表达式：B(k,C)=max(B(k−1,C),B(k−1,C−ci)+vi)B(k,C)=max(B(k-1,C),B(k-1,C-
深度学习工厂的蓝图：拆解CUDA驱动、PyTorch与OpenCV的依赖关系时光旅人01号深度学习 pytorch opencv
想象一下，你正在建造一座深度学习工厂，这座工厂专门用于高效处理深度学习任务（如训练神经网络）和计算机视觉任务（如图像处理）。为了让工厂顺利运转，你需要搭建基础设施、安装设备、设置生产线，并配备控制台来管理整个生产过程。以下是这座工厂的详细构建过程：1.工厂的基础设施：Ubuntu比喻：Ubuntu是工厂所在的土地和建筑，提供了基础设施和运行环境。作用：提供操作系统环境，支持安装和运行各种工具和框架
（九万字）面向2025年BOSS直聘人工智能算法工程师高频面试题解析快撑死的鱼人工智能回归 python pytorch
面向2025年BOSS直聘人工智能算法工程师高频面试题解析1.机器学习（ML）理论解析机器学习是让计算机从数据中学习规律的一套方法论，包含监督学习、无监督学习和强化学习等范式。在监督学习中，给定带标签的数据，算法尝试学习从输入到输出的映射关系；无监督学习则在缺乏标签的情况下挖掘数据内在结构；强化学习则让智能体通过与环境交互、依据奖赏反馈来改进策略(Q-learning-Wikipedia)。机器学
《数组》学习——有序数组的平方小翔很开心我在CSDN学算法学习
有序数组的平方题目：给你一个按非递减顺序排序的整数数组nums，返回每个数字的平方组成的新数组，要求也按非递减顺序排序。测试用例：输入：nums=[-4,-1,0,3,10]输出：[0,1,9,16,100]解释：平方后，数组变为[16,1,0,9,100]，排序后，数组变为[0,1,9,16,100]该题，有两种解法：暴力排序解法双指针法（快慢指针法）测试程序：（双指针法的求解）#include
Centos7 搭建 Jupyter + Nginx 服务某龙兄 python nginx linux centos
JupyterNotebook（此前被称为IPythonnotebook）是一个交互式笔记本，支持运行40多种编程语言。JupyterNotebook的本质是一个Web应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。本文讲述如何搭建Jupyter+Nginx服务,仅供学习与交流，请勿用于商业用途一
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n