liuguoxin_97

爬虫的基础了解及应用

一、爬床基础

1、安装虚拟指令介绍

#安装虚拟环境（window下加-win，苹果系统不需要加）
pip install virtualenvwrapper-win
#常用命令
mkvirtualenv pmz（创建虚拟环境的名字)				 	 #创建虚拟环境成功后会自动切换到环境下
workon envname(envname(切换虚拟环境的名字)) 		  	  #切换到虚拟环境
pip list     										#查看虚拟安装所有的包
deactivate   										#退出虚拟环境
rmvirtualenv pmz(pmz(删除虚拟环境))               	#删除虚拟环境
lsvirtualenv  										#列出所有已创建的虚拟环境
mkvirtualenv--python--C: ..python.exe envname   	#指定Python解释器创建虚拟环境

2、爬虫概念

爬虫, 又称网页蜘蛛或网络机器人. 
爬虫是 模拟人操作客户端(浏览器, APP) 向服务器发起网络请求,
 抓取数据的自动化程序或脚本. (*****) 
# 说明: 
	1.模拟: 用爬虫程序伪装出人的行为, 避免被服务识别为爬虫程序 
    2.客户端: 浏览器, APP都可以实现人与服务器之间的交互行为, 应用客户端从服务器获取数据 
    3.自动化: 数据量较小时可以人工获取数据, 但往往在公司中爬取的数据量在百万条, 千万条级别的, 所以要程序		自动化获取数据.
cpython   -   Ipython
#通用爬虫----只是爬虫，为搜索引擎提供检索服务
1.起始url
2.url队列    --------爬取数据


#设计思路
1.确定url，发起请求，获取响应
2.数据解析：re,正则，xpath,Bs4,pyQuery
3.数据持久化：    数据库Mysql   Redisa,MongoDB

3、爬虫分类

(1): 通用爬虫-----只是爬虫，为搜索引擎提供检索服务：搜索引擎
    # 实例: 百度, 搜狗, Google的搜索引擎 
    # 功能: 访问网页 -> 抓取数据 -> 数据处理 -> 提供检索服务 
    # 工作流:
    	1.给定一个起始URL, 存于爬取队列中 
        2.爬虫程序从队列中取出url, 爬取数据 
        3.解析爬取数据, 获取网页内的所有url, 放入爬取队列
        4.重复第二个步骤
    # 使搜索引擎获取网站链接: 
    	1.主动将url提交给搜索引擎(https://ziyuan.baidu.com/linksubmit/url) 
        2.在其他热门网站设置友情了解 
        3.百度和DNS服务商合作, 收录新网站
    # 网站排名(SEO): 
    	1.根据PageRank值进行排名(流量, 点击率) 
        2.百度竞价排名, 钱多就靠前排 
    # 缺点: 
    	1.抓取的内容多数无用 
        2.无法精确获取数据 
    # 协议: robots协议 --> 约定哪些内容允许哪些爬虫抓取 
    （约束通用爬虫和聚焦爬虫）
    	1.无需遵守, 该协议适用于通用爬虫, 而我们写的是聚焦爬虫 
        2.查看方法: 网站url/robots.txt, 如https://www.baidu.com/robots.txt
(2): 聚焦爬虫-----聚焦爬虫
    # 概念:
    	聚焦爬虫指针对某一领域根据特定要求实现的爬虫程序,
    	 抓取需要的数据(垂直领域爬取)
    # 设计思路: 
    	(1).确定爬取的url, 模拟浏览器请服务器发送请求  
        (2).获取响应数据并进行数据解析 ---re,正则，[xpath]推荐,Bs4,pyQuery
        (3).将目标数据持久化到本地----- .MySQL，MongoDB，Redis

4、协议模型

OSI七层模型
7.应用层   6.表示层   5.会话层   4.传输层    3.网络层    2.数据链路层    1.物理层 （从下往上数）
tcp 五层协议
    1.应用层：http/Https/ftp/ssh
    2.传输层：tcp/udp
    3.网络层: ip协议
    4.数据链路层：arp协议
    5.物理层：以太网协议

5、HTTP协议与HTTP S协议

# HTTP协议: 明文传输, 端口80 
- Http协议, 全称为Hyper Text Transfer Protocol, 即超文本传输协议. 
- HTTP协议是用于从网络传输超文本数据到本地浏览器的传送协议,
-  它能保证高效而准确地传送超文本文档. 
- 目前广泛使用的是HTTP 1.1版本     

# HTTPS协议: 加密传输, 端口443 
- HTTPS全称是Hyper Text Transfer Protocol over Secure Socket Layer,
-  是以安全为目标的 HTTP通道. HTTPS协议实质是HTTP的安全版, 
- 即HTTP下加入SSL安全套接层, 简称HTTPS. 
- HTTPS的安全体现在SSL的加密行为, 即通过HTTPS协议传输的数据都是经过SSL加密的 
- HTTPS的作用: 
   1.建立一个信息安全的通道来保证数据传输的安全 
   2.确认网站的真实性, 凡是使用了HTTPS的网站, 都可以通过点击浏览器
   地址栏的锁头标志来查看网站 认证之后的真实信息, 
   也可以通过CA机构颁发的安全签章来查询 
   
# HTTP与HTTPS协议的区别:(背下来) 
   1)、https协议需要到ca申请证书，一般免费证书较少，因而需要一定费用。 
   2)、http是超文本传输协议，信息是明文传输，https则是具有安全性的
   ssl加密传输协议。 
   3)、http和https使用的是完全不同的连接方式，用的端口也不一样，前者是80，
   后者是443。 
   4)、http的连接很简单，是无状态的；HTTPS协议是由SSL+HTTP协议构建的
   可进行加密传输、身份认证的网络协议，比http协议安全。

6、TCP与UDP 协议

# TCP与UDP 
1.TCP协议:是一种面向连接的, 可靠的, 基于字节流的传输层通信协议 
   1).有序性: 数据包编号, 判断数据包的正确次序 
   2).正确性: 使用checksum函数检查数据包是否损坏, 发送接收时都会计算校验和 
   3).可靠性: 发送端有超时重发, 并由确认机制识别错误和数据的丢失 
   4).可控性: 滑动窗口协议与拥塞控制算法控制数据包的发送速度 
       
2.UDP协议: 用户数据报协议, 面向无连接的传输层协议, 传输不可靠. 
   1).无连接, 数据可能丢失或损坏 
   2).报文小, 传输速度快 
   3).吞吐量大的网络传输, 可以在一定程度上承受数据丢失

# ARP协议: 通过IP获取目标计算机mac地址的协议（通过IP找mac）

7、服务器常见端口

1.ftp: File Transfer Protocol的缩写, 即文件传输协议. 端口:21 
2.ssh: Secure Shell的缩写, 用于远程登录会话. 端口:22 
3.MySQL: 关系型数据库, 端口:3306
4.MongoDB: 非关系型数据库, 端口:27017 
5.Redis: 非关系型数据库, 端口:6379

8、开发准备

# web端

1. Python3.6 
2. Pycharm 
3. Google Chrome

#抓包工具
fiddler抓包工具

二、爬虫实践

1、第一次爬虫

# b---->代表bytes----->字节类型
# encode()  编码
# decode()  解码   utf-8（国际通用码）   gbk（国标库）    gb2312(国标2312)

'''
#文件使用方式标识
w ---  写，会覆盖所有   r ---读  a --- 写，在末尾追加
wb,rb,ab-------二进制写，读
w+ ---读写，r+读写，区别在于文件不存在，不会创建新文件
'r':默认值，表示从文件读取数据。
'w':表示要向文件写入数据，并截断以前的内容
'a':表示要向文件写入数据，添加到当前内容尾部
'r+':表示对文件进行可读写操作（删除以前的所有数据）
'r+a'：表示对文件可进行读写操作（添加到当前文件尾部）
'b':表示要读写二进制数据
'''
# *args: 动态位置传参
# **kwargs: 动态关键字传参

import requests

'''爬取百度首页'''

# 1.确定url, 向服务器发起请求, 获取响应数据
url = 'https://www.baidu.com/'  
res = requests.get(url=url)
# 2.解析数据(略过)
res.encoding = 'utf-8'
print(res.text)
# 3.持久化到本地: 写文件, MySQL, redis, MongoDB
# f = open('baidu.html', 'w', encoding='utf-8')
# f.write(res.text)
# f.close()
with open('baidu.html', 'w', encoding='utf-8') as f:
    f.write(res.text)
print('执行此行代码前就关闭了文件')

2、八大请求方式

# 请求: 有客户端向服务器发出的, 可以分为四部分内容: 
	1.请求方法(Request Method), 
    2.请求网址 (Request URL), 
    3.请求头(Request Headers),   #  ******
    4.请求体(Request Body)       #  ******
# 请求方法:常见有8种 (***背会***)
	- GET: 请求页面, 并返回页面内容（**获取**） #重点 
    - POST: 用于提交表单数据或上传文件, 数据包含在请求体中 # 重点 
    - PUT: 从客户端向服务器传送的数据取代指定文档中的内容 
    - DELETE: 请求服务器删除指定的页面 
    - HEAD: 类似于GET请求，只不过返回的响应中没有具体的内容，用于获取报头 
    - CONNECT: 把服务器当作跳板，让服务器代替客户端访问其他网页 
    - OPTIONS: 允许客户端查看服务器的性能 
    - TRACE: 回显服务器收到的请求，主要用于测试或诊断 
************
# 中点掌握GET & POST: GET与POST的区别(重点) --> **(面试出镜率较高)** 
	1.GET请求中的参数包含在URL里面, 数据可以在URL中看到, 而POST请求的URL不会包含这些数据, POST的数据都是通过表单形式传输的, 会包含在请求体中 
    2.GET请求提交的数据最多只有1024字节, 而POST方式没有限制

3、请求头简介

# 请求头: 
请求头，用来说明服务器要使用的附加信息. 重点掌握: ***Accept, Cookie, Referer, User-Agent***       
1.Accept：请求报头域，用于指定客户端可接受哪些类型的信息 # 重点(*/*) 
    2.Cookie：也常用复数形式 Cookies，这是网站为了辨别用户进行会话
    跟踪而存储在用户本地的数据。它 的主要功能是维持当前访问会话。
    例如，我们输入用户名和密码成功登录某个网站后，
    服务器会用会话保存登 录状态信息，后面我们每次刷新或请求该站点的其他页面时，
    会发现都是登录状态，这就是Cookies的功劳。 Cookies里有信息标识了
    我们所对应的服务器的会话，每次浏览器在请求该站点的页面时，
    都会在请求头中加 上Cookies并将其发送给服务器，服务器通过Cookies
    识别出是我们自己，并且查出当前状态是登录状态，所 以返回结果就是
    登录之后才能看到的网页内容 # 重点 
    3.Referer：此内容用来标识这个请求是从哪个页面发过来的，
    服务器可以拿到这一信息并做相应的处理，
    如 作来源统计、防盗链处理等 # 重点 
    ***********************************************
    4.User-Agent：简称UA，它是一个特殊的字符串头，
    可以使服务器识别客户使用的操作系统及版本、
    浏览器 及版本等信息。在做爬虫时加上此信息，
    可以伪装为浏览器；如果不加，很可能会被识别出为爬虫 # 重点 
    ***********************************************
    5.x-requested-with :XMLHttpRequest      #代表ajax请求 
    6.Accept-Language：指定客户端可接受的语言类型 
    7.Accept-Encoding：指定客户端可接受的内容编码 
    8.Content-Type：也叫互联网媒体类型（Internet Media Type）
    或者MIME类型，在HTTP协议消息头 中，它用来表示具体请求中的媒体类型信息。
    例如，text/html代表HTML格式，image/gif代表GIF图片， 
    application/json代表JSON类型

4、反爬与反反爬

1.反爬机制: 
    1).UA检测   2).IP封禁   3).robots协议        4).账号封禁   
     5).验证码  6).动态数据加载   7).图片懒加载  8).隐藏参数 
      9).js加密-->js逆向
      
2.反反爬策略:  
    1).UA伪装   2).IP代理池  3).settings设置     4).cookie池  
     5).第三发打码平台  6).1.selenium  2.ajax  3.js逆向

5、常见的状态码

# 响应状态码: 用于判断请求后的相应状态, 如200代表请求成功, 
404代表页面页面找不到, 500代表服务 器错误 # 常见的状态码: 
	200系列:
        200 成功 服务器已成功处理了请求 # 重点1 
        
    300系列: 
        301 永久移动 请求的网页已永久移动到新位置，即永久重定向 # 重点 
        302 临时移动 请求的网页暂时跳转到其他页面，即暂时重定向 # 重点 
        
    400系列: 
        400 错误请求 服务器无法解析该请求 # 重点 
        401 未授权 请求没有进行身份验证或验证未通过 
        403 禁止访问 服务器拒绝此请求 # 重点 
        404 未找到 服务器找不到请求的网页 
        
    500系列:
        500 服务器内部错误 服务器遇到错误，无法完成请求 # 重点 
        501 未实现 服务器不具备完成请求的功能 
        502 错误网关 服务器作为网关或代理，从上游服务器收到无效响应 
        504 网关超时 服务器作为网关或代理，但是没有及时从上游服务器收到请求 
        505 HTTP版本不支持 服务器不支持请求中所用的HTTP协议版本
        
**(注意: 状态码不能完全代表响应状态, 部分网站的状态码是自定义的, 
一切以响应的数据为准)**

6、响应头

# 响应头: (了解即可)
响应头包含了服务器对请求的应答信息 
	Date：标识响应产生的时间。 
    Content-Encoding：指定响应内容的编码。 
    Server：包含服务器的信息，比如名称、版本号等。 
    Content-Type：文档类型，指定返回的数据类型是什么，
    如text/html代表返回HTML文档
    application/x-javascript则代表返回JavaScript文件，
    image/jpeg则代表返回图片。 
    Set-Cookie：设置Cookies。响应头中的Set-Cookie告诉浏览器
    需要将此内容放在Cookies中，下次请 求携带Cookies请求。 
    Expires：指定响应的过期时间，可以使代理服务器或浏览器
    将加载的内容更新到缓存中。如果再次访问时， 就可以直接从缓存中加载，
    降低服务器负载，缩短加载时间。

7、响应体

# 响应体: --------------重要
最重要的当属响应体的内容了。响应的正文数据都在响应体中，
比如请求网页时，它的响应体就是网页的HTML 代码；请求一张图片时，
它的响应体就是图片的二进制数据。我们做爬虫请求网页后，
要解析的内容就是响应体.

8、网页基础

# 网页的组成: 
网页可以分为三部分, HTML, CSS, JavaScript 

1.HTML: 其全称叫作Hyper Text Markup Language，即超文本标记语言。
 定义了网页的骨架 
2.CSS: 全称叫作Cascading Style Sheets，即层叠样式表。 定义了网页的样式 
3.JavaScript: 简称JS，是一种脚本语言 定义了网页与用户的交互行为,
 如下载进度条, 提示框, 轮播图

9、爬虫工作流

1.确定url, 向服务器发送请求并获得响应: requests, urllib, aiohttp 
2.在响应中提取目标数据, 即数据解析: xpath, bs4, 正则, PyQuery 
3.数据持久化: 文件, 关系型数据库, 非关系型数据库

10、抓包技能操作认识

***抓包在页面右键检查 或者 F12键
1.箭头---快速定位页面的某个元素（如果在页面定位元素没显示，
	用快捷键（ctrl+shift+c））
2.小方块---变成手机版的页面
3.Elements---包含页面的所有元素（所有响应数据的集合，也可以快速定位）
4.Network---（重要）网络抓包[Preserve log:保留请求日志，
	Disable cache:不缓存，缓存提高访问速度]
5.抓包---Headers:包含所有的头部信息，Preview：预览内容，
	Response:响应内容（搜索：Ctrl+f查询）

11、requests 模块请求

import requests
#1.确定url，发起请求，获取响应
url = '链接地址'
res = requests.get(url=url)
print(type(res.text))----------输出获取的是一个字符串
with open('zhihu.html','w',encoding='utf-8') as f:
    #res是一个响应对象
    #f.write(字符串)
    f.write(res.text)

12 、requests 模块基本使用

# requests库的安装 
pip install requests
1.get请求: 
    不携带参数的get请求: 搜狗首页 
    不携带参数的get请求 + headers: 
    爬取知乎的发现页 携带参数的get请求 + headers: 知乎的发现栏中搜索Python 
    # parameters 的缩写 params--{}字典的形式--拼接再url?后面
    	(也可以封装函数，传参)
    res = requests.get(url=url, headers=headers, params=params,
    		proxies=proxies) 
    
2.post请求: 构建参数的post请求 
    # data 数据(在网页Form Data里)响应数据是json数据类型--字典{}
    res = requests.post(url=url, headers=headers, 
    					data=data,proxies=proxies)
    
3. json形式与流形式的响应数据示例

	json.dumps	将 Python 对象编码成 JSON 字符串
	json.loads	将已编码的 JSON 字符串解码为 Python 对象
    
	# json形式响应数据示例: bilibili的Python视频教程, 目录列表 
    import requests 
    headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0;
     Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)
      Chrome/75.0.3770.142 Safari/537.36' }
    url = 'https://api.bilibili.com/x/web-interface/view?
    aid=14184325&cid=23153678' 	
    res = requests.get(url=url, headers=headers) 
    print(res) 
    print(res.status_code) 
    print(res.headers) 
    print(res.json())
4.响应数据的获取与属性 
	(1).响应数据的获取: 
        res.text: 文本数据 
        res.json(): json数据 ------->dict
        res.content: 流, 图片, 视频, 压缩包, 软件包 
    (2).响应的其他属性:
        res.status_code: 获取响应状态码 
        res.headers: 响应头
        res.cookie: cookie信息
        res.history: 历史

13、代理 IP

#goubanjia.com   IP代理商
#proxy   变成了  proxies的参数{}
正向代理：对于浏览器知道服务器的真实地址，例如VPN
反向代理：浏览器不知道服务器的真实地址，例如nginx

代理IP的分类
根据代理ip的匿名程度，代理IP可以分为下面四类：

透明代理(Transparent Proxy)：透明代理虽然可以直接“隐藏”你的IP地址，
							但是还是可以查到你是谁。
匿名代理(Anonymous Proxy)：使用匿名代理，别人只能知道你用了代理，
							无法知道你是谁。
高匿代理(Elite proxy或High Anonymity Proxy)：高匿代理让别人根本无法发现你
							是在用代理，所以是最好的选择。

从请求使用的协议可以分为：

http代理
https代理
socket代理等
不同分类的代理，在使用的时候需要根据抓取网站的协议来选择
import random 
ip-list = ['']
proxies = {
    'https':'http:// %s' % random.choice(ip-list)
}

三、requests 高级

1、文件上传功能

#用的少---应用场景（可以当时上传文件）
import requests 
# 定义上传文件数据, 键为file, 值为文件句柄
files = {
'file': open('favicon.ico', 'rb')
}
#指定网址，指定字段
r = requests.post('http://httpbin.org/post', files=files)
print(res.text)
会话***代理设置

2、cookie处理*

# cookie处理方式
	1.headers添加cookie键值对 ---->Session
    2.RequestsCookieJar对象
#2. RequestsCookieJar对象处理cookie: 用cookie维持百度登陆
#爬知乎
import requests
from requests.cookies import RequestsCookieJar
cookies = 'BAIDUID=79A570F8D90B2C45E42D40A3666ADC46:FG=1; 
BIDUPSID=79A570F8D90B2C45E42D40A3666ADC46;
 PSTM=1551074009; BD_UPN=12314753; sugstore=0; 
 BDORZ=FFFB88E999055A3F8A630C64834BD6D0; 
 yjs_js_security_passport=10c9ca61409abe70ac5c03db79
 6f78648e697d8f_1563711806_js; COOKIE_SESSION=2860_2_2_7_3_5_0_0_2_
 4_106_0_3778_177561_116_109_1563714759_15
 63714752_1563714643%7C9%23177557_14_156
 3714643 %7C7; delPer=0; BD_HOME=0; H_PS_PSSID=1452_21117_29522_29521_2
 8519_29099_28831_29221; BDUSS=lSVnBVVkRVNFpNZ2ZJZ2ZpNFpjblFFSX5Ea
 W9DNzBpcnNkaDZIQVdRd2Z1bHhkRVFBQUFBJCQ
 AAAAAAAAAAAEAAABwfMtW09rQodPjMDgyMGZyZWU
 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
 AAAAAAAAAAAAAAAAAAAAAAAAAAAAAB8tNV0fLTVdYX'

headers = {
    'User-Agetn': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'
}
#实例化对象
jar = RequestsCookieJar()
#分割
cookie_list = cookies.split(';')
for cookie in cookie_list:
    #再以等号分割
    key, value = cookie.split('=', 1)
    
    jar.set(key, value)
    
res = requests.get('http://www.baidu.com', cookies = jar,
 headers=headers)
print(res.text)  # 响应数据中包含用户名信息, 说明cookie生效

3、会话维持与模拟登陆

# HTTP无状态:
	使用requests模块中的get()和post()方法请求网页时, 每一次请求都是独立的,
	 没有连续请求之间的状态保持. 假象, 如果你登陆了淘宝后向查看订单, 
	 那么如果没有状态的维持就无法实现.
    
# 会话的维持: Session对象
from requests import Session
s = Session()
res = s.get('https://www.baidu.com')
	#PyExecJS
    #js2py    加密
# 人人网登陆案例:
from requests import Session 
session = Session() 
url = 'http://www.renren.com/ajaxLogin/login?
1=1&uniqueTimestamp=2019761744568' 
headers = { "USer-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
AppleWebKit/537.36 
(KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36' }
data = { 'email': '17679962330', 'autoLogin': 'true', 'icode': '',
 'origURL': 'http://www.renren.com/home', 'domain': 'renren.com',
  'key_id': '1', 'captcha_type': 'web_login', 
  'password': '6ea935849c9dbfc4ac484718ac8652a14f4b2f
  60036de7a279e84be08bc54136', 
  'rkey': '1c7df63368df7ce73c234de26178ec11',
   'f': 'http%3A%2F%2Fwww.renren.com%2
  F972036549%2Fnewsfeed%2Fphoto', }
res = session.post(url=url, data=data, headers=headers) 
ret = session.get(url='http://www.renren.com/972036549/profile', 
headers=headers) ret.encoding = 'utf-8' 
with open('renren.html', 'w', encoding='utf-8') as f: 
    f.write(ret.text)

4、SSL证书验证

# 1.SSL证书验证
requests提供了证书验证的功能. 当发起HTTP请求时, 模块会检查SSL证书. 
但检查的行为可以用verify参数来控制.
	verify = False  # 不检查SSL证书
	verify = True  # 检查SSL证书
    
# 2.异常
如果使用requests模块的SSL验证, 验证不通过会抛出异常, 
此时可以将verify参数设置为False

# 3.www.12306.cn的证书验证
# 会抛出异常
import requests
response = requests.get('https://www.12306.cn')
print(response.status_code)

# 不抛异常, 但会出现警告
import requests
response = requests.get('https://www.12306.cn', verify=False)
print(response.status_code)

# 异常: SSLError 
requests.exceptions.SSLError        #证书错误

# 禁止警告
import requests
from requests.packages import urllib3
urllib3.disable_warnings()
response = requests.get(url='https://www.12306.cn', verify=False)
print(response.status_code)

5、代理设置

# 代理: 代理即代理ip 
代理ip是指在请求的过程中使用非本机ip进行请求, 
避免大数据量频繁请求的过程中出现ip封禁, 限制数据 的爬取. 

# 代理ip分类: 
	1.透明代理ip: 请求时, 服务器知道请求的真实ip, 知道请求使用了代理 
    2.匿名代理ip: 请求时, 服务器知道请求使用了代理, 但不知道请求的真实ip 
    3.高匿代理ip: 请求时, 服务器不知道请求使用了代理, 也不知道请求的真实ip 
    #基于隧道：云端维护了一个庞大的IP代理池，每次请求换一个IP
    #提供接口：返回一部分数量的IP，配合IP代理池使用
        
# requests模块使用代理ip 
import requests 
url = 'http://www.httpbin.org'
proxies = { 'http': 'http://61.183.176.122:57210' }
res = requests.get(url=url, proxies=proxies) 
print(res.text)

6、超时设置

# 超时设置: 
	由于网络状况的不同, 服务器配置差异以及服务器处理并发的能力不同,
	 有时会出现服务器的响应时间 过长, 甚至无法获取响应而抛出异常. 
	 requests模块发送请求可以设置超时时间, 在超时时间内未得到响 应,
	  便会抛出异常. 
	一方面, 减少了请求的阻塞时间, 一方面, 可以进行异常处理, 执行相应的操作. 
	
import requests 
url = 'https://www.baidu.com' 
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' }

res = requests.get(url=url, headers=headers, timeout=0.001) 
# 在0.001秒为得到响 应, 抛出requests.exceptions.ConnectTimeout异常 
print(res.text)

7、构建Request对象、

# 1.Prepared Request 
利用 Prepared Request 数据结构构建Request对象. 其构建及使用步骤如下: 
from requests import Request, Session 
# 构建Request对象 
url = '...' 
data = {... }
params = {... }
headers = {... }
session = Session() 
# 构建post请求: 
req_post = Request(method='POST', url=url, headers=headers, data=data) 
req_obj_post = session.prepare_request(req_post)

# 构建get请求: 
req_get = Request(method='GET', url=url, headers=headers, params=params) 
req_obj_get = session.prepare_request(req_get) 
# 利用构建的请求对象, 向服务器发送请求 
res = session.send(req_obj_post) 
res = session.send(req_obj_get) 
# 应用: 通过此方法, 我们可以构建一个独立的request对象, 当需要请求的url很多时, 
我们可以为每一个url构建 一个request对象, 将所有request对象置于队列中, 
便于调度.

# 构建request对象, 请求糗事百科获取页面 
from requests import Request, Session 
url = 'https://www.qiushibaike.com/' 
headers = { "User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' }

session = Session() 
req_get = Request(url=url, headers=headers, method='GET') 
req_get_obj = session.prepare_request(req_get) 
res = session.send(req_get_obj) 
res.encoding = 'utf-8' 
with open('qb_reqobj.html', 'w', encoding='utf-8') as f: 
    f.write(res.text)

8、urllib简单介绍

# urllib简介: 
1.urllib模块是Python的一个请求模块 
2.Python2中是urllib和urllib2相结合实现请求的发送. Python3中统一为urllib库 
3.urllib是Python内置的请求库, 其包含4个模块: 
	(1).request模块: 模拟发送请求 
	(2).error模块: 异常处理模块 
	(3).parse模块: 工具模块, 提供关于URL的处理方法, 如拆分, 解析, 合并等 
	(4).robotparser模块: 识别robots协议

# 部分方法使用介绍:
# urlopen方法实现get请求: 
from urllib import request 
url = 'https://www.python.org' 
res = request.urlopen(url) 
print(res.read()) 
with open('python.html', 'w') as f: 
    f.write(res.read().decode('utf-8'))
    
# post请求: 
import urllib.request 
import urllib.
parse url='https://fanyi.baidu.com/sug' 
postdata=urllib.parse.urlencode({'kw':'boy'}).encode('utf-8') 
res = urllib.request.urlopen(url, data=postdata) 
print(res.read())

# urlretrive实现图片下载: 
from urllib.request import urlretrieve 
urlretrieve('https://www.dxsabc.com/api/xiaohua/upload/min_img/
20190213/20190213 XTUcIZ99B9.jpg', 'bing.jpg')

9、正则介绍

# 1.元字符匹配 
. 匹配任意字符，除了换行符(重要) 
[] 用来表示一组字符,单独列出：[abc] 匹配 'a'，'b'或'c' 
[^...] 匹配除了字符组中字符的所有字符 
\d 匹配任意数字，等价于 [0-9]. 
\D 匹配任意非数字 
\w 匹配字母数字及下划线 
\W 匹配非字母数字及下划线

\s 匹配任意空白字符，等价于 
[\t\n\r\f]. \S 匹配任意非空字符

# 2.字符组: 要求在一个位置匹配的字符可能出现很多种情况, 各种情况组成一个组 
[0123456789]: 匹配0到9任意字符 
[0-9]: 同上 [a-z]: 匹配a到z的任意小写字母 
[A-Z]: 匹配A到Z的任意大写字母 
[0-9a-fA-F]: 以上三种的组合, 匹配0-9任意数组或a到f之间任意字母, 不区分大小写 
自定义字符组:[a3h5] ---> 代表匹配a, 3, h, 5等字符
    
# 3.量词: 
* 重复零次或更多次 
+ 重复一次或更多次 
? 非贪婪匹配 
{n} 重复n次 
{n,} 重复n次或更多次 
{n,m} 重复n到m次 
{,m} 重至多m次

# 4.边界修饰符 
^ 匹配开始 
$ 匹配结尾

# 5.分组(重点, 重点, 重点) 
在正则表达式中添加(), 就形成了一个分组, 在re模块中优先匹配显示分组内容 
import re 
s = "正则匹配实验" 
res = re.findall("href='(.*)'>", s) 
print(res)

# 6.贪婪匹配与非贪婪匹配 
贪婪匹配是指: 在使用量词: * , + 等时, 尽可能多的匹配内容 
非贪婪匹配是指: 使用?对正则表达式进行修饰, 使量词的匹配尽可能少, 如+代表匹配1次或多次, 在?的修 饰下, 只匹配1次.
    
# 7.匹配模式 
re.S 单行模式(重点) 
re.M 多行模式 
re.I 忽略大小写 
# 示例: 
import re 
s = 'hello2world\nhello3world\nhello4world' 
#re.M 多行模式 
result0 = re.findall(r'\d.*d', s) 
print(result0) 
result1 = re.findall(r'\d.*d', s, re.M) 
print(result1) 
#re.S 单行模式(可以看成将所有的字符串放在一行内匹配包括换行符\n) 
result2 = re.findall(r'\d.*d', s, re.S)
print(result2) 
result3 = re.findall(r'\d.*?d', s, re.S) 
print(result3)

# 8.re模块 
1.re.findall('正则表达式', '待匹配字符串'): 返回所有满足匹配条件的结果, 以列表形式返回 2.re.search('正则表达式', '带匹配字符串'): 匹配到第一个就返回一个对象, 该对象使用group()进 行取值, 如果未匹配到则返回None 
3.re.match('正则表达式', '待匹配字符串'): 只从字符串开始进行匹配, 如果匹配成功返回一个对象, 同样使用group()进行取值, 匹配不成功返回None 
4.re.compile('正则表达式'): 将正则表达式编译为对象, 在需要按该正则表达式匹配是可以在直接使用 该对象调用以上方法即可. 
    
Python语言: 解释型语言 
    先解释在执行: 源代码 --> 简单的翻译 --> 字节码 --> 二进制语言 --> 识别的语言 
    .pyc文件: 执行过的文件, 生成一个.pyc文件, 再执行时对比. 
C: 编译型语言 源代码 ---> 编译 ---> 二进制文件 --> 识别的语言 
    
# 示例: 
import re 
s = "pythonpython你好吊" 
# findall方法演示 
res_findall = re.findall(r'p', s) 
print('findall匹配结果:', res_findall)

# search方法演示, 不确定是否能匹配出结果, 不可直接使用group进行取值, 
需要判断或进行异常处理 res_search = re.search(r"你", s) 
if res_search: 
    print('search匹配结果', res_search.group()) 
else:
    print('None') 
    
# match方法演示: 
res_match_1 = re.match(r'py', s) 
res_match_2 = re.match(r'thon', s) 
print('res_match_1结果:', res_match_1) 
print('res_match_2结果:', res_match_2) 
# compile方法演示: 
re_obj = re.compile(r'python') 
res = re.findall(re_obj,s) print(res)

10、校花网图片爬取与多页爬取

import re
import requests
for j in range(2):
    # url = 'http://www.xiaohuar.com/list-1-'+str(j)+'.html'
    #获取当前网页地址
    url = 'http://www.xiaohuar.com/list-1-%s.html'% j
    # 头部伪装
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
        AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 
        Safari/537.36'
    }
    #获取响应，以文本文档的形式输出
    res = requests.get(url=url)
    # print(res.text)
    #用findall的正则匹配（src="(\d.*?\.jpg)/>"）,符合条件的都存入列表
    ret = re.findall(r'src="(\d.*?\.jpg)" />',res.text)
    # print(ret)
    # 循环遍历
    for i in ret:
        #每张图片都配置个地址
        url = 'http://www.xiaohuar.com'+i
        #获取响应以二进制流写入
        ret1 = requests.get(url=url,headers=headers).content
        name = i.split('/')[-1]
        #以文件打开方式存入img文件夹中
        with open('../img/'+name,'wb') as f:
            f.write(ret1)

你可能感兴趣的:(爬虫的了解)

盛科7132版本编译记录狮子再回头 ARM嵌入式开发 linux 国产化交换机盛科 7132
7132编译总结：1.新增具有root权限的用户，rootfs系统编译时不能使用root，否则很麻烦，编译出来后命令使用会出问题useraddzhuwei_newpasswdzhuwei_newusermod-aGwheelzhuwei_newnano/etc/pam.d/su找到以下行：authrequiredpam_unix.so在这一行下面添加以下内容：authsufficientpam_w
[解决方案]word文档无法存放过长过大的visio图片狮子再回头其他应用 visio word office UML
一：问题描述visio-UML画的流程图过长了，复制黏贴到word，一页无法显示全二：解决办法1.选择文档内容，工具栏“开始”——“段落”——“行距”——“单倍行距”，注意不能为固定值；2.选择“插入”---“对象”--“由文件创建”，如下图再选择浏览，打开自己的visio文件，确定。visio文件插入后，可能显示过大或不全，点击“图片工具”。调整下拉框中的高度/宽度，直到显示全visio图片.
python之pyttsx3实现文字转语音播报 l8947943 python问题语音识别人工智能 pyttsx3 python朗读
1.pyttsx3是什么pyttsx3是Python中的文本到语音转换库，可以实现文本的朗读功能。2.pyttsx3的安装pipinstallpyttsx33.pyttsx3的demoimportpyttsx3pyttsx3.speak("Areyouok?")pyttsx3.speak("最近有许多打工人都说打工好难")戴上耳机直接跑即可。是不是很简单！那如果我们想对读音的速率，中英文问题进行自
如何用Function Calling解锁OpenAI的「真实世界」交互能力？（附Node.js 实战） hongkid AI编程
一、FunctionCalling：大模型的「手脚延伸器」1.1核心定义FunctionCalling是OpenAI在2023年6月13日推出的革命性功能（对应模型版本gpt-3.5-turbo-0613和gpt-4-0613），允许开发者通过自然语言指令触发预定义函数，实现大模型与现实世界系统的交互。如同给语言模型安装「手脚」，使其不仅能思考，还能执行具体操作。openai官方说明：https:
springboot 事务详解 hanjq_code #springboot spring boot java spring
事务的传播机制事务的传播行为是指，如果在开始当前事务之前，一个事务上下文已经存在，此时有若干选项可以指定一个事务性方法的执行行为。在TransactionDefinition定义中包括下面几种传播行为常量TransactionDefinition.propagation_required：如果当前存在事务，则加入该事务；如果当前没有事务，则创建一个新的事务。这是默认值。TransactionDef
Python报错解决：img2pdf.AlphaChannelError: Refusing to work on images with alpha channel 定星照空 python 人工智能
img2pdf.AlphaChannelError:Refusingtoworkonimageswithalphachannel-solved解决img2pdf模块不能上传含alpha通道透明度的图片的问题解决img2pdf模块PNG图片转PDF文件因alpha通道报错问题文章目录前言一、AlphaChannelError为什么出现？二、该种报错解决方法1.方法一：转化其他格式图片2.方法二：去除
动态规划算法--找零方式大王算法数据结构和算法实战宝典算法动态规划 c++
一、问题介绍给定数组arr，arr中所有的值都为正数且不重复。每个值代表一种面值的货币，每种面值的货币可以使用任意张，再给定一个整数aim，代表要找的钱数，求所有的找零方法有多少种。二、算法思路枚举法，列出使用某张钞票n次的所有可能。1、暴力递归intprocess1(intn,intarr[],intindex,intrest){if(index==n)returnrest==0?1:0;int
Activity渲染完成第一帧时机 brycegao321 Android 渲染完成第一帧
Activity第一帧渲染涉及知识点setContentView流程、帧绘制流程、SurfaceFlinger等。统计开始时间：hookActivityThread的Instrumentation，得到Activity各个生命周期的开始、结束时间；参考：Activity的生命周期是谁调用的？注意：ActivityLifecycleCallbacks的回调函数是执行结束后触发的，无法得到开始执行时间
OpenGL ES 如何渲染 16bit 图像？字节流动 OpenGL ES 3.0 OpenGLES 音视频图形渲染 Android c++
未经作者（微信ID：Byte-Flow）允许，禁止转载文章首发于公众号：字节流动最近有不少读者私信问OpenGLES如何处理16bit图像（P010）？然后我直接贴给他们一段在OpenGL环境下验证过的上传16bit图像数据的代码glTexImage2D(GL_TEXTURE_2D,0,GL_R16UI,width,height,0,GL_RED_INTEGER,GL_UNSIGNED_SHORT
基于PyCATIA的工程图视图锁定工具开发实战解析 Python×CATIA工业智造 CATIA二次开发 python 自动化
引言本文针对CATIA工程图设计中视图误操作问题，基于PySide6与PyCATIA库开发了一款轻量化视图锁定工具。通过Python二次开发实现全视图/选定视图快速锁定、非模态交互界面及状态实时反馈功能，有效提升大型装配体工程图操作效率。文章深度解析代码架构设计、关键技术实现及工程应用价值，提供完整的开发方法论。一、工具功能与工程应用场景1.1核心功能模块功能模块技术指标应用场景全视图锁定批量操作
位图思想详解：用一个小小的比特征服整个世界 Joseit 优选算法 java 算法
位图思想详解：用一个小小的比特征服整个世界一、什么是位图？二、位图的形象理解三、位图的Java实现四、位图的算法原理剖析五、实际应用案例：网站用户活跃度统计五、真实的应用场景：布隆过滤器的基础六、算法题：判断字符是否唯一（easy）一、什么是位图？位图是一种超级节省空间的数据结构，他利用二进制位（0/1）来表示某个元素是否存在或某种状态是否为真。想象一下，用一个小小的比特位就能记录一个信息，这简直
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
Node.js系列（2）--性能优化指南一进制ᅟᅠ ‌‍‎‏ Node.js node.js 性能优化
Node.js性能优化指南⚡引言Node.js应用的性能优化是确保应用高效运行的关键。本文将深入探讨Node.js性能优化的各个方面，包括内存管理、CPU优化、I/O优化等，帮助开发者构建高性能的Node.js应用。性能优化概述Node.js性能优化主要包括以下方面：内存优化：内存泄漏检测、垃圾回收优化CPU优化：代码执行效率、异步处理、工作线程I/O优化：文件操作、网络请求、数据库访问缓存优化：
松下空调全国售后服务指南及维修 2503_90926332 eclipse
松下空调全国官网售后服务点热线号码4OO-675-8161故障报修：4OO-675-8161服务为先，满意为念，服务无/极/限，真/诚/到永远。讲诚信、树新风、诚以待人、信以立世、认真负责、精益求精、积极热情，本公司为厂家全国维修服务!全/天候、全/天蔬诚为您服务。维修服务网点致力于为客户摄供及时、专/业、用心的佳服务,让千万家庭/感/受/到“家”的感觉!!维修服务承/诺:1、严格按照维修及操作规
在线生成自定义二维码 A__tao 其他
在线生成自定义二维码1.引言二维码已成为现代互联网的重要工具，广泛应用于链接分享、支付、身份认证等场景。然而，很多在线二维码生成工具功能有限，难以满足个性化需求。如果你需要自定义颜色、Logo、不同形状的二维码，那么推荐你使用gotool.top3.如何使用gotool.top生成自定义二维码？步骤1：访问二维码生成工具打开gotool.top，找到“二维码生成”工具。步骤2：输入二维码内容在输入
AI学习资料|3月最新版可下载 2501_91122183 人工智能学习
AI学习资料：https://pan.quark.cn/s/d7452a3222d8都说AI是2025年新的风口，都想成为站在风口上的猪，可如何学习AI却成了拦住大多数人的第一道门槛。其实，学习AI很简单，你缺的只是一个信息差！这段时间，清华北大出品AI教学资料，火遍全网，从基础知识到实操应用，各种应用场景和进阶玩法讲解。即便是零基础新人也能轻松上手，从入门到精通。资料我已经帮大家整理好了，放在最
简单理解机器学习中top_k、top_p、temperature三个参数的作用无级程序员机器学习人工智能
在机器学习中，top_k、top_p和temperature是用于控制生成模型（如语言模型）输出质量的参数，尤其在文本生成任务中常见。然而，网上文章很多很全，但大多晦涩难懂，今天我们来用最简单的语言谈谈它们的具体作用：1.点菜式筛选法：top_k参数英文全称：top-k中文名称：前k个具体意义：top_k参数就像是你在餐厅点菜时，服务员只给你推荐菜单上前k名的招牌菜。在AI文本生成中，top_k参
Spring Boot 事务详解 Dong雨 spring boot 后端 java
SpringBoot事务详解引言在现代应用程序中，事务管理是确保数据一致性和完整性的重要机制。SpringBoot提供了强大的事务管理功能，使得开发者可以轻松地定义和管理事务。本文将详细介绍SpringBoot中的事务管理，包括事务传播行为、事务属性以及声明式和编程式事务管理。声明式事务管理声明式事务管理是通过注解的方式来管理事务，最常用的注解是@Transactional。这种方式简单直观，适合
STM32八股【1】-----启动流程和startup文件理解 Invinciblenuonuo stm32 arm
启动流程知识点MCU上电复位。MSP从向量表第0个地址读取一个32位（2字节）的值并保存，该值为栈顶地址。PC计数器从第1个地址读取一个两字节的值并保存，该值为程序入口，一般是Reset_Handler。想了解FLASH地址映射可以看STM32八股【4】-----AHB地址映射__VectorsDCD__initial_sp;TopofStackDCDReset_Handler;ResetHand
Python中Pyttsx3库实现文本转化成语音MP3格式文件定星照空 python
Pyttsx3库介绍pyttsx3库是一个功能强大且使用方便的Python本地文本转语音库。它不仅能在离线下将文本转换为语音MP3格式文件，也能在Windows、MacOS和Linux等多个操作系统上实现语音播报。同时，还可以调整语音播报的语速、音量和音色。安装与基本使用安装：cmd命令行中执行pipinstallpyttsx3。基本使用示例：importpyttsx3#初始化语音引擎engine
Node.js 包与 npm 详解：使用 npm 的重要注意事项与最佳实践还是鼠鼠 node.js node.js javascript vscode 前端
目录Node.js包与npm：使用npm的其它注意点详解1.package.json与package-lock.json的作用什么是package.json？什么是package-lock.json？示例：package-lock.json片段2.语义化版本（SemVer）与依赖版本管理3.全局安装vs.本地安装本地安装（默认）全局安装4.npm缓存管理与优化清理npm缓存5.依赖冲突与node_
复习Linux的常用指令一直开心 linux 常用指令的学习笔记
https://zhuanlan.zhihu.com/p/385065437https://zhuanlan.zhihu.com/p/385065437参考：tar指令的学习linux常用命令(2)：tar命令(压缩文件/解压缩文件)_tar压缩-CSDN博客zip指令的学习Linuxzip命令|菜鸟教程tar的工作过程主要分为两个步骤，正向是打包与压缩，反向是解压缩与还原。打包指的是将一大堆文件
计算机毕业设计指南晴天毕设课程设计毕业设计 java 毕设开发语言
毕业设计是计算机专业学生展示综合能力的重要环节，不仅是对所学知识的总结，也是进入职场或深造前的实战演练。本文将从选题、需求分析、系统设计、编码实现、测试优化、论文撰写、答辩准备等方面，为你提供一份详细的毕业设计指南。如果有其他问题，可以点击文章末尾名片咨询，可免费分享源码1.选题阶段选题是毕业设计的起点，直接影响后续工作的难度和完成质量。选题原则兴趣驱动：选择自己感兴趣的方向，能够激发研究动力。创
Adb与monkey命令学习总结你醉牛啤手机测试 adb 软件测试
主要内容adb构成和工作原理adb常用命令查看当前连接设备安装apk文件卸载APP获取包名和界面名adbshellam/pmadb文件传输其他常用命令monkey常用命令事件数频率–throttle(毫秒)，延时操作指定执行的应用–p日志-v调试选项完整应用monkey命令进行稳定性测试adb构成和工作原理全称：AndroidDebugBridge就是起到调试桥的作用。顾名思义，adb就是一个de
查询数据库中第n行数据 weixin_44231698
一般情况下分页的时候是需要的关键字。Oracle中则是rownum，MSSQL中是top关键字，MySQL中是limit关键字。查第n条数据，如：（1）select*from(SELECTROWNUMrn,A.*FROMTABLEA)bwhereb.rn=n;(2)selecttop1*fromTABLEAwhereidnotin(selecttopn-1idfromTABLEA);(3)用mys
自定义kafka高效的protoStuff序列化 _夜渐凉 ●Java kafka protoStuff 序列化
Duang，最近搭建了一个自己的博客小破站，欢迎各位小伙伴来访吖：https://www.ares-stack.cn/blog_service/#/game目前序列化领域中，谷歌的protobuf应该是性能好，效率高的了，并且protobuf支持多种语言，可跨平台，跨语言但使用起来并不像其他序列化那么简单（首先要写.proto文件，然后编译.proto文件，生成对应的.java文件）protost
PCL基础：pcl::SACSegmentation＜PointXYZRGBN＞函数全面说明，一遍文章精通平面分割算法多宝Kim #PCL点云库使用笔记 c++算法 windows visual studio
创作不易，如果本篇文章能够给你提供帮助，请点赞鼓励+收藏备查+关注获取最新技术动态，支持作者输出高质量干货！（一般在周末更新技术干货）`pcl::SACSegmentation`是PointCloudLibrary(PCL)中用于进行随机抽样一致性（RandomSampleConsensus，RANSAC）平面分割的类模板，模板参数`PointXYZRGBN`表示点云中点的类型，该类型包含三维坐标
leetcode29. 两数相除-medium 智趣代码实验室 Leetcode leetcode c++
1题目：两数相除官方标定难度：中给你两个整数，被除数dividend和除数divisor。将两数相除，要求不使用乘法、除法和取余运算。整数除法应该向零截断，也就是截去（truncate）其小数部分。例如，8.345将被截断为8，-2.7335将被截断至-2。返回被除数dividend除以除数divisor得到的商。注意：假设我们的环境只能存储32位有符号整数，其数值范围是[−231,231−1]。
使用PyTorch搭建Transformer神经网络:入门篇 DASA13 pytorch transformer 神经网络
1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。我们将逐步解释每个组件,并提供详细的代码实现。2.环境设置首先,确保您的系统中已安装Python(推荐3.7+版本)。然后,安装PyTorch和其他必要的库:pipinstalltorchnumpymatplotlib3.P
解决stm32引脚如果选择输入模式雁过留声花欲落单片机嵌入式硬件
1.输入模式分类STM32的GPIO输入模式主要分为以下四种：浮空输入（FloatingInput/InputFloating）上拉输入（InputPull-Up）下拉输入（InputPull-Down）模拟输入（AnalogInput）2.各模式详解(1)浮空输入（FloatingInput）电路结构：引脚内部不连接上拉或下拉电阻，完全由外部电路决定电平状态。等效电路：引脚直接连接施密特触发器（
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在