爬虫知识2/22

爬虫知识
爬虫分类：
-通用爬虫：一整张页面源码数据
-聚焦爬虫：一张页面中的局部数据
-增量式爬虫：检测网站数据更新的情况，爬取最新网站的数据
-分布式爬虫：踢高爬取效率的终极武器

如何区别数据是否为动态加载：在捕捉的地址网络network中没搜到所见到的数据
抓动态加载数据的方法：（一）通过抓包工具刷新页面，来审查元素解析地址（network）
1.步骤①刷新页面来全局抓包，点开network，点住Name里面的项目按ctrl+F(全局搜索)
② 输入搜索内容
③ 找到数据的response，打开json格式化数据输出
2，缺点：若动态加载数据是经过加密的密文数据，密文不一定能搜索出来
②通过selenium模拟浏览器抓取
Ajax请求：输入搜索项目，地址url不变（network中的XHR为专有ajax请求）
如何爬取图片：①基于requests
②基于urllib（使用urllib爬图片无法进行UA伪装）
返回数据类型：.content返回二进制，.text返回字符串，.json返回字典或列表对象
————————————————————————————
页面中Element和network的区别：
① E包含显示的页面源码数据为当前页面所有的数据加载完毕后对应的完整页面源码数据
② N显示的页面源码数据仅仅为某一个单独的请求对应的响应数据
③ 结论：数据解析页面时，若当前页面无动态加载的数据，可直接使用Element，否则只能使用network对页面数据解析
数据解析的作用：
——用来实现聚焦爬虫
数据解析的通用原理
——指定标签的定位
——取出标签中存储的数据
Bs4解析原理：（1）实例化BeautifulSoup的对象，并加载页面数据源码到该对象中
BeautifulSoup对象实例化有两种方式：
①BeautifulSoup（fp,’lxml’）: ,fp表示本地的文件，用来将本地存储的html文档中的数据进行解析
②BeautifulSoup（page_text,’lxml’）将互联网上请求到的页面源码数据进行解析

		  （2）调用Beautiful对象中相关方法或者属性进行标签定位和文本数据的提取
				（1如何进行标签定位:

①soup.tagname只可以定位到第一次出现的tagName标签,如soup.p
②soup.find()，soup.find(‘tagName’,attrName =‘value’):属性定位
③soup.findALL（），只不过findAll返回的是列表，find返回的是参数，findALL返回的是所有参数
④soup.select（‘选择器’）：类选择器/id选择器/层级选择器（soup.select(’.tang>ul>li’)，或.tang li，空格表多个层级，>表示一个层级）
（2取数据：-.text返回的是该标签下所有的文本内容
-.string返回的是该标签直系的文本内容
（3取属性：[‘attrName’],如a_tag[‘href’]

Xpath解析原理（xpath返回的是列表）：1.实例化一个etree的对象，且将待解析的页面源码加载到数据对象中
实例化etree对象：①ettree.parse(‘filename’)将本地的html文档加载到该对象中②etree.HTML(page_text)网站获取的页面数据加载到该对象
2，调用etree对象的xpath方法结合着不同的xpath表达式实现标签的定位和数据提取
（1标签定位：①如/表示一个层级，//表示多个层级
from lxml import etree
tree = etree.parse(‘text.html’)
tree.xpath(’/html/head/meta’)
tree.xpath(’/html//meta’)
tree.xpath(’//meta’)
②属性定位：tagName.[@attrName=”value”]
class为song的div下面所有的p tree.xpath(‘//div [@class=”song”]/p’)

③索引定位：定位class为song的div下面第二个p，tag.[index] ,索引从1开始
tree.xpath(‘//div [@class=”song”]/p[2]’)
④ 模糊匹配（略）

（2数据提取：①索引定位去文本：tree.xpath(‘//div [@class=”song”]/p[1]/text()’)
/text（）为直系文本内容
//text()为所有的文本内容
②取属性 -/@hattrName
Tree.xpath(‘//div[@class=”feng”]/@href’)
编码格式：utf-8不行用gbk
什么时候使用Xpath还是BS4表达式？
bs4在实现标签定位的时候返回的直接就是定位到标签对应的字符串数据，可以解析出携带html标签的局部数据如 asdasffsd
|为xpath中的可以表示同时生效的管道符作用
————————————————————————————
反爬机制：1.图片懒加载（踢高浏览速度），requests无可视化范围，因此我们解析的是img伪属性的属性值（图品地址）2.robots 3.UA伪装 4.动态加载数据的捕获5.cookies机制
Cookies处理：1，手动处理：将抓包工具中的cookies粘贴在headers中，弊端：cookies过了有效市场就失效了
2.自动处理：基于session对象实现自动处理，requests.session（）返回seession对象
为什么在爬虫中需要代理服务器？如果我们的爬虫在短时间内对服务器发起了高频的请求，服务器就会检测到异常的行为请求，就会将该请求的IP禁掉（若IP被禁，我们就可以使用代理服务器进行请求转发，破解ip被禁的反爬机制）
代理服务器不同的匿名度：透明，匿名，高匿代理
代理的类型：https：只能转发https协议的请求
http：转发http的请求
代理服务器：
-快代理
-西饲代理
-goubanjia
-代理精灵（推荐）
在xpath表达式中不可以出现tbody标签（从2开始为 [1:]）
验证码的识别:
-基于线上的打码平平台识别验证码
-打码平台：
-超级鹰（专门识别12306）
-云打码
-打码兔
模拟登录：
-流程：点击登录（post请求），处理请求参数（用户名，密码，验证码，其他的防伪参数）
动态变化的请求参数获取：
-方式1：在前台登录页面的element中获取（在element中搜索）
-方式2：若前台页面页面无，基于抓包工具全局搜索
基于百度AI实现的爬虫功能：
-图像识别
-使用流程：1，点控制台登录。2，选想要实现的功能。3，实现功能下创建一个app。4，选择对应的python SDK文档进行代码实现
-语音合成
-自然语言处理
___________________________________________________________________________-
实现异步爬虫：
-基于线程池
-from multiprocessing.dummy import Pool
-map(callback,alist)
-可以实现callback对alist中的每一个元素进行指定形式的异步操作
-基于单线程+多任务的异步爬虫（asynio对应的四个概念）
-特殊的函数
-若一个函数被asynico修饰后变成特殊函数,
-特殊之处：该函数调用后内部函数不会立即执行，调用该函数后会返回一个协程对象
-协程对象：通过特殊函数的调用返回一个协程对象
-协程特殊函数一组指定的操作
-协程一组特殊的操作
-任务对象
-任务对象就是一个高级的协程对象（任务对象就是对协程对象的进一步封装）
-任务一组指定的操作
-高级之处：可以给任务对象绑定回调，回调函数不是特殊函数
-task.add_done_callback(task_callback)
-回调函数的调用时机：任务被执行结束后，才可以调用回调函数
-回调函数的参数只可以有一个：表示该回调函数的调用这
-使用回调函数的参数调用result（）返回的就是任务对象表示的特殊函数return的结果
-如何创建一个任务对象：
-task=asyncio.ensure_future(协程对象)
-事件循环对象
-对象作用：一，可以将多个任务对象注册到事件循环对象中
二，若开启了事件循环后，起内部注册/装载的任务对象表示的指定操作就会被基于异步的被执行
-创建方式：
-loop=asyncio.get_event_loop()
-注册且启动方式
-loop.run_until_complete(task)
Aiohttp：支持异步的网络请求模块
-1，写出大致架构
async def get_requests(url):
#实例化好请求对象
with aiohttp.ClientSession() as sess:
#调用gate发起强求，返回一个响应对象
#get/post（url，headers，params/data，proxy=“http://ip:port”）
with sess.get(url=url) as response:
#获取了字符串形式的响应数据
page_text=response.text()
return page_text
-2，补充细节，sess.get前加await
response.text前加await
在每一个with前加async
（在阻塞操作前加await）
补完整代码
async def get_requests(url):
#实例化好请求对象
with aiohttp.ClientSession() as sess:
#调用gate发起强求，返回一个响应对象
#get/post（url，headers，params/data，proxy=“http://ip:port”）
with await sess.get(url=url) as response:
#text()获取了字符串形式的响应数据
#read()获取byte类型的响应数据
page_text=await response.text()
return page_text
__________________________
selenium：基于浏览器自动化的模块（自动化：通过代码指定一些的动作，作用到浏览器中）
-1，便捷的捕获到任意形式动态加载的数据（可见即可得）
-2，实现模拟登录
如何捕获动态加载的数据
-以药监总局为例
selenium缺点
-效率低，网速慢就废了
动作链：
-一系列连续的动作（滑动动作）
若通过find定位进行在iframe下面的标签，则会定位失败
-解决方案：使用switch_to
-bro.switch_to.frame(‘iframeResult’)
div_tag=bro.find_element_by_xpath(’//*[@id=“draggable”]’)
print(div_tag)
有的网站会检测会检测请求是否为selenium发起
-规避检测的方法：使用浏览器接管
-1，打开谷歌驱动程序的目录找到，添加到环境变量中
-2，打开cmd输入

chrome.exe --remote-debugging-port=9222 --user-data-dir=“C:\selenium\AutomationProfile”（空文件夹的目录）
-3，执行如下代码，可以使用下属代码接管步骤2打开的真实的浏览器
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
chrome_options=Options()
chrome_options.add_experimental_option(“debuggerAddress”,“127.0.0.1:9222”)
#本机的谷歌驱动程序路径
chrome_driver="(chromedriver的存放路径)"
driver=webdriver.Chrome(executable_path=chrome_driver,chrome_options=chrome_options)
print(driver.title)
无头浏览器（无可视化界面的浏览器）：速度比可视化界面更快
-谷歌
-phantomJs（已经停止更新）

JS解密+混淆破解（火狐浏览器）
-爬取网站https://www.aqistudy.cn/html/city_detail.html（数据不解释，但还可以爬）
-1，修改查询条件，点击查询按钮，捕获点击按钮后发起请求对应的数据包（点击查询发起的是ajax请求，该请求就会将指定查询条件加载对应的数据）
-2，从XHR中找出Ajax的url，请求方式post还是get和请求参数data（若为d且一堆数据，则响应数据为动态数据且为密文加密）
-3.将捕捉到的密文数据解密
火狐浏览器
-4从getdata函数实现中找寻ajax请求对应的代码，点击click行右边的箭头（在该函数的实现中没找到ajax代码，但是发现了另外两个函数的调用）
-ajax代码的实现一定存在这两个函数内部
-type==HOUR ：查询事件以小时为单位
-5 再进一步分析发现这两个方法都调用了 getServerData() 这个方法，并传递了 method、param 等参数，然后还有一个回调函数很明显是对返回数据进行处理的，这说明 Ajax 请求就是由这个 getServerData()方法发起


-6，分析getserverdata，找寻ajax代码（全局搜索从network的ctrl+F找），再点response，找到为加密的内容

-7，如何对etserverdata加密的内容实现解密？
-js混淆：对核心的js代码进行加密
-js反混淆：对js加密的代码进行解密
-暴力破解：
这里提供一个：http://www.bm8.com.cn/jsConfusion/。我们可以将getServerData存在的这行数据粘贴到反混淆的网站中。

-data：加密的响应数据
-param：动态变化且加密的请求参数
-decodeData（data）将加密的数据进行解密
-decodeData（method，object）返回动态变化的请求参数
-发现method是固定形式字符串，object就是param是一个字典，里面存储了三组键值对city表示查询城市名称，startTime和endTime为查询起止时间，type表示为HOUR：params为查询参数（method=’GETCITYWEATHER‘or’GETDETAIL’
params={city,type,startTime,endTime}）
-8，js逆向
-现在只需要调用两个js函数decodeData/decodeData返回结果即可
-再python如何调用js函数
-方式1：手动把js函数改写成python函数
-方式2：使用固定模块实现自动你想（逆向）
-借助PyExecJS 库来实现模拟JavaScript代码执行获取动态加密的请求参数，然后再将加密的响应数据带入decodeData进行解密即可！
-pip install PyExecJS
-在本机安装好nodejs的环境
1，将反混淆网站中的代码粘贴到jsCode.js文件中
2，在该js文件中添加一个自定义函数getPostParamCode，该函数是为了获取且返回post请求的动态加密参数
function getPostParamCode(method, city, type, startTime, endTime){
var param = {};
param.city = city;
param.type = type;
param.startTime = startTime;
param.endTime = endTime;
return getParam(method, param);
}

3.在py源文件中可以基于PyExecJS模拟执行步骤2中定义好的自定义函数，获取动态加密参数params：
下面为代码------
#基于该模块执行getParam返回动态变化的请求参数
import execjs
#实例化node对象
node = execjs.get()

Params

method = ‘GETCITYWEATHER’
city = ‘北京’
type = ‘HOUR’
start_time = ‘2018-01-25 00:00:00’
end_time = ‘2018-01-25 23:00:00’

Compile javascript

#先创建一个文件jsCode.js，存放需要存放解密的js函数数据，compile进行编译
file = ‘jsCode.js’
ctx = node.compile(open(file,encoding=‘utf-8’).read())

Get params，调用jsCode中指定的getPostParamCode函数调用，01234为传参，传回params为动态变化的加密请求参数，用eval执行函数

js = ‘getPostParamCode("{0}", “{1}”, “{2}”, “{3}”, “{4}”)’.format(method, city, type, start_time, end_time)
params = ctx.eval(js)
print(params)

4.接着我们用 requests 库来模拟 POST 请求，获取加密的响应参数　
#发起post请求
url = ‘https://www.aqistudy.cn/apinew/aqistudyapi.php’
data={
‘d’:params
}
response_text = requests.post(url, data=data).text
print(response_text)
-5,用decodeData() 方法即可实现解密，返回解密后的原文数据
js = ‘decodeData("{0}")’.format(response_text)
decrypted_data = ctx.eval(js)
print(decrypted_data)
-我们可以把JS混淆归结为三类，分别是 eval类型，hash类型，压缩类型。而压缩类型，是目前前端性能优化的常用工具，以uglify为代表。
eval对应的解混淆工具, 随便百度都可以搜索到，如jspacker
JSA对应的解混淆工具unjsa
javascript-obfuscator对应的解混淆工具crack.js
————————————————————————————————————
初学者：requests爬取网页+bs4解析网页爬取页面源码的数据，用Selenium获取动态网页，用csv存储网页
老手：scrapy框架（使用与异步爬虫的框架）
（一scrapy基本使用：
-1，scrapy startproject ProName创建项目
-spiders:爬虫文件夹
-必须存放一个爬虫源文件
-setting.py：工程的配置文件
-cd ProName
-2，创建爬虫源文件
-crapy genspider spiderName www.xxx.com
-编写对应的代码
-3，执行工程
-scrapy crawl spiderName
-执行工程后，默认输出工程所有日志
-指定类型日志的输出
-setting.py加上：
- LOG_LEVEL=‘ERROR’（只输出错误的日志）
- UA也可伪装
-4，补充说明
-#name为爬虫文件名称，当前源文件的唯一标识
-#url为起始的url列表，只可以存url，该列表存的url都会被get请求发送，若域名允许为百度，则不能打开sougou的url
- #allow为允许的域名
- #parse方法调用取决于请求的次数，parse方法为请求后的数据解析操作
-#reponse表示的就是服务器返回的响应对象
-#setting.py中
-1，禁止robot
-2，指定日志伪装：LOG_LEVEL=‘ERROR’
-3,UA伪装
（二scrapy数据解析
发现：
（1）对于Selector类型的对象，并不能使用extract_first()方法，而使用get()可以。get() 、getall() 是新版本的方法，extract() 、extract_first()是旧版本的方法。前者更好用，取不到就返回None，后者取不到就raise一个错误。
（2） get() == extract_first()
返回的是一个list，里面包含了多个string，如果只有一个string，则返回[‘我很孤独’]这样的形式
getall() == extract()
返回的是string，list里面第一个string
（3）
-使用：response.xpath（’xpath表达式‘）
-scrapy封装的xpath和etree中的xpath区别：
-scrapy中的xpath直接将定位到的标签中存储的值或属性值取出，返回selector对象，需要用get/extract取出字符串数据
（三持久化存储
-基于终端指令的持久化存储
- scrapy crawl 爬虫名称 -o xxx.json
scrapy crawl 爬虫名称 -o xxx.xml
scrapy crawl 爬虫名称 -o xxx.csv
-要求：该种方式只可以将parse方法的返回值存储到本地指定后缀的文本文件中
def parse(self, response):
#数据解析名称和内容
li_list=response.xpath(’//*[@id=“list”]/ul/li’)
all_data=[]
for li in li_list:
title = li.xpath(’./div[2]/a/text()’)[0].get()
content=li.xpath(’./div[1]/text()’)[0].get()
dic={
‘title’:title,
‘content’:content
}
all_data.append(dic)
return all_data
-基于管道的持久化存储（重点）
-1，在爬虫文件中进行数据解析
-2，在items.py中定义相关属性
-步骤1中解析出了几个字段的数据，在此就定义几个属性
class WangziproItem(scrapy.Item):
title=scrapy.Field()
content=scrapy.Field()
-3，在爬虫文件中将解析到的数据存储封装到item类型的对象中
item=WangziproItem()
#不可以通过.形式调用属性
item[‘title’]=title
item[‘content’]=content
-4，将item类型对象提交给管道
yield item
-5，在管道文件（pipelines.py）中，接受爬虫文件提交过来的item类型对象，进行任意形式的持久化存储操作
class WangziproPipeline:
#该方法用来接收item对象,一次只能接受一次item，说明会被调用多次
#参数item：就是接收到的item对象
def process_item(self, item, spider):
print(item)#item就是一个字典
return item

	-6，在配置文件中开启管道机制
		setting中
		ITEM_PIPELINES = {
		#300表示管道的优先级，越小优先级越高
		'wangzipro.pipelines.WangziproPipeline': 300,
		}
	-7 补充管道内部内容

class WangziproPipeline:
fp=None
#重写父类的两个方法
def open_spider(self,spider):
print(‘我是open_spider(),我只会在爬虫开始的时候执行一次！’)
self.fp=open(‘duanzi.txt’,‘w’,encoding=‘utf-8’)
def close_spider(self,spider):
print(‘我是close_spider(),我只会在爬虫结束的时候执行一次！’)
self.fp.close()
#该方法用来接收item对象,一次只能接受一次item，说明会被调用多次
#参数item：就是接收到的item对象
def process_item(self, item, spider):
#print(item)#item就是一个字典
#将item存储到文本文件
self.fp.write(item[‘title’]+’:’+item[‘content’]+’\n’)
return item
-基于管道实现数据的备份
-将爬取到的数据分别存储到不同的载体
-实现：将数据一份存储到mysql，一份存储到redis
-问题：管道文件中的一个管道类表示怎么样的一组操作呢？
-一个管道类对应一种形式的持久化存储操作，若将数据存到不同的载体就需要多个管道类
-已经定义好三个管道类，将数据写入三个导体中存储：
-item会不会依次提交给三个管道类
-不会，爬虫文件中的item只会被提交给优先级最高的管道类
-优先级高的管道类需要在process_item中实现return item，就item传递给下一个即将被执行管道类
-scrapy的手动请求发送实现的全站数据爬取
-yield scrapy.Request(url=new_url,callback=self.parse)：get请求
-callback指定解析函数，用于解析数据
-yield scrapy.FormRequest(url,callback,formdata): post请求
-formdata：字典，请求参数
-为什么start_urls列表中的url会自动进行get请求的发送？
-因为列表中的url其实是被start_request这个父类方法发起的请求发送（遍历列表）
def start_requests(self):
for u in self.start_urls:
yield scrapy.Reqeusts(url=u,callback=self.parse)
-如何将start_urls中的url默认进行post请求的发送？
-重写start_request方法即可
def start_requests(self):
for u in self.start_urls:
yield scrapy.FormReqeusts(url=u,callback=self.parse)
-scrapy一般用于发送get请求
——————————————————————————
一般动态加载的数据用request去爬，不用scrapy，scrapy用来爬静态的数据
——————————scrapy五大部件作用
-spider：数据解析，url获取
-twisted在下载器中体现异步下载
-互联网返回给下载器的是response
-调度器分为：过滤器和队列
-item封装好由spider给引擎，引擎给管道
-引擎：接受数据流，触发事物
-管道：持久性储存
请求传参的深度爬取：
-深度爬取：爬取的数据没有在同一张页面中（首页数据+详情页数据）
-在scrapy中无请求传参无法实现持久化存储数据
-实现方式：
-scrapy.Request(url,callback,meta)
-meta是一个字典，可以将meta传递给callback
-callback取出meta：
-item=response.meta[‘item’]
————————中间件作用：批量拦截请求响应
-（1）爬虫中间件（不经过调度器）
-（2）下载中间件（推荐）
-（1拦截请求：
-【1篡改请求url
-【2伪装请求头信息
-UA
-Cookie
-【3设置请求代理（重点）
-（2拦截响应：
-篡改响应数据
-需求：需要爬取网易新闻中的新闻数据（标题和内容）
-1，通过网页新闻的首页解析出五大板块对应的详情页url（无动态加载）
-2，每一块板块对应的新闻标题都是动态加载出来的（动态加载）
-3，通过解析出每一条新闻详情页对应的页面源码，解析出新闻内容(动态数据通过中间件selenium获取）
-（3代理操作必须使用中间件才可以实现
#拦截异常的请求，参数：requests拦截到的发生异常的请求，
#作用：想要将异常的请求修正，对其进行重新发送
def process_exception(self, request, exception, spider):
#若ip被封，请求就会变得一个异常的请求
#设置代理
request.meta[‘proxy’]=‘http://ip:port’
return request#将异常的请求修正后重新发送
——————————大文件下载（图片）：大文件数据是在管道中请求到的（img.Pro）
-下属管道类是scrapy封装好的我们直接用
-from scrapy.pipelines.images import ImagesPipeline #scapy提供了下载功能
-重写管道类三个方法
#get_media为根据图片地址item【src】发起请求
① def get_media_requests(self,item,info):
yield scrapy.Request(item[‘src’],meta={‘item’:item})
#指定存储图片的地址,只要返回图片名称就可以
②def file_path(self,request,response=None,info=None):
item=request.meta[‘item’]
filePath=item[‘name’]
return filePath#只需要返回图片名称1
#将item传给下一个即将被执行的管道类
③ def item_completed(self,results,item,info):
return item
-在配置文件中添加：
-IMAGES_STORE=‘dirName’
——————————setting.py中的常用配置
-增加并发
-默认scrapy开启线程为32个，可适当增加。在setting的concurrent——requests
-降低日志级别
-运行scrapy会有日志的输出，可设置减少日志输出LOG_LEVEL=‘ERROR’
-禁止cookie
-若不需要cookie，scrapy一般不用cookie，减少使用cookie则降低cpu使用率，cookie_enabled=false
-禁止重试
-中间件会修正重新发送请求，请求重试降低爬取速度。RETRY_ENABLED=False
-减少下载超时
-如果对一个非常慢的链接进行爬取，减少下载超时可让能卡住的链接快速被放弃，从而提升效率。DOWNLOAD_TIMEOUT=10，超时时间为10s
————————
CrawlSpider（全站数据爬取）
-其实是spider的一个子类，spider是爬虫文件中爬虫类的父类
-作用：被作用于专业实现全站数据爬取
-将一个页面下所有页码对应的数据进行爬取
-使用流程：
-1,创建一个机遇crawlspider的一个爬虫文件：scrapy genspider -t crawl spiderName www.xxx.com
-2,构建链接提取器和规则解析器
-链接提取器：
-作用：根据指定规则进行指定链接的提取
-提取的规则：allow=‘正则表达式’
-规则解析器：
-作用：获取链接提取器提取到的链接，根据指定规则对请求到的页面源码数据进行数据解析
-fllow：true，将链接提取器继续作用到到所提取的页面链接
-链接提取器和规则提取器也是一对一的关系
-想取得当前网站的所有链接，link=LinkExtaractor(allow=r’’)-----link内为空
——————————
-分布式
-（效率高，但环境难搭建）什么是分布式爬虫？（1）
机遇多台电脑组件一个分布式机群，然后让机群中的每一台电脑执行同一组程序，然他们对同一个网站的数据进行分部爬取
-为什么要使用分布式爬虫？（2）
提升爬取数据的效率
-如何实现分布式爬虫？（3）
基于scrapy+redis的形式实现分布式·
-scrapy结合这scrapy-redis组建实现的分布式
-原生的scapy框架是无法实现分布式的？（4）
-调度器无法被分布式机群共享
-管道无法共享
-scrapy-redis组件的作用（5）
-提供可以被共享的调度器和管道
-环境安装（6）
-redis
-pip install scrapy-redis
-编码流程（7）
-创建一个工程①scrapy startproject fbsPro
cd fbsPro
scrapy genspider -t crawl fbs www.xxx.com
-创建一个爬虫文件：基于crawlSpider的爬虫文件②
-修改当前的爬虫文件，
- 导包：
-fbs.py
from scrapyg_redis.spiders importc RedisCrawlSpider,ReddisSpider
-将当前爬虫类的父类修改成RedisCrawlSpider
-fbs,py
class FbsSpider(RedisCrawlSpider)
-将start_url替换成redis_key=‘xxx’，xxx表示可被共享调度器中队列的名称
#redis_key表示的是可悲共享调度器中队列的名称
redis_key=‘fbsQueue’
-fbs.py
from fbsPro.items import FbsproItem
rules=（
Rule(LinkExtractor(allow=r’type=4&page=\d+’),callback=‘parse_item’,folloiw=True,
）
def parse_item(self,response):
tr_list=…
for tr in tr_trlist:
title=…
status=…
item=FbsproItem()
item=[‘title’]=title
item[‘status’]=status
item[‘num’]=num
yield item
-items.py
calss FbsproItem()
title=scrapy.Field()
status=scrapy.Field()
-setting.py
#开启可被共享的管道
ITEM_PIPELINES=｛
‘scrapy_redis.pipelines.RedisPipeline’:400
｝
#指定使用可被共享的调度器（过滤器）
#增加一个去重容器类的配置，作用使用Redis的set合集来存储请求的指纹数据，从而实现请求去重的持久化
DUPEFILTER_CLASS=“scrapy_redis.dupefilter.RFPDupeFilter”
#使用scrapy-redis组件自己的调度器
SCHEDULER=“scrapy_redis.scheduler.Scheduler”
#配置调度器是否要持久化，也就是当爬虫结束了，要不要清空redis中请求队列和去重指纹的set。如果是TRUE，则表示持久化
SCHEDULER_PERSIST=True
-③对setting进行设置：
-指定管道
-指定调度器
-指定redis的服务
REDIS_HOST=‘redis服务的ip地址’ //本机ip地址
REDIS_PORT=6379
-④redis的配置文件进行配置：redis.windows.conf
#关掉默认绑定
#bind 127.0.0.1
#关闭保护模式，开了后只能读
protected-mode no
-⑤携带配置文件启动redis服务
-在当前目录打开Powershell窗口
-redis-server
-./redis-server redis.windows.conf
-⑥启动redis的客户端
-在当前目录打开Powershell窗口
-redis-cli
-⑦执行当前的工：（进入到等待状态）
-setting.py
CONCURRENT_REQUESTS=2
-进入到爬虫文件对应的目录中(进入到spiders文件当前
-scrapy runspider fbs,py
-⑧向调度器windows PowerShell r扔入一个起始的url：（仍入url就开始爬取）
-队列在哪里呢？
答：队列在redis中
-lpush fbsQueue www.xxx.com
#爬完后输入key *显示存的数据，其中fbs：requests为查询对象
#看存储的items,0到-1
lrange fbs:items 0 -1
#flushall为清空所有数据
#llen fbs:items为看items爬取有多少条
-⑨限制条件：各电脑之间为局域网内网，每一个分布式雇佣一个路由器
————————————————————————__————————————_----
增量式爬虫：
-概念：检测网站数据更新的情况
-核心：去重！！！
-实战中去重的方式：记录表
-记录表中记录什么？记录爬取过的相关信息
-爬取过的相关信息：每一部电影详情页的url，作为唯一标识，称为数据指纹
-去重的方式：
-python中的set集合（不可以）
-set集合无法持久化存储
-redis中的set可以持久化存储
-将爬取到网页url存储到redis的set数据结构中（sadd name xxx，返回1表示不存在，返回0表示爬过)
-开始
scrapy startproject zlsPro
cd zlsPro
scrapy startproject genspider -t crawl zls www.xxx.com
setting.py改三个：UA/log_level/君子协议
-指定起始url
-基于crawlspider获取其他页码链接
-基于rule将其他页码链接进行请求
-从每一个页码对应的页面源码中解析出每一个电影详情页的url
-核心：检测电影详情页的url有没有请求过，将没爬过的电影详情页的url存储到redis的set数据结构
-对详情页的url发起请求，解析电影的名称和简介，封装到item提交到管道
-在管道里把名字和简介存到数据库里持久化存储
——————————————————
爬虫高级课程（爬虫的js加密处理+js算法改写分析）
-涉及到的相关内容
线性散列Md5算法
对称加密DES/AES算法
非对称加密算法RSA
base64伪加密
https证书秘匙加密
-可以处理的爬虫问题
模拟登录中密码加密和其他请求参数加密处理
动态加载且加密数据的捕获和破解
重点：找到js算法加密和解密相关流程的编码关于处理套路/技巧，大幅度提升处理相关问题的效率
-常见的加密算法分类
-线性散列Md5算法
定义：可以产生128位的散列值，且MD5加密后产生得事一个固定长度（32位或16位）的数据
思路:暴力破解，通过用很多数据跟已有的数据对比寻找规律，理论上数据量够庞大MD5是可以破解的，但需要注意MD5是需要考虑破解的成本。
方法：①使用一段无意义的且随机的私匙进行MD5加密生成一个加密串，暂且称为串1
②将要加密的数据跟串1拼接，再进行MD5加密，生成串2
③将串2再进行MD5加密，生成的串3就是我们加密后的数据
附加：我们注册账号时的密码都是用MD5加密
-对称加密DES/AES算法
定义：DES为数据加密标准，是一种使用密匙加密的算法，加密方式是对称加密，其加密运算/解密运算需要使用的是同样的密匙（一组字符串）即可
注意：
现在用AES 这个标准代替原先的DES
AES和DES的区别：
加密后密文长度不同：
DES加密后密文长度是8的整数倍
AES加密后密文长度是16的整数倍
应用场景不同：
企业级开发用DES足够安全
如果要求高使用AES
DES和AES切换只需要修改CrytoJS.AES<=>CryptoJS.DES
使用DES/AES进行数据交互是要求双方都拥有相同的私匙
破解方法：
暴力破解
DES如果使用56位的密匙，可能的密匙数量是2的56次方个。只要计算足够强大是可以暴力破解
DES算法的入口参数有三个：
key/data/mode/padding:
key为7个字节共56位，是DES算法的工作密匙;
Data为8个字节64位，是要被加密或被解密的数据
Mode位DES的工作方式，有解密或加密
padding为填充模式，如果加密后密文长度如果达不到指定整数倍（8个字节,16个字节），填充相应字符
padding的赋值固定为CryptoJS.pad.Pkcs7即可
-非对称加密算法RSA
RSA加密：
定义：非对称加密算法（两个密匙），再公开密匙加密和电子商业中广泛使用
详解：（RSA需要两个密匙）
公开密匙publickey
私有密匙privatekey
注意：
使用都是公开密匙加密，私有密匙解密。私有钥匙自己保留
算法复杂，使得加密解密速度没有对称加密解密的快
私有钥匙是通过共有钥匙计算生成。
公开钥匙生成方式：
公私匙可以在线生成：
http://web.chacuo.net/netrsakeypair
-base64伪加密
base64是一种用64个字符来表示任意二进制数据的方法。base64是一种编码方式而不是加密算法。只是看上去像是加密而已。
base64使用A-Z，a-z，0-9，+，/这64个字符实现对数据进行加密

你可能感兴趣的:(爬虫笔记,python)

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
python抓包与解包_Python—网络抓包与解包（pcap、dpkt） weixin_39691055 python抓包与解包
pcap安装[root@localhost~]#pipinstallpypcap抓包与解包#-*-coding:utf-8-*-importpcap,dpktimportre,threading,requests__black_ip=['103.224.249.123','203.66.1.212']#抓包：param1eth_name网卡名，如：eth0,eth3。param2p_type日志捕
华为OD机试 - 单向链表中间节点（Java & JS & Python & C & C++）华为OD题库华为od 链表 java
须知哈喽，本题库完全免费，收费是为了防止被爬，大家订阅专栏后可以私信联系退款。感谢支持文章目录须知题目描述输出描述解析代码题目描述给定一个单链表L，请编写程序输出L中间结点保存的数据。如果有两个中间结点，则输出第二个中间结点保存的数据。例如：给定L为1→7→5，则输出应该为7；给定L为1→2→3→4，则输出应该为3；输入描述每个输入包含1个测试用例。每个测试用例：第一行给出链表首结点的地址、结点总
python 推导式(派生、衍生) sanduo112 人工智能 python windows 开发语言
python推导式一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。2.列表(list)推导式3.字典(dict)推导式4.集合(set)推导式5.元组(tuple)推导式二、代码概述一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。Python支持各种数
数据挖掘|数据预处理|基于Python的数据标准化方法皖山文武数据挖掘数据建模与分析 python 数据挖掘开发语言
基于Python的数据标准化方法1.z-score方法2.极差标准化方法3.最大绝对值标准化方法在数据分析之前，通常需要先将数据标准化（Standardization），利用标准化后的数据进行数据分析，以避免属性之间不同度量和取值范围差异造成数据对分析结果的影响。1.z-score方法Z-score方法是基于原始数据的均值和标准差来进行数据标准化的，处理后的数据均值为0，方差为1，符合标准正态分布
CSV指南：Python程序获取大型CSV文件行数孤独打铁匠Julian 笔记经验分享 python
本指南提供了几种使用Python来获取大型CSV文件行数的方法，并解释了每种方法的适用场景。方法1:使用csv.reader处理复杂CSV文件当你的CSV文件中包含多行字段（即某些字段的值中包含换行符）时，使用csv.reader是一个可靠的选择，因为它能够正确处理这些复杂情况。这个方法适用于大多数大小的CSV文件，但是对于非常大的文件，读取整个文件可能会占用较多的时间和内存。对于极大的文件，考虑
谷歌浏览器驱动Chromedriver（114-120版本）文件以及驱动下载教程 pigerr杨 Python python chrome drivers
ChromeDriver官方网站GitHub||GoogleChromeLabs/chrome-for-testingChromeDriver113-125_JSONChromeforTestingavailability123-125zip白月黑羽Python基础|进阶|Qt图形界面|Django|自动化测试|性能测试|JS语言|JS前端|原理与安装
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
python转码 Desamond python 开发语言
转码在许多场景中都有应用，以下是一些常见的场景：网页开发：当用户在网页上输入文本时，可能需要将特殊字符（如空格、引号、特殊符号等）进行转码，以防止这些字符对URL或HTML代码产生干扰。文件名处理：在处理文件名时，可能需要将特殊字符进行转码，以避免文件名被错误地解析或显示。数据传输：在数据传输过程中，为了确保数据的完整性和正确性，可能需要将数据中的特殊字符进行转码。数据存储：在数据库或数据存储中，
排序算法太多？常用排序都在这了，一篇文章总结和实现所有面试会考的排序算法（基于Python实现）宇宙之一粟不归路之Python #IT面试题收集与总结数据结构与算法算法数据结构排序算法 python java
文章目录排序算法1.常见的排序算法1.1选择排序1.1.1思想1.1.2实现**1.1.3选择排序分析**1.2冒泡排序**1.2.1思想****1.2.2实现****1.2.3冒泡排序分析**1.3插入排序**1.3.1思想****1.3.2实现****1.3.3插入排序分析**1.4归并排序☆☆★**1.4.1思想****1.4.2实现****1.4.3归并排序分析**1.5快速排序☆★★**
27.Python从入门到精通—Python异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为以山河作礼。 #Python基础入门—详解版 python java 服务器
27.从入门到精通：Python异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为异常处理在Python中，异常处理是一种处理程序在执行期间可能遇到的错误的方法。当Python解释器遇到错误时，它会引发异常。异常是一种Python对象，它包含有关错误的信息，例如错误类型和错误位置。为了处理异常，您可以使用try-except语句。在
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
Python | Redis工具类 -拟墨画扇- Python redis 数据库缓存 python
一、需求自动连接Redis数据库，通过连接池处理数据对输出结果进行Log打印并保存到文件二、代码Utils.redisUtils.py#!/usr/bin/envpython#-*-coding:utf-8-*-importredisfromUtils.loggerimportlog"""Redis数据格式(1)字符串|存储形式:key-value:str-存储二进制数据:可以存储任意类型的数据，
Python dict字符串转json对象，小数精度丢失问题朝如青丝暮成雪 json python
一前言JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式，dict是Python的一种数据格式。本篇介绍一个float数据转换时精度丢失的案例。二问题描述importjsontest_str1='{"π":3.1415926535897932384626433832795028841971}'test_str2='{"value":10.00000}'print
Python+Requests模拟发送GET请求爱学习的执念自动化测试软件测试技术分享 python 开发语言
模拟发送GET请求前置条件：导入requests库一、发送不带参数的get请求代码如下：以百度首页为例importrequests#发送get请求response=requests.get(url="http://www.baidu.com")print(response.content.decode("utf-8"))#以utf-8的编码输出内容二、发送带参数的get请求发送带参数的get请求有
Python极速入门：五分钟开启实战之旅！知白守黑V Python 编程语言系统运维 python 编程语言 python开发 python学习 python入门 python数据分析
1.Python基础语法和结构：了解Python的基本语法，包括变量、数据类型、运算符、注释等。控制流：掌握条件语句（if-elif-else）、循环（for和while）及其控制（break和continue）。函数：学习如何定义和使用函数，包括参数传递、返回值、作用域和闭包。模块和包：理解如何导入和使用模块，以及如何创建和使用自己的包。2.数据处理列表、元组和集合：学习这些序列类型的操作和方法
Python Flask 使用数据库安果移不动 python flask 开发语言
pipinstallflask_sqlalchemy官方文档：Flask-SQLAlchemy—Flask-SQLAlchemyDocumentation(3.1.x)为了不报错也需要导入另外两个库#pipinstallflask_sqlalchemy#pipinstallmysqlclient完整代码importosfromflaskimportFlaskfromflask_sqlalchemy
PaperWeekly sapienst Papers PaperwithCode General ML
1.Python软件包解决DL在未见过的数据分布下性能差的问题：（1）神经网络和损失分离的模块化设计（2）强大便捷的基准测试能力（3）易于使用但难以修改（4）github:https://github.com/marrlab/domainlabTrainer和Models之间是什么关系Trainer和Models是DomainLab中的两个核心概念。Trainer是一个用于指导数据流向模型并计算S
使用Python读取Excel文件并计算平均分嘻嘻爱编码 Python从入门到放弃 python excel 开发语言
在这篇博客中，我们将探讨如何使用Python的pandas库来读取Excel文件，并计算其中数据的平均分。pandas是一个强大的数据分析工具，它允许我们以简单直观的方式处理表格数据。安装必要的库在开始之前，确保你的环境中安装了pandas和openpyxl库。可以使用以下命令进行安装：pipinstallpandasopenpyxl读取Excel文件首先，我们需要读取Excel文件。假设我们有一
python项目练习——7.网站访问日志分析器 F—— python项目练习 python 信息可视化数据分析数据挖掘开发语言学习
项目功能分析：这个项目可以读取网站的访问日志文件，统计访问量、独立访客数、访问来源等信息，并以图表或表格的形式展示出来。这个项目涉及到文件操作、数据处理、数据可视化等方面的技术。示例代码：importrefromcollectionsimportCounterimportmatplotlib.pyplotaspltdefparse_log_file(log_file):#读取日志文件内容witho
python的while双重循环九九乘法表 Jinm_R python 开发语言
a=1whilea<=9:b=1#乘数每次需要从1开始whileb<=a:print(f"{a}*{b}={a*b}\t",end='')#\t为制表符使乘法表整齐end=''代表用空格代替换行b+=1a+=1print()#乘数每加一换行
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
Python自动化测试web常见框架汇总自动化测试薰儿软件测试技术分享 python 前端开发语言
1、前言目前，有非常多的Python框架，用来帮助你更轻松的创建web应用。这些框架把相应的模块组织起来，使得构建应用的时候可以更快捷，也不用去关注一些细节（例如socket和协议），所以需要的都在框架里了。接下来我们会介绍不同的选项。经过初期的不起眼，Python已经成为互联网最流行的服务端编程语言之一。根据W3Techs的统计，它被用于很多的大流量的站点很多的大流量的站点很多的大流量的站点，超
python安装jupter在线ide 晚风拂柳颜生活小经验 python3 ide jupter
我在虚拟3.6.8的环境里面安装的，具体用了以下命令；pipinstallipython-ihttps://mirrors.aliyun.com/pypi/simple/pipinstalljupyter-ihttps://mirrors.aliyun.com/pypi/simple/jupyternotebook当然，jupter可以直接通过python环境里script目录下的jupyter-
opencv 十八 python下实现0缓存掉线重连的rtsp直播流播放器摸鱼的机器猫 opencv实战 opencv python 缓存
使用opencv打开rtsp视频流时，会因为网络问题导致VideoCapture掉线；也会因为图像的后处理阶段耗时过长导致opencv缓冲区数据堆积，从而使程序无法及时处理最新的数据。为此对cv2.VideoCapture进行封装，实现0缓存掉线重连的rtsp直播流播放器，让程序能一直处理最新的数据。代码实现fromcollectionsimportdequeimportthreadingimpo
Windows如何安装poppler库，python的PDF转PPTX项目跨不过 pdf
资源库在这里下载https://github.com/oschwartz10612/poppler-windows/releases/tag/v21.03.0其他的参考这篇博客，里面提到的资源链接失效了https://blog.csdn.net/wy01415/article/details/110257130
用Python批量更改图片大小马达马达达 AI python
#提取目录下所有图片,更改尺寸后保存到另一目录fromPILimportImageimportos.pathimportglobdefconvertjpg(jpgfile,outdir,width=128,height=128):img=Image.open(jpgfile)try:new_img=img.resize((width,height),Image.BILINEAR)new_img.s
3.Python数据分析—数据分析入门知识图谱&索引(知识体系中篇) 以山河作礼。 Python数据分析项目数据分析知识图谱数据挖掘 python 开发语言
3.Python数据分析—数据分析入门知识图谱&索引-知识体系中篇一·个人简介二·数据获取和处理2.1数据来源：2.2数据清洗：2.2.1缺失值处理：2.2.2异常值处理：2.3数据转换：2.3.1数据类型转换：2.3.2数据编码：2.4数据合并与重塑：2.4.1数据合并：2.4.2数据拼接：2.4.3数据重塑：三·数据探索与分析3.1描述性统计分析3.2数据可视化原则和技巧3.3探索性数据分析（
SWIFT环境配置及大模型微调实践 weixin_43870390 swift 开发语言 ios
SWIFT环境配置及大模型微调实践SWIFT环境配置基础配置增量配置SWIFTQwen_audio_chat大模型微调实践问题1:问题2:问题定位解决方法手动安装pytorchSWIFT介绍参考：这里SWIFT环境配置基础配置condacreate-nswiftpython=3.8pipinstallms-swift[all]-U#下载项目gitclonehttps://github.com/mo
【Python】 Python脚本实现某平台视频流下载音乐学家方大刚 Python 爬虫 python chrome 开发语言
亲爱的玛丽我会想念着你我是多么的讨厌分离加油站旁的海鸥机场路上的松柏挥挥手眼泪就落下来我多想和那些光阴永远住下来我不能我不能赵雷《玛丽》在视频内容的分发上，m3u8格式的视频流越来越常见。它将视频切分成多个小片段（TS文件），然后通过索引文件（m3u8文件）来组织播放顺序，有效地支持了视频的流式传输。这篇博客将引导您使用Python脚本来下载m3u8格式的视频流，并将其合并成一个单一的视频文件。准
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl