zylgbin

python3爬虫

基本库的使用urllib

urllib包含了四个模块：
（1）request，http请求模块
（2）error，异常处理模块
（3）parse，url处理的工具模块
（4）robotparser，识别网站的robots.txt文件

1.request

from urllib import request, parse, error
import socket
'''
request.urlopen(url,data,timeout,cafile,capath,cadefault,context)       url是必须的参数



'''
data = bytes(parse.urlencode({'user': '1300330101'},), encoding='utf-8')
try:
    res = request.urlopen('http://148.70.139.25/login_sure/', data=data, timeout=1)
    '''
    res:read()  readinto()      getheaders()        getheader(name)     fileno()
        msg     version         status              reason          close     
    '''
    # print(res.read().decode('utf-8'))
    print(type(res))
    print(res.getheaders())
    print(res.getheader('Server'))
except error.URLError as e:
    if isinstance(e.reason, socket.timeout):
        print('TIME OUT')

'''
复杂的构造请求
req=request.Request(url,data=None,headers={},origin_req_host=None,unverifiable=False,method=None)
response=request.urlopen(req)
'''

2.requests
学了这个基本不用request了

import requests
from requests.auth import HTTPBasicAuth
'''
打开的方式
r=requests.get()
requests.post()
requests.head()
requests.put()
requests.delete()
requests.options()

r.text      r.cookies       r.status_code       r.json      r.content
r.headers   r.encoding      r.reason            r.close()   r.history
'''
header = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/48.0.2564.116 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Encoding': 'gzip',
    'Accept-Language': 'zh-CN,zh;q=0.8,en;q=0.6,zh-TW;q=0.4',
    'Cookie':''
}
r = requests.get('https://www.baidu.com', headers=header, verify=False)# 不进行ssl认证
r.encoding = 'utf-8'
'''
基本用法见https://blog.csdn.net/qq_33564134/article/details/88818172
'''

# 文件的上传
files = {'file': open('names', 'rb')}
r = requests.post('http://httpbin/post', files=files)

# 代理设置
proxies = {
    'http': 'http://10.10.10.1:2123',
    'https': 'htttps://1.1.1.1:2090',
}
r = requests.post('url', proxies=proxies, timeout=1)

# 身份认证
r = requests.post('url',auth=HTTPBasicAuth('username', 'password'))

import requests
import re
import json
import time


def get_one_page(url):
    m_header = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/48.0.2564.116 Safari/537.36',
        'Accept-Language': 'zh-CN,zh;q=0.8,en;q=0.6,zh-TW;q=0.4'
    }
    res = requests.get(url, headers=m_header)
    res.encoding = 'utf-8'
    if res.status_code == 200:
        return res.text
    return None


def parse_one_page(html):
    pattern = re.compile(r'.*?board-index.*?>(\d+).*?'                      # index排名
                         r'.*?(.*?).*?'   # name名字
                         r'
(.*?)
.*?'                         # star主演
                         r'(.*?)
.*?'                  # releasetime时间
                         r'.*?
', re.S)
    items = re.findall(pattern, html)
    print(items)
    for item in items:
        # yield的使用，长见识，长见识-----取出阻塞值yield{}可以给下个函数使用，少去了list的传递
        yield {
            'index': item[0].strip(),
            'name': item[1].strip(),
            'star': item[2].strip(),
            'releasetime': item[3].strip(),
        }


def write_to_file(content):
    with open('result.txt', 'a', encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False) + '\n')


def main(offset):
    url = 'https://maoyan.com/board/4?offset='+str(offset)
    print(url)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)


if __name__ == '__main__':
    for i in range(0, 10):
        main(i*10)
        time.sleep(2)

解析库的使用

Beautiful Soup
如果说寻找特定的内容

from bs4 import BeautifulSoup
import  lxml
import re

# soup的种类 tag标签          name标签的名字   Attributes标签的属性              内容
#           tag = soup.b    tag.name        tag['class']|tag.attrs          tag.string
# 遍历：
# contents 将子节点全部列出
# len(soup.contents)有多少个子节点
# find_all(tag,)
#
html = """
The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie;
and they lived at the bottom of a well.
...

"""
# 创建soup
soup = BeautifulSoup(html, 'lxml')
# print(soup.prettify()) # 自动修补格式，填充完成
# print(soup.body.contents) # body包含的全部内容
# print(soup.head.contents[0].string) # 找到标签title 读取内容
# print(soup.find_all('a'))   # a的全部标签
for tag in soup.find_all(re.compile("^b")):
   print(tag.name)

AJAX数据的爬取

AJAX 不是新的编程语言，而是一种使用现有标准的新方法。
AJAX 最大的优点是在不重新加载整个页面的情况下，可以与服务器交换数据并更新部分网页内容。

<script>
function loadXMLDoc()
{
	var xmlhttp;
	if (window.XMLHttpRequest)
	{
		// IE7+, Firefox, Chrome, Opera, Safari 浏览器执行代码
		xmlhttp=new XMLHttpRequest();
	}
	else
	{
		// IE6, IE5 浏览器执行代码
		xmlhttp=new ActiveXObject("Microsoft.XMLHTTP");
	}
	xmlhttp.onreadystatechange=function()
	{
		if (xmlhttp.readyState==4 && xmlhttp.status==200)
		{
			document.getElementById("myDiv").innerHTML=xmlhttp.responseText;
		}
	}
	xmlhttp.open("GET","/try/ajax/demo_get.php",true);
	xmlhttp.send();
}
</script>

import requests
from urllib.parse import urlencode


base_url = 'https://m.weibo.cn/api/container/getIndex?'
headers = {
    'Host': 'm.weibo.cn',
    'Referer': 'https://m.weibo.cn/p/2304131618051664_-_WEIBO_SECOND_PROFILE_WEIBO',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest',
}

max_page = 10


def get_page(page):
    params = {
        'page_type': '03',
        'containerid': '2304131618051664_-_WEIBO_SECOND_PROFILE_WEIBO',
        'page': page
    }
    url = base_url + urlencode(params)
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.json(), page
    except requests.ConnectionError as e:
        print('Error', e.args)


def parse_page(json, page: int):
    print(json)
    if json:
        items = json.get('data').get('cards')
        for index, item in enumerate(items):
            if page == 1 and index == 1:
                continue
            else:
                item = item.get('mblog', {})
                weibo = {}
                weibo['id'] = item.get('id')
                weibo['title'] = item.get('page_info', {}).get('content1')
                weibo['content'] = item.get('page_info', {}).get('content2')
                yield weibo


if __name__ == '__main__':
    for page in range(1, max_page + 1):
        json = get_page(page)
        results = parse_page(*json)
        for result in results:
            print(result)

import requests
from urllib.parse import urlencode
from requests import codes
import os
from hashlib import md5
from multiprocessing.pool import Pool
import re


def get_page(offset):
    params = {
        'aid': '24',
        'offset': offset,
        'format': 'json',
        #'keyword': '街拍',
        'autoload': 'true',
        'count': '20',
        'cur_tab': '1',
        'from': 'search_tab',
        'pd': 'synthesis'
    }
    base_url = 'https://www.toutiao.com/api/search/content/?keyword=%E8%A1%97%E6%8B%8D'
    url = base_url + urlencode(params)
    try:
        resp = requests.get(url)
        print(url)
        if 200 == resp.status_code:
            print(resp.json())
            return resp.json()
    except requests.ConnectionError:
        return None


def get_images(json):
    if json.get('data'):
        data = json.get('data')
        for item in data:
            if item.get('cell_type') is not None:
                continue
            title = item.get('title')
            images = item.get('image_list')
            for image in images:
                origin_image = re.sub("list", "origin", image.get('url'))
                yield {
                    'image':  origin_image,
                    # 'iamge': image.get('url'),
                    'title': title
                }


print('succ')


def save_image(item):
    img_path = 'img' + os.path.sep + item.get('title')
    print('succ2')
    if not os.path.exists(img_path):
        os.makedirs(img_path)
    try:
        resp = requests.get(item.get('image')) # 根据图片的url得到图片
        if codes.ok == resp.status_code:
            file_path = img_path + os.path.sep + '{file_name}.{file_suffix}'.format(
                file_name=md5(resp.content).hexdigest(),
                file_suffix='jpg')
            if not os.path.exists(file_path):
                print('succ3')
                with open(file_path, 'wb') as f:
                    f.write(resp.content)
                print('Downloaded image path is %s' % file_path)
                print('succ4')
            else:
                print('Already Downloaded', file_path)
    except requests.ConnectionError:
        print('Failed to Save Image，item %s' % item)


def main(offset):
    json = get_page(offset)
    for item in get_images(json):
        print(item)
        save_image(item)


GROUP_START = 0
GROUP_END = 7

if __name__ == '__main__':
    pool = Pool()
    groups = ([x * 20 for x in range(GROUP_START, GROUP_END + 1)])
    pool.map(main, groups) # 线程池开启
    pool.close()
    pool.join()

result：

动态渲染页面的爬取

splash的使用
安装：
sudo apt install docker
sudo vim /etc/docker/daemon.json
{
“registry-mirrors”: [
“http://hub-mirror.c.163.com”,
“https://registry.docker-cn.com/”
]
}
sudo docker pull scrapinghub/splash # 安装
docker run -p 8050:8050 scrapinghub/splash # 运行

Lua脚本的使用

 print("Hello World！")
-- test.lua 文件脚本
a = 5               -- 全局变量
local b = 5         -- 局部变量

function joke()
    c = 5           -- 全局变量
    local d = 6     -- 局部变量
end

joke()
print(c,d)          --> 5 nil

do 
    local a = 6     -- 局部变量
    b = 6           -- 对局部变量重新赋值
    print(a,b);     --> 6 6
end

print(a,b)      --> 5 6
===========================================
a, b, c = 0, 1
print(a,b,c)             --> 0   1   nil
 
a, b = a+1, b+1, b+2     -- value of b+2 is ignored
print(a,b)               --> 1   2
 
a, b, c = 0
print(a,b,c)             --> 0   nil   nil
==============================================
a=10
while( a < 20 )
do
   print("a 的值为:", a)
   a = a+1
end
days = {"Sunday","Monday","Tuesday","Wednesday","Thursday","Friday","Saturday"}  
for i,v in ipairs(days) do  print(v) end   //i imdex v value

function f(x)  
    print("function")  
    return x*2   
end  
for i=1,f(5) do print(i)  
end//input 1-10
==============================================
--[ 定义变量 --]
a = 10;

--[ 使用 if 语句 --]
if( a < 20 )
then
   --[ if 条件为 true 时打印以下信息 --]
   print("a 小于 20" );
end
print("a 的值为:", a);
==============================================
and or not 
#返回长度
... 字符串的连接
其余和c一样

splash的使用
function main(splash, args)
  return {hello='hello world '}
end

异步处理
function main(splash, args)
  local url_list={"www.baidu.com","www.taobao.com"}
  local urls=args.urls or url_list
  local results={}
  for index,url in ipairs(urls) do
    local ok,reason=splash:go("http://"..url)
    if ok then
      	splash:wait(0.5)
      	results[url]=splash:png()
     end
   end
  return results
end

===================splash的对象的属性===================
args：
local url=splash.args.url
js_enabled s是否执行js的开关,默认true
splash.js_enabled=false						// 是否加载js
splash.resource_timeout=0.1					// 超时设置
splash.images_enabled=false					//是否加载图片
splash.plugins_enabled=false				//是否加载插件
splash.scroll_position={y=400,x=200}		//移动位置
===================对象的方法============================
splash:go(url,baseurl=nil,headers=nil,http_mrthod="POST",body=nil,formdata=nil)
// baseurl 时请求附加的路径
// headers 请求头
// http_mothod 请求的方法
// body 请求时的表单的数据
// formdata Conten-type或者application/x-www-form-urlencoded
// 返回的是状态和原因的组合
wait(time,cancel_on_redirect=false,cancel_on_error=true)
// 表示发生错误就不发生重定向，立即停止加载
// 直接调用js的方法
jsfunc([[
function()
{
	var body=document.body;
	var divs=body.getElemnetByTagName('div');
	return divs.length;
}
]])
// 执行js语句
local title=splash:evaljs("documnet.title")
同样runjs()也相同，但是吧返回bool

function main(splash, args)
   splash:autoload([[
   	function get_title()
    {
    		return document.title;
  	}
    ]])
		splash:go("https://www.baidu.com")
  	return {title=splash:evaljs("get_title()")}
  
end

定时器call_later（function,time）
function main(splash, args)
	local shots={}
  local timer=splash:call_later(function()
    shots['a']= splash:png()
    splash:wait(1)
     shots['b']=splash:png()
      end,0.2)
  splash:go('http://www.taobao.com')
  splash:wait(2)
  return shots;
end

http_get(url,headers=nil,follow_redirects=true)模拟发送get请求
http_post(url,headers=nil,follow_redirects=true,body)模拟发送post请求
set_content('...')
html()返回html
png()
jpeg()
har()页面加载过程的描述
url()
get_cookies()
add_cookie()
clear_cookies()
get_viewport_size()返回浏览器的大小
set_viewport_size()
set_viewport_full()
set_user_agent()
set_custom_headers({["Accept"]="",["Host"]="www.baidu.com"})
select()) css选择器 input=splash.select('#kw') 
input:send_text()  
input:mouse_click()
select_all()

seleniumd的使用

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait


'''
pip3 install selenium
http://npm.taobao.org/mirrors/chromedriver/ to this url download chrome driver and set environment
'''
# 等待条件
'''
# 定位一个元素检查的它的状态是否和期待的一样。locator是定位器，是(by,path)的元组，is_selected是布尔值
element_located_selection_state_to_be(locator, is_selected) 
element_to_be_clickable(locator)                          是否可以点击
frame_to_be_available_and_switch_to_it(locator)           判断是否可以switch进去
new_window_is_opened(current_handles)                     新窗口是否打开
presence_of_all_elements_located(locator)                 全部元素是否加载出来
EC.presence_of_element_located((By.id,'q'))               id是q的节点是否加载出来                  
EC.title_is(xxx)                                          标题是否是xxx                                     
EC.title_contains(xxx)                                    标题是否包含xxx                               
EC.visibility_of(locator)                                 元素是否可见                    
EC.text_to_be_present_in_element(locator,str)             是否包含字符串                   
EC.text_to_be_present_in_element_value(locator， int)     是否包含字数值   
'''
browser = webdriver.Chrome()
try:
    browser.get("http://www.baidu.com")         # use chrome open url(baidu.com)
    input = browser.find_element_by_id('kw')    # 获取输入框,
    input.send_keys('清华大学')                  # input id`s value
    wait = WebDriverWait(browser,10)            # 等待10
    print(browser.current_url)                  # current url
    print(browser.get_cookies())                # get cookie
    print(browser.page_source)                  # html source
    browser.execute_script('window.open()')
    browser.switch_to_window(browser.window_handles[1])
    browser.get('http://www.zhihu.com')
    browser.switch_to_window(browser.window_handles[0])

except EC:
    print('have error take!!!')
finally:
    pass
    # browser.close()

# 申明浏览器
'''
browser = webdriver.Chrome()
browser = webdriver.Firefox()
browser = webdriver.Edge()
browser = webdriver.PhantomJS()
browser = webdriver.safari()
'''
# 访问页面获得源码
'''
browser.get(url)
html=browser.page_source
'''
# 查找节点
'''
browser.find_element_by_id()
browser.find_element_by_class_name()
browser.find_element_by_css_selector()
browser.find_element_by_tag_name()
browser.find_element_by_xpath()
browser.find_element(by,value)
多个节点elements
'''
# 节点交互
'''
input = browser.find_element_by_id('kw')
input.send_keys('value')
input.clear()
button = browser.find_element_by_id('su')
button.click()
'''
# 执行script
'''
browser.execute_cdp_cmd()
browser.execute_script()
'''
# 获取节点信息
'''
input.get_attribute('class')        属性
input.text                          value
input.id                            id
input.size                          size    
input.tag_name                      tag name
input.location                      location
'''
# 切换Frame
'''
browser.switch_to_frame('frame name')
'''
# 延时等待
'''
browser.implicitly_wait(10)                                         等待10s
wait = WebDriverWait(browser, 10)                                   最大等待10s，遇到untill完成的时候可减少等待
input = wait.until(EC.presence_of_element_located(By.ID, 'kw'))     等待的条件，如果10s加载不出来就抛出异常
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))
'''
# 前进和后退
'''
browser.get()*10
browser.back()
browser.forward()
'''
# cookies
'''
browser.get_cookies()
browser.get_cookie()
browser.add_cookie({'name': 'zz', 'domain': 'www.baidu.com', 'value': '123'})
browser.delete_cookie()
browser.delete_all_cookies()
'''
# 打开和切换窗口
'''
    browser.execute_script('window.open()')             打开新窗口
    browser.switch_to_window(browser.window_handles[1]) 进入新窗口
    browser.get('http://www.zhihu.com')                 在新窗口打开网页
    browser.switch_to_window(browser.window_handles[0]) 回到旧窗口
'''


from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from pyquery import PyQuery as pq
from urllib.parse import quote

browser = webdriver.Chrome()
wait = WebDriverWait(browser, 1000)


KEYWORD = 'ipad'

MAX_PAGE = 3


def index_page(page):
    """
    抓取索引页
    :param page: 页码
    """
    print('正在爬取第', page, '页')
    url = 'https://s.taobao.com/search?q=' + quote(KEYWORD)
    browser.get(url)
    WebDriverWait(browser, 20)
    print(browser.get_cookies())
    try:
        url = 'https://s.taobao.com/search?q=' + quote(KEYWORD)
        browser.get(url)
        if page > 1:
            # 等待节点的加载-----等待条件
            input = wait.until(
                EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager div.form > input')))
            # 节点是否可以点击----等待条件
            submit = wait.until(
                EC.element_to_be_clickable((By.CSS_SELECTOR, '#mainsrp-pager div.form > span.btn.J_Submit')))
            input.clear()
            input.send_keys(page) # 页面的设定
            submit.click()
            # 是否包含某个文字----等待条件
        wait.until(
            EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#mainsrp-pager li.item.active > span'), str(page)))
        wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.m-itemlist .items .item')))
        get_products()
    except TimeoutException:
        index_page(page)


def get_products():
    """
    提取商品数据
    """
    html = browser.page_source
    doc = pq(html)
    items = doc('#mainsrp-itemlist .items .item').items()
    for item in items:
        product = {
            'image': item.find('.pic .img').attr('data-src'),
            'price': item.find('.price').text(),
            'deal': item.find('.deal-cnt').text(),
            'title': item.find('.title').text(),
            'shop': item.find('.shop').text(),
            'location': item.find('.location').text()
        }
        print(product)


def main():
    """
    遍历每一页
    """
    for i in range(1, MAX_PAGE + 1):
        index_page(i)
    browser.close()


if __name__ == '__main__':
    main()

验证码识别

图形验证码

import tesserocr
from PIL import Image

# discern code ,way one
'''
image = Image.open('code.jpeg')
result = tesserocr.image_to_text(image)
print(result)
'''
# discern code ,way two
'''
print(tesserocr.file_to_text('code.jpeg'))
'''

# 有些图片加上了一些干扰的东西，所以可以进行图片处理
image = Image.open('code.jpeg')
image = image.convert('L')       # 灰度处理
# -----------二值化处理 way one-------------
# image = image.convert('1') # 二值化处理，默认阀值127
# -----------二值化处理 way two-------------
table = []
for i in range(256):
    if i < 150:                  # 二值化的阀值180
        table.append(0)
    else:
        table.append(1)
image = image.point(table, '1')  # 二值化处理
image.show()
print(tesserocr.image_to_text(image))

极验滑动验证码
具体的步骤：类初始化参数，有手机号码和，用open()进入网站，然后点击注册按钮，进入注册页面，移动鼠标mouse_to_code（），获得image1，然后进行get_position（）得到位置，进行图片的剪切，get_geetest_image（）
之后点击验证码，弹出另外一张图，得到为imag2，进行图片的比对，之后拖动
1.网站的查看，寻找特定的点

import time
from io import BytesIO
from PIL import Image
from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC


BORDER = 6
INIT_LEFT = 60
'''
# 定位一个元素检查的它的状态是否和期待的一样。locator是定位器，是(by,path)的元组，is_selected是布尔值
element_located_selection_state_to_be(locator, is_selected) 
element_to_be_clickable(locator)                          是否可以点击
frame_to_be_available_and_switch_to_it(locator)           判断是否可以switch进去
new_window_is_opened(current_handles)                     新窗口是否打开
presence_of_all_elements_located(locator)                 全部元素是否加载出来
EC.presence_of_element_located((By.id,'q'))               id是q的节点是否加载出来                  
EC.title_is(xxx)                                          标题是否是xxx                                     
EC.title_contains(xxx)                                    标题是否包含xxx                               
EC.visibility_of(locator)                                 元素是否可见                    
EC.text_to_be_present_in_element(locator,str)             是否包含字符串                   
EC.text_to_be_present_in_element_value(locator， int)     是否包含字数值   
'''


class CrackGeetest():
    def __init__(self):
        chrome_options = webdriver.ChromeOptions()
        chrome_options.add_argument('--headless')
        self.url = 'https://www.huxiu.com/'
        self.browser = webdriver.Chrome(chrome_options=chrome_options)
        self.browser.maximize_window()
        self.wait = WebDriverWait(self.browser, 6)
        self.mobile = '13377309257'
        self.code_from_mobile = '123456'

    def __del__(self):
        pass
        # self.browser.close()

    def get_register_button(self):
        """
        点击网站首页的注册按钮
        :return: None
        """
        button = self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'js-register')))
        print("首页注册按钮找到")
        button.click()
        return None

    def mouse_to_code(self):
        """
        将鼠标移动到指定的位置
        :return: none
        """
        area = self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'gt_slider')))
        ActionChains(self.browser).move_to_element(area).perform()
        print("musoe to code")
        return None

    def get_screenshot(self):
        """
        获取网页截图
        :return: 截图对象
        """
        print("start shot  image")
        screenshot = self.browser.get_screenshot_as_png()
        print("end shot image")
        screenshot = Image.open(BytesIO(screenshot))
        return screenshot

    def get_position(self):
        """
        获取验证码位置（有缺口的那张图片的位置大小）
        :return: 验证码位置元组
        """
        print("开始找 img position")

        time.sleep(1)
        img = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'gt_box')))
        print("img 位置找到")
        location = img.location
        size = img.size
        print(size)
        # 按理说这样是可以的，可能因为网站设置问题
        '''
        top, bottom, left, right = location['y'], location['y'] + size['height'], location['x'], location['x'] + size[
            'width']
        '''
        #可以观察得到，
        top, bottom, left, right = location['y'], location['y'] + size['height'], location['x']-300, location['x'] -300 + size[
            'width']
        return (top, bottom, left, right)

    def get_slider(self):
        """
        获取滑块
        :return: 滑块对象
        """
        slider = self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'gt_slider_knob')))
        print('slider was found')
        return slider

    def get_geetest_image(self, name='captcha.png'):
        """
        获取验证码图片
        :return: 图片对象
        """
        top, bottom, left, right = self.get_position()
        print('验证码位置', top, bottom, left, right)
        print('window size (%s)' % self.browser.get_window_rect())
        screenshot = self.get_screenshot()
        print("picture was found")
        captcha = screenshot.crop((left, top, right, bottom))
        captcha.save(name)
        captcha.show()
        return captcha

    def open(self):
        """
        打开网页输入用户名密码
        :return: None
        """
        self.browser.get(self.url)
        self.get_register_button()
        mobile = self.wait.until(EC.presence_of_element_located((By.ID, 'sms_username')))
        code_from_mobile = self.wait.until(EC.presence_of_element_located((By.ID, 'sms_captcha')))
        # 玄学，不得不相信，该等待还是的等待
        time.sleep(1)
        mobile.send_keys(self.mobile)
        code_from_mobile.send_keys(self.code_from_mobile)

    def get_gap(self, image1, image2):
        """
        获取缺口偏移量
        :param image1: 不带缺口图片
        :param image2: 带缺口图片
        :return:
        """
        left = 60
        for i in range(left, image1.size[0]):
            for j in range(image1.size[1]):
                if not self.is_pixel_equal(image1, image2, i, j):
                    left = i
                    return left
        return left

    def is_pixel_equal(self, image1, image2, x, y):
        """
        判断两个像素是否相同
        :param image1: 图片1
        :param image2: 图片2
        :param x: 位置x
        :param y: 位置y
        :return: 像素是否相同
        """
        # 取两个图片的像素点
        pixel1 = image1.load()[x, y]
        pixel2 = image2.load()[x, y]
        threshold = 60
        if abs(pixel1[0] - pixel2[0]) < threshold and abs(pixel1[1] - pixel2[1]) < threshold and abs(
                pixel1[2] - pixel2[2]) < threshold:
            return True
        else:
            return False

    def get_track(self, distance):
        """
        根据偏移量获取移动轨迹
        :param distance: 偏移量
        :return: 移动轨迹
        """
        # 移动轨迹
        track = []
        # 当前位移
        current = 0
        # 减速阈值
        mid = distance * 4 / 5
        # 计算间隔
        t = 0.2
        # 初速度
        v = 0

        while current < distance:
            if current < mid:
                # 加速度为正2
                a = 2
            else:
                # 加速度为负3
                a = -3
            # 初速度v0
            v0 = v
            # 当前速度v = v0 + at
            v = v0 + a * t
            # 移动距离x = v0t + 1/2 * a * t^2
            move = v0 * t + 1 / 2 * a * t * t
            # 当前位移
            current += move
            # 加入轨迹
            track.append(round(move))
        return track

    def move_to_gap(self, slider, track):
        """
        拖动滑块到缺口处
        :param slider: 滑块
        :param track: 轨迹
        :return:
        """
        ActionChains(self.browser).click_and_hold(slider).perform()
        for x in track:
            ActionChains(self.browser).move_by_offset(xoffset=x, yoffset=0).perform()
        time.sleep(0.5)
        ActionChains(self.browser).release().perform()

    def login(self):
        """
        登录
        :return: None
        """
        submit = self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'login-btn')))
        submit.click()
        time.sleep(10)
        print('登录成功')

    def crack(self):
        # 输入用户名密码
        self.open()
        # self.get_screenshot()
        # 将鼠标移动到指定的位置
        self.mouse_to_code()
        # # 获取验证码图片
        image1 = self.get_geetest_image('captcha1.png')
        # image1 = Image.open('captcha1.png')
        # # 点按呼出缺口
        slider = self.get_slider()
        slider.click()
        # # 获取带缺口的验证码图片
        time.sleep(2)
        image2 = self.get_geetest_image('captcha2.png')
        # image2 = Image.open('captcha2.png')
        # # 获取缺口位置
        gap = self.get_gap(image1, image2)
        print('缺口位置', gap)
        # # 减去缺口位移
        gap -= 4
        # # 获取移动轨迹
        track = self.get_track(gap)
        print('滑动轨迹', track)
        # # 拖动滑块
        self.move_to_gap(slider, track)
        #
        time.sleep(0.5)
        success = self.wait.until(
            EC.presence_of_element_located((By.CLASS_NAME, 'gt_ajax_tip')))
        print(success)
        #
        # # 失败后重试

        if str(success.get_attribute('class')).find('gt_success'):
            print(success.get_attribute('class'))
            print("success")
        else:
            self.crack()



if __name__ == '__main__':
    crack = CrackGeetest()
    crack.crack()

代理池

#GetHtml.py
import requests
from requests.exceptions import ConnectionError

base_headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36',
    'Accept-Encoding': 'gzip, deflate, sdch',
    'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'
}


def get_page(url, options={}):
    """
    抓取代理
    :param url:
    :param options:
    :return:
    """
    headers = dict(base_headers, **options)
    print('正在抓取', url)
    try:
        response = requests.get(url, headers=headers)
        print('抓取成功', url, response.status_code)
        if response.status_code == 200:
            return response.text
    except ConnectionError:
        print('抓取失败', url)
        return None

#crawler.py
import json
import re
from pyquery import PyQuery as pq
from .GetHtml import get_page


class ProxyMetaclass(type):
    def __new__(cls, name, bases, attrs):
        count = 0
        attrs['__CrawlFunc__'] = []
        for k, v in attrs.items():
            if 'crawl_' in k:
                attrs['__CrawlFunc__'].append(k)
                count += 1
        attrs['__CrawlFuncCount__'] = count
        return type.__new__(cls, name, bases, attrs)


class Crawler(object, metaclass=ProxyMetaclass):
    def get_proxies(self, callback):
        proxies = []
        for proxy in eval("self.{}()".format(callback)):
            # print('成功获取到代理', proxy)
            proxies.append(proxy)
        return proxies
       
    def crawl_daili66(self, page_count=4):
        """
        获取代理66
        :param page_count: 页码
        :return: 代理
        """
        start_url = 'http://www.66ip.cn/{}.html'
        urls = [start_url.format(page) for page in range(1, page_count + 1)]
        for url in urls:
            print('Crawling', url)
            html = get_page(url)
            if html:
                doc = pq(html)
                trs = doc('.containerbox table tr:gt(0)').items()
                for tr in trs:
                    ip = tr.find('td:nth-child(1)').text()
                    port = tr.find('td:nth-child(2)').text()
                    yield ':'.join([ip, port])

    def crawl_ip3366(self):
        for page in range(1, 4):
            start_url = 'http://www.ip3366.net/free/?stype=1&page={}'.format(page)
            html = get_page(start_url)
            ip_address = re.compile('\s*(.*?)\s*(.*?)')
            # \s * 匹配空格，起到换行作用
            re_ip_address = ip_address.findall(html)
            for address, port in re_ip_address:
                result = address+':'+ port
                yield result.replace(' ', '')
    
    def crawl_kuaidaili(self):
        for i in range(1, 4):
            start_url = 'http://www.kuaidaili.com/free/inha/{}/'.format(i)
            html = get_page(start_url)
            if html:
                ip_address = re.compile('(.*?)') 
                re_ip_address = ip_address.findall(html)
                port = re.compile('(.*?)')
                re_port = port.findall(html)
                for address,port in zip(re_ip_address, re_port):
                    address_port = address+':'+port
                    yield address_port.replace(' ','')

    def crawl_xicidaili(self):
        for i in range(1, 3):
            start_url = 'http://www.xicidaili.com/nn/{}'.format(i)
            headers = {
                'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
                'Cookie':'_free_proxy_session=BAh7B0kiD3Nlc3Npb25faWQGOgZFVEkiJWRjYzc5MmM1MTBiMDMzYTUzNTZjNzA4NjBhNWRjZjliBjsAVEkiEF9jc3JmX3Rva2VuBjsARkkiMUp6S2tXT3g5a0FCT01ndzlmWWZqRVJNek1WanRuUDBCbTJUN21GMTBKd3M9BjsARg%3D%3D--2a69429cb2115c6a0cc9a86e0ebe2800c0d471b3',
                'Host':'www.xicidaili.com',
                'Referer':'http://www.xicidaili.com/nn/3',
                'Upgrade-Insecure-Requests':'1',
            }
            html = get_page(start_url, options=headers)
            if html:
                find_trs = re.compile('(.*?)', re.S)
                trs = find_trs.findall(html)
                for tr in trs:
                    find_ip = re.compile('(\d+\.\d+\.\d+\.\d+)') 
                    re_ip_address = find_ip.findall(tr)
                    find_port = re.compile('(\d+)')
                    re_port = find_port.findall(tr)
                    for address,port in zip(re_ip_address, re_port):
                        address_port = address+':'+port
                        yield address_port.replace(' ','')
    
    def crawl_ip3366(self):
        for i in range(1, 4):
            start_url = 'http://www.ip3366.net/?stype=1&page={}'.format(i)
            html = get_page(start_url)
            if html:
                find_tr = re.compile('(.*?)', re.S)
                trs = find_tr.findall(html)
                for s in range(1, len(trs)):
                    find_ip = re.compile('(\d+\.\d+\.\d+\.\d+)')
                    re_ip_address = find_ip.findall(trs[s])
                    find_port = re.compile('(\d+)')
                    re_port = find_port.findall(trs[s])
                    for address,port in zip(re_ip_address, re_port):
                        address_port = address+':'+port
                        yield address_port.replace(' ','')
    
    def crawl_iphai(self):
        start_url = 'http://www.iphai.com/'
        html = get_page(start_url)
        if html:
            find_tr = re.compile('(.*?)', re.S)
            trs = find_tr.findall(html)
            for s in range(1, len(trs)):
                find_ip = re.compile('\s+(\d+\.\d+\.\d+\.\d+)\s+', re.S)
                re_ip_address = find_ip.findall(trs[s])
                find_port = re.compile('\s+(\d+)\s+', re.S)
                re_port = find_port.findall(trs[s])
                for address,port in zip(re_ip_address, re_port):
                    address_port = address+':'+port
                    yield address_port.replace(' ','')

    def crawl_data5u(self):
        start_url = 'http://www.data5u.com/free/gngn/index.shtml'
        headers = {
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
            'Accept-Encoding': 'gzip, deflate',
            'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7',
            'Cache-Control': 'max-age=0',
            'Connection': 'keep-alive',
            'Cookie': 'JSESSIONID=47AA0C887112A2D83EE040405F837A86',
            'Host': 'www.data5u.com',
            'Referer': 'http://www.data5u.com/free/index.shtml',
            'Upgrade-Insecure-Requests': '1',
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36',
        }
        html = get_page(start_url, options=headers)
        if html:
            ip_address = re.compile('(\d+\.\d+\.\d+\.\d+)
.*?(\d+)
', re.S)
            re_ip_address = ip_address.findall(html)
            for address, port in re_ip_address:
                result = address + ':' + port
                yield result.replace(' ', '')

from proxypool.crawler import Crawler
import requests
import multiprocessing as mp
import time


pro_list=[]


class Getter():
    def __init__(self):
        self.crawler = Crawler()

    def is_over_threshold(self):
        """
        判断是否达到了代理池限制
        """
        return True
    
    def run(self):
        print('获取器开始执行')
        proxies_list = []
        if self.is_over_threshold():
            for callback_label in range(self.crawler.__CrawlFuncCount__):
                callback = self.crawler.__CrawlFunc__[callback_label]
                # 获取代理
                proxies = self.crawler.get_proxies(callback)
                pro_list.append( proxies)
                # tester(proxies)
                # proxies_list.append(proxies)
                # print(proxies)
                # yield proxies_list


def my_run(proxy):
    proxies = {
        'http': 'http://' + proxy,
        'https': 'https://' + proxy,
    }
    try:
        res = requests.get('http://www.baidu.com', timeout=1, proxies=proxies, verify=False)
        if res.status_code == 200:
            print('Successfully', proxy)
    except:
        pass
        # print('faild')


def tester(proxies_list):
    pool = mp.Pool(processes=30)  # 进程池数
    pool.map(my_run, proxies_list)
    pool.close()
    pool.join()
    # for pro in proxies_list:
    #     pool.apply_async(my_run, (pro,))


getter = Getter()
getter.run()
list=[]
for pro in pro_list:
    for i in pro:
        list.append(i)
tester(list)

/usr/bin/python3.5 /home/zz/Downloads/ProxyPool-master/proxypool/getter.py
获取器开始执行
正在抓取 http://www.ip3366.net/?stype=1&page=1
抓取成功 http://www.ip3366.net/?stype=1&page=1 200
正在抓取 http://www.ip3366.net/?stype=1&page=2
抓取成功 http://www.ip3366.net/?stype=1&page=2 200
正在抓取 http://www.ip3366.net/?stype=1&page=3
抓取成功 http://www.ip3366.net/?stype=1&page=3 200
Crawling http://www.66ip.cn/1.html
正在抓取 http://www.66ip.cn/1.html
抓取成功 http://www.66ip.cn/1.html 200
Crawling http://www.66ip.cn/2.html
正在抓取 http://www.66ip.cn/2.html
抓取成功 http://www.66ip.cn/2.html 200
Crawling http://www.66ip.cn/3.html
正在抓取 http://www.66ip.cn/3.html
抓取成功 http://www.66ip.cn/3.html 200
Crawling http://www.66ip.cn/4.html
正在抓取 http://www.66ip.cn/4.html
抓取成功 http://www.66ip.cn/4.html 200
正在抓取 http://www.xicidaili.com/nn/1
抓取成功 http://www.xicidaili.com/nn/1 200
正在抓取 http://www.xicidaili.com/nn/2
抓取成功 http://www.xicidaili.com/nn/2 200
正在抓取 http://www.iphai.com/
抓取成功 http://www.iphai.com/ 200
正在抓取 http://www.data5u.com/free/gngn/index.shtml
抓取成功 http://www.data5u.com/free/gngn/index.shtml 200
正在抓取 http://www.kuaidaili.com/free/inha/1/
抓取成功 http://www.kuaidaili.com/free/inha/1/ 200
正在抓取 http://www.kuaidaili.com/free/inha/2/
抓取成功 http://www.kuaidaili.com/free/inha/2/ 503
正在抓取 http://www.kuaidaili.com/free/inha/3/
抓取成功 http://www.kuaidaili.com/free/inha/3/ 200
Successfully 61.128.208.94:3128
Successfully 110.52.235.121:9999
Successfully 111.165.16.115:8118
Successfully 116.209.56.122:9999
Successfully 104.248.14.241:3128
Successfully 171.83.166.97:9999
Successfully 5.58.156.61:53654
Successfully 182.47.86.249:8118
Successfully 134.209.41.247:3128
Successfully 112.85.128.187:9999
Successfully 112.85.130.241:9999
Successfully 103.47.94.67:23500
Successfully 111.177.177.166:9999
Successfully 59.45.13.220:57868

Process finished with exit code 0

pyspider爬虫框架

ubuntu环境发生错误先运行
sudo apt-get install libssl-dev libcurl4-openssl-dev python-dev
apt-get install libxml2-dev libxslt1-dev python-dev
然后 pip3 install pyspider

scrapyd框架

官网教程

创建项目：scrapy startproject tutorial
运行项目：scrapy crawl quotes -o quotes.json，输出为json
元素的查看shell方式：
scrapy shell 'http://quotes.toscrape.com'
>>>response.css('title')
[<Selector xpath='descendant-or-self::title' data='Quotes to Scrape'>]
>>>response.css('.article-item-box h4 a::text').extract()

tutorial/
    scrapy.cfg            # 项目部署的配置文件

    tutorial/             # project's Python module, you'll import your code from here
        __init__.py

        items.py          # project items definition file

        middlewares.py    # project middlewares file

        pipelines.py      # project pipelines file

        settings.py       # 配置文件

        spiders/          # a directory where you'll later put your spiders
            __init__.py

数据的提取Seletor（同样是一个网页解析库）
1.xpath选择器
response.xpath(’//a/text()’).extract()
response.xpath(’//a’).xpath(’@href’).extract()
response.xpath(’//a’).re(‘href="(.*?/details/.*?)"’)这个就厉害了

2.css选择器
response.css(’.article-item-box a::attr(href)’).extract()
response.css(’.article-item-box a::text’).extract()
response.css(’.article-item-box h4 a::attr(herf)’).getall()

[‘https://blog.csdn.net/qq_33564134/article/details/88958274’, ‘https://blog.csdn.net/qq_33564134/article/details/88926508’, ‘https://blog.csdn.net/qq_33564134/article/details/88846003’, ‘https://blog.csdn.net/qq_33564134/article/details/88818172’, ‘https://blog.csdn.net/qq_33564134/article/details/88767403’, ‘https://blog.csdn.net/qq_33564134/article/details/88747726’, ‘https://blog.csdn.net/qq_33564134/article/details/88722124’, ‘https://blog.csdn.net/qq_33564134/article/details/88689497’, ‘https://blog.csdn.net/qq_33564134/article/details/88549606’, ‘https://blog.csdn.net/qq_33564134/article/details/88354366’, ‘https://blog.csdn.net/qq_33564134/article/details/88365798’, ‘https://blog.csdn.net/qq_33564134/article/details/88090489’, ‘https://blog.csdn.net/qq_33564134/article/details/87563453’, ‘https://blog.csdn.net/qq_33564134/article/details/85255067’, ‘https://blog.csdn.net/qq_33564134/article/details/85042179’, ‘https://blog.csdn.net/qq_33564134/article/details/85019301’, ‘https://blog.csdn.net/qq_33564134/article/details/85017937’]

spider的用法
基础属性
name：爬虫的名称
allowed_domains:允许爬取的域名
start_urls:起始的url列表
custom_settings会覆盖全局的配置
settings：
start_requests()默认使用start_urls来构造response
parse()被当做response默认的回调函数
closed() spider关闭时默认的回调函数

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"

    def start_requests(self):
        urls = [
            'http://quotes.toscrape.com/page/1/',
            'http://quotes.toscrape.com/page/2/',
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

        '''
                this can repleace def start_requests
                    start_urls = [
                'http://quotes.toscrape.com/page/1/',
                'http://quotes.toscrape.com/page/2/',
                ]
        '''

    def parse(self, response):
        # 保存成为文件
        page = response.url.split("/")[-2]
        filename = 'quotes-%s.html' % page
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s' % filename)
        #  信息的提取
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('small.author::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }

useragent的设置

在midlewares.py里面添加类
class RandomUserAgentMiddleware():
    def __init__(self):
        self.user_agents = [
            'Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)',
            'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.2 (KHTML, like Gecko) Chrome/22.0.1216.0 Safari/537.2',
            'Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:15.0) Gecko/20100101 Firefox/15.0.1'
        ]

    def process_request(self, request, spider):
        request.headers['User-Agent'] = random.choice(self.user_agents)

    def process_response(self, request, response, spider):
        response.status = 201
        return response
然后在setting.py文件，取消注释
SPIDER_MIDDLEWARES = {
   'tutorial.middlewares.TutorialSpiderMiddleware': 543,
}

pipeline的使用
pipeline可以启用数据库等
核心的方法
必须实现的一个方法：def process_item(self, item, spider)

     def process_item(self, item, spider):
        """
        如果错误会抛出异常DropItem
        :param item: 
        :param spider: 
        :return: item
        """
        print(item['title'])
        data = dict(item)
        keys = ', '.join(data.keys())
        values = ', '.join(['%s'] * len(data))
        sql = 'insert into %s (%s) values (%s)' % (item.table, keys, values)
        self.cursor.execute(sql, tuple(data.values()))
        self.db.commit()
        return item


    def open_spider(self, spider):
        """
        spider开启的时候启用该函数，该函数就是一些初始化，比如连接数据库
        :param spider: 
        :return: 
        """
        self.db = pymysql.connect(self.host, self.user, self.password, self.database, charset='utf8',
                                  port=self.port)
        self.cursor = self.db.cursor()


    def close_spider(self, spider):
        """
        spider关闭时会启用
        :param spider: 
        :return: 
        """
        self.db.close()


    @classmethod
    def from_crawler(cls, crawler):
        """
        可以配置全局的对象
        :param crawler: 
        :return: 
        """
        return cls(
            host=crawler.settings.get('MYSQL_HOST'),
            database=crawler.settings.get('MYSQL_DATABASE'),
            user=crawler.settings.get('MYSQL_USER'),
            password=crawler.settings.get('MYSQL_PASSWORD'),
            port=crawler.settings.get('MYSQL_PORT'),
        )

=一个完整的例子


scrapy startproject image360				新建项目
scrapy genspider images images.so.com		在spider下创建images名称的爬虫可以得到如下的源码
# -*- coding: utf-8 -*-
import scrapy


class ImagesSpider(scrapy.Spider):
    name = 'images'
    allowed_domains = ['images.so.com']
    start_urls = ['http://images.so.com/']

    def parse(self, response):
        pass

==================1.重写items.py=======================
import scrapy
from scrapy import Item, Field


class Image360Item(scrapy.Item):
    collection = table = 'images'
    id = Field()
    url = Field()
    title = Field()
    thumb = Field()
==================2.重写images.py=======================
# -*- coding: utf-8 -*-
from scrapy import Spider, Request
from urllib.parse import urlencode
import json
from image360.items import Image360Item


class ImagesSpider(Spider):
    name = 'images'
    allowed_domains = ['images.so.com']
    start_urls = ['http://images.so.com/']

    def start_requests(self):
        data = {'ch': 'photography', 'listtype': 'new'}
        base_url = 'https://image.so.com/zj?'
        for page in range(1, self.settings.get('MAX_PAGE') + 1):
            data['sn'] = page * 30
            params = urlencode(data)
            url = base_url + params
            yield Request(url, self.parse)

    def parse(self, response):
        result = json.loads(response.text)
        for image in result.get('list'):
            item = Image360Item()
            item['id'] = image.get('imageid')
            item['url'] = image.get('qhimg_url')
            item['title'] = image.get('group_title')
            item['thumb'] = image.get('qhimg_thumb_url')
            yield item

==================3.重写settings.py=======================
# -*- coding: utf-8 -*-

# Scrapy settings for image360 project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://doc.scrapy.org/en/latest/topics/settings.html
#     https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://doc.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'image360'

MAX_PAGE = 10

SPIDER_MODULES = ['image360.spiders']
NEWSPIDER_MODULE = 'image360.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'image360 (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
# See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY = 3
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)
#COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# Override the default request headers:
#DEFAULT_REQUEST_HEADERS = {
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
#   'Accept-Language': 'en',
#}

# Enable or disable spider middlewares
# See https://doc.scrapy.org/en/latest/topics/spider-middleware.html
#SPIDER_MIDDLEWARES = {
#    'image360.middlewares.Image360SpiderMiddleware': 543,
#}

# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#DOWNLOADER_MIDDLEWARES = {
#    'image360.middlewares.Image360DownloaderMiddleware': 543,
#}

# Enable or disable extensions
# See https://doc.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
#}

# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
#ITEM_PIPELINES = {
#    'image360.pipelines.Image360Pipeline': 300,
#}

# Enable and configure the AutoThrottle extension (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

# Enable and configure HTTP caching (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = 'httpcache'
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'
MYSQL_HOST = 'localhost'
MYSQL_DATABASE = 'my'
MYSQL_USER = 'root'
MYSQL_PASSWORD = '123'
MYSQL_PORT = 3306
ITEM_PIPELINES = {
    'image360.pipelines.ImagePipeline': 300,
    'image360.pipelines.MysqlPipeline': 301,
}
IMAGES_STORE = './images'


==================4.重写pipelines.py=======================
# -*- coding: utf-8 -*-
import pymysql
from scrapy import Request
from scrapy.exceptions import DropItem
from scrapy.pipelines.images import ImagesPipeline
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html


class MysqlPipeline():
    def __init__(self, host, database, user, password, port):
        self.host = host
        self.database = database
        self.user = user
        self.password = password
        self.port = port

    @classmethod
    def from_crawler(cls, crawler):
        """
        可以配置全局的对象
        :param crawler:
        :return:
        """
        return cls(
            host=crawler.settings.get('MYSQL_HOST'),
            database=crawler.settings.get('MYSQL_DATABASE'),
            user=crawler.settings.get('MYSQL_USER'),
            password=crawler.settings.get('MYSQL_PASSWORD'),
            port=crawler.settings.get('MYSQL_PORT'),
        )

    def open_spider(self, spider):
        """
        spider开启的时候启用该函数，该函数就是一些初始化，比如连接数据库
        :param spider:
        :return:
        """
        self.db = pymysql.connect(self.host, self.user, self.password, self.database, charset='utf8',
                                  port=self.port)
        self.cursor = self.db.cursor()

    def close_spider(self, spider):
        """
        spider关闭时会启用
        :param spider:
        :return:
        """
        self.db.close()

    def process_item(self, item, spider):
        """
        如果错误会抛出异常DropItem
        :param item:
        :param spider:
        :return: item
        """
        print(item['title'])
        data = dict(item)
        keys = ', '.join(data.keys())
        values = ', '.join(['%s'] * len(data))
        sql = 'insert into %s (%s) values (%s)' % (item.table, keys, values)
        self.cursor.execute(sql, tuple(data.values()))
        self.db.commit()
        return item


class ImagePipeline(ImagesPipeline):
    def file_path(self, request, response=None, info=None):
        url = request.url
        file_name = url.split('/')[-1]
        return file_name

    def item_completed(self, results, item, info):
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem('Image Downloaded Failed')
        return item

    def get_media_requests(self, item, info):
        yield Request(item['url'])


环境要求mysql+ubuntu
sudo apt insatll mysql-server
pip3 install pymysql

scrpy 对接splash
通用爬虫
未完的大业，没有需求就没有生产

你可能感兴趣的:(python)

【2025年饿了么春招-3月14日-第二题（200分）- 小红的排列构造】（题目+思路+Java&C++&Python解析+在线测试) 塔子哥学算法 java c++python 算法数据结构饿了么
题目内容小红希望你构造一个长度为nnn的排列，满足∑i=1n∗i\sum_{i
贪心算法在背包问题上的运用（Python） MATLAB卡尔曼智能算法的MATLAB实现贪心算法 python 算法
背包问题有n个物品，它们有各自的体积和价值，现有给定容量的背包，如何让背包里装入的物品具有最大的价值总和？这就是典型的背包问题(又称为0-1背包问题)，也是具体的、没有经过任何延伸的背包问题模型。背包问题的传统求解方法较为复杂，现定义有一个可以载重为8kg的背包，另外还有4个物品，物品的价值和质量数据如下表，不考虑背包的容量。4个物品的总质量大于8kg，所以要想在有限载重的背包携带更多质量的物品，
接口测试中加密参数如何处理？海姐软件测试接口测试 python 开发语言测试工具职场和发展
1.加密类型及应对策略①对称加密（AES/DES）特点：加密解密使用同一密钥。处理方法：向开发获取密钥和加密算法（如AES-CBC、AES-ECB）。使用代码或工具解密响应数据：python复制fromCrypto.CipherimportAESimportbase64defdecrypt_aes(key,encrypted_data):cipher=AES.new(key.encode(),AE
用Python玩转Hyperledger：构建企业级区块链解决方案 Echo_Wish Python！实战！perl python opencv 人工智能
用Python玩转Hyperledger：构建企业级区块链解决方案大家好，我是Echo_Wish。在区块链技术的炙手可热中，“企业级区块链”俨然成为了下一个重磅关键词。相比于公有区块链，企业级区块链更注重隐私性、灵活性和高效性。而在这片“蓝海”中，Hyperledger项目无疑是企业级区块链解决方案的标杆。如果再搭配上Python这种“高效工具”，简直让人事半功倍！那么，如何将Python与Hyp
Android自动化测试工具海棠如醉 web技术自动化运维
细解自动化测试工具Airtest-CSDN博客以下是几种常见的Android应用自动化测试工具：Appium：支持多种编程语言，如Java、Python、Ruby、JavaScript等。可以用于Web应用程序和原生应用程序的自动化测试，并支持iOS和Android平台。Espresso：由Google开发的AndroidUI测试框架，可用于测试应用程序的用户界面和与用户的交互。Espresso支
Python说明一一代码 python
Python的主要特点：1.**易读易写**：Python的语法简洁明了，代码可读性高。2.**跨平台**：Python可以在多种操作系统上运行，如Windows、macOS、Linux等。3.**丰富的库**：Python拥有庞大的标准库和第三方库，涵盖了从Web开发到数据科学的多个领域。4.**动态类型**：Python是动态类型语言，变量不需要显式声明类型。5.**解释型语言**：Pytho
使用 Excel 实现绩效看板的自动化 chenchihwen 自动化运维
引言在日常工作中，团队的绩效监控和管理是确保项目顺利进行的重要环节。然而，面临着以下问题：数据分散：系统中的数据难以汇总，缺乏一个宏观的团队执行情况视图。看板缺失：系统本身可能无法提供合适的Dashboard，导致数据分析困难。手动操作繁琐：数据采集、汇总和分析过程繁琐且耗时。本文将介绍如何利用免费的软件和工具（如Python、MySQL、Excel等）实现绩效看板的自动化。通过邮件自动推送和接收
Python真经：代码修仙录 zzzzjflzdvkk python 开发语言青少年编程 python真经
第一章：Python真经的起源在八十年代末，九十年代初，荷兰国境之内，有一位名为GuidovanRossum的修士，于国家数学与计算机科学研究所中，悟出了一门无上真经——Python。此真经融合了诸多上古大能的智慧结晶，如ABC、Modula-3、C、C++、Algol-68、SmallTalk、Unixshell等，终成一体，化为Python真经。Python真经自诞生之日起，便遵循GPL（GN
python提示unmatched_Python自动化学习--异常提示 weixin_39933356
举例：打开一个不存在的文件时：>>open("abc.txt","r")会提示错误Traceback(mostrecentcalllast):File"D:/project1/test.py",line11,inopen("abc.txt","r")FileNotFoundError:[Errno2]Nosuchfileordirectory:'abc.txt'这时可以用try....except
pyenv 管理多个 Python 版本(1) 数据科学工厂 python
引言你是否曾希望参与一个支持多个Python版本的项目，但又不知道如何轻松地测试所有这些版本？你是否对Python的最新版本感到好奇？或许你想尝试这些新功能，但又不想冒险破坏你的开发环境。幸运的是，如果你使用pyenv，管理多个Python版本并不复杂。本文[1]将向你展示如何高效地在项目上工作，同时减少因尝试使用正确版本的Python而产生的困扰。通过本文，你将学会：安装多个Python版本安装
编程助手学Python--Deepseek对提示词模板PromptTemplate / ChatPromptTemplate / ChatMessagePromptTemplate 的理解 sunyaox 编程助手学Python python 服务器开发语言
编程助手学Python--Deepseek对提示词模板PromptTemplate/ChatPromptTemplate/ChatMessagePromptTemplate的理解1.PromptTemplate主要功能：示例：2.ChatPromptTemplate主要功能：示例：3.ChatMessagePromptTemplate主要功能：示例：总结在构建基于语言模型的应用程序时，Prompt
[python多版本管理] pyenv-win 详细安装和使用 java我跟你拼了其他 python 开发语言多版本管理
文章目录第一种安装方式介绍pyenv快速启动pyenv-win命令验证安装手动检查设置使用如何更新pyenvAnnouncements第二种安装方式安装pyenv-win配置环境变量安装Python版本切换Python版本查看已安装版本创建虚拟环境（可选）Python常用的版本Python3.x系列关于Python2.x系列总结第一种安装方式介绍python的[pyenv][1]是一个很好的工具，
pipenv install -r requirements.txt 总是幸福的老豌豆日常工作总结 python
前言最近部署python项目时本地通过虚拟环境进行运行项目报错：错误如下PSC:\Users\Administrator\Desktop\desktop_health_sdk\desktop_health_sdk>pipenvinstall-rrequirements.txtWarning:Python2.7wasnotfoundonyoursystem..
Python学习-----项目设计1.0（设计思维和ATM环境搭建） Fitz& Python学习学习 python
目录前言：项目开发流程MVC设计模式什么是MVC设计模式？ATM项目要求ATM项目的环境搭建前言：我个人学习Python大概也有一个月了，在这一个月中我发布了许多关于Python的文章，建立了一个Python学习起步的专栏（https://blog.csdn.net/m0_73633088/category_12186491.html），在这里我非常感谢各位的一路陪伴，你们的支持是我创作的不竭动力
笔记-python之celery使用详解大白砌墙笔记 python 开发语言
Celery是一个用于处理异步任务的Python库，它允许你将任务分发到多个worker进行处理。以下是Celery的使用详解：安装Celery使用pip安装Celery：pipinstallcelery创建Celery实例首先，需要创建一个Celery实例，指定broker（消息中间件）和backend（结果存储）。fromceleryimportCeleryapp=Celery('tasks'
【python】虚拟环境工具pyenv 南隅。 python python 开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录0x0安装配置pyenv和virturalenv插件0x00pyenv0x01pyenv-virtualenv插件0x02pyenv下载安装包速度0x1使用pyenv0x2卸载pyenv0x3pyenv配置问题0x30问题描述0x31debug0x32problem0x33复现0x4补充0x40windows的python虚拟
使用Python编写Web应用程序的框架 - Celery YOUFDJ python 前端开发语言 Python
使用Python编写Web应用程序的框架-CeleryCelery是一个功能强大的Python库，用于编写具有异步任务处理和分布式消息传递功能的Web应用程序。它是一个开源项目，广泛应用于许多大型的网络应用和分布式系统中。本文将介绍Celery框架的基本概念和使用方法，并提供相应的源代码示例来帮助您更好地理解和使用Celery。Celery的安装要开始使用Celery，您需要首先安装它。您可以使用
编程助手学Python--Deepseek对提示词自定义模板StringPromptTemplate的理解 sunyaox 编程助手学Python python 开发语言
编程助手学Python--Deepseek对提示词自定义模板StringPromptTemplate的理解主要功能核心属性和方法使用场景示例代码1.基本用法2.使用f-string格式3.结合其他模板类高级用法1.自定义模板格式2.动态生成模板总结StringPromptTemplate是一种用于生成字符串提示的模板类，通常用于构建基于语言模型的应用程序。它允许你定义一个包含占位符的字符串模板，并
Python-Celery-基础用法总结-安装-配置-启动插件开发 Python python web
文章目录1.安装Celery2.配置Celery3.启动Worker4.调用任务5.任务装饰器选项6.任务状态7.定期任务8.高级特性9.监控和管理Celery是一个基于分布式消息传递的异步任务队列。它专注于实时操作，但也支持调度。Celery可以与Django,Flask,Pyramid等Web框架集成，但也可以独立使用。1.安装Celery首先需要安装Celery和一个消息代理（如Rabbit
Ubuntu上搭建虚拟环境字节熊猫 ubuntu linux 运维 python
环境搭建1.安装pipaptinstallpython3-pip2.安装虚拟环境命令pip安装可能超时，可以使用一下国内镜像阿里云http://mirrors.aliyun.com/pypi/simple/中国科技大学https://pypi.mirrors.ustc.edu.cn/simple/豆瓣(douban)http://pypi.douban.com/simple/清华大学https:/
安装cpu版本的paddleocr NO1212 python
1.CPU版的PaddlePaddlepython-mpipinstallpaddlepaddle==2.6.1-ihttps://mirror.baidu.com/pypi/simple2、验证安装安装完成后您可以使用python进入python解释器，输入importpaddle，再输入paddle.utils.run_check()如果出现PaddlePaddleisinstalledsuc
如何修复 VirtualBox 中缺少的依赖项 Python Core / win32api mister-big 开发语言
本文将帮助您修复“缺少依赖项PythonCore/win32api”错误。最近，用户在安装OracleVMVirtualBox7.0以在Windows11或10上创建虚拟机时经常遇到问题。一、为什么VirtualBox需要PythonCore/win32api？简而言之，PythonCore/win32api专为Python程序而设计。它就像一组工具，让Python与Windows系统通信。您还可
Python之项目课稍微认真一点 python 数据库开发语言
1.项目准备1.1.项目创建此处省略一万字...1.2.项目目标创建数据库movie并设置编码格式，并完成t_user（用户信息表）、t_movie（电影信息表）的创建任务；完成用户登录功能，登录成功之后跳转到电影主界面；完成电影排行榜和关键字电影查询功能；完成电影信息图表统计（选作）1.3.项目结构dao |--__init__.py |--movie_dao.py #电影dao层接口类 |
Python的模块使用稍微认真一点 python 经验分享笔记
1.模块和包1.1.模块简而言之，在python中，一个文件（以“.py”为后缀名的文件）就叫做一个模块，每一个模块在python里都被看做是一个独立的文件。模块可以被项目中的其他模块、一些脚本甚至是交互式的解析器所使用，它可以被其他程序引用，从而使用该模块里的函数等功能，使用Python中的标准库也是采用这种方法。导入模块的三种方式：方式一：import模块名#导入整个demo模块importd
Python的界面案例稍微认真一点 python 开发语言笔记经验分享
1.Tk图形用户界面(GUI)Tkinter是使用python进行窗口视窗设计的模块。Tkinter模块(“Tk接口”)是Python的标准TkGUI工具包的接口。作为python特定的GUI界面，是一个图像的窗口，tkinter是python自带的，可以编辑的GUI界面，用来入门，熟悉窗口视窗的使用，非常有必要。提供tk支持的模块包括：模块说明tkinterTK主模块tkinter.colorc
【python】网络编程socket TCP UDP 草莓泰面包 python 网络 python tcp/ip
文章目录socket常用方法TCP客户端服务器UDP客户端服务器网络编程就是实现两台计算机的通信互联网协议族即通用标准协议，任何私有网络只要支持这个协议，就可以接入互联网。socketsocke模块的socket()函数importsocketsock=socket.socket(AddressFamily,type)参数说明：AddressFamily：指定套接字家族（AddressFamily
python中打开麦克风 ai python 开发语言
在Python中打开麦克风，可以使用PyAudio库。首入PyAudio库。pipinstallPyAudio然后，使用以下代码打开麦克风：importpyaudiop=pyaudio.PyAudio()stream=p.open(format=pyaudio.paInt16,channels=1,rate=16000,input=True,frames_per_buffer=1024)其中，fo
Python中用SpeechRecognition库和 vosk模型来识别语音老菜鸟YDZ 菜鸟学python python 开发语言语音识别人工智能 xcode
Python中的SpeechRecognition库是一个比较好用的语音识别模块，提供了将语音识别成文字的方法，支持中文识别。一、SpeechRecognition库的安装使用pip命令安装即可：pipinstallSpeechRecognition当安装不成功时，可以强制：pipinstall--force-SpeechRecognition二、SpeechRecognition库的导入：i
python+wave+pyaudio：调用电脑麦克风进行声音录制觅远 python 音视频 python 开发语言 ffmpeg
pyaudio：用于音频输入。wave：用于音频文件的读写。importwave,pyaudiop=pyaudio.PyAudio()#获取设备上的所有麦克风设备info=p.get_host_api_info_by_index(0)num_devices=info.get('deviceCount')foriinrange(0,num_devices):ifp.get_device_info_b
C#实现AES-CBC加密工具类（含完整源码及使用教程） WangMing_X C#实现各种功能工具集 c#AES-CBC加密
一、AES-CBC加密应用场景AES（AdvancedEncryptionStandard）作为全球公认的安全加密标准，广泛使用在以下场景：API通信加密：保护HTTP接口传输的敏感数据（如身份令牌、支付信息）文件安全存储：加密本地配置文件、数据库连接字符串等用户隐私保护：加密存储密码、身份证号等PII（个人身份信息）跨平台数据交换：与Java/Python等其他语言实现的加密系统互通物联网设备通
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc