weixin_34008933

python3编写网络爬虫17-验证码识别

一、验证码识别

1.图形验证码的识别

识别图形验证码需要 tesserocr 库 OCR技术识别（光学字符识别，是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。）
例如中国知网注册页面 http://my.cnki.net/elibregister/commonRegister.aspx
tesserocr是Python的一个OCR识别库，但其实是对tesseract做的一层Python API封装，所以它的核心是tesseract
所以在安装tesserocr之前要先安装tesseract

下载地址：

https://digi.bib.uni-mannheim.de/tesseract/

其中带dev的为开发版本不带dev的为稳定版本下载好后双击安装
勾选 additional language data 支持语言包

安装tesserocr

pip install tesserocr pillow

如果报错，查看pip支持版本 python命令行下

import pip
import pip._internal
print(pip._internal.pep425tags.get_supported())

去如下网址下载对应版本进行安装即可

https://github.com/simonflueckiger/tesserocr-windows_build/releases

测试成功 import tesserocr 不报错表示成功

pip install pillow 测试import PIL

1.1 识别测试

下载到本地一张验证码后更改其名字为 code.jpg 放在python代码根目录

代码如下：

#识别code.jpg 图片验证码

import tesserocr
from PIL import Image

image = Image.open('code.jpg') #新建image对象
result = tesserocr.image_to_text(image)#调用imgae_to_text方法 传入image对象
print(result)

另外tesserocr 还有一个更加简单的方法，这个方法可以直接将图片转化为字符串
示例:

import tesserocr
print(tesserocr.file_to_text('code.jpg')) #不过此种方法识别效果不如上一种方法好

1.2 验证码处理

重新下载一张图片命名为code1.jpg 重新用以上代码进行测试
可以看到如果图片当中多余的线条干扰会影响图片识别的准确度

对于这种情况我们还要进行进一步的处理例如转灰度二值化等。
可以利用Image对象的 convert()方法传入参数 L 即可将图片转化为灰度图像
示例：

image = image.convert('L')
image.show()

传入参数1 即可将图片二值化处理

image = image.convert('1')
image.show()

但是此种方法默认阀值是127
并且不能直接转换原图要先将原图转为灰度图像，然后再指定二值化阀值
示例：

image = image.convert('L')
threshold = 80#二值化阀值
table = []
for i in range(256):
if i < threshold:
table.append(0)
else:
table.append(1)
image = image.point(table,'1')
image.show()

发现验证码中的线条已经去除验证码黑白分明再重新识别验证码

示例：

import tesserocr
from PIL import Image

image = Image.open('code1.jpg')

image = image.convert('L')
threshold = 127
table = []
for i in range(256):
if i < threshold:
table.append(0)
else:
table.append(1)

image = image.point(table, '1')
image.show()

result = tesserocr.image_to_text(image)
print(result)

如果针对一些有干扰的图片，我们可以选择做一些灰度和二值化处理达到提高图片识别的正确率

2. 极验滑动验证码的识别

上面我们说可以利用 tesserocr 来识别简单的图形验证码但是近几年出现了一些新型验证码
其中比较有代表性的就是极验验证码它需要拖动拼合滑块才可以完成验证，相对于图形验证码来说
识别难度上升了几个等级例如魅族斗鱼

确保本机安装好了selenium 浏览器为Chrome 并配置ChromeDriver

极验验证码官网 http://www.geetest.com/ 它是一个专注于提供验证安全的系统主要验证方式是拖动滑块拼合图像
如果图像完全拼合则验证成功

2.1 极验验证码特点

极验验证码相比图片验证码识别难度更大，对于极验3.0版本首先要点击按钮进行智能验证，如果验证不通过，则会弹出滑动验证窗口
拖动滑动拼合图像进行验证，之后三个加密参数会生成，通过表单提交到后台，后台还会进行一次验证。

极验验证码还增加了机器学习的方法来识别拖动轨迹官方网站的安全防护有如下几点说明：

1. 三角防护之防模拟。恶意程序模仿人类行为轨迹对验证码进行识别，针对模拟极验验证码拥有4000万人机行为样本的海量数据
利用机器学习和神经网络构建线上线下多重静态动态防御模型识别模拟轨迹，界定人机边界。

2. 三角防护之防伪造。恶意程序通过伪造设备浏览器环境对验证码进行识别，针对伪造极验验证码利用设备基因技术，深度分析
浏览器的实际性能来识别伪造信息，同时根据伪造时间不断更新黑名单，大幅度提高防伪造能力。

3. 三角防护之防暴力。恶意程序短时间内进行密集攻击，对验证码进行暴力识别，针对暴力识别极验验证码拥有多种验证形态，
每一种验证形态都利用神经网络生成海量图库储备，每一张图片都是独一无二的，且图库不断更新，极大程度提高了暴力识别的成本。

另外相比普通验证方式极验更加方便体验更加友好：

1. 点击验证只需0.4秒

2. 全平台兼容

3. 面向未来
相比一般验证码极验验证码的安全性和易用性有了非常大的提高。

2.2 识别思路

对于应用了极验验证码的网站，如果直接模拟表单提交加密参数的构造是个问题需要分析它加密和校验逻辑相对繁琐
所以采用直接模拟浏览器动作的方式来完成验证此验证成本相比直接去识别加密算法少很多

示例：中国保温网

http://www.cnbaowen.net/api/geetest/

识别验证只需要完成如下三步：
1.模拟点击验证按钮
2.识别滑动缺口的位置
3.模拟拖动滑块

第一步相对简单可以直接用selenium 模拟点击操作
第二步识别缺口位置比较关键需要用到图像相关的处理方法首先观察缺口的样子缺口四周边缘有明显的断裂边缘边缘和边缘周围有明显的区别
可以实现一个边缘检测算法找出缺口的位置。
第三步看似简单其中的坑比较多极验验证码增加了机器轨迹识别，匀速移动随机速度移动等方法都不能通过验证，只有完全模拟人的移动轨迹才可以通过验证
人的移动轨迹一般是先加速后减速需要模拟这个过程才能通过验证。

2.3 代码实现

初始化测试链接

 http://www.cnbaowen.net/api/geetest/

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait # 等待元素加载的
from selenium.webdriver.common.action_chains import ActionChains #拖拽
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException
from selenium.webdriver.common.by import By
from PIL import Image
import requests
import time
import re
import random
from io import BytesIO


def merge_image(image_file,location_list):
　　"""
　　　　拼接图片
　　　　:param image_file:
　　　　:param location_list:
　　　　:return:
　　"""
　　im = Image.open(image_file)
　　im.save('Code.jpg')
　　new_im = Image.new('RGB',(260,116))
　　# 把无序的图片 切成52张小图片
　　im_list_upper = []
　　im_list_down = []
　　# print(location_list)
　　for location in location_list:
　　　　# print(location['y'])
　　　　if location['y'] == -58: # 上半边
　　　　　　im_list_upper.append(im.crop((abs(location['x']),58,abs(location['x'])+10,116)))
　　　　if location['y'] == 0: # 下半边
　　　　　　im_list_down.append(im.crop((abs(location['x']),0,abs(location['x'])+10,58)))

　　x_offset = 0
　　for im in im_list_upper:
　　　　new_im.paste(im,(x_offset,0)) # 把小图片放到 新的空白图片上
　　　　x_offset += im.size[0]

　　x_offset = 0
　　for im in im_list_down:
　　　　new_im.paste(im,(x_offset,58))
　　　　x_offset += im.size[0]
　　　　new_im.show()
　　return new_im

def get_image(driver,div_path):
　　'''
　　　　下载无序的图片 然后进行拼接 获得完整的图片
　　　　:param driver:
　　　　:param div_path:
　　　　:return:
　　'''
　　time.sleep(2)
　　background_images = driver.find_elements_by_xpath(div_path)
　　location_list = []
　　for background_image in background_images:
　　　　location = {}
　　　　result = re.findall('background-image: url\("(.*?)"\); background-position: (.*?)px (.*?)px;',background_image.get_attribute('style'))
　　　　# print(result)
　　　　location['x'] = int(result[0][1])
　　　　location['y'] = int(result[0][2])

　　　　image_url = result[0][0]
　　　　location_list.append(location)

　　print('==================================')
　　image_url = image_url.replace('webp','jpg')
　　# '替换url http://static.geetest.com/pictures/gt/579066de6/579066de6.webp'
　　image_result = requests.get(image_url).content
　　# with open('1.jpg','wb') as f:
　　# f.write(image_result)
　　image_file = BytesIO(image_result) # 是一张无序的图片
　　image = merge_image(image_file,location_list)

　　return image

def get_track(distance):
　　'''
　　　　拿到移动轨迹，模仿人的滑动行为，先匀加速后匀减速
　　　　匀变速运动基本公式：
　　　　①v=v0+at
　　　　②s=v0t+(1/2)at²
　　　　③v²-v0²=2as

　　　　:param distance: 需要移动的距离
　　　　:return: 存放每0.2秒移动的距离
　　'''
　　# 初速度
　　v=0
　　# 单位时间为0.2s来统计轨迹，轨迹即0.2内的位移
　　t=0.2
　　# 位移/轨迹列表，列表内的一个元素代表0.2s的位移
　　tracks=[]
　　# 当前的位移
　　current=0
　　# 到达mid值开始减速
　　mid=distance * 7/8

　　distance += 10 # 先滑过一点，最后再反着滑动回来
　　# a = random.randint(1,3)
　　while current < distance:
　　　　if current < mid:
　　　　　　# 加速度越小，单位时间的位移越小,模拟的轨迹就越多越详细
　　　　　　a = random.randint(2,4) # 加速运动
　　　　else:
　　　　　　a = -random.randint(3,5) # 减速运动

　　　　# 初速度
　　　　v0 = v
　　　　# 0.2秒时间内的位移
　　　　s = v0*t+0.5*a*(t**2)
　　　　# 当前的位置
　　　　current += s
　　　　# 添加到轨迹列表
　　　　tracks.append(round(s))

　　　　# 速度已经达到v,该速度作为下次的初速度
　　　　v= v0+a*t

　　　　# 反着滑动到大概准确位置
　　for i in range(4):
　　　　tracks.append(-random.randint(2,3))
　　for i in range(4):
　　　　tracks.append(-random.randint(1,3))
　　return tracks


def get_distance(image1,image2):
　　'''
　　　　拿到滑动验证码需要移动的距离
　　　　:param image1:没有缺口的图片对象
　　　　:param image2:带缺口的图片对象
　　　　:return:需要移动的距离
　　'''
　　# print('size', image1.size)

　　threshold = 60
　　for i in range(0,image1.size[0]): # 260
　　　　for j in range(0,image1.size[1]): # 160
　　　　　　pixel1 = image1.getpixel((i,j))
　　　　　　pixel2 = image2.getpixel((i,j))
　　　　　　res_R = abs(pixel1[0]-pixel2[0]) # 计算RGB差
　　　　　　res_G = abs(pixel1[1] - pixel2[1]) # 计算RGB差
　　　　　　res_B = abs(pixel1[2] - pixel2[2]) # 计算RGB差
　　　　　　if res_R > threshold and res_G > threshold and res_B > threshold:
　　　　　　　　return i # 需要移动的距离

 

def main_check_code(driver, element):
　　"""
　　　　拖动识别验证码
　　　　:param driver:
　　　　:param element:
　　　　:return:
　　"""
　　image1 = get_image(driver, '//div[@class="gt_cut_bg gt_show"]/div')
　　image2 = get_image(driver, '//div[@class="gt_cut_fullbg gt_show"]/div')
　　# 图片上 缺口的位置的x坐标
　　
　　# 2 对比两张图片的所有RBG像素点，得到不一样像素点的x值，即要移动的距离
　　l = get_distance(image1, image2)
　　print('l=',l)
　　# 3 获得移动轨迹
　　track_list = get_track(l)
　　print('第一步,点击滑动按钮')
　　ActionChains(driver).click_and_hold(on_element=element).perform() # 点击鼠标左键，按住不放
　　time.sleep(2)
　　print('第二步,拖动元素')
　　for track in track_list:
　　　　ActionChains(driver).move_by_offset(xoffset=track, yoffset=0).perform() # 鼠标移动到距离当前位置（x,y）
　　　　time.sleep(0.002)

　　ActionChains(driver).move_by_offset(xoffset=-random.randint(2,5), yoffset=0).perform()
　　time.sleep(2)
　　print('第三步,释放鼠标')
　　ActionChains(driver).release(on_element=element).perform()
　　time.sleep(5)


def main_check_slider(driver):
　　"""
　　　　检查滑动按钮是否加载
　　　　:param driver:
　　　　:return:
　　"""
　　while True:
　　　　try :
　　　　　　driver.get('http://www.cnbaowen.net/api/geetest/')
　　　　　　element = WebDriverWait(driver, 30, 0.5).until(EC.element_to_be_clickable((By.CLASS_NAME, 'gt_slider_knob')))
　　　　　　if element:
　　　　　　　　return element
　　　　except TimeoutException as e:
　　　　　　print('超时错误，继续')
　　　　　　time.sleep(5)


if __name__ == '__main__':
　　try:
　　　　count = 6 # 最多识别6次
　　　　driver = webdriver.Chrome()
　　　　# 等待滑动按钮加载完成
　　　　element = main_check_slider(driver)
　　　　while count > 0:
　　　　　　main_check_code(driver,element)
　　　　　　time.sleep(2)
　　　　　　try:
　　　　　　　　success_element = (By.CSS_SELECTOR, '.gt_holder .gt_ajax_tip.gt_success')
　　　　　　　　# 得到成功标志
　　　　　　　　print('suc=',driver.find_element_by_css_selector('.gt_holder .gt_ajax_tip.gt_success'))
　　　　　　　　success_images = WebDriverWait(driver, 20).until(EC.presence_of_element_located(success_element))
　　　　　　　　if success_images:
　　　　　　　　　　print('成功识别')
　　　　　　　　　　count = 0
　　　　　　　　　　break
　　　　　　except NoSuchElementException as e:
　　　　　　　　print('识别错误，继续识别')
　　　　　　　　ount -= 1
　　　　　　　　time.sleep(2)
　　　　else:
　　　　　　print('too many attempt check code ')
　　　　　　exit('退出程序')
　　finally:
　　　　driver.close()

3. 点触验证码的识别

除了极验验证码之外，还有一个常见且比较广泛的验证码，既点触验证码例如12306
直接点击图中符合要求的图答案全部正确验证才会成功有一个错误验证就会失败

示例：

https://www.jianshu.com/sign_in

识别思路：
如果依靠图像识别验证码识别难度非常大第一点是文字识别第二点是图像识别图像背景会干扰导致ORC几乎识别不出结果
如果直接识别白色文字换一张验证码颜色又变了

借助打码平台：

http://www.chaojiying.com/user/reg/

注册账户
进入用户中心申请软件ID
关注微信或者购买题分

http://www.chaojiying.com/api-14.html

下载打码平台的api

示例如下：

#!/usr/bin/env python
# coding:utf-8

import requests
from hashlib import md5

class Chaojiying_Client(object):

　　def __init__(self, username, password, soft_id):
　　　　self.username = username
　　　　password = password.encode('utf8')
　　　　self.password = md5(password).hexdigest()
　　　　self.soft_id = soft_id
　　　　self.base_params = {
　　　　　　'user': self.username,
　　　　　　'pass2': self.password,
　　　　　　'softid': self.soft_id,
　　　　}
　　　　self.headers = {
　　　　　　'Connection': 'Keep-Alive',
　　　　　　'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
　　　　}

　　def PostPic(self, im, codetype):
　　　　"""
　　　　　　im: 图片字节
　　　　　　codetype: 题目类型 参考 http://www.chaojiying.com/price.html
　　　　"""
　　　　params = {
　　　　　　'codetype': codetype,
　　　　}
　　　　params.update(self.base_params)
　　　　files = {'userfile': ('ccc.jpg', im)}
　　　　r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)
　　　　return r.json()

　　def ReportError(self, im_id):
　　　　"""
　　　　　　im_id:报错题目的图片ID
　　　　"""
　　　　params = {
　　　　　　'id': im_id,
　　　　}
　　　　params.update(self.base_params)
　　　　r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
　　　　return r.json()


if __name__ == '__main__':
　　chaojiying = Chaojiying_Client('超级鹰用户名', '超级鹰用户名的密码', '96001')    #用户中心>>软件ID 生成一个替换 96001
　　im = open('a.jpg', 'rb').read()    #本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
　　print chaojiying.PostPic(im, 1902)    #1902 验证码类型 官方网站>>价格体系 3.4+版 print 后要加()

这里定义了一个Chaojiying_Client类其构造函数接收三个参数分别是超级鹰用户名，超级鹰用户名的密码，软件ID
最重要的一个方法叫做PostPic，需要传入图片对象和验证码的代号，该方法会将图片对象的相关信息发送个超级鹰后台进行识别，
然后将识别成功的JSON返回。
ReportError方法发生错误的时候回调如果验证码识别错误，调用此方法会返回相应的题分。

初始化

import time

from PIL import Image
from selenium import webdriver
from selenium.webdriver import ActionChains

from chaojiying import Chaojiying


def crack():
　　# 保存网页截图
　　browser.save_screenshot('222.jpg')

　　# 获取 验证码确定按钮
　　button = browser.find_element_by_xpath(xpath='//div[@class="geetest_panel"]/a/div')

　　# 获取 验证码图片的 位置信息
　　img1 = browser.find_element_by_xpath(xpath='//div[@class="geetest_widget"]')
　　location = img1.location
　　size = img1.size
　　top, bottom, left, right = location['y'], location['y'] + size['height'], location['x'], location['x'] + size[
　　　　'width']
　　print('图片的宽:', img1.size['width'])
　　print(top, bottom, left, right)

　　# 根据获取的验证码位置信息和网页图片 对验证码图片进行裁剪 保存
　　img_1 = Image.open('222.jpg')
　　capcha1 = img_1.crop((left, top, right, bottom - 54))
　　capcha1.save('tu1-1.png')

　　# 接入超级鹰 API 获取图片中的一些参数 (返回的是一个字典)
　　cjy = Chaojiying('liuxiaosong', '123456', '898237')
　　im = open('tu1-1.png', 'rb').read()
　　content = cjy.post_pic(im, 9004)
　　print(content)
　　# 将图片中汉字的坐标位置 提取出来
　　positions = content.get('pic_str').split('|')
　　locations = [[int(number) for number in group.split(",")] for group in positions]
　　print(positions)
　　print(locations)

　　# 根据获取的坐标信息 模仿鼠标点击验证码图片
　　for location1 in locations:
　　　　print(location1)
　　　　ActionChains(browser).move_to_element_with_offset(img1, location1[0], location1[1]).click().perform()
　　　　time.sleep(1)
　　button.click()
　　time.sleep(1)
　　# 失败后重试
　　lower = browser.find_element_by_xpath('//div[@class="geetest_table_box"]/div[2]').text
　　print('判断', lower)
　　if lower != '验证失败 请按提示重新操作' and lower != None:
　　　　print('登录成功')
　　　　time.sleep(3)
　　else:
　　　　time.sleep(3)
　　　　print('登录失败')
　　　　# 登录失败后 , 调用 该函数 , 后台 则对该次判断不做扣分处理
　　　　pic_id = content.get('pic_id')
　　　　print('图片id为:', pic_id)
　　　　cjy = Chaojiying('liuxiaosong', '123456', '898237')
　　　　cjy.report_error(pic_id)
　　　　crack()


if __name__ == '__main__':
　　browser = webdriver.Chrome()

　　browser.get('https://www.jianshu.com/sign_in')
　　browser.save_screenshot('login.png')

　　# 填写from表单 点击登陆 获取验证码 的网页截图
　　login = browser.find_element_by_id('sign-in-form-submit-btn')
　　username = browser.find_element_by_id('session_email_or_mobile_number')
　　password = browser.find_element_by_id('session_password')
　　username.send_keys('15221742895')
　　time.sleep(1)
　　password.send_keys('123456')
　　time.sleep(2)
　　login.click()
　　time.sleep(10)
　　crack()

二、代理的使用

前面介绍了多种请求库 requests urllib selenium等

1.获取代理

网上有很多免费代理例如西刺 http://www.xicidaili.com/ 但是免费代理大多数是不好用的最靠谱的方法是购买付费代理

如果本机有代理软件的话软件一般会在本机创建HTTP和SOCKS代理服务本机直接使用代理也可以

示例：（也可以替换成自己的可用代理设置代理后测试网址是http://httpbin.org/get 访问该网站可以得到请求信息其中origin字段就是客户端的ip）

2.urllib

from urllib.error import URLError
from urllib.request import ProxyHandler,build_opener

proxy = '127.0.0.1:14155'
proxy_handler = ProxyHandler({
　　'http':'http://' + proxy,
　　'https':'https://' + proxy
　　})
opener = build_opener(proxy_handler)

try:
　　response = opener.open('http://httpbin.org/get')
　　print(response.read().decode('utf-8'))
except URLError as e:
　　print(e.reason)

这里借助ProxyHandler 设置代理参数是字典键名为协议键值为代理
创建完ProxyHandler对象后调用 build_opener()方法传入该对象来创建一个opener对象

如果需要认证可以改变proxy 变量只需要在代理前面加入代理认证的用户名密码即可例如 username:[email protected]:14155

3.requests

代理设置相对urllib简单传入参数proxies

import requests

proxy = '127.0.0.1:14155'

proxies = {
　　'http': 'http://' + proxy,
　　'https': 'https://' + proxy,
}
try:
　　response = requests.get('http://httpbin.org/get', proxies=proxies)
　　print(response.text)
except requests.exceptions.ConnectionError as e:
　　print('Error', e.args)

需要认证的话同理 proxy = 'username:[email protected]:9743'

4. selenium

from selenium import webdriver

proxy = '127.0.0.1:14155'
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--proxy-server=http://' + proxy)
chrome = webdriver.Chrome(chrome_options=chrome_options)
chrome.get('http://httpbin.org/get')

如果是认证的相对比较麻烦

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import zipfile

ip = '127.0.0.1'
port = 14155
username = 'liuxiaosong'
password = '123456'

manifest_json = """
{
　　"version": "1.0.0",
　　"manifest_version": 2,
　　"name": "Chrome Proxy",
　　"permissions": [
　　"proxy",
　　"tabs",
　　"unlimitedStorage",
　　"storage",
　　"",
　　"webRequest",
　　"webRequestBlocking"
　　],
　　"background": {
　　"scripts": ["background.js"]
　　}
}
"""

background_js = """
var config = {
　　mode: "fixed_servers",
　　rules: {
　　　　singleProxy: {
　　　　　　scheme: "http",
　　　　　　host: "%(ip)s",
　　　　　　port: %(port)s
　　　　}
　　}
}

chrome.proxy.settings.set({value: config, scope: "regular"}, function() {});

function callbackFn(details) {
　　return {
　　　　authCredentials: {
　　　　　　username: "%(username)s",
　　　　　　password: "%(password)s"
　　　　}
　　}
}

chrome.webRequest.onAuthRequired.addListener(
　　callbackFn,
　　{urls: [""]},
　　['blocking']
)
""" % {'ip': ip, 'port': port, 'username': username, 'password': password}

plugin_file = 'proxy_auth_plugin.zip'
with zipfile.ZipFile(plugin_file, 'w') as zp:
　　zp.writestr("manifest.json", manifest_json)
　　zp.writestr("background.js", background_js)
chrome_options = Options()
chrome_options.add_argument("--start-maximized")
chrome_options.add_extension(plugin_file)
browser = webdriver.Chrome(chrome_options=chrome_options)
browser.get('http://httpbin.org/get')

需要本地创建一个manifest.json配置文件 background.js 脚本设置代理运行之后本地会生成一个 proxy_auth_plugin.zip 文件保存当前设置

5.phantomjs

需要安装下载地址 http://phantomjs.org/download 选择对应平台下载即可

下载后解压文件复制在bin目录下phantomjs.exe 到python目录下的script目录下或者单独添加环境变量

cmd 运行 phantomjs 进入到phantomjs命令行表示配置成功

在selenium中使用的话只需要将Chrome切换为PhantomJS即可

from selenium import webdriver
browser = webdriver.PhantomJS()
browser.get('https://www.baidu.com')
print(browser.current_url)

会报警告 selenium 3.X版本已经弃用PhantomJS 两种方式使用Chrome无界面 headless 或者降低selenium版本推荐第一种

示例：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')#上面三行代码就是为了将Chrome不弹出界面，实现无界面爬取
browser = webdriver.Chrome(chrome_options=chrome_options)

PhantomJS示例：

from selenium import webdriver

service_args = [
　　'--proxy=127.0.0.1:9743',
　　'--proxy-type=http'
]

browser = webdriver.PhantomJS(service_args=service_args)
browser.get('http://httpbin.org/get')
print(browser.page_source)

如果加认证

from selenium import webdriver

service_args = [
　　'--proxy=127.0.0.1:9743',
　　'--proxy-type=http',
　　'--proxy-auth=username:password'
]

browser = webdriver.PhantomJS(service_args=service_args)
browser.get('http://httpbin.org/get')
print(browser.page_source)

转载于:https://www.cnblogs.com/liuxiaosong/p/10366114.html

你可能感兴趣的:(python3编写网络爬虫17-验证码识别)

高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
linux sdl windows.h,Windows下的SDL安装奔跑吧linux内核 linux sdl windows.h
首先你要下载并安装SDL开发包。如果装在C盘下，路径为C:\SDL1.2.5如果在WINDOWS下。你可以按以下步骤：1.打开VC++，点击"Tools",Options2,点击directories选项3.选择"Includefiles"增加一个新的路径。"C:\SDL1.2.5\include"4，现在选择"Libaryfiles“增加"C:\SDL1.2.5\lib"现在你可以开始编写你的第
从鸡肉高汤到记忆的魔法再到有效提示的艺术步子哥人工智能
还记得小时候那些天马行空的白日梦吗？也许只要按下键盘上的某个神奇组合，电脑就会发出滴滴的声响，一个隐藏的世界突然在你眼前展开，让你获得超凡的能力，摆脱平凡的生活。这听起来像是玩过太多电子游戏的幻想，但实际上，间隔重复系统给人的感觉惊人地相似。在最佳状态下，这些系统就像魔法一样神奇。本文将以一个看似平凡的鸡肉高汤食谱为例，深入浅出地探讨如何编写有效的间隔重复提示，让你像掌握烹饪技巧一样轻松地掌握记忆
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
计算机木马详细编写思路小熊同学哦 php 开发语言木马木马思路
导语：计算机木马（ComputerTrojan）是一种恶意软件，通过欺骗用户从而获取系统控制权限，给黑客打开系统后门的一种手段。虽然木马的存在给用户和系统带来严重的安全风险，但是了解它的工作原理与编写思路，对于我们提高防范意识、构建更健壮的网络安全体系具有重要意义。本篇博客将深入剖析计算机木马的详细编写思路，以及如何复杂化挑战，以期提高读者对计算机木马的认识和对抗能力。计算机木马的基本原理计算机木
Python入门之Lesson2:Python基础语法小熊同学哦 Python入门课程 python 开发语言算法数据结构青少年编程
目录前言一.介绍1.变量和数据类型2.常见运算符3.输入输出4.条件语句5.循环结构二.练习三.总结前言欢迎来到《Python入门》系列博客的第二课。在上一课中，我们了解了Python的安装及运行环境的配置。在这一课中，我们将深入学习Python的基础语法，这是编写Python代码的根基。通过本节内容的学习，你将掌握变量、数据类型、运算符、输入输出、条件语句等Python编程的基础知识。一.介绍1
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
Python 课程10-单元测试可愛小吉 Python教學 python 单元测试开发语言 TDD unittest
前言在现代软件开发中，单元测试已成为一种必不可少的实践。通过测试，我们可以确保每个功能模块在开发和修改过程中按预期工作，从而减少软件缺陷，提高代码质量。而测试驱动开发（TDD）则进一步将测试作为开发的核心部分，先编写测试，再编写代码，以测试为指导开发出更稳定、更可靠的代码。Python提供了强大的unittest模块，它是Python标准库的一部分，专门用于编写和执行单元测试。与其他测试框架相比，
使用由 Python 编写的 lxml 实现高性能 XML 解析 hunyxv python 笔记 python xml
转载自：文章lxml简介Python从来不出现XML库短缺的情况。从2.0版本开始，它就附带了xml.dom.minidom和相关的pulldom以及SimpleAPIforXML(SAX)模块。从2.4开始，它附带了流行的ElementTreeAPI。此外，很多第三方库可以提供更高级别的或更具有python风格的接口。尽管任何XML库都足够处理简单的DocumentObjectModel(DOM
Python3.7出现“ModuleNotFoundError: No module named ‘Tkinter‘”错误的解决方法可爱的小红猪 python
Python3.7出现“ModuleNotFoundError:Nomodulenamed‘Tkinter’”错误的解决方法在网上看到很多针对这个问题的解决方法都是重新安装或配置Tkinter库，但Tkinter是python内置的标准GUI库，安装Python时就已经内置在了库中，不需要另外下载。针对于Tkinter，你的代码很可能是这样的：importTkinter或者是这样fromTkint
Ubuntu18.04 Docker部署Kinship(Django)项目过程 Dante617
1Docker的安装https://blog.csdn.net/weixin_41735055/article/details/1003551792下载镜像dockerpullprogramize/python3.6.8-dlib下载的镜像里包含python3.6.8和dlib19.17.03启动镜像dockerrun-it--namekinship-p7777:80-p3307:3306-p55
python实现规则引擎_规则引擎python weixin_39601511 python实现规则引擎
广告关闭回望2020，你在技术之路上，有什么收获和成长么？对于未来，你有什么期待么？云+社区年度征文，各种定制好礼等你！我正在用python编写日志收集分析应用程序，我需要编写一个“规则引擎”来匹配和处理日志消息。它需要具有以下特点：正则表达式匹配消息本身消息严重性优先级的算术比较布尔运算符我设想一个例子规则可能是这样的：(message~program:messageandseverity>=h
ubuntu22.04环境中安装pylint 歪歪的酒壶 python linux 开发语言
ubuntu22.04环境中安装pylintsudoapt-getinstallpython3-pipsudoaptitudeinstallpython3-pipsudopipinstallpylintsudoapt-getinstallpython3-pip在安装pylint的时候，需要使用pip命令，在ubuntu22.04环境中命令如下：$sudoapt-getinstallpython3-
使用selenium调用firefox提示Profile Missing的问题解决歪歪的酒壶 selenium 测试工具 python
在Ubuntu22.04环境中，使用python3运行selenium提示ProfileMissing，具体信息为：YourFirefoxprofilecannotbeloaded.Itmaybemissingorinaccessible在这个问题的环境中firefox浏览器工作正常。排查中，手动在命令行执行firefox可以打开浏览器，但是出现如下提示Gtk-Message:15:32:09.9
【vite 自动配置路由】 CODER-V 前端 javascript vue.js 前端软件构建
手动配置路由，是一个没有技术含量又浪费时间的工作。本文将介绍vite构建的vue3项目如何编写一个自动配置路由的脚本。约定大于配置要想使用脚本完成路由的自动配置，我们就需要遵循以下目录规则：每一个页面对应一个包，当前包下的主页面命名为index.vue；每个包里必须配置一个page.js；在每一个page.js里边配置，额外的路由信息，比如：exportdefault{title:'商品',men
python中文版软件下载-Python中文版编程大乐趣
python中文版是一种面向对象的解释型计算机程序设计语言。python中文版官网面向对象编程，拥有高效的高级数据结构和简单而有效的方法，其优雅的语法、动态类型、以及天然的解释能力，让它成为理想的语言。软件功能强大，简单易学，可以帮助用户快速编写代码，而且代码运行速度非常快，几乎可以支持所有的操作系统，实用性真的超高的。python中文版软件介绍：python中文版的解释器及其扩展标准库的源码和编
2022-07-06 榜一大哥啊
非洲猪瘟检测流程要点1、进入实验室按照要求穿好装备进入实验室，病原稀释及制备，将实验用假阳性按照倍数稀释，最高稀释到一万倍。所有操作流程都在生物安全柜进行，按照流程进行编号，编写检测编号。在每个实验室都要将白大褂以及手套进行更换。2、到试剂准备区进行试剂准备，按照样品数量加阴阳对照进行配备，该项目在超净工作台进行。将制备好的试剂放入传递窗，进入核酸提取环节。3、核酸提取区，进行核酸提纯，用磁吸法核
自动化测试工程师面试，常问的问题有哪些？自动化测试老司机软件测试测试工程师自动化测试面试职场和发展软件测试 selenium 测试工具 android 测试工程师
自动化测试工程师面试是非常重要的环节，面试官会通过一系列的问题来评估候选人的技能和经验。下面是一些常见的问题，以及如何详细而规范地回答这些问题的建议。1.请介绍一下你的自动化测试经验。回答这个问题时，可以从项目经验、使用的自动化测试工具、编写的测试脚本等方面来介绍自己的经验。重点强调你在自动化测试领域的技能和擅长的领域。2.你在自动化测试中使用的编程语言是什么？为什么选择这种语言？回答这个问题时，
基于JavaWeb开发的Java+SpringMvc+vue+element实现上海汽车博物馆平台网顺技术团队成品程序项目 java vue.js 汽车课程设计 spring boot
基于JavaWeb开发的Java+SpringMvc+vue+element实现上海汽车博物馆平台作者主页网顺技术团队欢迎点赞收藏⭐留言文末获取源码联系方式查看下方微信号获取联系方式承接各种定制系统精彩系列推荐精彩专栏推荐订阅不然下次找不到哟Java毕设项目精品实战案例《1000套》感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人文章目录基
Windows安装ciphey编码工具，附一道ciscn编码题例 im-Miclelson CTF工具网络安全
TA是什么一款智能化的编码分析解码工具，对于CTF中复杂性编码类题目可以快速攻破。编码自动分析解码的神器。如何安装Windows环境Python3.864位（最新的版本不兼容，32位的也不行）PIP直接安装pipinstallciphey-ihttps://pypi.mirrors.ustc.edu.cn/simple/安装后若是出现报错请根据错误代码行数找到对应文件，r修改成rb即可。使用标准语
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
15-自编写rtos-结合stm32实际调试(ladylolo-os) Ladylolo-lsm stm32 嵌入式硬件单片机
一、任务调度:1.理解:任务切换，用堆栈指针SP保存即将要切换的任务的前后文，然后是用PendSV来执行这些操作的；由于是基于优先级的调度策略，所以每次“心跳”都会看有没有优先级更高的出现，如果有就用PendSV进行上下文切换。2.编写部分:①每个任务自己的属性统称为TCB任务控制块。②任务就绪表有设置优先级(设置的时候变量或上优先级的变量让某个位数等于1)，从任务就绪表中删除(删除时用与来得等于
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi