周小董

[633]pyppeteer驱动浏览器

当使用selenium去某宝或其他网站进行爬虫或者模拟登陆时，会出现滑动验证码，并且无论是用ActionChains滑还是手动滑，都会很委婉的告诉你“哎呀网络错误，请刷新”等等。why？

爬虫都会碰到某些网站刚刚打开页面就被判定为：非人类行为，因为很多网站有对selenium的js监测机制。

经过科学上网，查阅众多资料，发现selenium有一些特征值，例如下面：

window.navigator.webdriver
window.navigator.languages
window.navigator.plugins.length

1.“navigator.plugins.length”此参数可以检测selenium的headless模式，headless模式下为0，所以可以添加假的值来规避检测；
2.“navigator.languages”确保将此参数设置为chrome的默认值[“en-US”,“en”,“es”]

美团，大众，淘宝这些大站点都有这种技术能力。。对window.navigator.webdriver的检测机制。

正常情况下 window.navigator.webdriver的值为undefined。

而当我们使用selenium 的时候-window.navigator.webdriver的值为True。如下图

手动安装
通过pip使用豆瓣源加速安装pyppeteer：

pip install -i https://pypi.douban.com/simple pypeteer
or
pip install pypeteer

按照官方手册，先来感受一下：

# -*- coding:utf-8 -*-
import asyncio
from pyppeteer import launch

async def main():
    browser = await launch(headless=False)
    page = await browser.newPage()
    await page.goto('http://www.baidu.com/')
    await asyncio.sleep(10)
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

pyppeteer第一次运行时，会自动下载chromium浏览器，时间可能会有些长。不过，我第一次运行时，直接报错：

ssl.SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1056)

尝试多种方法无果，无奈只能手动下载，但手动下载的方法网上资料也几乎没有，让我来做这个先行者吧。

上面代码运行虽然报错，但是控制台前两行却提供了很有用的信息：

[W:pyppeteer.chromium_downloader] start chromium download.
Download may take a few minutes.

可以看到，下载功能是由pyppeteer.chromium_downloader模块完成的，那么我们进入这个模块查看源码。

在这个模块源码中，我们可以看到downloadURLs、chromiumExecutable等变量，很明显指的就是下载链接和chromium的可执行文件路径。我们重点关注一下可执行文件路径

chromiumExecutable：

chromiumExecutable = {
    'linux': DOWNLOADS_FOLDER / REVISION / 'chrome-linux' / 'chrome',
    'mac': (DOWNLOADS_FOLDER / REVISION / 'chrome-mac' / 'Chromium.app' /
            'Contents' / 'MacOS' / 'Chromium'),
    'win32': DOWNLOADS_FOLDER / REVISION / 'chrome-win32' / 'chrome.exe',
    'win64': DOWNLOADS_FOLDER / REVISION / 'chrome-win32' / 'chrome.exe',
}

可见，无论在哪个平台下，chromiumExecutable都是由是4个部分组成，其中 DOWNLOADS_FOLDER 和 REVISION是定义好的变量：

DOWNLOADS_FOLDER = Path.home() / '.pyppeteer' / 'local-chromium'

进一步查看可以发现：

from pathlib import Path
Path.home()
Out[3]: WindowsPath('C:/Users/WYXCz')

from pyppeteer import __chromimum_revision__ as REVISION

#__chromimum_revision__ = '543305'

REVISION = ‘543305’

所以，DOWNLOADS_FOLDER和 REVISION都是读取对应环境变量设置好的值，如果没有设置，就使用默认值。我们来输出一下，看看默认值：

import pyppeteer.chromium_downloader
print('默认版本是：{}'.format(pyppeteer.__chromimum_revision__))
print('可执行文件默认路径：{}'.format(pyppeteer.chromium_downloader.chromiumExecutable.get('win64')))
print('win64平台下载链接为：{}'.format(pyppeteer.chromium_downloader.downloadURLs.get('win64')))

输出结果如下：

默认版本是：543305
可执行文件默认路径：C:\Users\WYXCz\.pyppeteer\local-chromium\543305\chrome-win32\chrome.exe
win64平台下载链接为：https://storage.googleapis.com/chromium-browser-snapshots/Win_x64/543305/chrome-win32.zip

在使用上面代码的时候，你可以将win64换成你的平台就好了，有了上面的下载链接，这个时候就可以先开始下载着chromium浏览器（有些慢），然后继续往下看。

3、主要操作

3.1 打开浏览器

打开浏览器是通过pyppeteer.launcher.launch(options: dict = None, **kwargs) 方法，运行该函数后，会得到一个pyppeteer.browser.Browser实例，也就是说浏览器对象实例。launch方法是必须使用的方法，所以，详细学学它的参数，你也直接阅读官方文档，因为我也是直接翻译的：

launcher.launch 这是实现浏览器的打开，里面有许多参数
ignoreHTTPSErrors (bool): 是否HTTPS错误，默认是 False.
headless (bool): 是否以无头模式（无界面模式）执行，默认为True，为True时是不会弹出可视界面的，所以，上面代码运行时设置headless=False。注意，下面还有个devtools参数，表示是否出现打开调试窗口，如果devtools设置为True，headless就算设置为False也会弹出可视界面。
executablePath (str): Chromium或Chrome浏览器的可执行文件路径，如果设置，则使用设置的这个路径，不使用默认设置.
slowMo (int|float): 设置这个参数可以延迟pyppeteer的操作，单位是毫秒.
args (List[str]): 要传递给浏览器进程的一些其他参数.
ignoreDefaultArgs (bool): 如果有些参数你不想使用默认值，那么，通过这个参数设置，不过，孩子，最好别用，有危险（电脑会爆炸）.
handleSIGINT (bool): 是否响应 SIGINT 信号，是否允许通过快捷键Ctrl+C来终止浏览器进程，默认值为True，也就是允许.
handleSIGTERM (bool): 是否响应 SIGTERM 信号，也就是说kill命令关闭浏览器，，默认值为True，也就是允许.
handleSIGHUP (bool): 是否响应 SIGHUP 信号，即挂起信号，默认值为True，也就是允许.
dumpio (bool): 是要将浏览器进程的输出传递给process.stdout 和 process.stderr 对象，默认为False不传递。
userDataDir (str): 用户数据文件目录.
env (dict): 以字典的形式传递给浏览器环境变量.
devtools (bool): 是否打开调试窗口，上面介绍headless参数是说过，默认值为False不打开.
logLevel (int|str): 日志级别，默认和 root logger 对象的级别相同.
autoClose (bool): 当所有操作都执行完后，是否自动关闭浏览器，默认True，自动关闭.
loop (asyncio.AbstractEventLoop): 时间循环。
appMode (bool): Deprecated.

一般来说我们只是会设置headless，devtools,和传入一些必要的args

newPage()方法，相当于我们在浏览器里点开了新建选项卡
goto()，里面传入我们想要的url，即可前往指定的网页

选择器

Page类选择器相关方法有5个，并且这五个都有别名，分别是：

J()别名querySelector()
JJ()别名querySelectorAll()
JJeval()别名querySelectorAllEval()
Jeval()别名querySelectorEval()
Jx()别名xpath()

page.pdf(options)

options 具备以下属性的参数对象:
- path 保存PDF文件的路径. 如果path 是一个相对路径,则它是相对于current working directory. 如果没有提供此值项值, 将不会保存PDF。
- scale 网页缩放的值。默认为 1.
- displayHeaderFooter Display header and footer. Defaults to false.
- headerTemplate HTML template for the print header. Should be valid HTML markup with following classes used to inject printing values into them:
- date formatted print date
- title 文档标题
- url 文档url
- pageNumber 当前页码
- totalPages 总页数
- footerTemplate HTML template for the print footer. Should use the same format as the headerTemplate.
- printBackground Print background graphics. Defaults to false.
- landscape Paper orientation. Defaults to false.
- pageRanges Paper ranges to print, e.g., ‘1-5, 8, 11-13’. Defaults to the empty string, which means print all pages.
- format Paper format. If set, takes priority over width or height options. Defaults to ‘Letter’.
- width Paper width, accepts values labeled with units.
- height Paper height, accepts values labeled with units.
- margin Paper margins, defaults to none.
- top Top margin, accepts values labeled with units.
- right Right margin, accepts values labeled with units.
- bottom Bottom margin, accepts values labeled with units.
- left Left margin, accepts values labeled with units.
returns: Promise which resolves with PDF buffer.

NOTE 生成pdf的操作只有Chrome浏览器才有效。

page.pdf()以 print的 css media生成pdf，如果想生成一个 screenmedia的PDF，请在使用 page.pdf()之前调用page.emulateMedia(‘screen’)方法。

// Generates a PDF with 'screen' media type.
await page.emulateMedia('screen');
await page.pdf({path: 'page.pdf'});

width, height, 和 margin属性接受的值应该明确带上相应的单位，否则将会被默认为 px单位。

一些例子:

page.pdf({width: 100}) - 宽度为100px
page.pdf({width: '100px'}) - 宽度为100px
page.pdf({width: '10cm'}) - 宽度为 10厘米

所有可选的单位:

px - pixel
in - inch
cm - centimeter
mm - millimeter

format 属性的可选值:

Letter: 8.5in x 11in
Legal: 8.5in x 14in
Tabloid: 11in x 17in
Ledger: 17in x 11in
A0: 33.1in x 46.8in
A1: 23.4in x 33.1in
A2: 16.5in x 23.4in
A3: 11.7in x 16.5in
A4: 8.27in x 11.7in
A5: 5.83in x 8.27in
A6: 4.13in x 5.83in

3.2 调整窗口大小

如果你运行了上面的代码，你会发现，打开的页面只在窗口左上角一小块显示，看着很别扭，这是因为pyppeteer默认窗口大小是800*600，所以，调整一下吧。调整窗口大小通过方法实现，看下面代码，最大化窗口：

# -*- coding:utf-8 -*-
import asyncio
from pyppeteer import launch,chromium_downloader


def screen_size():
    '使用tkinter获取屏幕大小'
    import tkinter
    tk = tkinter.Tk()
    width = tk.winfo_screenwidth()
    height = tk.winfo_screenheight()
    tk.quit()
    return width, height

async def main():
    browser = await launch(headless=False)
    page = await browser.newPage()
    width, height = screen_size()
    # 最大化窗口
    await page.setViewport({
        'width': width,
        'height': height
    })
    await page.goto('http://www.baidu.com/')
    await asyncio.sleep(10)
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

3.3 设置userAgent
常规操作，不多说，上代码：

# -*- coding:utf-8 -*-
import asyncio
from pyppeteer import launch,chromium_downloader


def screen_size():
    '使用tkinter获取屏幕大小'
    import tkinter
    tk = tkinter.Tk()
    width = tk.winfo_screenwidth()
    height = tk.winfo_screenheight()
    tk.quit()
    return width, height

async def main():
    width, height = screen_size()
    '''
    利用launch方法传入args设定窗口大小，而后面那个disable-infobars则是去除那个浏览器的“chrome当前正在受自动化测试软件控制”这个选项卡
    '''
    browser = await launch(headless=False, args=[f'--window-size={width},{height}','--disable-infobars'])
    page = await browser.newPage()
    #设置请求头userAgent
    await page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36')
    # 最大化窗口
    await page.setViewport({
        'width': width,
        'height': height
    })
    await page.goto('http://www.baidu.com/')
    await asyncio.sleep(10)
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

3.4 执行js脚本

有时候，为了达成某些目的（例如屏蔽网站原有js），我们不可避免得需要执行一些js脚本。执行js脚本通过evaluate方法。如下所示，我们通过js来修改window.navigator.webdriver属性的值，由此绕过网站对webdriver的检测：

import asyncio
from pyppeteer import launch


async def main():
    js1 = '''() =>{
        Object.defineProperties(navigator,{
            webdriver:{
                get: () => false
                }
        })
    }'''
    js2 = '''() => {
        alert (
        window.navigator.webdriver
        )
    }'''
    browser = await launch({'headless':False,'args':['–no-sandbox'],})
    page = await browser.newPage()
    await page.goto('https://h5.ele.me/login/')
    await page.evaluate(js1)
    await page.evaluate(js2)

asyncio.get_event_loop().run_until_complete(main())

在上面代码中，通过page.evalute方法执行了两段js脚本，第一段脚本将webdriver的属性值设为false，第二段代码在此读取 webdriver属性值，输出为false。

3.5 模拟操作

pyppeteer提供了Keyboard和Mouse两个类来实现模拟操作，前者是用来实现键盘模拟，后者实现鼠标模拟（还有其他触屏之类的就不说了）。

主要来说说输入和点击：

import asyncio
from pyppeteer import launch

async def main():
    browser = await launch(headless=False, args=['–disable-infobars'])
    page = await browser.newPage()
    await page.goto('https://h5.ele.me/login/')
    await page.type('form section input','12345678999') # 模拟键盘输入手机号
    await page.click('form section button') # 模拟鼠标点击获取验证码
    await asyncio.sleep(200)
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

上面的模拟操作中，无论是模拟键盘输入还是鼠标点击定位都是通过css选择器，似乎pyppeteer的type和click直接模拟操作定位都只能通过css选择器（或者是我在官方文档中没找到方法），当然，要间接通过xpath先定位，然后再模拟操作也是可以的。下一小节中模拟登陆外卖平台就是用这种方法，不过，这种方法要麻烦一些，不推荐。

3.6 某电商平台模拟登陆

我曾经用selenium + chrome 实现了模拟登陆这个电商平台，但是实在是有些麻烦，绕过对webdriver的检测不难，但是，通过webdriver对浏览器的每一步操作都会留下特殊的痕迹，会被平台识别，这个必须通过重新编译chrome的webdriver才能实现，麻烦得让人想哭。不说了，都是泪，下面直接上用pyppeteer实现的代码：

import asyncio
from pyppeteer import launch

def screen_size():
    #使用tkinter获取屏幕大小
    import tkinter
    tk = tkinter.Tk()
    width = tk.winfo_screenwidth()
    height = tk.winfo_screenheight()
    tk.quit()
    return width, height

async def main():
    js1 = '''() =>{
            Object.defineProperties(navigator,{
                webdriver:{
                    get: () => false
                    }
            })
        }'''
    js2 = '''() => {
        alert (
        window.navigator.webdriver
        )
    }'''
    browser = await launch({'headless':False, 'args':['--no-sandbox'],})
    page = await browser.newPage()
    width, height = screen_size()
    # 最大化窗口
    await page.setViewport({
        "width": width,
        "height": height
    })
    await page.goto('https://h5.ele.me/login/')
    await page.evaluate(js1)
    await page.evaluate(js2)
    input_sjh = await page.xpath('//form/section[1]/input[1]')
    click_yzm = await page.xpath('//form/section[1]/button[1]')
    input_yzm = await page.xpath('//form/section[2]/input[1]')
    but = await page.xpath('//form/section[2]/input[1]')
    print(input_sjh)
    await input_sjh[0].type('*****手机号********')
    await click_yzm[0].click()
    ya = input('请输入验证码：')
    await input_yzm[0].type(str(ya))
    await but[0].click()
    await asyncio.sleep(3)
    await page.goto('https://www.ele.me/home/')
    await asyncio.sleep(100)
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

登录时，由于等待时间过长（我猜的）导致出现以下错误：

pyppeteer.errors.NetworkError: Protocol Error (Runtime.callFunctionOn): Session closed. Most likely the page has been closed.

在github上找到了解决方法，似乎只能改源码，找到pyppeteer包下的connection.py模块，在其43行和44行改为下面这样：

self._ws = websockets.client.connect(self._url, max_size=None, loop=self._loop)
self._url, max_size=None, loop=self._loop, ping_interval=None, ping_timeout=None)

再次运行就没问题了。可以成功绕过官方对webdriver的检测，登录成功，诸位可以自己尝试一下。

4 总结

当使用selenium+webdriver写爬虫被检测到时，pyppeteer是你得不二选择，几乎所有能在人工操作浏览器进行的操作通过pyppeteer都能实现，且能完美避开官方对webdriver的检测。pyppeteer涉及的使用方法还很多，本文只介绍了常用方法的很小很小一部分，需要一说的是，pyppeteer的中文资料真的很少，多看看官方文档吧。

基本操作总结

# -*- coding:utf-8 -*-
import asyncio
from pyppeteer import launch,chromium_downloader


def screen_size():
    '使用tkinter获取屏幕大小'
    import tkinter
    tk = tkinter.Tk()
    width = tk.winfo_screenwidth()
    height = tk.winfo_screenheight()
    tk.quit()
    return width, height

async def main():
    width, height = screen_size()
    '''
    利用launch方法传入args设定窗口大小，而后面那个disable-infobars则是去除那个浏览器的“chrome当前正在受自动化测试软件控制”这个选项卡
    '''
    browser = await launch(headless=False, args=[f'--window-size={width},{height}','--disable-infobars'])
    page = await browser.newPage()
    # 是否启用JS，enabled设为False，则无渲染效果
    await page.setJavaScriptEnabled(enabled=True)
    #设置请求头userAgent
    await page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36')
    # 最大化窗口
    await page.setViewport({
        'width': width,
        'height': height
    })
    ## 超时间见 1000 毫秒
    res=await page.goto('http://www.baidu.com/',options={'timeout': 1000})
    resp_headers = res.headers  # 响应头
    resp_status = res.status  # 响应状态
    #页面截图
    await page.screenshot({'path': 'example.png'})
    # 滚动到页面底部
    await page.evaluate('window.scrollBy(0, document.body.scrollHeight)')
    # 打印页面cookies
    print(await page.cookies())
    # 获取所有 html 内容
    print(await page.content())
    # 在网页上执行js 脚本
    dimensions = await page.evaluate(pageFunction='''() => {
                return {
                    width: document.documentElement.clientWidth,  // 页面宽度
                    height: document.documentElement.clientHeight,  // 页面高度
                    deviceScaleFactor: window.devicePixelRatio,  // 像素比 1.0000000149011612
                }
            }''', force_expr=False)  # force_expr=False  执行的是函数
    print(dimensions)
    #  只获取文本  执行 js 脚本  force_expr  为 True 则执行的是表达式
    content = await page.evaluate(pageFunction='document.body.textContent', force_expr=True)
    print(content)
    # 打印当前页标题
    print(await page.title())
    # 抓取新闻内容  可以使用 xpath 表达式
    """
    # Pyppeteer 三种解析方式
    Page.querySelector()  # 选择器
    Page.querySelectorAll()
    Page.xpath()  # xpath  表达式
    # 简写方式为：
    Page.J(), Page.JJ(), and Page.Jx()
    """
    element = await page.querySelector(".feed-infinite-wrapper > ul>li")  # 只抓取一个
    print(element)
    # 获取所有文本内容  执行 js
    content = await page.evaluate('(element) => element.textContent', element)
    print(content)
    # elements = await page.xpath('//div[@class="title-box"]/a')
    elements = await page.querySelectorAll(".title-box a")
    for item in elements:
        print(await item.getProperty('textContent'))
        # 
        # 获取文本
        title_str = await (await item.getProperty('textContent')).jsonValue()
        # 获取链接
        title_link = await (await item.getProperty('href')).jsonValue()
        print(title_str,title_link)
    await page.click("#J_SubmitStatic")
    # 使用page.pdf之前需要调用page.emulateMedia('screen')
    await page.emulateMedia('screen')
    await page.pdf({'path': 'page.pdf', 'width': '100px', 'format': 'A4'})  # 打印宽度设置为100像素
    await page.pdf({'width': '10cm'})  # 打印宽度设置为100厘米
    await asyncio.sleep(10)
    await browser.close()#关闭浏览器对象

asyncio.get_event_loop().run_until_complete(main())

模拟登陆淘宝

# -*- coding:utf-8 -*-
import asyncio
import time, random
from pyppeteer.launcher import launch  # 控制模拟浏览器用
from retrying import retry  # 设置重试次数用的


async def main(username, pwd, url):  # 定义main协程函数，
    # 以下使用await 可以针对耗时的操作进行挂起
    # 启动pyppeteer 属于内存中实现交互的模拟器
    browser = await launch({'headless': False, 'args': ['--no-sandbox'], })
    page = await browser.newPage()  # 启动个新的浏览器页面
    await page.setUserAgent(
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36')

    await page.goto(url)  # 访问登录页面
    # 替换淘宝在检测浏览时采集的一些参数。就是在浏览器运行的时候，始终让window.navigator.webdriver=false
    # navigator是windiw对象的一个属性，同时修改plugins，languages，navigator 且让
    # 以下为插入中间js，将淘宝会为了检测浏览器而调用的js修改其结果。
    await page.evaluate('''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''')
    await page.evaluate('''() =>{ window.navigator.chrome = { runtime: {},  }; }''')
    await page.evaluate('''() =>{ Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] }); }''')
    await page.evaluate('''() =>{ Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5,6], }); }''')

    # 使用type选定页面元素，并修改其数值，用于输入账号密码，修改的速度仿人类操作，因为有个输入速度的检测机制
    # 因为 pyppeteer 框架需要转换为js操作，而js和python的类型定义不同，所以写法与参数要用字典，类型导入
    await page.type('.J_UserName', username, {'delay': input_time_random() - 50})
    await page.type('#J_StandardPwd input', pwd, {'delay': input_time_random()})

    # await page.screenshot({'path': './headless-test-result.png'})    # 截图测试
    time.sleep(2)
    # 检测页面是否有滑块。原理是检测页面元素。
    slider = await page.Jeval('#nocaptcha', 'node => node.style')  # 是否有滑块
    if slider:
        print('当前页面出现滑块')
        # await page.screenshot({'path': './headless-login-slide.png'}) # 截图测试
        flag, page = await mouse_slide(page=page)  # js拉动滑块过去。
        if flag:
            await page.keyboard.press('Enter')  # 确保内容输入完毕，少数页面会自动完成按钮点击
            print("print enter", flag)
            # 如果无法通过回车键完成点击，就调用js模拟点击登录按钮。
            await page.evaluate('''document.getElementById("J_SubmitStatic").click()''')
            time.sleep(2)
            # cookies_list = await page.cookies()
            # print(cookies_list)
            await get_cookie(page)  # 导出cookie 完成登陆后就可以拿着cookie玩各种各样的事情了。
    else:
        await page.keyboard.press('Enter')
        print("print enter")
        await page.evaluate('''document.getElementById("J_SubmitStatic").click()''')
        await page.waitFor(20)
        await page.waitForNavigation()
        try:
            global error  # 检测是否是账号密码错误
            print("error_1:", error)
            error = await page.Jeval('.error', 'node => node.textContent')
            print("error_2:", error)
        except Exception as e:
            error = None
        finally:
            if error:
                print('确保账户安全重新入输入')
                # 程序退出。
                loop.close()
            else:
                print(page.url)
                await get_cookie(page)
                time.sleep(100)

# 获取登录后cookie
async def get_cookie(page):
    # res = await page.content()
    cookies_list = await page.cookies()
    cookies = ''
    for cookie in cookies_list:
        str_cookie = '{0}={1};'
        str_cookie = str_cookie.format(cookie.get('name'), cookie.get('value'))
        cookies += str_cookie
    print(cookies)
    return cookies

def retry_if_result_none(result):
    return result is None

@retry(retry_on_result=retry_if_result_none, )
async def mouse_slide(page=None):
    await asyncio.sleep(2)
    try:
        # 鼠标移动到滑块，按下，滑动到头（然后延时处理），松开按键
        await page.hover('#nc_1_n1z')  # 不同场景的验证码模块能名字不同。
        await page.mouse.down()
        await page.mouse.move(2000, 0, {'delay': random.randint(1000, 2000)})
        await page.mouse.up()
    except Exception as e:
        print(e, ':验证失败')
        return None, page
    else:
        await asyncio.sleep(2)
        # 判断是否通过
        slider_again = await page.Jeval('.nc-lang-cnt', 'node => node.textContent')
        if slider_again != '验证通过':
            return None, page
        else:
            # await page.screenshot({'path': './headless-slide-result.png'}) # 截图测试
            print('验证通过')
            return 1, page

def input_time_random():
    return random.randint(100, 151)


if __name__ == '__main__':
    username = 'xxxxxxxx'  # 淘宝用户名
    pwd = 'xxxxxxxxx'  # 密码
    url = 'https://login.taobao.com/member/login.jhtml?style=mini&css_style=b2b&from=b2b&full_redirect=true&redirect_url=https://login.1688.com/member/jump.htm?target=https://login.1688.com/member/marketSigninJump.htm?Done=http://login.1688.com/member/taobaoSellerLoginDispatch.htm®= http://member.1688.com/member/join/enterprise_join.htm?lead=http://login.1688.com/member/taobaoSellerLoginDispatch.htm&leadUrl=http://login.1688.com/member/'
    # 协程，开启个无限循环的程序流程，把一些函数注册到事件循环上。当满足事件发生的时候，调用相应的协程函数。
    loop = asyncio.get_event_loop()
    # 将协程注册到事件循环，并启动事件循环
    loop.run_until_complete(main(username, pwd, url))

pyppeteer OSError: Unable to remove Temporary User Data

运行pyppeteer时不时会报这个错误，虽然不影响到程序得运行，但是会影响到程序进程得关闭，这个错误是代表kill chrome 进程时失败。

然后再查看进程发现程序关闭了，chrome进程依然在

解决办法：

不要设置'args': ['--no-sandbox']

我的问题是这样解决的，

browser = await launch({'headless': False,'userDataDir':r'D:\temp'})

如果设置了userDataDir，有人说，不要设置–no-sandbox这个参数，但是并不能解决这个问题，今天看了pyppeteer的文档，想起来这个问题，原来我项目的临时数据目录是存在了c盘，但是当删除它的时候，应该是遇到了权限问题，没有权限没法删除啊，所以，如有遇到类似错误的朋友，自己在一个有权限删除的路径下，创建一个存储临时数据的目录，记住这个路径要有权限删除的哈。

也有可能是忘记关闭页面导致的错误，

await page.waitFor(30)
await page.close()

pyppeteer地址：https://github.com/miyakogi/pyppeteer

参考：https://blog.csdn.net/qq_42196922/article/details/85337709
https://blog.csdn.net/chenmh12/article/details/91296647
https://blog.csdn.net/weixin_44106928/article/details/89381209
https://blog.csdn.net/jiduochou963/article/details/88200217
https://zhuanlan.zhihu.com/p/63634783
http://www.pianshen.com/article/342820072/
https://www.cnblogs.com/zhang-zi-yi/p/10820813.html
https://www.jianshu.com/p/e52a287e0299
https://blog.csdn.net/deeplies/article/details/80861761#pagepdfoptions

https://blog.csdn.net/weixin_44143067/article/details/89678931
https://blog.csdn.net/qq_29570381/article/details/89737134
https://segmentfault.com/a/1190000018873537?utm_source=tag-newest

你可能感兴趣的:(爬虫)

Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
爬虫技术抓取网站数据被限制怎么处理 Bearjumpingcandy 爬虫
爬虫技术用于抓取网站数据时，可能会遇到一些限制，常见的包括反爬机制、速率限制、IP封禁等。以下是应对这些情况的一些策略：尊重robots.txt：每个网站都有robots.txt文件，遵循其中的规定可以避免触犯网站的抓取规则。设置合理频率：控制爬虫请求的速度，通过添加延迟或使用代理服务器，减少对目标网站的压力。使用代理：获取并使用代理IP地址可以更换访问来源，降低被识别的可能性。模拟用户行为：使用
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML代码，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML中提取出所需的数据，如文
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是指通过程序自动访问网页并提取数据的技术。一般来说，爬虫技术包含以下几个步骤：确定目标网站：确定需要抓取的网站，并了解其页面结构和数据特点。分析页面结构：分析网页的结构和源代码，找到需要抓取的数据在页面中的位置和标识。编写爬虫程序：使用编程语言（如Python）编写爬虫程序，实现对目标网站的自动访问和数据提取。处理抓取数据：对抓取到的数据进行清洗、去重、整合等处理，以便后续的分析和利用。爬
爬虫之隧道代理：如何在爬虫中使用代理IP？ 2401_87251497 python 开发语言爬虫网络 tcp/ip 网络协议
在进行网络爬虫时，使用代理IP是一种常见的方式来绕过网站的反爬虫机制，提高爬取效率和数据质量。本文将详细介绍如何在爬虫中使用隧道代理，包括其原理、优势以及具体的实现方法。无论您是爬虫新手还是有经验的开发者，这篇文章都将为您提供实用的指导。什么是隧道代理？隧道代理是一种高级的代理技术，它通过创建一个加密的隧道，将数据从客户端传输到代理服务器，再由代理服务器转发到目标服务器。这样不仅可以隐藏客户端的真
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
python抓取网页内容401应该用哪个库_python3使用requests模块爬取页面内容入门坂田月半
python的爬虫相关模块有很多，除了requests模块，再如urllib和pycurl以及tornado等。相比而言，requests模块是相对简单易上手的。通过文本，大家可以迅速学会使用python的requests模块爬取页码内容。1.Requests唯一的一个非转基因的PythonHTTP库，人类可以安全享用。官网：http://cn.python-requests.org/zh_CN/
【Python爬虫】百度百科词条内容 PokiFighting 数据处理 python 爬虫开发语言
词条内容我这里随便选取了一个链接，用的是FBI的词条importurllib.requestimporturllib.parsefromlxmlimportetreedefquery(url):headers={'user-agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.
爬虫和代理IP的关系 xiaoxiongip666 爬虫 tcp/ip 服务器
爬虫和代理IP之间的关系是相互依存的。代理IP为爬虫提供了绕过IP限制、隐藏真实IP、提高访问速度等能力，使得爬虫能够更有效地进行数据抓取。然而，在使用时也需要注意合法性、稳定性、成本以及隐私保护等问题。
python语言爬虫爬取歌曲程序代码 EYYLTV python 爬虫 android
importrequestssong_urls=[“http://music.163.com/song/media/outer/url?id=25795016.mp3”,“https://m703.music.126.net/20240915140140/670dfe5c0144991d4cb778d6662fd762/jd-musicrep-privatecloud-audio-public/o
python语言爬虫爬取歌曲代码X EYYLTV python 爬虫 java
importrequestssong_urls=[“https://m804.music.126.net/20240915142147/4e01caa69abda60b165e185607805ee1/jdyyaac/obj/w5rDlsOJwrLDjj7CmsOj/30379084686/b56a/dbd5/39fc/792d87f5d7014bb78547ec3804eeaac5.m4a?au
拼多多商家电话采集工具爬虫教程分享小电商达人爬虫
以下是使用Python编写的拼多多商家电话采集爬虫教程：一、前期准备安装Python：从Python官方网站下载并安装最新版本的Python，安装过程中注意勾选将Python添加到系统路径选项。安装相关库：在命令提示符中运行以下命令来安装所需的库。pipinstallrequests：用于发送HTTP请求获取网页内容。pipinstallbeautifulsoup4：用于解析HTML页面。二、分析
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
10个高效的Python爬虫框架，你用过几个？进击的C语言 python
小型爬虫需求，requests库+bs4库就能解决；大型爬虫数据，尤其涉及异步抓取、内容管理及后续扩展等功能时，就需要用到爬虫框架了。下面介绍了10个爬虫框架，大家可以学习使用！1.Scrapyscrapy官网：https://scrapy.org/scrapy中文文档：https://www.osgeo.cn/scrapy/intro/oScrapy是一个为了爬取网站数据，提取结构性数据而编写的
python爬虫(5)之CSDN It is a deal️ 小项目 python json 爬虫
CSDN的爬虫相对于doubatop250更加简单，一般只需要title和url即可下面是相关的代码：#爬虫之csdn#分析urlhttps://www.csdn.net/api/articles?type=more&category=python&shown_offset=0（firstpage）#https://www.csdn.net/api/articles?type=more&categ
python学习第七节：正则表达式一只会敲代码的小灰灰 python学习 python 学习正则表达式
python学习第七节：正则表达式正则表达式基本上在所有开发语言中都会使用到，在python中尤为重要。当我们使用python开发爬虫程序将目标网页扒下来之后我们要从网页中解析出我们想要的信息，这个时候就需要正则表达式去进行匹配。importrere的常量re模块中有9个常量，常量的值都是int类型！（知道就行）修饰符描述re.l使匹配对大小写不敏感re.L做本地化识别(locale-aware)
分布式框架Celery七(Django-Celery-Flower实现异步和定时爬虫及其监控邮件告警) yjjpp2301 Celery 分布式 django python 后端
Django中集成方式安装模块pipinstallDjango==3.2.22pipinstallcelerypipinstallredispipinstalleventlet#在windows环境下需要安装eventlet包-----------pipinstalldjango-celery-beatpipinstalldjango-celery-resultspipinstalldjango-
生产者消费者模式_Labview基础之生产者消费者设计模式（事件） weixin_39532699 生产者消费者模式
1绪论近期，开了一个QQ群，刚开始的目的也是想多拉写软件相关的大神，有问题的时候也可以交流交流。记得当时有个软件在写的时候遇到了一个棘手的问题，outlook邮箱配置账户密码的问题，到现在也没解决，算了，也不是很迫切。2000人群就留在那里爬虫发单吧！建群以后才发现，原来这一块的小白还挺多，总结起来就一个原因：做这个软件的大多数都不是软件出生，都是因为临时要搭建一个上位机平台，匆匆入门......
Python——爬虫星和月 python
当编写一个Python爬虫时，你可以使用BeautifulSoup库来解析网页内容，使用requests库来获取网页的HTML代码。下面是一个简单的示例，演示了如何获取并解析网页内容：importrequestsfrombs4importBeautifulSoup#发送HTTP请求获取网页内容url='https://www.example.com'#要爬取的网页的URLresponse=requ
Python数据分析之股票信息可视化实现matplotlib Blogfish Python3 大数据 python 可视化数据分析
今天学习爬虫技术数据分析对于股票信息的分析及结果呈现，目标是实现对股票信息的爬取并对数据整理后，生成近期成交量折线图。首先，做这个案例一定要有一个明确的思路。知道要干啥，知道用哪些知识，有些方法我也记不住百度下知识库很强大，肯定有答案。有思路以后准备对数据处理，就是几个方法使用了。接口地址参考：Tushare数据涉及知识库：tushare-一个财经数据开放接口；pandas-实现将数据整理为表格，
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本