weixin_39931146

python log函数_求你别再花大价钱学 Python 之爬虫实战

- - 引子
  - Python 基本概念
  - Python 优势和劣势
    - 优势
    - Python 的劣势

- - Python 安装设置
  - Python 基本语法
    - 程序例子
    - Python 基本语法

- - Python 爬虫实现
    - 爬虫相关 HTTP 协议概念
    - requests 库使用
    - 解释内容 lxml 使用

- - 高级话题
    - 如何应对站点的 IP 频率控制
    - 如何应对站点使用 JS 渲染前端
    - 如何应对登录图片验证码
    - 如何应对登录滑动验证码
    - 如何抽取正文内容去广告

- - 简单总结

引子

现在很多平台把 Python 当做成功学传播，制作了很多昂贵的 Python 课程，其中还不乏部分粗制滥造的课程。

作为 10 年 Python 使用经验的程序员，觉得有必要告诉大家，Python 入门其实很简单，完全没有必要花大价钱去学习。

本文从比较流行爬虫为例，抛砖引玉，介绍 Python 在公开数据获取上的强大和灵活性。

Python 基本概念

Python 是荷兰计算机科学家 Guido van Rossum 发明的一款解释型、强类型、动态的、支持对象的高级程序设计语言。

初期 Python 仅仅是个人项目，现在已经发展成了时下最热门的编程语言之一，2020 年初在 TIOBE 榜单稳定排第三。Python 在人工智能的应用领域占领绝对优势。

Python 是解释性语言，非常适合作为入门的程序设计语言，它无须编译，编写完成即可运行。

尽管 Python 是动态语言，但它的数据类型是强类型的，避免了像 JS 这样“过分动态”为初学者带来各种奇怪的困惑。

Python 在支持面向对象编程，在发展过程中不断借鉴其他语言的强项。语言特性非常丰富，功能强大。

Python 语言自带类库足够好用，其生态系统也非常完善。围绕着 Python 生态的类库，领域丰富，质量又非常高。这是非常难得的。相比 npm 管理的库，虽然数量极多，但总体质量就不敢恭维了。

Python 优势和劣势

优势

1. Python 入门简单

Python 语法比较简单，核心关键字数量较少，结构清晰。为了达到结构清晰的目的，Python 用代码缩进来表达程序结构，在一般的编程语言，缩进往往只是一种美化代码的方法。这一点非常适合强迫症用户。

2. Python 有丰富的标准库

Python 内置的标准模块非常丰富，可以满足一般科学计算、文本处理、后端服务等需求，Python 甚至内置了一个 Demo 性质 HTTP 服务器。用户可以借助一个丰富的标准库，用较少的代码就可以构建一个规模较大的应用。对语言流行的助力是非常大的。

3. Python 生态优秀

Python 在 Web 框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等领域都有非常高质量的模块和库。使用高质量的库进行开发，系统中的坑自然会少很多。

基于以上原因，使用 Python 来进行项目开发的效率是非常高的。成为资料收集、自然语言处理、办公自动化工具、居家旅行必备良品。所谓的 Python 用户哲学：人生苦短，我用 Python。

Python 的劣势

1. Python 2 和 Python 3 的版本不兼容

Python 是一门进化中的语言，Python 2 内部的各版本有轻微的兼容问题，Python 3 在设计的时候为了轻装上阵，干脆不兼容 Python 2。Python 2 版本的程序在 Python 3 下很有可能运行失败，且无法简单 fix。对于初学者，这里建议直接以 Python 3 为学习的对象，同时了解 Python 2 的版本差异。

本文也是以 Python 3 为例子进行讲解的。

2. Python 的性能不够好

Python 程序运行效率慢，一方面因为是动态语言的问题，其次是 GIL（全局解释器锁），让每次解释字节码的时候都需要申请这个全局解释器锁。根据微信团队某大牛举的例子：团队内有人使用 Python 来实现一个重要算法，被主管嫌弃运行太慢。用 C 来实现，性能有数十倍提升。以为是动态语言的问题，后来再用 Perl 实现一次，Perl 版本相较 Python 仍有 10 倍性能提升。

虽然详细内情不得而知，但可以看出 Python 对 CPU 的利用效率的确有限。

其次，Python 程序运行期间难以精确控制内存占用，在使用内置类库来处理大规模数据的时候，占用的内存可能越来大，引起 OOM 问题。

总的来说，Python 是值得深入学习使用的，未来的计算机的算力必然不断进步不断变得更加廉价，人工人力的成本是越来越贵的。

Python 安装设置

这里介绍 Python 3 在 Windows 系统下的安装步骤。

1. 打开 Windows 版本下载页

https://www. python.org/downloads/wi ndows/

根据你的 Windows 版本，选择合适的版本安装包 *executable installer，可直接安装最新的 Python 版本。

2. 安装并设置路径

一步步安装，最后在安装程序中设置好环境变量。

3. 检查 Python 版本

python -V

4. 运行 Python 交互解释器

直接运行 Python 命令，得到一个交互运行 Python 交互解释器，这个很方便对类库进行测试和体验。

python
Python 3.8.1 (tags/v3.8.1:1b293b6, Dec 18 2019, 22:39:24) [MSC v.1916 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import datetime
>>> print( datetime.datetime.now() )
2020-02-07 10:46:49.266547

Python 基本语法

程序例子

通过一个例子看 Python 程序：

#! env python

#内置列表数据结构
url_list = [ 'http://ziyuan3721.com',
'https://www.baidu.com',
'ftp://abc.com'
]

#循环是这样的
for url in url_list:
    #条件判断
    if url.startswith('http:'):
        port = 80
    elif url.startswith('https:'):
        port = 443
    elif url.startswith('ftp:'):
        port = 21

    print("port for {} is: {}".format( url, port ) )

#变量的作用域
print( "Last", url, port )

把源码保存为 p1.py，运行：

python p1.py

运行结果：

port for http://ziyuan3721.com is: 80
port for https://www.baidu.com is: 443
port for ftp://abc.com is: 21
Last ftp://abc.com 21

以上例子虽然简单，但演示了 Python 语言的主要特点：

Python 的变量是第一次赋值时自动生成，无须声明；
Python 内置了很多数据类型；
字符串对象的方法比较丰富；
Python 使用缩进控制程序结构；
变量的作用域会适当“提升”。

如果读者有其他程序设计的经验，看完这个程序，可以说已经基本掌握了 Python 脚本写作的所需语法。事实上，很多非专业人员可以用 Python 语法作为“胶水”，把一些标准类库和一些第三方类库功能粘合在一起，构造出非常实用的程序（图片批量去水印、注册机、发贴机之类）。再也不用去学什么易语言之类的。

Python 基本语法

虽然 Python 语法入门是如此简单，但也有必要掌握一下 Python 的一些基本语法概念。

1. 函数/方法

p2.py

#! env python

def log(s):
    print(s)

log('hello file')

if __name__ == '__main__':

    log('hello main')

用 def 指令，可以定义一个函数/方法。冒号: 缩进下的代码是函数体。缩进在 Python 中是严格限制的，不能使用一些比较落后的文本编辑器对 Python 代码进行格式化，因为它们可能会破坏程序结构。建议使用 3 个或者 4 个空格做代码缩进。

函数自然是相对封闭的，在函数体内创建的变量，只能在函数体内可见。

运行 python p2.py，打印出两行日志：

hello file
hello main

2. 模块

模块是 Python 代码组织单元，使用内置模块 datetime：

import datetime

print( datetime.datetime.now() )

在 Python 交互解释器里面，可以用 dir 方法来列举模块内的所有成员（类/对象/方法）：

>>> import datetime
>>> dir(datetime)
['MAXYEAR', 'MINYEAR', '__doc__', '__file__', '__name__', '__package__', 'date', 'datetime', 'datetime_CAPI', 'time', 'timedelta', 'tzinfo']

最简单的模块是一个 py 文件，解释器运行，把 p2.py 作为自定义模块引入。

python
Python 3.8.1 (tags/v3.8.1:1b293b6, Dec 18 2019, 22:39:24) [MSC v.1916 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import p2
hello file
>>>

看到屏幕只打印了 hello file，和直接运行 python p2.py 不同。

原因是模块内置变量 __name__ 是随着运行环境改变的，当模块 p2 被作为运行入口时，它是的值是 '__main__'；当被其他模块引入时，它的取值是 'p2'。

可以在解释器中检查：

>>> print(p2.__name__)
p2

dir 查看一下，p2 模块的 log 方法被导出。

>>> dir(p2)
['__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__spec__', 'log']

可以直接调用 p2.log：

>>> dir(p2)
['__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__spec__', 'log']
>>> p2.log("hi p2")
hi p2

不仅模块方法可以导出，模块变量也可以导出。

模块的更上一层管理结构是包，多个相关的模块可以组成一个包来发布。

3. 类

Python 是支持面向对象的，以非常直观的方法绑定对象的方式来组织面向对象的代码。

用 class 指令来定义类：

class Logger:

    def __init__(self, level):
        self.log_method = print 
        self.level = level

    def log(self, s):
        self.log_method(s)

if __name__ == '__main__':

    mylog = Logger(0)
    mylog.log('in main')

_init_ 是构造方法，log 是自定义方法。和 C++/Java 不同，两个方法都必须把方法绑定的对象明显列出，就是上面的 self 对象。self 不是关键字，只是 Python 老铁的一个约定习惯，用 this 和 me 等名字也可以。在调用对象的方法时，对象已经绑定了，参数列表不需要再给出对象。

注意：虽然 Python 可以说一切皆对象，使用 Python 进行编程不强求使用面向对象的思维。可以根据自己的水平和解决问题的类型采取合适的程序架构。

至此，用 Python 来进行实现爬虫的知识准备已经足够。下面进行 Python 爬虫的实现细节。

Python 爬虫实现

因为 HTTP 协议是简单字符协议，实现爬虫可以很简单。但是站长需要保护站内资源，采取各种反爬虫手段和爬虫对抗，真正实用爬虫会比较复杂。用好爬虫，需要对 HTTP 相关协议进行比较深入的了解。

这里不会引入所谓的爬虫框架，框架固然可能比较高效，但它隐藏了细节，学习它无助于我们理解爬虫的原理。手动实现的爬虫更加灵活。

爬虫相关 HTTP 协议概念

Web 页面的打开，需要浏览器和服务器进行多次的 HTTP 交互。HTTP 协议是一个明文字符协议，对协议的研究非常方便。

HTTP 最常用的方法是 post 和 get，最简单的爬虫就是 get 一个 URL，对返回内容进行解释。

研究 HTTP 请求最方便的办法，是在使用 Chrome 请求 Web 页面的时候，打开 F12，分析 HTTP 的请求/返回。使用 Postman/curl 软件，编辑 HTTP 请求数据包不断测试 Web 服务器的返回。

但 Web 页的交互往往是复杂的，经常遇到的问题可能有：

服务器返回的内容是压缩的
服务器返回了 3xx 跳转，需要浏览器进一步处理
服务器返回了 JS 内容，浏览器执行 JS 才能渲染页面
服务器识别客户端浏览器版本，返回不同的内容。甚至拦截某些客户端
服务器要求客户端带 cookie 访问
服务器对用户进行挑战 CAPTCHA 验证

种种复杂问题，对爬虫的实现者都是挑战。为了更加高效的实现爬虫，建议实用 requests 库。requests 是奇才 kennethreitz 实现的一个 HTTP 访问库，它封装了 HTTP 协议的细节，号称是一个给人类使用的 HTTP 请求类库。

requests 库使用

requests 虽然好用，但不是 Python 内置类库，需要安装。

使用 pip 命令，-i 指定国内的 pypi 源，下载 requests 库：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests

使用 request 请求网页：

import requests

def get_url(url):
    #使用get方法请求url
    res = requests.get(url)
    return res

def write(content):
    fn = './a.html'
    f  = open(fn,'w')
    f.write(content)
    f.close()

if __name__ == '__main__':

    import sys
    url = sys.argv[1]
    res = get_url(url)

    #输出res内部成员
    print( dir(res) )

    #打印http相应码
    print( res.status_code )

    #导出网页源码到 a.html
    write( str(res.content, encoding='utf8') )

运行 python p4.py https://www.qichacha.com：

['__attrs__', '__bool__', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__nonzero__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_content', '_content_consumed', '_next', 'apparent_encoding', 'close', 'connection', 'content', 'cookies', 'elapsed', 'encoding', 'headers', 'history', 'is_permanent_redirect', 'is_redirect', 'iter_content', 'iter_lines', 'json', 'links', 'next', 'ok', 'raise_for_status', 'raw', 'reason', 'request', 'status_code', 'text', 'url']
200

看到返回的 res 对象的成员，最有用的是 status_code （HTTP 状态码）和 content（返回内容）。

打开内容文件 a.html，看到 qichacha 拦截了我们的请求，返回了错误服务：


 

405错误页面

这和浏览器打开访问 https://www.qichacha.com 不同，肯定是 requests 库发起的 get 请求的参数和浏览器不同。

再运行 python p4.py https://httpbin.org/get（注 https://httpbin.org/ 是一个 HTTP 调试工具网站），看到返回的 body：

{
  "args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.22.0", 
    "X-Amzn-Trace-Id": "Root=1-5e3cf28a-447225d89eb73c98965842d8"
  }, 
  "origin": "223.198.155.159", 
  "url": "https://httpbin.org/get"
}

看到默认的 User-Agent 的值是 python-requests/2.22.0，容易想到是 http://qichacha.com 拦截了未知的 User-Agent。我们可以伪造 Chrome 的请求头进行请求。

用 Chrome 浏览器打开 https://httpbin.org/get（这个接口输出了客户端的 HTTP 请求头）：

{
  "args": {}, 
  "headers": {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Accept-Language": "zh-CN,zh;q=0.9", 
    "Host": "httpbin.org", 
    "Sec-Fetch-Dest": "document", 
    "Sec-Fetch-Mode": "navigate", 
    "Sec-Fetch-Site": "none", 
    "Upgrade-Insecure-Requests": "1", 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36", 
    "X-Amzn-Trace-Id": "Root=1-5e3cf674-0f5f7ff1792e4ab6064d2451"
  }, 
  "origin": "223.198.155.159", 
  "url": "https://httpbin.org/get"
}

参考上面的浏览器设置，去掉 Host 和 X-Amzn-Trace-Id 这些多余的头, 我们可以为 requests 的 get 请求加入 headers 参数，尽量保持和 Chrome 浏览器一致。

p5.py

#! env python

# -*- coding=utf8 -*- 
# 指定字符编码为 utf8

import requests

def build_headers():
    return {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Accept-Language": "zh-CN,zh;q=0.9", 
    "Sec-Fetch-Dest": "document", 
    "Sec-Fetch-Mode": "navigate", 
    "Sec-Fetch-Site": "none", 
    "Upgrade-Insecure-Requests": "1", 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36"
  }

def get_url(url):
    #实用get方法请求url
    headers = build_headers()
    headers = ''
    res = requests.get(url, headers=headers)
    return res

def write(content):
    fn = './a.html'
    f  = open(fn,'w',encoding='utf8')
    f.write(content)
    f.close()

if __name__ == '__main__':

    import sys
    url = sys.argv[1]
    res = get_url(url)

    #输出res内部成员
    print( dir(res) )

    #打印http相应码
    print( res.status_code )

    #导出网页源码
    write( str(res.content, encoding='utf8') )

运行 python p5.py 前，先更改 cmd codepage 参数，支持 UTF-8：

chcp 65001
python p5.py

输出的内容 a.html 和 Chrome 浏览器看到的源码基本一致。看到请求头已经处理好了。

实用 requests 模块请求，需要灵活设置 headers 参数。常见的 headers 设置项：

设置 cookie：多数网站实用 cookie 来定位用户身份，如果不带 cookie 浏览页面可能出错
设置 Referer：有的网站严格使用 Referer 来做图片防盗链，需要针对性设置 Referer 来突破封禁
设置 proxy_forward_for：伪造代理服务器头，绕过较弱的 IP 频率拦截
设置 User-Agent：可以防止通用的拦截，也可以设置 User-Agent 为手机 agent 专门爬去 Wap H5 格式的内容。Wap 页面内容通常比 Web 更简单，处理起来比较简单高效。

一个好用的类库，不仅需要入门简单，更需要的是控制的细节足够丰富。requests 库提供了灵活的控制接口，方便各种访问任务，经常需要控制的细节有：

控制访问超时

r = requests.get('https://github.com', timeout=(3.05, 27))

自定义身份验证：假设我们有一个 Web 服务，有一个古怪的验证方法，仅在 X-Pizza 头被设置为一个密码值的情况下才会有响应。

from requests.auth import AuthBase

class PizzaAuth(AuthBase):
    """Attaches HTTP Pizza Authentication to the given Request object."""
    def __init__(self, username):
        # setup any auth-related data here
        self.username = username

    def __call__(self, r):
        # modify and return the request
        r.headers['X-Pizza'] = self.username
        return r

然后就可以使用我们的 PizzaAuth 来进行网络请求：

>>> requests.get('http://pizzabin.org/admin', auth=PizzaAuth('kenneth'))

关掉 HTTPS 证书校验：我们实现的是爬虫，多数情况下没必要校验证书。

>>> requests.get('https://github.com', verify=False)

使用代理服务器：这可以隐藏访问者的身份，后面我们提到这一点。

具体用法细节可参考：

https:// requests.readthedocs.io /zh_CN/latest/

解释内容 lxml 使用

内容爬回来了，怎样对内容进行解析使用呢？有很多类库可以做 HTML 内容解析，这里推荐 lxml 库对 HTTP 返回内容进行处理。

lxml 库支持使用 xpath 语法来对 HTML 文档进行解析，用 xpath 来解释 HTML 速度非常快。

lxml 的安装：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple lxml

使用 lxml 的难点是观察文档结构，写好 xpath 查询语句。所以我们从一个简单的 HTML 文档入手：





  
    名字 
    数量
    
       
       Pyton 进阶
       
       
       Pyton cook book

p7.py

#! env python

# -*- coding=utf8 -*- 

import lxml

doc_html = '''




  
    名字 
    数量
    
       
       Pyton 进阶
 10
       
       
       Pyton cook book
 2
       
    
  


'''

if __name__ == '__main__':

    from lxml import etree

    root = etree.HTML(doc_html)

    #nodes 是节点列表
    nodes = root.xpath('//div [@id="info"]')
    if nodes :
        node = nodes[0]
        #print( dir(node) )
        print( "attrib ID " + node.attrib['id'] )
        print( "tag " + node.tag )
        print( "text [" + node.text  + "]")

    nodes = root.xpath('//div [@id="info"]/ul/li')

    for node in nodes :
        names = node.xpath('./div [@class="name"]/text()')
        values = node.xpath('./div [@class="value"]/text()')
        print( "name " + names[0]  + ' value ' + values[0])

运行结果：

attrib ID info
tag div
text [
    ]
name Pyton 进阶 value 10
name Pyton cook book value 2

etree.HTML 返回一个 Element 类型的节点，Element 节点支持 xpath() 方法用 xpath 语法定位文档的其他节点：

//div 表示任意级别下的 div 节点
./div 表示当前节点下的 div 节点
//div [@id="info"] 只选择属性等于 info 的节点

xpath 的语法可以参考：

https://www. w3school.com.cn/xpath/i ndex.asp

只要细心对页面进行分析，使用 etree 相关接口就可以对所有站内所有页面进行解释，把非结构化的页面转化为结构化的数据。

现在很多站点使用前后端分离的架构（如 Vue），前端使用 AJAX 接口从后端获取 xhr 数据，数据一般都是 JSON 格式的，这样我们不需要使用 lxml 解释这么费劲，直接把 XHR 数据用 Python 的 JSON 模块处理就可以了。

举例：

>>> import json
>>> xhr='{ "key": "python cookbook" , "value" : "10" }'
>>> kv=json.loads(xhr)
>>> kv["key"], kv["value"]
('python cookbook', '10')

高级话题

有的 Web 站点是搜索引擎友好的，所有内容都可以简单爬取走。但提供信息查询服务的站点大多不希望自己的宝贵资料被爬走。他们会采取各种办法封锁爬虫，保护数据资源。

无论站点多复杂，只要使用合适的对策，基本没有爬不到的站点。下面尝试应对一些常见的反爬虫策略。既然是对抗，一定需要多次测试方可奏效。

如何应对站点的 IP 频率控制

Web 站点对访问的客户 IP 进行计数，如果一段时间访问的次数大于某个值，便把当前 IP 封禁一段时间。

解决的方法有：

降低访问频率
使用 HTTP 代理服务器

代理主要有 HTTP 代理和 Sock5 代理，下面是使用 HTTP 代理的代码：

import requests
proxies = {'http': 'http://127.0.0.1:1080', 'https': 'http://127.0.0.1:1080'}
url = 'http://www.baidu.com'
requests.post(url, proxies=proxies, verify=False)

http://127.0.0.1:1080 这个代理地址只是一个示范，需要先保证代理地址可用，程序才能正常运行。

HTTP 代理服务器，可以自己搭建，也可以使用网上一些免费使用的服务。

这是一个开源的 HTTP 代理收集接口：

https:// github.com/jhao104/prox y_pool

不过免费的代理服务器的稳定较差，如果需要稳定的 IP 建议自己购买可换 IP 的 VPS 服务器。在 VPS 上搭建一个代理服务器，定期拨号更换 IP。

另外也有供应商在出售代理 IP 服务，一天可以使用数万的 IP 地址，对于绝大多数场景都是够用的。

如何应对站点使用 JS 渲染前端

很多站点为了防爬，使用 JS 来渲染 HTML 内容，这种站点一般是不欢迎搜索引擎的。

通常破解方法有：

1. 阅读 JS 代码，找到内容拼接逻辑

如果 JS 逻辑比较简单，这个方法是简单高效的。但现在很多 JS 代码都是高度混淆的，又引入了大量的外部 JS 类库，阅读代码并不容易。

2. 使用 WebDriver 无头浏览器

使 WebDriver 的方式，可以比较完美模仿浏览器，自然可以执行 JS。无论前端多么复杂，WebDriver 都可以渲染出来。

由于方法 1 对技术要求太高，成功率也偏低，我们主要讲怎么使用无头浏览器来实现爬虫。

经典无头浏览器有 PhantomJS、Selenium，但我们介绍一种更加高效的 Pyppeteer。Pyppeteer 实际上是 Puppeteer 在 Python 的一个封装库，Pyppeteer 的核心是 Google Chromium 浏览器，所以渲染的效果堪称完美。Pyppeteer 使用异步 IO 的方式控制 Chromium 浏览器，所以性能是有保证的。

下面我们详细讲解如何安装和使用 Pyppeteer。

自动安装 Pyppeteer 需要上 http://google.com，很多人不具备这个条件，就算有条件速度也很慢。我们选择手动安装，安装过程略为复杂。

1. 下载 Chromium

国内下载地址为：

https:// npm.taobao.org/mirrors/ chromium-browser-snapshots/

选择符合 Windows 的 Chromium 版本并下载，解压在 C:chrome-win 目录。

2. 安装 Pyppeteer

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple  pyppeteer

3. 编辑 Pyppeteer 安装包

在 Python 安装目录下找到第三方包的安装目录，再找到 Pyppeteer 包目录的 chromium_downloader.py 文件，让它找到我们下载的 Chromium。

我的路径是：

C:UsersdevAppDataLocalProgramsPythonPython38-32Libsite-packagespyppeteer

供参考。

编辑方法：找到 chromiumExecutable 设置，修改 Chromium 路径，我的是 Win32 系统，所以我的修改是：

'win32': DOWNLOADS_FOLDER/REVISION/'chrome-win32'/'chrome.exe'

'win32': DOWNLOADS_FOLDER/'c:/chrome-win/chrome.exe'

修改后：

chromiumExecutable = {
    'linux': DOWNLOADS_FOLDER/REVISION/'chrome-linux'/'chrome',
    'mac': (DOWNLOADS_FOLDER/REVISION/'chrome-mac'/'Chromium.app' /
            'Contents'/'MacOS'/'Chromium'),
    #'win32': DOWNLOADS_FOLDER/REVISION/'chrome-win32'/'chrome.exe',
    'win32': DOWNLOADS_FOLDER/'c:/chrome-win/chrome.exe',
    'win64': DOWNLOADS_FOLDER/REVISION/'chrome-win32'/'chrome.exe',
}

再更新一下 WebSockets 版本：

pip uninstall websockets

pip  install -i https://pypi.tuna.tsinghua.edu.cn/simple  websockets==6.0

写一个测试脚本看看 Pyppeteer 工作是否正常：

import asyncio
from pyppeteer import launch

async def get_url(fn, url):

    print ("GO FOR ", url , " w ", fn)
    #browser = await launch( headless = False)
    #browser = await launch(  )
    #browser = await launch( {'args':['--no-sandbox']} )
    #启动浏览器，可见模式
    browser = await launch( headless = False)
    #新建页面
    page = await browser.newPage()
    await page.setUserAgent(
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36')
    #转到url, 关闭超时
    await page.goto(url, { 'timeout': 0 })
    #等待加载
    await page.waitFor(2000)
    content = await page.content()
    cookies = await page.cookies()
    #输出截屏
    await page.screenshot( {'path': fn } )
    #关闭
    await browser.close()

if __name__ == '__main__':
    #异步运行，等待返回
    asyncio.get_event_loop().run_until_complete( 
          get_url('qichacha.png','https://www.qichacha.com')
    )

如果运行无出错，当前目录有 qichacha.png 的截屏文件。

page.content() 是渲染后的 HTML 内容。HTML 内容可以使用 lxml 来处理。
page.cookies() 是浏览器得到的 cookie。获取到 cookie 后，也许就不需要使用 pyppeteer 处理后续的爬取任务，把 cookie 放在 headers 里面用 requests 处理往往更加方便。

page 对象还可以把 Web 页生成 PDF 文档 page.pdf()。

如何应对登录图片验证码

登录图片验证码的破解，只有一个办法就是图片识别。

大致上也有两个实用手段

----------

文章发在本人gitchat平台，需要请前往：

https://gitbook.cn/books/5e3e976f89a91a7be03b9810/index.html

你可能感兴趣的:(python,log函数)

OmniParser V2 安装与使用教程 Leaton Lee OmniParser V2 人工智能 deepseek
1.环境准备操作系统：支持Windows/macOS/Linux。Python版本：确保已安装Python3.7或更高版本。包管理工具：使用pip（Python自带）。安装环境：condacreate-n"omni"python==3.12condaactivateomnipipinstall-rrequirements.txt确保您已将V2权重下载到weights文件夹中（确保标题权重文件夹名为
解决Python中递归报错的问题硫酸锌01 Python python
1、问题背景Duringhandlingoftheaboveexception,anotherexceptionoccurred:有没有见到过这个报错？当出现这个报错的时候，意味着报错信息特别特别地长，难以关注到有效信息。那么这种报错是如何产生的？以及如何设计才能避免产生这种冗长的报错？2、我的需求如果我有一个Python的多维数组列表：lst=[[[1,2],[3,4]],[[5,6],[7,8
蓝桥杯Python赛道备赛——Day6：算术（二）（数学问题） SKY YEAM 蓝桥杯备赛蓝桥杯 python 职场和发展
本期博客是蓝桥杯备赛中算术（数学问题）的第二期，包括：快速幂算法、逆元（模意义下的倒数）、组合数计算和排列数计算。每一种数学问题都在给出定义的同时，给出了其求解方法的示例代码，以供低年级师弟师妹们学习和练习。前序知识：（1）Python基础语法算术（二）（数学问题）一、快速幂算法二、逆元（模意义下的倒数）三、组合数计算四、排列数计算一、快速幂算法1.定义：快速计算大指数幂的算法。2.算法原理：二进
蓝桥杯Python赛道备赛——Day1：基础算法 SKY YEAM 蓝桥杯备赛蓝桥杯 python 算法
本博客就蓝桥杯中的基础算法（这一部分说是算法，但更是一些简单的操作）进行罗列，包括：枚举、模拟、前缀和、差分、二分查找、进制转换、贪心、位运算和双指针。每一个算法都在给出概念解释的同时，给出了示例代码，以供低年级师弟师妹们学习和练习。前序知识：（1）Python基础语法（2）PythonOOP（面向对象编程）基础算法（操作）一、枚举二、模拟三、前缀和四、差分五、二分查找六、进制转换七、贪心八、位运
如何用python做一个小程序进行炒股？大懒猫软件 python 小程序开发语言
使用Python分析股票的完整程序以下是一个完整的Python程序，展示如何获取股票数据、进行数据清洗、计算技术指标、并进行简单的价格走势分析。1.安装必要的库首先，确保安装了必要的库：bash复制pipinstallrequestspandasmatplotlibyfinance2.获取股票数据使用yfinance库获取股票数据。yfinance是一个流行的库，可以方便地从雅虎财经获取股票数据。
蓝桥杯Python赛道备赛——Day7：动态规划（基础） SKY YEAM 蓝桥杯备赛蓝桥杯 python 动态规划
本博客就蓝桥杯中所涉及的动态规划基础问题进行讲解，包括：递推、记忆化搜索、最长公共子序列（LCS）和最长上升子序列（LIS）。每一种动态规划问题都在给出定义的同时，给出了其求解方法的示例代码，以供低年级师弟师妹们学习和练习。前序知识：（1）Python基础语法动态规划（基础）一、递推（迭代法）二、记忆化搜索（递归+缓存）三、最长公共子序列（LCS）四、最长上升子序列（LIS）一、递推（迭代法）定义
链上赋能：智能合约重塑供应链管理 Echo_Wish 前沿技术人工智能智能合约 linux 运维
链上赋能：智能合约重塑供应链管理供应链是现代经济活动的核心，而复杂的供应链环节常常面临诸多挑战：数据孤岛、信息不透明、操作低效甚至信任危机。这些问题不仅增加了运营成本，还导致资源浪费。随着区块链技术的兴起，供应链管理迎来了新的解决方案，其中智能合约（SmartContract）作为区块链的重要组成部分，正在颠覆传统的供应链管理模式。在本文中，我将结合Python开发与智能合约，探讨智能合约在供应链
Android第四次面试总结（基础算法篇）每次的天空 android 面试算法
一、反转链表//定义链表节点类classListNode{//节点存储的值intval;//指向下一个节点的引用ListNodenext;//构造函数，用于初始化节点的值ListNode(intx){val=x;}}classSolution{//反转链表的方法publicListNodereverseList(ListNodehead){//初始化前一个节点为nullListNodeprev=n
批量将将xlsx转为csv，将csv转为csv utf-8 Znnjcidmslz 数据 python pandas
csv转换为csvutf-8将csv格式文件批量转换为csvutf-8格式文件，以下为使用Python处理的代码：importosimportpandasaspd#存有文件的路径current_path=os.getcwd()#current_path=os.path.dirname('G:/weather_output2')#转换之后存放的路径为“UTF8”，会检查当前路径是否有，没有就创建ut
企业信息化整体架构图 weixin_33937913 系统架构
今天无意间发现一张企业信息化的图，放在这里以后参考。CollaboraticeCommerce转载于:https://www.cnblogs.com/Masterpiece/archive/2004/12/29/83696.html
基于 ArkTS 的混合式开发示例：静态页面与本地数据交互 qq_55376032 harmonyos 华为鸿蒙
一、实现效果1、H5段混合式开发效果图2、静态页面与本地数据交互效果图二、技术栈分析ArkTS：用于构建页面结构和逻辑，支持声明式UI和组件化开发。WebView：通过@ohos.web.webview调用H5页面，支持JavaScript交互。资源管理：使用@kit.ArkTS的util模块读取并解析本地JSON文件。自定义对话框：通过@CustomDialog实现自定义弹窗，支持动态数据加载。
1.4使用pandas读取和写入Excel文件的基本操作林伽一 python处理excel pandas excel python
读取和写入Excel文件是使用Python处理Excel的基本操作。在Python中，可以使用不同的库来实现这些操作，例如pandas、openpyxl等。以下是读取和写入Excel文件的基本操作示例：读取Excel文件使用pandas库读取Excel文件非常方便。下面的示例演示了如何使用pandas读取Excel文件：importpandasaspd#读取Excel文件df=pd.read_ex
Python与C ++开发匿名捐赠1对1管理APP Geeker-2025 python c++
开发一款用于**匿名捐赠1对1管理**的App，结合Python和C++的优势，可以实现高效的后端数据处理、实时的捐赠监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：W
Debezium系列之：使用Debezium采集oceanbase数据库快乐骑行^_^ debezium Debezium系列采集oceanbase数据库
Debezium系列之：使用Debezium采集oceanbase数据库一、oceanbase数据库二、安装OceanBase三、安装oblogproxy四、基于Docker的简单采集案例五、生产实际应用案例Debezium是一个开源的分布式平台，用于监控数据库变化和捕捉数据变动事件，并以事件流的形式导出到各种消费者。Debezium基于ApacheKafka实现，并支持多种数据库系统。一、oce
内核arp_rcv函数到ip_local_deliver_finish的具体调用流程源远流长jerry tcp/ip 网络网络协议 linux
场景：主机A（IP：192.168.1.10，MAC：AA:BB:CC:DD:EE:FF）首次向主机B（IP：192.168.1.20，MAC：11:22:33:44:55:66）发送数据，发送ARP请求获取主机B的MAC地址。流程：主机B收到主机A的ARP请求报文后，内核调用arp_rcv处理。arp_rcv解析报文，发现是ARP请求且目标IP是本机（192.168.1.20）。函数生成ARP应
近期docker镜像加速器被封杀，需要的请看此内容点赞加关注加油干sit！ docker docker
{“registry-mirrors”:[“https://docker.m.daocloud.io”],“insecure-registries”:[“harbor.sunya.com”],“exec-opts”:[“native.cgroupdriver=systemd”],“data-root”:“/data/docker”,“log-driver”:“json-file”,“log-opt
python颜色参数_python matplotlib:plt.scatter() 大小和颜色参数详解 weixin_39926311 python颜色参数
语法plt.scatter(x,y,s=20,c='b')大小s默认为20，s=0时点不显示；颜色c默认为蓝色。为每一个点指定大小和颜色有时我们需要为每一个点指定大小和方向，以区分不同的点。这时，可以向s和c传入列表。如：importmatplotlib.pyplotaspltimportnumpyasnpx=list(range(1,7))plt.scatter(x,x,s=10*np.arra
Python中scatter()函数--转载 1361976860 python
原博地址：http://blog.csdn.net/anneqiqi/article/details/64125186最近开始学习Python编程，遇到scatter函数，感觉里面的参数不知道什么意思于是查资料,最后总结如下：1、scatter函数原型2、其中散点的形状参数marker如下：3、其中颜色参数c如下:4、基本的使用方法如下：[python]viewplaincopy#导入必要的模块i
解锁Android开发利器：MVVM架构_android的mvvm(2)，2024年最新kotlin高阶函数 Java图灵架构 2024年程序员学习 android 架构 kotlin
classWeatherViewModel:ViewModel(){privatevalweatherRepository=WeatherRepository()privateval_weather=MutableLiveData()valweather:LiveData=_weatherfunfetchWeather(city:String){valweatherData=weatherRepo
python中的scatter()函数用法品易HTTP python javascript css js 人工智能
若是现在已经对数据化有了解的话，那就一定要来参与看看本章要学习的函数，在样式以及排版上效果还是很好的，经常被用于测试数据上的大小更改以及设置不同颜色，还有时候，对于线条的宽度的更改也都需要利用到这个函数，以上基本就是本章函数的基本用法了，下面进行详细讲述。制作如图所示图片：需要准备：X、Y轴包括数值以及大小和颜色调用语法：plt.scatter()实现代码：importmatplotlibasmp
C语言：哈希表 %KT% C/C++算法数据结构 c语言散列表开发语言
1、文章声明：本文是基于链地址法建立的哈希表。文章中若存在错误，欢迎各路大佬指正。本文涉及二级指针，链表等内容。该方面的知识点，可以参考文章：数据结构：单链表的相关操作-CSDN博客C语言：利用二级指针动态创建二维矩阵-CSDN博客2、哈希表的介绍：哈希表其实可以理解成一种映射，通过映射关系来存储数据，有点类似于Python中的字典。常见的如数组，链表等存储结构，他们查询数据都有一个特点，往往需要
大模型工程师学习日记（五）：基于LangServe的AI服务架构深度解析 MMMMMMMay Love Code 学习架构语言模型深度学习人工智能 git
1.概述LangServe️帮助开发者将LangChain可运行和链部署为RESTAPI。该库集成了FastAPI并使用pydantic进行数据验证。Pydantic是一个在Python中用于数据验证和解析的第三方库，现在是Python中使用广泛的数据验证库。它利用声明式的方式定义数据模型和Python类型提示的强大功能来执行数据验证和序列化，使您的代码更可靠、更可读、更简洁且更易于调试。。它还可
远程调试Python脚本之ptvsd 工头阿乐 PyTorch 深度学习 python 开发语言
深度学习文章目录深度学习前言前言有时候需要远程调试Python脚本，怎么办呢…以下这段代码用于远程调试Python脚本，特别是通过VisualStudioCode（VSCode）的远程调试功能。它会在指定的服务器IP和端口上等待调试器的连接。#检查是否提供了服务器IP和端口ifargs.server_ipandargs.server_port:#远程调试-参见https://code.visual
spring创建bean的过程咸鱼cc spring java servlet 前端 spring boot
Spring创建bean的过程包括以下步骤：定义bean：通过在Spring配置文件中定义bean，包括bean的类型、属性、构造函数等。装配bean：通过将bean的属性注入到bean中，以完成bean的装配。初始化bean：在bean被创建后，调用相应的初始化方法，对bean进行初始化。预处理bean：在bean被创建之前，对bean进行预处理，以满足bean的需求。将bean放入IoC容器：
【Python】爬取高校数据（名字，院校特色，所在地，性质）。可用于判断高校是否为双一流，本科/专科等分析 llzcxdb Python python 开发语言爬虫
源网站：http://college.gaokao.com/schlist/p1利用Python的lxml库进行html解析，源代码：importrequestsfromlxmlimportetreeimportpandasaspdimportcsv#请求URLurl='http://college.gaokao.com/schlist/p'#构建请求头headers={'User-Agent':
electron 源码下载与编译构五一编程学习交流 electron javascript 前端 webrtc c语言 c++
electron源码下载与编译构建预先安装安装nodejs下载eletron构建工具：安装python构建Electron基本要求环境依赖交叉编译构建故障排查高级提示使用clang之外的其它编译器electron的depot_tools工具下载构建源码。这个工具是用nodejs写的，封装了chromium自身的depot_tools工具。非常方便易用。主要是electron在下载完chromium
【脑洞小剧场】零帧起手创业小公司之新人入职的一天 Foyo Designer 技术职场小剧职场和发展程序人生学习方法改行学it 创业创新远程工作程序员创富
点击查看小剧场合集https://blog.csdn.net/foyodesigner/category_12896948.html阳光明媚的早晨，段萌儿怀揣着对新工作的无限憧憬，踏入了这家充满未知的小公司。然而，她万万没想到，第一天上班就迎来了一场“惊悚”之旅。场景一：段萌儿的“惊悚”发现段萌儿，新入职的前端工程师，一早便迫不及待地打开了公司的代码库，想要一窥项目的“真容”。然而，当她看到代码库
一份Python面试宝典小夕Coding Python大学作业汇总 python 面试开发语言
Python面试宝典文章目录Python面试宝典题目001:在Python中如何实现单例模式。题目002：不使用中间变量，交换两个变量`a`和`b`的值。题目003：写一个删除列表中重复元素的函数，要求去重后元素相对位置保持不变。题目004：假设你使用的是官方的CPython，说出下面代码的运行结果。题目005：Lambda函数是什么，举例说明的它的应用场景。题目006：说说Python中的浅拷贝
python中的下划线用法总结白色机械键盘 python实践 python 开发语言
在Python中，下划线（underscore）有多种用法。它在不同的上下文中可以扮演不同的角色，下面是其常见用法的总结：1.单下划线"_"1.1作为临时变量或无用变量在循环或解包操作中，表示一个临时的或不关心的变量。for_inrange(5):print("Hello,World!")a,_,b=(1,2,3)print(a,b)#输出:131.2在交互式解释器中在交互式解释器中，"_"用于保
2db多少功率_db与w换算(1db等于多少功率) 不吃酸菜的小贱人 2db多少功率
dBm是功率的单位，1dbm等于1毫瓦，也就是千分之一瓦。1、dBm这是我们接触到.那么10W呢，就是40dBm，也就是说功率下降一半，dBm值下降3dB。功率单位与P(瓦特)换算公式：dBm=30+10lgP(P：瓦)首先，DB是一个纯计数单位：dB=10logX。dB的意义其实再简单不过了，就是把一个很大(后面跟一长串0的.DB是一个比值，是一个数值，是一个纯计数方法，没有任何单位标注。和瓦(
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交