漂泊者_LGD

[Python3网络爬虫开发实战] --Splash的使用

Splash是一个JavaScript渲染服务，是一个带有HTTP API的轻量级浏览器，同时它对接了Python中的Twisted和QT库。利用它同样可以实现动态渲染页面的抓取。

1. 功能介绍

利用Splash可以实现如下功能：

异步方式处理多个网页渲染过程；
获取渲染后的页面的源代码或截图；
通过关闭图片渲染或者使用Adblock规则来加快页面渲染速度；
可执行特定的JavaScript脚本；
可通过Lua脚本来控制页面渲染过程；
获取渲染的详细过程并通过HAR（HTTP Archive）格式呈现。

2. 准备工作

在开始之前，请确保已经正确安装好了Splash并可以正常运行服务（pip install Splash）。

3. 实例引入

首先，通过Splash提供的Web页面来测试其渲染过程。例如，在本机8050端口上运行了Splash服务，打开http://localhost:8050/即可看到其Web页面，如图1所示。

在图1右侧，呈现的是一个渲染示例。可以看到，上方有一个输入框，默认是http://google.com，这里换成百度测试一下，将内容更改为https://www.baidu.com，然后点击Render me按钮开始渲染，结果如图2所示。

可以看到，网页的返回结果呈现了渲染截图、HAR加载统计数据、网页的源代码。

通过HAR的结果可以看到，Splash执行了整个网页的渲染过程，包括CSS、JavaScript的加载等过程，呈现的页面和在浏览器中得到的结果完全一致。

那么，这个过程由什么来控制呢？重新返回首页，可以看到实际上是有一段脚本，内容如下：

function main(splash, args)
  assert(splash:go(args.url))
  assert(splash:wait(0.5))
  return {
    html = splash:html(),
    png = splash:png(),
    har = splash:har(),
  }
end

这个脚本实际上是用Lua语言写的脚本。即使不懂这个语言的语法，但从脚本的表面意思，也可以大致了解到它首先调用go()方法去加载页面，然后调用wait()方法等待了一定时间，最后返回了页面的源码、截图和HAR信息。

到这里，大体了解了Splash是通过Lua脚本来控制了页面的加载过程的，加载过程完全模拟浏览器，最后可返回各种格式的结果，如网页源码和截图等。

接下来就来了解Lua脚本的写法以及相关API的用法。

4. Splash Lua脚本

Splash可以通过Lua脚本执行一系列渲染操作，这样就可以用Splash来模拟类似Chrome、PhantomJS的操作了。

首先，了解一下Splash Lua脚本的入口和执行方式。

入口及返回值
首先，来看一个基本实例：

function main(splash, args)
  splash:go("http://www.baidu.com")
  splash:wait(0.5)
  local title = splash:evaljs("document.title")
  return {title=title}
end

将代码粘贴到刚才打开的http://localhost:8050/的代码编辑区域，然后点击Render me!按钮来测试一下。

看到它返回了网页的标题，如图7-8所示。这里通过evaljs()方法传入JavaScript脚本，而document.title的执行结果就是返回网页标题，执行完毕后将其赋值给一个title变量，随后将其返回。

注意，在这里定义的方法名称叫作main()。这个名称必须是固定的，Splash会默认调用这个方法。

该方法的返回值既可以是字典形式，也可以是字符串形式，最后都会转化为Splash HTTP Response，例如：

function main(splash)
    return {hello="world!"}
end

返回了一个字典形式的内容。例如：

function main(splash)
    return 'hello'
end

返回了一个字符串形式的内容。

异步处理

Splash支持异步处理，但是这里并没有显式指明回调方法，其回调的跳转是在Splash内部完成的。示例如下：

function main(splash, args)
  local example_urls = {"www.baidu.com", "www.taobao.com", "www.zhihu.com"}
  local urls = args.urls or example_urls
  local results = {}
  for index, url in ipairs(urls) do
    local ok, reason = splash:go("http://" .. url)
    if ok then
      splash:wait(2)
      results[url] = splash:png()
    end
  end
  return results
end

运行结果是3个站点的截图，如图3所示。

在脚本内调用的wait()方法类似于Python中的sleep()，其参数为等待的秒数。当Splash执行到此方法时，它会转而去处理其他任务，然后在指定的时间过后再回来继续处理。

这里值得注意的是，Lua脚本中的字符串拼接和Python不同，它使用的是…操作符，而不是+。如果有必要，可以简单了解一下Lua脚本的语法，详见http://www.runoob.com/lua/lua-basic-syntax.html。

另外，这里做了加载时的异常检测。go()方法会返回加载页面的结果状态，如果页面出现4xx或5xx状态码，ok变量就为空，就不会返回加载后的图片。

5. Splash对象属性

注意到，前面例子中main()方法的第一个参数是splash，这个对象非常重要，它类似于Selenium中的WebDriver对象，可以调用它的一些属性和方法来控制加载过程。接下来，先看下它的属性。

args

该属性可以获取加载时配置的参数，比如URL，如果为GET请求，它还可以获取GET请求参数；如果为POST请求，它可以获取表单提交的数据。Splash也支持使用第二个参数直接作为args，例如：

function main(splash, args)
    local url = args.url
end

这里第二个参数args就相当于splash.args属性，以上代码等价于：

function main(splash)
    local url = splash.args.url
end

js_enabled

这个属性是Splash的JavaScript执行开关，可以将其配置为true或false来控制是否执行JavaScript代码，默认为true。例如，这里禁止执行JavaScript代码：

function main(splash, args)
  splash:go("https://www.baidu.com")
  splash.js_enabled = false
  local title = splash:evaljs("document.title")
  return {title=title}
end

接着重新调用了evaljs()方法执行JavaScript代码，此时运行结果就会抛出异常：

{
    "error": 400,
    "type": "ScriptError",
    "info": {
        "type": "JS_ERROR",
        "js_error_message": null,
        "source": "[string \"function main(splash, args)\r...\"]",
        "message": "[string \"function main(splash, args)\r...\"]:4: unknown JS error: None",
        "line_number": 4,
        "error": "unknown JS error: None",
        "splash_method": "evaljs"
    },
    "description": "Error happened while executing Lua script"
}

不过一般来说，不用设置此属性，默认开启即可。

resource_timeout

此属性可以设置加载的超时时间，单位是秒。如果设置为0或nil（类似Python中的None），代表不检测超时。示例如下：

function main(splash)
    splash.resource_timeout = 0.1
    assert(splash:go('https://www.taobao.com'))
    return splash:png()
end

例如，这里将超时时间设置为0.1秒。如果在0.1秒之内没有得到响应，就会抛出异常，错误如下：

{
    "error": 400,
    "type": "ScriptError",
    "info": {
        "error": "network5",
        "type": "LUA_ERROR",
        "line_number": 3,
        "source": "[string \"function main(splash)\r...\"]",
        "message": "Lua error: [string \"function main(splash)\r...\"]:3: network5"
    },
    "description": "Error happened while executing Lua script"
}

此属性适合在网页加载速度较慢的情况下设置。如果超过了某个时间无响应，则直接抛出异常并忽略即可。

images_enabled

此属性可以设置图片是否加载，默认情况下是加载的。禁用该属性后，可以节省网络流量并提高网页加载速度。但是需要注意的是，禁用图片加载可能会影响JavaScript渲染。因为禁用图片之后，它的外层DOM节点的高度会受影响，进而影响DOM节点的位置。因此，如果JavaScript对图片节点有操作的话，其执行就会受到影响。

另外值得注意的是，Splash使用了缓存。如果一开始加载出来了网页图片，然后禁用了图片加载，再重新加载页面，之前加载好的图片可能还会显示出来，这时直接重启Splash即可。

禁用图片加载的示例如下：

function main(splash, args)
  splash.images_enabled = false
  assert(splash:go('https://www.jd.com'))
  return {png=splash:png()}
end

这样返回的页面截图就不会带有任何图片，加载速度也会快很多。

plugins_enabled

此属性可以控制浏览器插件（如Flash插件）是否开启。默认情况下，此属性是false，表示不开启。可以使用如下代码控制其开启和关闭：

splash.plugins_enabled = true/false

scroll_position

通过设置此属性，可以控制页面上下或左右滚动。这是一个比较常用的属性，示例如下：

function main(splash, args)
  assert(splash:go('https://www.taobao.com'))
  splash.scroll_position = {y=400}
  return {png=splash:png()}
end

这样就可以控制页面向下滚动400像素值，结果如图4所示。

如果要让页面左右滚动，可以传入x参数，代码如下：

splash.scroll_position = {x=100, y=200}

6. Splash对象的方法

除了前面介绍的属性外，Splash对象还有如下方法。

go()

该方法用来请求某个链接，而且它可以模拟GET和POST请求，同时支持传入请求头、表单等数据，其用法如下：

ok, reason = splash:go{url, baseurl=nil, headers=nil, http_method="GET", body=nil, formdata=nil}

其参数说明如下。

url：请求的URL。
baseurl：可选参数，默认为空，表示资源加载相对路径。
headers：可选参数，默认为空，表示请求头。
http_method：可选参数，默认为GET，同时支持POST。
body：可选参数，默认为空，发POST请求时的表单数据，使用的Content-type为application/json。
formdata：可选参数，默认为空，POST的时候的表单数据，使用的Content-type为application/x-www-form-urlencoded。

该方法的返回结果是结果ok和原因reason的组合，如果ok为空，代表网页加载出现了错误，此时reason变量中包含了错误的原因，否则证明页面加载成功。示例如下：

function main(splash, args)
  local ok, reason = splash:go{"http://httpbin.org/post", http_method="POST", body="name=Germey"}
  if ok then
        return splash:html()
  end
end

这里模拟了一个POST请求，并传入了POST的表单数据，如果成功，则返回页面的源代码。

运行结果如下：

<html><head></head><body><pre style="word-wrap: break-word; white-space: pre-wrap;">{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "name": "Germey"
  }, 
  "headers": {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", 
    "Accept-Encoding": "gzip, deflate", 
    "Accept-Language": "en,*", 
    "Connection": "close", 
    "Content-Length": "11", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "Origin": "null", 
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/602.1 (KHTML, like Gecko) splash Version/9.0 Safari/602.1"
  }, 
  "json": null, 
  "origin": "60.207.237.85", 
  "url": "http://httpbin.org/post"
}
</pre></body></html>

可以看到成功实现了POST请求并发送了表单数据。

wait()

此方法可以控制页面的等待时间，使用方法如下：

ok, reason = splash:wait{time, cancel_on_redirect=false, cancel_on_error=true}

参数说明如下。

time：等待的秒数。
cancel_on_redirect：可选参数，默认为false，表示如果发生了重定向就停止等待，并返回重定向结果。
cancel_on_error：可选参数，默认为false，表示如果发生了加载错误，就停止等待。
返回结果同样是结果ok和原因reason的组合。

用一个实例感受一下：

function main(splash)
    splash:go("https://www.taobao.com")
    splash:wait(2)
    return {html=splash:html()}
end

这可以实现访问淘宝并等待2秒，随后返回页面源代码的功能。

jsfunc()

此方法可以直接调用JavaScript定义的方法，但是所调用的方法需要用双中括号包围，这相当于实现了JavaScript方法到Lua脚本的转换。示例如下：

function main(splash, args)
  local get_div_count = splash:jsfunc([[
  function () {
    var body = document.body;
    var divs = body.getElementsByTagName('div');
    return divs.length;
  }
  ]])
  splash:go("https://www.baidu.com")
  return ("There are %s DIVs"):format(
    get_div_count())
end

运行结果如下：

There are 21 DIVs

首先，声明了一个JavaScript定义的方法，然后在页面加载成功后调用了此方法计算出了页面中div节点的个数。

关于JavaScript到Lua脚本的更多转换细节，可以参考官方文档：https://splash.readthedocs.io/en/stable/scripting-ref.html#splash-jsfunc。

evaljs()

此方法可以执行JavaScript代码并返回最后一条JavaScript语句的返回结果，使用方法如下：

result = splash:evaljs(js)

比如，可以用下面的代码来获取页面标题：

local title = splash:evaljs("document.title")

runjs()

此方法可以执行JavaScript代码，它与evaljs()的功能类似，但是更偏向于执行某些动作或声明某些方法。例如：

function main(splash, args)
  splash:go("https://www.baidu.com")
  splash:runjs("foo = function() { return 'bar' }")
  local result = splash:evaljs("foo()")
  return result
end

这里用runjs()先声明了一个JavaScript定义的方法，然后通过evaljs()来调用得到的结果。

运行结果如下：

bar

autoload()

此方法可以设置每个页面访问时自动加载的对象，使用方法如下：

ok, reason = splash:autoload{source_or_url, source=nil, url=nil}

参数说明如下。

source_or_url：JavaScript代码或者JavaScript库链接。
source：JavaScript代码。
url：JavaScript库链接

但是此方法只负责加载JavaScript代码或库，不执行任何操作。如果要执行操作，可以调用evaljs()或runjs()方法。示例如下：

function main(splash, args)
  splash:autoload([[
    function get_document_title(){
      return document.title;
    }
  ]])
  splash:go("https://www.baidu.com")
  return splash:evaljs("get_document_title()")
end

这里调用autoload()方法声明了一个JavaScript方法，然后通过evaljs()方法来执行此JavaScript方法。

运行结果如下：

百度一下，你就知道

另外，也可以使用autoload()方法加载某些方法库，如jQuery，示例如下：

function main(splash, args)
  assert(splash:autoload("https://code.jquery.com/jquery-2.1.3.min.js"))
  assert(splash:go("https://www.taobao.com"))
  local version = splash:evaljs("$.fn.jquery")
  return 'JQuery version: ' .. version
end

运行结果如下：

JQuery version: 2.1.3

call_later()

此方法可以通过设置定时任务和延迟时间来实现任务延时执行，并且可以在执行前通过cancel()方法重新执行定时任务。示例如下：

function main(splash, args)
  local snapshots = {}
  local timer = splash:call_later(function()
    snapshots["a"] = splash:png()
    splash:wait(1.0)
    snapshots["b"] = splash:png()
  end, 0.2)
  splash:go("https://www.taobao.com")
  splash:wait(3.0)
  return snapshots
end

这里设置了一个定时任务，0.2秒的时候获取网页截图，然后等待1秒，1.2秒时再次获取网页截图，访问的页面是淘宝，最后将截图结果返回。运行结果如图5所示。

可以发现，第一次截图时网页还没有加载出来，截图为空，第二次网页便加载成功了。

http_get()

此方法可以模拟发送HTTP的GET请求，使用方法如下：

response = splash:http_get{url, headers=nil, follow_redirects=true}

参数说明如下。

url：请求URL。
headers：可选参数，默认为空，请求头。
follow_redirects：可选参数，表示是否启动自动重定向，默认为true。
示例如下：

function main(splash, args)
  local treat = require("treat")
  local response = splash:http_get("http://httpbin.org/get")
    return {
    html=treat.as_string(response.body),
    url=response.url,
    status=response.status
    }
end

运行结果如下：

Splash Response: Object
html: String (length 355)
{
  "args": {}, 
  "headers": {
    "Accept-Encoding": "gzip, deflate", 
    "Accept-Language": "en,*", 
    "Connection": "close", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/602.1 (KHTML, like Gecko) splash Version/9.0 Safari/602.1"
  }, 
  "origin": "60.207.237.85", 
  "url": "http://httpbin.org/get"
}
status: 200
url: "http://httpbin.org/get"

http_post()

和http_get()方法类似，此方法用来模拟发送POST请求，不过多了一个参数body，使用方法如下：

response = splash:http_post{url, headers=nil, follow_redirects=true, body=nil}

参数说明如下。

url：请求URL。
headers：可选参数，默认为空，请求头。
follow_redirects：可选参数，表示是否启动自动重定向，默认为true。
body：可选参数，即表单数据，默认为空。
用实例感受一下：

function main(splash, args)
  local treat = require("treat")
  local json = require("json")
  local response = splash:http_post{"http://httpbin.org/post",     
      body=json.encode({name="Germey"}),
      headers={["content-type"]="application/json"}
    }
    return {
    html=treat.as_string(response.body),
    url=response.url,
    status=response.status
    }
end

运行结果如下：

Splash Response: Object
html: String (length 533)
{
  "args": {}, 
  "data": "{\"name\": \"Germey\"}", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept-Encoding": "gzip, deflate", 
    "Accept-Language": "en,*", 
    "Connection": "close", 
    "Content-Length": "18", 
    "Content-Type": "application/json", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/602.1 (KHTML, like Gecko) splash Version/9.0 Safari/602.1"
  }, 
  "json": {
    "name": "Germey"
  }, 
  "origin": "60.207.237.85", 
  "url": "http://httpbin.org/post"
}
status: 200
url: "http://httpbin.org/post"

可以看到，这里成功模拟提交了POST请求并发送了表单数据。

set_content()

此方法用来设置页面的内容，示例如下：

function main(splash)
    assert(splash:set_content("hello
"))
    return splash:png()
end

运行结果如图6所示。

html()

此方法用来获取网页的源代码，它是非常简单又常用的方法。示例如下：

function main(splash, args)
  splash:go("https://httpbin.org/get")
  return splash:html()
end

运行结果如下：

<html><head></head><body><pre style="word-wrap: break-word; white-space: pre-wrap;">{
  "args": {}, 
  "headers": {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", 
    "Accept-Encoding": "gzip, deflate", 
    "Accept-Language": "en,*", 
    "Connection": "close", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/602.1 (KHTML, like Gecko) splash Version/9.0 Safari/602.1"
  }, 
  "origin": "60.207.237.85", 
  "url": "https://httpbin.org/get"
}
</pre></body></html>

png()

此方法用来获取PNG格式的网页截图，示例如下：

function main(splash, args)
  splash:go("https://www.taobao.com")
  return splash:png()
end

jpeg()

此方法用来获取JPEG格式的网页截图，示例如下：

function main(splash, args)
  splash:go("https://www.taobao.com")
  return splash:jpeg()
end

har()

此方法用来获取页面加载过程描述，示例如下：

function main(splash, args)
  splash:go("https://www.baidu.com")
  return splash:har()
end

运行结果如图7所示，其中显示了页面加载过程中每个请求记录的详情。

url()

此方法可以获取当前正在访问的URL，示例如下：

function main(splash, args)
  splash:go("https://www.baidu.com")
  return splash:url()
end

运行结果如下：

https://www.baidu.com/

get_cookies()

此方法可以获取当前页面的Cookies，示例如下：

function main(splash, args)
  splash:go("https://www.baidu.com")
  return splash:get_cookies()
end

运行结果如下：

Splash Response: Array[2]
0: Object
domain: ".baidu.com"
expires: "2085-08-21T20:13:23Z"
httpOnly: false
name: "BAIDUID"
path: "/"
secure: false
value: "C1263A470B02DEF45593B062451C9722:FG=1"
1: Object
domain: ".baidu.com"
expires: "2085-08-21T20:13:23Z"
httpOnly: false
name: "BIDUPSID"
path: "/"
secure: false
value: "C1263A470B02DEF45593B062451C9722"

add_cookie()

此方法可以为当前页面添加Cookie，用法如下：

cookies = splash:add_cookie{name, value, path=nil, domain=nil, expires=nil, httpOnly=nil, secure=nil}

该方法的各个参数代表Cookie的各个属性。

示例如下：

function main(splash)
    splash:add_cookie{"sessionid", "237465ghgfsd", "/", domain="http://example.com"}
    splash:go("http://example.com/")
    return splash:html()
end

clear_cookies()

此方法可以清除所有的Cookies，示例如下：

function main(splash)
    splash:go("https://www.baidu.com/")
    splash:clear_cookies()
    return splash:get_cookies()
end

这里清除了所有的Cookies，然后调用get_cookies()将结果返回。

运行结果如下：

Splash Response: Array[0]

可以看到，Cookies被全部清空，没有任何结果。

get_viewport_size()

此方法可以获取当前浏览器页面的大小，即宽高，示例如下：

function main(splash)
    splash:go("https://www.baidu.com/")
    return splash:get_viewport_size()
end

运行结果如下：

Splash Response: Array[2]
0: 1024
1: 768

set_viewport_size()

此方法可以设置当前浏览器页面的大小，即宽高，用法如下：

splash:set_viewport_size(width, height)

例如，这里访问一个宽度自适应的页面：

function main(splash)
    splash:set_viewport_size(400, 700)
    assert(splash:go("http://cuiqingcai.com"))
    return splash:png()
end

运行结果如图8所示。

set_viewport_full()

此方法可以设置浏览器全屏显示，示例如下：

function main(splash)
    splash:set_viewport_full()
    assert(splash:go("http://cuiqingcai.com"))
    return splash:png()
end

set_user_agent()

此方法可以设置浏览器的User-Agent，示例如下：

function main(splash)
  splash:set_user_agent('Splash')
  splash:go("http://httpbin.org/get")
  return splash:html()
end

这里将浏览器的User-Agent设置为Splash，运行结果如下：

<html><head></head><body><pre style="word-wrap: break-word; white-space: pre-wrap;">{
  "args": {}, 
  "headers": {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", 
    "Accept-Encoding": "gzip, deflate", 
    "Accept-Language": "en,*", 
    "Connection": "close", 
    "Host": "httpbin.org", 
    "User-Agent": "Splash"
  }, 
  "origin": "60.207.237.85", 
  "url": "http://httpbin.org/get"
}
</pre></body></html>

可以看到，此处User-Agent被成功设置。

set_custom_headers()

此方法可以设置请求头，示例如下：

function main(splash)
  splash:set_custom_headers({
     ["User-Agent"] = "Splash",
     ["Site"] = "Splash",
  })
  splash:go("http://httpbin.org/get")
  return splash:html()
end

这里设置了请求头中的User-Agent和Site属性，运行结果如下：

<html><head></head><body><pre style="word-wrap: break-word; white-space: pre-wrap;">{
  "args": {}, 
  "headers": {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", 
    "Accept-Encoding": "gzip, deflate", 
    "Accept-Language": "en,*", 
    "Connection": "close", 
    "Host": "httpbin.org", 
    "Site": "Splash", 
    "User-Agent": "Splash"
  }, 
  "origin": "60.207.237.85", 
  "url": "http://httpbin.org/get"
}
</pre></body></html>

select()

该方法可以选中符合条件的第一个节点，如果有多个节点符合条件，则只会返回一个，其参数是CSS选择器。示例如下：

function main(splash)
  splash:go("https://www.baidu.com/")
  input = splash:select("#kw")
  input:send_text('Splash')
  splash:wait(3)
  return splash:png()
end

这里首先访问了百度，然后选中了搜索框，随后调用了send_text()方法填写了文本，然后返回网页截图。

结果如图9所示，可以看到成功填写了输入框。

select_all()

此方法可以选中所有符合条件的节点，其参数是CSS选择器。示例如下：

function main(splash)
  local treat = require('treat')
  assert(splash:go("http://quotes.toscrape.com/"))
  assert(splash:wait(0.5))
  local texts = splash:select_all('.quote .text')
  local results = {}
  for index, text in ipairs(texts) do
    results[index] = text.node.innerHTML
  end
  return treat.as_array(results)
end

这里通过CSS选择器选中了节点的正文内容，随后遍历了所有节点，将其中的文本获取下来。

运行结果如下：

Splash Response: Array[10]
0: "“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”"
1: "“It is our choices, Harry, that show what we truly are, far more than our abilities.”"
2: “There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
3: "“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”"
4: "“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”"
5: "“Try not to become a man of success. Rather become a man of value.”"
6: "“It is better to be hated for what you are than to be loved for what you are not.”"
7: "“I have not failed. I've just found 10,000 ways that won't work.”"
8: "“A woman is like a tea bag; you never know how strong it is until it's in hot water.”"
9: "“A day without sunshine is like, you know, night.”"

可以发现成功地将10个节点的正文内容获取了下来。

mouse_click()

此方法可以模拟鼠标点击操作，传入的参数为坐标值x和y。此外，也可以直接选中某个节点，然后调用此方法，示例如下：

function main(splash)
  splash:go("https://www.baidu.com/")
  input = splash:select("#kw")
  input:send_text('Splash')
  submit = splash:select('#su')
  submit:mouse_click()
  splash:wait(3)
  return splash:png()
end

这里首先选中页面的输入框，输入了文本，然后选中“提交”按钮，调用了mouse_click()方法提交查询，然后页面等待三秒，返回截图，结果如图10所示。

可以看到，这里成功获取了查询后的页面内容，模拟了百度搜索操作。

前面介绍了Splash的常用API操作，还有一些API在这不再一一介绍，更加详细和权威的说明可以参见官方文档https://splash.readthedocs.io/en/stable/scripting-ref.html，此页面介绍了Splash对象的所有API操作。另外，还有针对页面元素的API操作，链接为https://splash.readthedocs.io/en/stable/scripting-element-object.html。

7. Splash API调用

前面说明了Splash Lua脚本的用法，但这些脚本是在Splash页面中测试运行的，如何才能利用Splash渲染页面呢？怎样才能和Python程序结合使用并抓取JavaScript渲染的页面呢？

其实Splash提供了一些HTTP API接口，只需要请求这些接口并传递相应的参数即可，下面简要介绍这些接口。

render.html

此接口用于获取JavaScript渲染的页面的HTML代码，接口地址就是Splash的运行地址加此接口名称，例如http://localhost:8050/render.html。可以用curl来测试一下：

curl http://localhost:8050/render.html?url=https://www.baidu.com

给此接口传递了一个url参数来指定渲染的URL，返回结果即页面渲染后的源代码。

如果用Python实现的话，代码如下：

import requests
url = 'http://localhost:8050/render.html?url=https://www.baidu.com'
response = requests.get(url)
print(response.text)

这样就可以成功输出百度页面渲染后的源代码了。

另外，此接口还可以指定其他参数，比如通过wait指定等待秒数。如果要确保页面完全加载出来，可以增加等待时间，例如：

import requests
url = 'http://localhost:8050/render.html?url=https://www.taobao.com&wait=5'
response = requests.get(url)
print(response.text)

此时得到响应的时间就会相应变长，比如这里会等待5秒多钟才能获取淘宝页面的源代码。

另外，此接口还支持代理设置、图片加载设置、Headers设置、请求方法设置，具体的用法可以参见官方文档https://splash.readthedocs.io/en/stable/api.html#render-html。

render.png

此接口可以获取网页截图，其参数比render.html多了几个，比如通过width和height来控制宽高，它返回的是PNG格式的图片二进制数据。示例如下：

curl http://localhost:8050/render.png?url=https://www.taobao.com&wait=5&width=1000&height=700

这里传入了width和height来设置页面大小为1000×700像素。

如果用Python实现，可以将返回的二进制数据保存为PNG格式的图片，具体如下：

import requests

url = 'http://localhost:8050/render.png?url=https://www.jd.com&wait=5&width=1000&height=700'
response = requests.get(url)
with open('taobao.png', 'wb') as f:
    f.write(response.content)

得到的图片如图11所示。

这样就成功获取了京东首页渲染完成后的页面截图，详细的参数设置可以参考官网文档https://splash.readthedocs.io/en/stable/api.html#render-png。

render.jpeg

此接口和render.png类似，不过它返回的是JPEG格式的图片二进制数据。

另外，此接口比render.png多了参数quality，它用来设置图片质量。

render.har

此接口用于获取页面加载的HAR数据，示例如下：

curl http://localhost:8050/render.har?url=https://www.jd.com&wait=5

它的返回结果（如图12所示）非常多，是一个JSON格式的数据，其中包含页面加载过程中的HAR数据。

render.json

此接口包含了前面接口的所有功能，返回结果是JSON格式，示例如下：

curl http://localhost:8050/render.json?url=https://httpbin.org

结果如下：

{"title": "httpbin(1): HTTP Client Testing Service", "url": "https://httpbin.org/", "requestedUrl": "https://httpbin.org/", "geometry": [0, 0, 1024, 768]}

可以看到，这里以JSON形式返回了相应的请求数据。

可以通过传入不同参数控制其返回结果。比如，传入html=1，返回结果即会增加源代码数据；传入png=1，返回结果即会增加页面PNG截图数据；传入har=1，则会获得页面HAR数据。例如：

curl http://localhost:8050/render.json?url=https://httpbin.org&html=1&har=1

这样返回的JSON结果会包含网页源代码和HAR数据。

此外还有更多参数设置，具体可以参考官方文档：https://splash.readthedocs.io/en/stable/api.html#render-json。

execute

此接口才是最为强大的接口。前面说了很多Splash Lua脚本的操作，用此接口便可实现与Lua脚本的对接。

前面的render.html和render.png等接口对于一般的JavaScript渲染页面是足够了，但是如果要实现一些交互操作的话，它们还是无能为力，这里就需要使用execute接口了。

先实现一个最简单的脚本，直接返回数据：

function main(splash)
    return 'hello'
end

然后将此脚本转化为URL编码后的字符串，拼接到execute接口后面，示例如下：

curl http://localhost:8050/execute?lua_source=function+main%28splash%29%0D%0A++return+%27hello%27%0D%0Aend

运行结果如下：

hello

这里通过lua_source参数传递了转码后的Lua脚本，通过execute接口获取了最终脚本的执行结果。

这里更加关心的肯定是如何用Python来实现，上例用Python实现的话，代码如下：

import requests
from urllib.parse import quote

lua = '''
function main(splash)
    return 'hello'
end
'''

url = 'http://localhost:8050/execute?lua_source=' + quote(lua)
response = requests.get(url)
print(response.text)

运行结果如下：

hello

这里用Python中的三引号将Lua脚本包括起来，然后用urllib.parse模块里的quote()方法将脚本进行URL转码，随后构造了Splash请求URL，将其作为lua_source参数传递，这样运行结果就会显示Lua脚本执行后的结果。

再通过实例看一下：

import requests
from urllib.parse import quote

lua = '''
function main(splash, args)
  local treat = require("treat")
  local response = splash:http_get("http://httpbin.org/get")
    return {
    html=treat.as_string(response.body),
    url=response.url,
    status=response.status
    }
end
'''

url = 'http://localhost:8050/execute?lua_source=' + quote(lua)
response = requests.get(url)
print(response.text)

运行结果如下：

{"url": "http://httpbin.org/get", "status": 200, "html": "{\n  \"args\": {}, \n  \"headers\": {\n    \"Accept-Encoding\": \"gzip, deflate\", \n    \"Accept-Language\": \"en,*\", \n    \"Connection\": \"close\", \n    \"Host\": \"httpbin.org\", \n    \"User-Agent\": \"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/602.1 (KHTML, like Gecko) splash Version/9.0 Safari/602.1\"\n  }, \n  \"origin\": \"60.207.237.85\", \n  \"url\": \"http://httpbin.org/get\"\n}\n"}

可以看到，返回结果是JSON形式，成功获取了请求的URL、状态码和网页源代码。

如此一来，之前所说的Lua脚本均可以用此方式与Python进行对接，所有网页的动态渲染、模拟点击、表单提交、页面滑动、延时等待后的一些结果均可以自由控制，获取页面源码和截图也都不在话下。

到现在为止，可以用Python和Splash实现JavaScript渲染的页面的抓取了。除了Selenium，本节所说的Splash同样可以做到非常强大的渲染功能，同时它也不需要浏览器即可渲染，使用非常方便。

你可能感兴趣的:(Python学习记录)

python学习记录4--给自己：布尔运算&循环（break,continue,pass,else，exit()） mee_tiz python
M酱正在快马加鞭地赶来（咚咚咚）~~~一、布尔运算1.定义：布尔运算是数字符号化的逻辑推演法，包括联合、相交、相减。在图形处理操作中引用了这种逻辑运算方法以使简单的基本图形组合产生新的形体，并由二维布尔运算发展到三维图形的布尔运算。由于布尔在符号逻辑运算中的特殊贡献，很多计算机语言中将逻辑运算称为布尔运算，将其结果称为布尔值。逻辑运算(logicaloperators)通常用来测试真假值。最常见到
Python学习记录——사 运算符咬光空气 Python学习 python 开发语言后端
目录1、算术运算符2、赋值运算符3、复合赋值运算符4、比较运算符5、逻辑运算符1、算术运算符+-*/除//整数，取商%取模，也是取余，取除后的余数**指数，幂运算()()高于**高于*///%高于+-2、赋值运算符=，既可以单变量，也可以多变量赋值，比如a,b,v,d=3，g=e=r=17，也可以同时赋值多个变量3、复合赋值运算符+=、-=、*=、/=、//=、%=、**=复合和其它同在时，先算复
2019-05-09python学习记录-对文件进行操作年画儿
os.getcwd()得到当前路径os.chdir()改变当路径.是这个目录..是父文件夹os.makedirs()创建新文件夹os.path.join()在拼接路径的时候用的。举个例子，os.path.join(“home”,"me","mywork")在Linux系统上会返回“home/me/mywork"os.path.abspath(path)相对路径转为绝对路径os.path.isabs
Python学习记录（3）爱吃果冻的小雪生
1.从列表删除元素.insert(位置，'').remove()del语句.pop().count('').index('',start,end).reverse().sort()或者.sort(reverse=Ture)默认为False2.字符串方法1).capitalize()将小写字母改成大写字母>>>str2='xiaoxiezimu'>>>str2.capitalize()'Xiaoxi
2020-01-31python学习记录(2)-函数&高级语法 thelostworldSec
函数：调用函数：(内置函数、自定义函数)类型转换int、str函数的调用简单的例子：int('123')定义函数：python中定义函数使用def语句，依次是函数名、括号、括号中的参数，还有冒号，然后，在缩进块中编写函数体，函数的返回值用return语句返回。简答的额例子：空函数:如果想定义一个什么事也不做的空函数，可以用pass语句：defnop():pass参数检查:通过传入参数，函数异常报错
opencv+python学习记录（十七）阈值分割三味菜551
一幅图像包括目标物体、背景还有噪声，要想从多值的数字图像中直接提取出目标物体，常用的方法就是设定一个阈值T，用T将图像的数据分成两部分：大于T的像素群和小于T的像素群。这是研究灰度变换的最特殊的方法，称为图像的二值化（Binarization）。具体参考https://blog.csdn.net/qq_40962368/article/details/80917250
python做实时温度曲线图_Python学习记录 - matplotlib绘制温度变化折线图 weixin_39735288 python做实时温度曲线图
Python学习记录-matplotlib绘制温度变化折线图Python学习记录-matplotlib绘制温度变化折线图题目：列表a表示10点到12点每一分钟的气温，累计为2个小时，绘制折线图观察每分钟气温的变化#-*-coding:utf-8-*-frommatplotlibimportpyplotaspltimportrandom数据：X轴：从10点到12点按照分钟查看，有120分钟，X轴需要
python学习记录 teaczjf python 学习开发语言
环境搭建安装python3下载链接https://www.python.org/downloads/windows/教程https://blog.csdn.net/weixin_40844416/article/details/80889165安装openpyxlhttps://jingyan.baidu.com/article/6f2f55a1ef0b87f4b83e6c3a.htmlhttps
python学习记录 -- 基础语法 -- 变量/数据类型/数据类型转换/标识符/运算符/字符串/数据输入像我这么帅的一般都是主角
数据类型转换示例image.png标识符仅能出现英文中文(不推荐)数字下划线数字不可以开头大小写敏感不可使用关键字image.png运算符image.pngimage.png字符串image.png字符串拼接image.png字符串格式化image.pngimage.pngimage.pngimage.png数字精度控制image.pngimage.png数据输入image.pnginput函数把
Python学习记录035 梦回唐朝_a324
选择结构通过判断条件是否成立，来决定执行哪个分支。选择结构有多种形式，分为：单分支、双分支、多分支。a=input("输入一个数字：")ifint(a)<10:print(a)运行：输入一个数字：99在选择和循环结构中，条件表达式的值为False的情况如下：False、0、0.0、空值None、空序列对象（空列表、空元祖、空集合、空字典、空字符串）、空range对象、空迭代对象。其他情况，均为Tr
python学习记录 ➠➠ 学习 python
1.python中交换两个数值a=3b=4print(a,b)a,b=b,aprint(a,b)输出结果：2.zip()函数的用法zip（）函数在运算时，会以一个或多个序列(可迭代对象)做为参数，返回一个元组的列表。同时将这些序列中并排的元素配对。zip（）参数可以接受任何类型的序列，同时也可以有两个以上的参数;当传入参数的长度不同时，zip能自动以最短序列长度为准进行截取，获得元组。a=[1,2
opencv+python学习记录（十二）高斯平滑、均值平滑三味菜551
高斯平滑中opencv提供的函数：dst=cv.GaussianBlur(src,ksize,sigmaX[,dst[,sigmaY[,borderType]]])快速均值平滑中opencv提供的函数：dst=cv.boxFilter(src,ddepth,ksize[,dst[,anchor[,normalize[,borderType]]]])dst=cv.blur(src,ksize[,ds
Python学习记录（20）爱吃果冻的小雪生
1.集合（set）集合的显著特点是：里面元素无重复1）set的创建>>>num2={1,2,4,5,6,7,5,4,3,2,1,0}>>>num2{0,1,2,3,4,5,6,7}>>>set1=set([1,1,2,4,5,6])>>>set1{1,2,4,5,6}2）.add()将一个参数添加进集合中>>>num2={1,2,4,5,6,7,5,4,3,2,1,0}>>>num2.add(6.
python学习记录 ➠➠ 学习 python
1.列表[1,2,3,4,5],请使用map（）函数输出[1,4,9,16,25]，并使用列表推导式提取出大于10的数，最终输出[16,25]lis=[1,2,3,4,5]deffn(x):returnx**2res=map(fn,lis)print(res)res1=[iforiinres]print(res1)res2=[iforiinres1ifi>10]print(res2)输出结果：2.
python学习记录亲亲老婆几 Python python 开发语言后端
文章目录环境关于AnacondaWindows控制台wsl2下python2.7安装ide与安装包学习记录一切皆对象字符串importthis列表列表切片元组字典函数导入模块类装饰器文件读写异常设置代码格式python2和python3的一些区别1.print2.除法，python2中整数除法只包含整数部分3.input4.类pycharm快捷键显示空格和tab环境以前用的都是python3的版本
Python学习记录(8)——series、dataframe基本操作 cigarrrr Python学习记录 python 学习数据挖掘
Reindexing（重新索引）重新索引可以按照指定的索引顺序排列数据，如果没有该索引则显示为NaN例：obj=pd.Series([4.5,7.2,-5.3,3.6],index=['d','b','a','c'])obj2=obj.reindex(['a','b','c','d','e'])a-5.3b7.2c3.6d4.5eNaNdtype:float64处理时间序列这样的数据时，我们可能需
Python学习记录——이십이 Bytes和字符集编码咬光空气 Python学习学习
文章目录根据ANSI标准，各国对于各国的文字有自己的编写方法，中国发展的就是gbk编码，国际上有个unicode码，适用于所有语言，依据这个标准出来utf-8标准。像ascii，我们见到的就是8个bit位，总共存放128个，而ANSI标准则是32比特位，4个字节，也就是常见的32个1组成的那种。对一个字符串，可以用encode函数来转换，参数是"gbk"，"utf-8"这样的，参数是什么，就用什么
Python学习记录--数据类型和循环波尼 python 学习开发语言
代码缩进Python的语法缩进空格数取决于程序员，但至少需要一个必须在同一代码块使用相同数量的缩进Python非常依赖缩进，在循环或者低一级的语句中，在c++中我们会使用大括号"{}"，但是在Python中我们就是依赖缩进，同等级语句缩进空格数一样，低等级就再多一个（或一个以上）的空格#错误语法if5>2:print("Fiveisgreaterthantwo!")print("Fiveisgre
PyCharm连接远程Linux服务器虚拟环境方法小马爱祖国开发记录 linux 服务器 pycharm
Python学习记录第一章Python使用远程服务器虚拟环境开发记录文章目录Python学习记录前言一、配置服务器上的Python虚拟环境1.安装Python的虚拟环境2.配置项目环境变量3.创建环境预路径4.创建虚拟环境5.安装项目依赖包二、配置PyCharm远程解释器2.新建虚拟环境总结前言前因：开发的项目需要更换国产数据库，因为项目比较急，没空研究windows上的开发环境适配，所以决定使用
python学习记录day-16-学生信息管理系统宇硕博 python 学习开发语言
录入学生信息：将学生信息存入到文件当中删除学生信息#有人很努力，但却仅仅能够活着filename='student.txt'defmain():whileTrue:menu()choice=int(input('请选择'))ifchoicein[0,1,2,3,4,5,6,7]:ifchoice==0:answer=input('你确定要退出吗？y/n')ifanswer=='y'oranswer
我的Python学习记录（1）：环境配置（Anaconda和Python的安装） ymliu_sjtu Python python anaconda
送给最好的学弟学妹（大神请自动略过）WhyPython?Python是一种广泛使用的解释型、高级编程、通用型编程语言，由吉多·范罗苏姆(GuidoVanRossum)创造，第一版发布于1991年。Python是ABC语言的后继者，也可以视之为一种使用传统中缀表达式的LISP方言。Python的设计哲学强调代码的可读性和简洁的语法（尤其是使用空格缩进划分代码块，而非使用大括号或者关键词）。相比于C+
Python学习记录——附题目以及代码 wswsGOOD Python学习 python pycharm
作为研究生的一分子来到上海将近两个月了，深知自己的力量薄弱，所以打算在这里记录自己的学习python的一些理解与感悟，和大家交流更多的关于编程的问题，期待我和大家早日成为编程大佬。因为开学了将近两个月了，所以先把之前的一些内容补一下。（一）、Python简要介绍一、参考书目介绍➢《ThinkPython》AllenB.Downey➢《利用Python进行数据分析》WesMcKinney➢《算法精粹
opencv+python学习记录（十八）二值图的逻辑运算三味菜551
关于图像的位操作，目的是为了将一个logo覆盖到另一个图片上。#-*-coding:utf-8-*-importnumpyasnpimportcv2defshow(img_name,img_data):cv2.imshow(img_name,img_data)cv2.waitKey(0)cv2.destroyAllWindows()#Loadtwoimagesimg1=cv2.imread('ml
Python学习记录3 寡悔
从函数到高级魔法方法Python是一种通用编程语言，其在科学计算和机器学习领域具有广泛的应用。如果我们打算利用Python来执行机器学习，那么对Python有一些基本的了解就是至关重要的。本Python入门系列体验就是为这样的初学者精心准备的。函数函数的定义还记得Python里面“万物皆对象”么？Python把函数也当成对象，可以从另一个函数中返回出来而去构建高阶函数，比如：参数是函数、返回值是函
Python学习记录——了解Python是什么 smile_小流萤 Python 学习 python 开发语言
Python的诞生与简介一、Python的诞生Python的最初设计者是吉多·范罗苏姆（GuidovanRossum），1956年出生，1982年从阿姆斯特丹大学获得了数学和计算机硕士学位。1986年时在荷兰阿姆斯特丹的国家数学和计算机科学研究学会（CWI）工作，并参与到ABC语言的开发。图1Python之父——GuidovanRossum（吉多.范罗苏姆）Python的诞生是极具戏曲性的，据Gu
Python学习记录（3）——第一个脚本编程“Hello World” smile_小流萤 Python 学习 python
1.“HelloWorld”——Python编程的开始从“HelloWorld”开始，编写一个简单的Python脚本程序。所有Python文件将以.py为扩展名，将以下的源代码拷贝至test.py文件中。#!/usr/bin/pythonprint("HelloWorld!")通过脚本参数调用解释器开始执行脚本，直到脚本执行完毕。当脚本执行完成后，解释器不再有效。这里，在之前安装Python时已经
Python学习记录(2)——Python IDLE的介绍 smile_小流萤 Python 学习 python
1.IDLE的操作简介在安装Python后，会自动安装一个IDLE，它是一个PythonShell(可以在打开的IDLE窗口的标题栏上看到，如图1所示），我们可以利用PythonShell与Python交互。本节将以Windows11系统中的IDLE为例，详细介绍如何使用IDLE开发Python程序。单击系统的开始菜单，然后依次选择“所有程序->Python3.11->IDLE(Python3.1
Python学习记录之从零开始 I念成佛 Python学习笔记 python
前言作为一个计算机专业毕业的学生，一毕业就走上了测试的道路，没有参加过开发，这可能是我的一个遗憾。之前学习过java、python、html5和php但是都没有在实践中使用过，这一次，想从Python开始学习，整体感觉，知识架构都差不多。一、环境的搭建虚拟机VM15，eclipse，Python3.9.0，window10；之所以用到虚拟机，是因为担心在配置环境的时候把笔记本原生环境弄乱套了。具体
Python学习记录（2）爱吃果冻的小雪生
猜猜(x0时，x<yandx=0，而使之执行or操作，3结果为y，使结果出错，故而采用列表的形式。
2020-02-02python学习记录(3)-函数式编程&模块 thelostworldSec
四、函数式编程：函数式编程，有利于代码的管理，后期的代码的迭代和修改。函数的封装参数的传递，返回值的返回。高阶函数：变量可以指向函数、函数名也可能是变量(abs取绝对值)defadd(x,y,f):returnf(x)+f(y)把函数作为参数传入，这样的函数称为高阶函数，函数式编程就是指这种高度抽象的编程范式。map/reduce：Python内建了map()和reduce()函数。map()函数
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri