爬虫2 headless chrome

Headless Chrome 是 Chrome 浏览器的无界面形态,使用命令行的形式替代GUI,可以使用GUI模式下Chrome的功能。一般情况下用于自动调试,也可以用作爬虫。Headless Chrome下的爬虫可以完全的模拟普通用户在Chrome中操作的行为,适用于一些需要执行js的操作。

使用

mac中使用Headless Chrome需要先安装Chrome

# 访问https://www.sina.com.cn/并输出html到标准输出
chrome --headless --dump-dom https://www.sina.com.cn/

# 访问https://www.sina.com.cn/ 截图保存
chrome --headless --screenshot https://www.sina.com.cn/

通过以上的截图可以看出 chrome已经加载了所有的js,也就是说dump-dom的输出也是渲染后的dom,可以用于爬一些动态渲染的页面。

DevTools协议

使用 --remote-debugging-port=9222 参数时,Chrome会启动一个支持 DevTools协议的实例。该协议用于与 Chrome 进行通信,并且驱动 Headless Chrome 浏览器实例,可用于应用程序的远程调试。
golang的chromedp实现了与DevTools协议的交互。

chromedp

使用chromedp可以实现复杂的操作,例如鼠标点击事件。

func main() {
    ctx, cancel := chromedp.NewContext(
        context.Background(),
    )
    defer cancel()

    var example string
    err := chromedp.Run(ctx,
        // 导航到https://www.sina.com.cn/ 
        chromedp.Navigate(`https://www.sina.com.cn/`),
        // 等待body > footer元素渲染完成
        chromedp.WaitVisible(`body > footer`),
        // 点击指定的元素
        chromedp.Click(`/html/body/div[6]/div/div[1]/form/div[1]/h3`, chromedp.NodeVisible),
    )
    if err != nil {
        log.Fatal(err)
    }
}

你可能感兴趣的:(爬虫2 headless chrome)