cdp4j爬虫自动化学习

cdp4j爬虫自动化学习

  • cdp4j介绍
  • 依赖
  • 通过识别本地文件进行调试
    • 2023年6月29日更新

cdp4j介绍

cdp4j是一个Java库,它提供了高级API来通过DevTools协议控制Chrome或Chromium。它可以用于自动使用网页和测试网页。cdp4j默认情况下可以完全运行,但可以配置为运行无头Chrome或Chromium。
使用cdp4j,要求必须有谷歌浏览器

依赖

	
    
    
        io.webfolder
        cdp4j
        3.0.15
    
    
    
        org.jvnet.winp
        winp
        1.28
    

通过识别本地文件进行调试

进行学习时,准备一个本地静态页面,该文件有一定要求,需要包含一些动态js进行加载后动态操作页面,目的为学习cdp4j的动态html获取能力,保存该文件为hello.html,后面代码会进行读取执行


DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>海鸥的快乐一天title>
    
    <meta name="viewport" content="width=device-width,initial-scale=1.0,maximum-scale=1.0,user-scalable=no">
    <meta name="apple-mobile-app-capable" content="yes">
    <meta name="apple-mobile-app-status-bar-style" content="black">
   
    <meta name="description" content="description">
    <meta name="keywords" content="keywords">
    <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" />
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="author" content="cononico">
    <meta name="application-name" content="Cononico" >
head>
<body>
    <h1>hello world!h1>
    <p class="txt">这是一段普通文本, 属性为class="txt"p>
    <input class="test" name="test" type="text" value="白日依山尽,黄河入海流,欲穷千里目,更上一层楼。" style="width: 400px;"/>
body>

<script>
    window.onload = function() {
        document.body.append("
这是一段插入的div标签内容
"
); var div = document.createElement("div"); div.setAttribute("class", "insert"); div.setAttribute("id", "dynamic_div"); div.innerHTML = "这是另外一段用js插入的div标签内容,用来测试动态js加载内容抓取,元素的id为dynamic_div"; document.body.appendChild(div); }
script> html>

用chrome打开后页面是这样:
cdp4j爬虫自动化学习_第1张图片

操作页面的java代码:

public class Hello {
    public static void main(String[] args) throws Exception {
    	// 这里是访问本地磁盘文件
    	// 如果需要访问互联网地址,直接改为该地址就行了,例如访问百度主页https://www.baidu.com
        URL url = new URL("file:///D:/xx/xx/crawler-study/hello.html");
		
		// 创建浏览器启动器
        Launcher launcher = new Launcher();

        try (SessionFactory factory = launcher.launch();
             Session session = factory.create()) {
            session.navigate(url.toString());
            session.waitDocumentReady();
            /*获取内容进行测试*/
            String value = session.getText(".test", "value");
            System.out.println("旧内容为: " + value);
            Thread.sleep(666);
            session.setAttribute("input", "value", "测试插入内容");
            value = session.getAttribute("input", "value");
            System.out.println("新内容为: " + value);
            Thread.sleep(666);
            /*点击测试输入框*/
            session.click("input[name=test]");
            Thread.sleep(666);
            // 获取动态插入内容
            String txt = session.getText("#dynamic_div");
            System.out.println("txt = " + txt);
            String className = session.getAttribute("#dynamic_div", "class");
            System.out.println("className = " + className);
            Thread.sleep(666);
            // 动态修改输入框 内容
            session.setAttribute("input", "value", txt);
            Thread.sleep(3000);
        }
    }
}

总结:cdp4j有很多api可以使用,足以满足各式各样的数据获取需求,并且可以和jsoup进行配合获取数据,有这个需求的可以自己多琢磨琢磨,比如注入js代码,动态执行自己的js脚本,就一个字:强!

2023年6月29日更新

使用cdp4j注入javascript脚本

//在新页面打开之前注入一段js
//            Command command = session.getCommand();
//            Page page = command.getPage();
//            page.enable();
//            page.addScriptToEvaluateOnNewDocument("console.log('hello new doc!');");

// 调用一个函数 该函数必须在页面中已定义 (调用的函数,返回值,传给他的参数)
session.callFunction("testFunc", Double.class, 20);
Thread.sleep(1000);

// 动态生成JavaScript来执行
session.evaluate("var abcFunc = function(e){console.log('abc', e); return 1}");
Double res = session.callFunction("abcFunc", Double.class, 20);
System.out.println("res = " + res);

你可能感兴趣的:(Java,Javascript,爬虫,自动化,学习)