【需求】Jsoup爬取淘宝订单的订单号总结

简介

公司最近在做淘宝商城类的APP,需要获取到用户的淘宝订单信息并用自己的列表展示出来,用过阿里百川的朋友都知道SDK是直接提供了打开用户订单的方法,但是它是用H5或淘宝app进入用户订单,并没有返回json这样的数据供我们使用,所以就想到了利用webview获取到用户订单的html代码,然后jsoup爬取用户订单信息再展示出来。这里只介绍如何获取淘宝订单号,商品名称、价格等数据可以举一反三获取到。

准备工作

依赖最新的jsoup包

implementation 'org.jsoup:jsoup:1.11.3'

步骤如下

1.先定义一个类用于获取当前webview显示的html代码,这里我在activity用类部类的方式来写

class HTMLJavaScriptInterface {
        @JavascriptInterface
        @SuppressWarnings("unused")
        public void processHTML(String html) {
            //html 为当前webview显示的html代码,这里就是最终要处理的操作
        }
    }

2.定义WebViewClient

/*WebViewClient主要帮助WebView处理各种通知、请求事件*/
    private WebViewClient webViewClient = new WebViewClient() {
        @Override
        public void onPageFinished(WebView view, String url) {
            //页面加载完成,处理html代码,复制黏贴不用改动
            mWebView.loadUrl("javascript:HTMLOUT.processHTML(document.documentElement.outerHTML);");
        }
    };

3.初始化用于显示网页的webview属性

//添加刚才我们定义的js接口
mWebView.addJavascriptInterface(new HTMLJavaScriptInterface(), "HTMLOUT");
//设置WebViewClient
mWebView.setWebViewClient(webViewClient);

4.访问淘宝订单网址

淘宝订单的h5页面地址为:https://h5.m.taobao.com/mlapp/olist.html

mWebView.loadUrl("https://h5.m.taobao.com/mlapp/olist.html");

Jsoup处理获取到的html代码

当我们访问到我的订单页面时,可以再HTMLJavaScriptInterface中打印出html代码先看看代码结构,这里我直接贴图我自己的淘宝订单。


【需求】Jsoup爬取淘宝订单的订单号总结_第1张图片
2018-08-16_120911.png

然后我们展开一个li标签,查看详情


【需求】Jsoup爬取淘宝订单的订单号总结_第2张图片
2018-08-16_121514.png

众所周知,淘宝订单号是18位的数字,而我们可以观察看,class中的属性,是19位的数字,这是为什么呢?我们继续查看第2个li标签


【需求】Jsoup爬取淘宝订单的订单号总结_第3张图片
2018-08-16_122338.png

好了,知道订单号后,我们接下来就是重点了。

回到我们定义的HTMLJavaScriptInterface中,编写如下代码:

class HTMLJavaScriptInterface {
        @JavascriptInterface
        @SuppressWarnings("unused")
        public void processHTML(String html) {
           //创建一个集合用来最后存订单号
           List idList = new ArrayList<>();
           //需要抛异常来查看问题
            try {
                //通过parse方法拿到Document对象
                Document doc = Jsoup.parse(html);
                //通过getElementById定位到订单的div位置
                Element div = doc.getElementById("order1");
                //拿到该div下面所有的li标签
                Elements lis = div.getElementsByTag("li");
                //遍历li标签,用来得到里面div的class属性
                for (Element li : lis) {
                    //保存不为空的class属性
                    if (!TextUtils.isEmpty(li.select("div").attr("class"))) {
                       //从上面的class属性我们可以看到是module 1754124142728272452 storage这样的,我们就从第7位取到25位,这样就保留了中间18位的订单号
                       idList.add(li.select("div").attr("class").substring(7, 25));
                    }
                }
                //结束idList就是我们最终获取到的淘宝订单号集合
            
            } catch (Exception e) {
               //查看Jsoup操作的异常
            }
        }
    }

想要了解更多Jsoup的操作,可以访问Jsoup的中文网学习
官网地址

好了,下课,其他问题可以在评论区咨询。

你可能感兴趣的:(【需求】Jsoup爬取淘宝订单的订单号总结)