chou_out_man

大数据互联网架构阶段 Java爬虫

Java爬虫

一、爬虫简介

http://www.lete.com , 乐贷网其实就是爬虫的简单应用，发送一个商品连接，获取商品信息
目标
1. 爬取京东所有商品的信息
2. 封装在自己的Item实体类中
分析：
1. 京东允许爬虫爬取数据么？
  1. 京东是允许爬虫的，没有反爬虫技术
爬虫产品：
1. httpClient ：但是httpClient抓取的是整个页面，整夜字符串的处理、解析比较繁琐，数据的定位非常不准确。
2. htmlUnit ：也获取整个页面，抓取页面也可以包含二次提交，数据定位也比较准确，但是爬取过程不稳定，在爬取过程中需要断点续爬代码的编写。
3. jsoup：是一款比较稳定，定位准确，包含二次提交的java爬虫技术。
4. python也可以做爬虫，使用beautifulSoup技术，底层原理与jsoup是一样的。只是语言不同。

jsoup

抓取整个页面
抓取整个网站（以京东为列，抓取从首页能获取所有的连接地址）
抓取页面中某一个定位的数据
抓取二次提交ajax（如： price）
抓取其他的jsonp数据（如：商品描述）
以上五种问题，如果都能解决，那么使用jsoup爬取任何网站都是可行的。

案例

整个页面

与httpclient无异

/**
     * 爬取网页
     * @throws IOException 
     * */
    @Test
    public void testt_01() throws IOException {
        String url = "http://www.jd.com"; 
        Connection connect = Jsoup.connect(url);
        Response execute = connect.execute();
        System.out.println(execute.body());
    }

整个网站

抓取绝大部分的连接地址
观察网站的连接大部分都是使用的a标签，连接在href中

使用jsoup定位a标签，获取所有a标签，然后获取href的值

/**
     * 爬取整个网站
     * @throws IOException 
     * */
    @Test
    public void test_02() throws IOException {
        String url = "http://www.jd.com";
        Document document = Jsoup.connect(url).get();
        //寻找a标签
        Elements elementsByTag = document.getElementsByTag("a");
        for(Element element :elementsByTag) {
            String href = element.attr("href");
            String val = element.val();
            System.out.println("连接地址："+href + "---"+val);
        }
    }

定位信息

    /**
         * 爬取一个网页中的信息
         * 定位具体标签中的数据
         * @throws IOException 
         * */
        @Test
        public void test_03() throws IOException {
            String url= "http://item.jd.com/4329035.html";

            //get请求 获取的是返回结构的document树
            //excute获取的是返回的所有数据
            Document doc = Jsoup.connect(url).get();
            //选择器与jQ中的选择器使用一致
            //为了 定位准确 ， 使用父子选择器 ， 确定唯一的定位
            Element select = doc.select("ul li .p-img a").get(0);
            System.out.println(select.attr("href"));
        }

json二次提交获取信息

需要自己寻找页面中发起 ajax的请求地址

/**
     * 抓取二次提交
     * 商品价格是页面加载之后又通过ajax获取的
     * @throws IOException 
     * */
    @Test
    public void test_04() throws IOException {
        String url = "http://p.3.cn/prices/mgets?skuIds=J_5089253";
        Response response = Jsoup.connect(url).ignoreContentType(true).execute();
        String  json = response.body();
        System.out.println(json);
        ObjectMapper mp = new ObjectMapper();
        JsonNode jn = mp.readTree(json);
        //[{"op":"8388.00","m":"9999.00","id":"J_5089253","p":"8388.00"}]
        //直接获取到的是数组  ，需要获取到第一个元素
        String price = jn.get(0).get("p").asText();
        System.out.println(price);
    }

jsonp数据

/**
     * 获取jsonp请求数据
     * @throws IOException 
     * */
    @Test
    public void test_05() throws IOException {
        String url = "http://d.3.cn/desc/4329035";
        String jsonDesc = Jsoup.connect(url).ignoreContentType(true).execute().body();
        System.out.println(jsonDesc);
        String data = jsonDesc.substring(jsonDesc.indexOf("(")+1, jsonDesc.lastIndexOf(")"));
        System.out.println(data);
        ObjectMapper mp = new ObjectMapper();
        JsonNode jn = mp.readTree(data);
        String  desc = jn.get("date").asText();
        System.out.println(desc);

    }

爬取京东商品信息

/**
 * 爬取京东商品的所有商品信息
 * @author outman 
 * 2018 - 1 - 31 - 17:48
 * 步骤： 
 * 1. 先获取所有的商品三级分类链接
 * 2. 访问商品分类链接后获取一个分类下所有商品的链接（可能存在分页的情况）
 * 3. 访问商品链接后获取商品信息 
 * 
 * 过程中要十分注意异常的处理
 * 在爬取过程中一旦出现异常 ， 后续的过程也将受到影响 ， 导致整个数据错乱
 * */
public class JDCrawler {
    private static SqlSession session ; 
    static {
         //获取一个数据流
        InputStream in;
        try {
            in = Resources.getResourceAsStream("mybatis-config.xml");
            //创建一个工厂
            SqlSessionFactory factory = new SqlSessionFactoryBuilder().build(in);
            //创建一个会话
            session = factory.openSession(true);//true表示自动提交 ， 默认为false ， 需要手动提交
        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }
    /**
     * 入口函数
     * @throws Exception 
     * */
    public static void main (String[] args) throws Exception {
        //测试
        //http://www.jd.com/allSort.aspx  商品 分类页面
//      getItemCatUrls("http://www.jd.com/allSort.aspx");
        //list.jd.com/list.html?cat=12379,13302,13313 某一分类下的商品展示页面
//      getItemsPageUrls("http://list.jd.com/list.html?cat=12379,13302,13313");
        //http://list.jd.com/list.html?cat=12379,13302,13313&page=2  商品展示页面
//      getItemUrls("http://list.jd.com/list.html?cat=12379,13302,13313&page=2");
        //item.jd.com/12017077901.html  商品信息页面
//      getItem("http://item.jd.com/12017077901.html");
        // 12017077901某一个商品的ID
//      getPrice(new Long("12017077901"));

        //完整测试
        List itemCatUrls = getItemCatUrls("http://www.jd.com/allSort.aspx");
        for(String itemCaturl :itemCatUrls) {
            System.out.println("商品分类链接:"+itemCaturl);
            List itemsPageUrls = getItemsPageUrls(itemCaturl);
            for(String itemsPageUrl : itemsPageUrls) {
                System.out.println("商品展示页面链接:"+itemsPageUrl);
                List itemUrls = getItemUrls(itemsPageUrl);
                for(String itemUrl : itemUrls) {
                    System.out.println("商品链接:"+itemUrls);
                    Item item = getItem(itemUrl);
                    saveItem(item);
                    System.out.println(item);
                }
            }
        }
    }
    /**
     * 获取京东商品的所有分类链接
     * @throws Exception  
     * */
    public static List getItemCatUrls(String url) throws Exception{
        //记录数据数量
        Integer hrefPreNum  = 0  ;
        List itemCatUrls =  new ArrayList();
        //这里选择抛出异常 ， 这里如果抛出异常 ， 说明url有问题  ， 或者网络有问题 ， 后续的操作没有任何意义
        Document doc = Jsoup.connect(url).get();
        Elements eles = doc.select("dl dd a");
        for(Element ele : eles) {
            String href = ele.attr("href");
            hrefPreNum += 1;
            if(href.startsWith("//list.jd.com/")) {
                itemCatUrls.add("http:"+href);
//              System.out.println(href);
            }
        }
        System.out.println("获取到的总三级分类链接量："+hrefPreNum);
        System.out.println("数据清洗后的数量："+itemCatUrls.size());

        return itemCatUrls;
    }
    /**
     * 获取三级分类下所有商品页面的链接
     * 商品展示可能存在分页的情况
     * 所以在获取所有的商品链接之前需要先获取 所有的商品分类页
     * */
    public static List getItemsPageUrls(String url){
        List itemsPages = new ArrayList();
        //从商品展示页面获取分页信息
        String num;
        try {//抛出异常 ， 如果 出现异常则继续执行 ， 丢失一点信息是正常的
            num = Jsoup.connect(url).get().select("#J_topPage span i").get(0).text();
            Long numL = new  Long(num);
            for(int i = 1 ; i<=numL ; i++) {
                String pageUrl = url+"&page="+i;
//              System.out.println(pageUrl);
                itemsPages.add(pageUrl);
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
        return itemsPages;
    }
    /**
     * 获取每个商品分类页面的商品链接
     * */
    public static List getItemUrls(String url){
        List itemUrls = new ArrayList();
        try {
            Elements eles = Jsoup.connect(url).get().select(" li div .p-img a");
            for(Element ele : eles) {
                String itemUrl = ele.attr("href");
                itemUrls.add("http:"+itemUrl);
            }
        } catch (Exception e) {
            System.out.println("获取商品展示页面的商品链接出错："+url);
        }
        return itemUrls;
    }
    /**
     * 访问商品链接 ， 获取商品数据
     * */
    public static Item getItem (String url) {
        Item item = new Item();
        Long id = null;
        try {
            Document doc = Jsoup.connect(url).get();
            //获取id   //item.jd.com/12016709876.html
            id = new Long(url.substring(url.lastIndexOf("/")+1, url.indexOf(".html")));
            //获取title
            String title = doc.select("#name h1").get(0).text();
            //获取卖点  获取到的 值为"" 说明页面时是通过ajax方式请求  需要json格式的数据
//          String sellPoint = doc.select("#p-ad").get(0).text();
            String sellPoint = getSellPoint(id);
            //获取价格  价格是通过ajax二次请求的
//          Long price = new Long(doc.select(".dd .p-price .price").get(0).text());
            Long price = getPrice(id);
            //获取图片
//          String img = doc.select("#spec-n1 img").attr("src");
            String img = getImg(url);
//          System.out.println(img);
            //获取商品详情
//          String desc = doc.select("J-detail-content").get(0).text();
            String desc = getDesc(id);
            //封装属性
            item.setId(id);
            item.setTitle(title);
            item.setSellPoint(sellPoint);
            item.setPrice(price);
            item.setImg(img);
            item.setDesc(desc);
            System.out.println(item);
        } catch (Exception e) {
            // TODO Auto-generated catch block
            System.out.println("获取商品信息失败");
        }
        return item;
    }
    /**
     * 爬取卖点
     * 由于商品价格是页面加载完成之后 ， 有通过ajax获取的 ， 所以单独爬取json格式的数据
     * 通过页面分析 得到卖点的url
     * http://ad.3.cn/ads/mgets?skuids=AD_ +12017077901
     * */
    public static String getSellPoint(Long id) {

        String sellPoint = null;
        try {
            Response resp = Jsoup.connect("http://ad.3.cn/ads/mgets?skuids=AD_"+id).ignoreContentType(true).execute();
            ObjectMapper mapper = new ObjectMapper();
             sellPoint = mapper.readTree(resp.body()).get(0).get("ad").asText();
        } catch (Exception e) {
            // TODO Auto-generated catch block
            System.out.println("获取卖点失败");
        }
        return sellPoint;
    }
    /**
     * 爬取商品价格
     * 由于商品价格是页面加载完成之后 ， 有通过ajax获取的 ， 所以单独爬取
     * 通过页面分析 得到商品价格的链接 //p.3.cn/prices/get?skuid=id
     * */
    public static Long getPrice(Long id) {
        Long price  = null;
        try {
            Response resp = Jsoup.connect("http://p.3.cn/prices/get?skuid="+id).ignoreContentType(true).execute();
            ObjectMapper mapper = new ObjectMapper();
            JsonNode jsonNode = mapper.readTree(resp.body()).get(0);
            price = jsonNode.get("m").asLong();
//          System.out.println(price);
        } catch (Exception e) {
            System.out.println("获取价格失败");
        }
        return price;
    }
    /**
     * 获取商品图片 
     * 通过分析页面 ， 得到图片的请求地址
     * */
    public static String getImg(String url) {
        String img = "";
        Document doc;
        try {
            doc = Jsoup.connect(url).get();
            //获取页面大图的地址
            String bigsrc = doc.select("#spec-n1 img").attr("src");
//          System.out.println("大图地址:"+bigsrc);
            //获取小图地址
            Elements smallsrcs = doc.select("#spec-list div ul li img");
            for(Element ele : smallsrcs) {
                String src = ele.attr("src");
//              System.out.println("小图地址："+src);
                //将小图地址替换成大图
                String newSrc = src.replace("n5", "n1");
                img+=newSrc+";";
//              System.out.println(newSrc);
            }
        } catch (Exception e) {
            // TODO Auto-generated catch block
            System.out.println("获取图片失败");
        }
        img = img.substring(0 , img.length()-1);
        return img;
    }
    /**
     * 爬取商品详情
     * 商品详情是页面加载完成之后 ， 通过jsonp获取的 ， 需要单独获取
     * http://dx.3.cn/desc/10316672107
     * */
    public static String getDesc(Long id) {
        String desc  = null;
        try {
            Response resp = Jsoup.connect("http://dx.3.cn/desc/"+id).ignoreContentType(true).execute();
            ObjectMapper mapper = new ObjectMapper();
            String body = resp.body();
            body = body.substring(body.indexOf("(")+1, body.lastIndexOf(")"));
            desc = mapper.readTree(body).get("content").asText();

        } catch (Exception e) {
            // TODO Auto-generated catch block
            System.out.println("获取不到"+id+"的商品描述");
        }
        return desc;

    }

    /**
     * 数据入库
     * */
    public static void saveItem(Item item) {
        session.insert("ItemMapper.saveItem" , item);
    }
}

爬虫的注意事项

网络不稳定，最好使用完整的严谨的逻辑（断点续爬）
爬虫代码量不大（逻辑种类不多），最重要的是页面结构的分析
网站改版导致爬虫的代码更新。
反爬虫技术
1. 频繁修改样式关键字（最简单的反爬虫机制）
2. nginx就可以反爬虫（使用nginx黑名单）
  1. jsoup的连接请求头和浏览器请求头不一样
    1. jsoup可以用代码模拟请求头—伪装请求头参考： http://jilongliang.iteye.com/blog/2048459
3. 查看访问频率，如果频率过高，则封ip一段时间

问题

数据是会每天更新或添加的，怎样在原有的基础上爬取最新的数据

Python爬虫selenium验证-中文识别点选+图片验证码案例 dme. Python爬虫零基础入门 python 爬虫
1.获取图片importreimporttimeimportddddocrimportrequestsfromseleniumimportwebdriverfromselenium.webdriver.common.byimportByfromselenium.webdriver.chrome.serviceimportServicefromselenium.webdriver.support.w
物联网数据采集平台【物联网毕业论文】算法与数据物联网
物联网技术与数据分析|物联网系统设计|模型构建✨专业领域：物联网系统架构设计智能设备与传感器网络数据采集与处理物联网大数据分析智能家居与工业物联网边缘计算与云计算物联网安全与隐私保护擅长工具：Python/R/Matlab数据分析与建模物联网平台与设备编程数据流与实时监控系统设计机器学习与预测模型应用物联网协议（MQTT,CoAP,HTTP）物联网数据可视化工具✅物联网专业题目与数据：物联网毕业论
泷羽sec---超文本协议与内外网划分是山然呀泷羽sec--红队从0到1 安全
http协议HTTP协议概述HTTP（HyperTextTransferProtocol）是用于分布式、协作式和动态Web的核心通信协议。它定义了浏览器和Web服务器之间如何传输超文本或文件。HTTP是一个无状态协议，这意味着每个请求和响应都是独立的，不依赖于前后请求的状态。HTTP版本HTTP/0.9互联网发展初期，对网页的需求较为简单，主要是纯文本内容的传输。http/0.9特点：1.只支持G
Java Web开发 yourkin666 java 前端开发语言
JavaWeb开发Java部分：面向对象后，注重学集合，抛异常，泛型，线程，反射，注解【Java零基础视频教程（适合Java基础，Java入门）老杜Java13版】https://www.bilibili.com/video/BV1mE411x7Wt?vd_source=4543341eea15096fa471f9067cc841ff【【零基础快速学Java】韩顺平零基础30天学会Java】htt
红队-网络基础(上-超文本协议与内外网划分) 在校大two学生网络
声明通过学习泷羽sec的个人空间-泷羽sec个人主页-哔哩哔哩视频,做出的文章如涉及侵权马上删除文章笔记的只是方便各位师傅学习知识,以下网站只涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负一.http协议简介HTTP协议是HypertextTransferProtocol（也称为超文本传输协议）的缩写，是用于从万维网（www:worldwideweb）服务器传输超文本到本地浏览器
使用 CefSharp 在 C# WinForms 应用程序中嵌入 Chromium 浏览器：全面指南墨夶 C#学习资料2 c#开发语言
亲爱的小伙伴们，今天我们要深入探讨如何在C#WinForms应用程序中使用CefSharp嵌入Chromium浏览器。CefSharp是一个开源的.NET绑定库，允许你在WindowsForms或WPF应用程序中轻松集成Chromium浏览器引擎。这使得你可以构建功能强大的桌面应用程序，拥有现代化的Web技术支持。本文将详细介绍如何在C#WinForms项目中安装和配置CefSharp，并通过一些
Vue学习：22.Vue组件库-Vant 星仔如雨 Vue2 vue.js 学习前端 vant
Vue组件库是一系列预先构建好的、可复用的UI组件集合，它们设计用于加速Vue.js应用程序的开发过程。这些组件通常遵循一定的设计规范，提供统一的外观和交互体验，让开发者能够快速搭建用户界面。组件库举例Vant:专注于移动端的轻量级UI库，提供丰富的基础组件和业务组件，适用于快速构建高性能的移动端页面。ElementUI:针对桌面端Web应用的Vue组件库，包含丰富的表单元素、布局组件、导航组件等
鸿蒙搭配前端开发：应用端与WEB端交互星仔如雨鸿蒙开发 harmonyos 华为前端交互
鸿蒙系统（HarmonyOS）是华为开发的一款面向全场景的分布式操作系统，其设计初衷是为了适应物联网时代的需求，旨在构建一个统一的操作系统，支持多种设备的无缝协同工作。其分布式开发的一些主要优势：跨设备协同：鸿蒙系统支持跨设备的分布式软总线技术，使得不同类型的设备能够像一台设备一样协同工作，实现资源共享和服务迁移。一次开发多端部署：开发者可以使用一套代码库开发出能在不同设备上运行的应用程序，这大大
大数据安全项目是小酒大数据 python pycharm sql mysql
1.项目详情用python写一个大数据安全项目（使用tk，页面布局使用盒子模型，页面中各个按钮，主题要美观，按扭间的距离不要太进），需要连接数据库连接名是root（数据库名为bigdata_security,数据库密码是123456。查询数据库中的student表（包括id，name,sex,school,height,weight这些字段））。包括管理员和学生两个功能。2.代码详
【ETL】从理论到实践的数据处理流程及其工具的应用絆人心 etl 数据仓库 python 数据分析数据挖掘数据库
目录引言一、ETL的基础与工作原理二、ETL过程中的工具选择与实际操作（1）提取（Extract）（2）转换（Transform）（3）加载（Load）三、常见的ETL工具四、ETL的未来发展趋势五、总结引言ETL（Extract,Transform,Load）是处理数据、实现数据整合、清洗和迁移的关键技术。在大数据时代，随着企业数据量的快速增长，ETL不仅要满足传统数据仓库的需求，还要应对实时数
AI人工智能带给企业什么影响雪叶雨林 AI 人工智能 ai
在科技日新月异的今天，人工智能(AI)正以前所未有的速度和广度渗透到各行各业，对企业运营产生了深远的影响。这种影响不仅体现在技术层面的革新，更在于企业组织结构、工作流程、决策模式等多个维度的深刻变革。一、优化决策过程，提升精准度人工智能通过大数据分析和机器学习技术，能够处理和分析海量信息，为企业提供更为精准、实时的决策支持。相较于传统的人工分析，AI能够识别出数据中的微妙模式和趋势，帮助企业预见市
Nginx之websocket配置 egzosn nginx websocket 运维网络协议网络
在Nginx配置中，map$http_upgrade$connection_upgrade主要用于WebSocket代理，以确保正确处理Upgrade头部，实现WebSocket连接。以下是完整的Nginx配置示例：完整配置示例(WebSocket代理)登录后复制http{#定义一个变量$connection_upgrademap$http_upgrade$connection_upgrade{d
70道Spring Boot面试八股文（答案、分析和深入提问）整理守护海洋的猫 spring boot 面试后端 java
1.什么是RESTfulWeb服务？如何在SpringBoot中创建一个RESTfulWeb服务？回答什么是RESTfulWeb服务？RESTfulWeb服务是基于REST（RepresentationalStateTransfer）架构风格构建的网络服务。REST的核心思想是利用HTTP协议的标准方法（如GET、POST、PUT、DELETE等）来操作资源。每个资源在服务中都有一个URI（统一资
实战：用Spring Boot构建电商系统中的API接口 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介1998年，在经历了无数的创新革命之后，互联网成为科技界最重要的分支之一。随着时间的推移，互联网已经成为人类信息化革命的源头。如今的电子商务网站数量达到数百亿，这些网站都具有大规模的用户群体、丰富的内容、高频的交易、海量数据等特征。电商行业近几年有了很多变革，比如大数据分析、物流管理、供应链管理、订单评价、信用卡支付等等。其中API接口开发对于电商系统而言尤其重
Linux云计算运维有前景吗? 老男孩IT教育 linux 服务器
伴随着云计算技术的发展，越来越多的企业和组织开始使用云服务来部署和运行他们的应用程序和服务，因此对云计算技术人才的需求量也持续增长，那么Linux云计算运维有前景吗?这应该是很多人关心的问题，我们来探讨一下。综合情况来讲，Linux云计算运维的前景非常广阔。随着云计算和大数据技术的快速发展，Linux作为云计算领域的主流操作系统，其重要性日益凸显，越来越多的企业和组织将其IT基础设施迁移上云，以提
【软考高项】【英语知识】- 21 - 单词积累 oo寻梦in记软考高项（信息系统项目管理师）软考
目录一、常见计算机技术词汇二、项目管理词汇2.1十大知识域2.2五大过程组2.349个子过程2.4工具和技术汇总2.5输入和输出汇总一、常见计算机技术词汇序号中文英文1云计算Cloudcomputing2云存储Cloudstorage3云服务Cloudservice4软件即服务SaaS5平台即服务PaaS6基础设施即服务laaS7虚拟资源Virtualresources8大数据bigdata9大数
Linux在云计算和大数据的应用有哪些 coder_wwwdy Linux linux 云计算大数据
Linux在云计算和大数据领域的应用非常广泛，主要体现在以下几个方面：1.**云计算基础设施**：-Linux操作系统因其开源、稳定和高度可定制的特性，成为云计算平台的首选操作系统。例如，AmazonWebServices(AWS)、GoogleCloudPlatform(GCP)和MicrosoftAzure等主要云服务提供商都使用Linux作为其云基础设施的基础。-Linux提供了多种发行版，
一周学会Flask3 Python Web开发-post请求与参数获取 java1234_小锋 Flask3视频教程 python 开发语言 flask flask3
锋哥原创的Flask3PythonWeb开发Flask3视频教程：2025版Flask3Pythonweb开发视频教程(无废话版)玩命更新中~_哔哩哔哩_bilibili@app.route装饰器默认只支持get请求。假如我们要让绑定的视图函数支持其他请求方式，我们可以在methods属性里配置下即可。@app.route('/login',methods=['GET','POST'])我们通过一
Linux 在云计算中的应用有哪些？我们的五年游戏实现 linux 云计算运维
目录Linux在云计算中的应用1.云计算基础设施的核心2.虚拟化技术的基础3.容器化与微服务4.大数据与人工智能5.开源生态与社区支持6.在GoogleCloud上运行Linux的优势7.边缘计算与物联网总结Linux在云计算中的应用Linux作为开源操作系统的代表，在云计算领域扮演着至关重要的角色。其灵活性、稳定性和强大的社区支持使其成为云计算基础设施的理想选择。以下是Linux在云计算中的主要
Chrome webdriver下载-避坑 m0_74825502 java
WebDriver以原生的方式驱动浏览器，不需要调整环境变量。一、window版1.chrome和chromedriver下载地址：ChromeforTestingavailability我下载的是如下两个安装包，解压即可。2.导包pipinstallselenium然后用python代码引用即可二、Linux版1.chrome和chromedriver下载地址：ChromeforTestinga
springboot基于web的汽车销售系统论文 m0_74825502 spring boot 前端汽车
系统简介如今社会上各行各业，都喜欢用自己行业的专属软件工作，互联网发展到这个时候，人们已经发现离不开了互联网。新技术的产生，往往能解决一些老技术的弊端问题。因为传统汽车销售信息管理难度大，容错率低，管理人员处理数据费工费时，所以专门为解决这个难题开发了一个汽车销售系统，可以解决许多问题。汽车销售系统可以实现用户购买汽车，预约汽车试驾，查看购买汽车的订单，在论坛模块发帖，回帖等，管理员管理汽车试驾预
Svelte 最新中文文档教程（17）—— 生命周期钩子
前言Svelte，一个语法简洁、入门容易，面向未来的前端框架。从Svelte诞生之初，就备受开发者的喜爱，根据统计，从2019年到2024年，连续6年一直是开发者最感兴趣的前端框架No.1：Svelte以其独特的编译时优化机制著称，具有轻量级、高性能、易上手等特性，非常适合构建轻量级Web项目，也是我做个人项目的首选技术栈。目前Svelte基于Svelte5发布了最新的官方文档，但却缺少对应的中文
Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测 qq_79856539 javaweb 大数据 python spark
本系统基于大数据设计并实现成都地铁客流量分析系统，使用网络爬虫爬取并收集成都地铁客流量数据，运用机器学习和时间序列分析等方法，对客流量数据进行预处理和特征选择，构建客流量预测模型，利用历史数据对模型进行训练和优化，实现客流量预测模型的部署和应用，通过系统界面展示预测结果。对预测模型进行评估和验证，并提出改进方案。设计步骤使用Python语言编写爬虫程序采集数据，并对原始数据集进行预处理；使用Pyt
PHP爬虫实战：如何抓取网页表格数据数据小爬虫.网站开发-Brad php 爬虫开发语言
随着互联网和大数据时代的到来，越来越多的数据可以被收集和利用。而在众多从网页上获取数据的方法中，爬虫技术可以说是最为强大和高效的一种。在实际的应用场景中，我们经常需要从网页中抓取特定的数据，尤其是网页中的表格数据。因此，本文将介绍如何使用PHP爬虫技术来获取并解析网页中的表格数据。1、安装和配置PHP爬虫库在开始编写爬虫代码之前，我们需要先安装和配置一个PHP爬虫库。这里我们选择使用PHPSimp
2024年前端面试题webpack+vite4篇 xiaoliyo_ 面试题前端 webpack node.js
2024年前端面试题webpack+vite4篇我希望我的答案和解释是通俗易懂的。webpack部分webpack的构建流程初始化流程：从配置文件和shell语句中读取和合并参数，并初始化需要使用的插件和配置插件执行环境所需要的参数编译构建流程：从Entry发出，针对每个Module串行调用对应的Loader去翻译文件内容，再找到该Module依赖的Module，递归地进行编译处理输出流程：对编译
Svelte 最新中文文档翻译（11）—— 动画相关语法 transition、in、out、animate 冴羽yayujs Svelte 中文文档前端 vue.js 前端框架 vue react.js 动画
前言Svelte，一个非常“有趣”、用起来“很爽”的前端框架。从Svelte诞生之初，就备受开发者的喜爱，根据统计，从2019年到2024年，连续6年一直是开发者最感兴趣的前端框架No.1：Svelte以其独特的编译时优化机制著称，具有轻量级、高性能、易上手等特性，非常适合构建轻量级Web项目，也是我做个人项目的首选技术栈。目前Svelte基于Svelte5发布了最新的官方文档，但却缺少对应的中文
前端面试题（四、webpack和vite） weixin_47880745 前端 webpack node.js 1024程序员节
构建工具因为浏览器只认识html、css和js，而我们写的jsx，vue、ts、less、js语法降级都需要处理后，再交给浏览器去运行。所以出现了构建工具帮我们做这些事情，开发者只关心怎么写代码就行。比如webpack、vite。一、webpack1.基础功能开发模式下：编译es6的模块化语法生产模式下：编译es6的模块化语法、压缩代码。2.集成功能通过集成一系列的第三方库，比如一些loader编
Vue3 集成Monaco Editor编辑器 ZuuuuYao #Vue #JavaScript 前端编辑器 javascript vue
Vue3集成MonacoEditor编辑器1.安装依赖2.使用3.效果MonacoEditor（官方链接https://microsoft.github.io/monaco-editor/）是一个由微软开发的功能强大的在线代码编辑器，被广泛应用于各种Web开发场景中。以下是对MonacoEditor的详细介绍：强大的功能特性多语言支持：MonacoEditor支持众多编程语言，包括但不限于Java
研发IT规划与实施监理咨询_IPD研发项目体系管理咨询深圳科新咨询经验分享
咨询内容概览：从PDM到PLMPLM是一种技术辅助策略，它把跨越业务流程和不同用户群体的那些单点应用集成起来➢PDM（产品数据管理）➢CPD（协同产品设计）➢PPM（产品组合管理）➢CNM（客户需求管理）IT规划参考模型比较看点01引言伴随社会信息化进程加快、社会化媒体涌现、大数据时代来临及IT技术进步，各类组织逐步意识到IT技术及信息资源重要性并将其作为核心竞争力和重要资产，纷纷加大信息化投资并
多线程处理大数据量数据码代码的小仙女 java知识
最近公司需要一个新的需求，需要一个接口去跑数据。数据量还蛮大的，大约50-60万数据（一条一条执行），其中还涉及到与其他接口的交互，因此这些数据跑下来要耗时很久，因此设计了一个方案，使用多线程的方式进行处理。方案1每次重数据库表中取一定量的数据（自己按实际情况定义）放在线程池缓存队列里，启动10个线程去线程池里去取数据。（相当于生产者和消费者的关系），这里需要有一个触发点，当我缓存里没有数据时，需
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running]root@192.168.9.136:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

大数据互联网架构阶段 Java爬虫

Java爬虫

一 、 爬虫简介

jsoup

案例

爬虫的注意事项

问题

你可能感兴趣的:(WEB,大数据)

一、爬虫简介