cai-4

实训笔记8.29

8.29笔记
- 一、《白龙马电商用户行为日志分析平台》项目概述--大数据离线项目
- - 1.1 项目的预备知识
  - - 1.1.1 电商平台
    - 1.1.2 用户行为数据
    - 1.1.3 常见的软件/网站的组成和技术实现
    - 1.1.4 大数据中数据计算场景
  - 1.2 项目的开发背景和开发意义
  - 1.3 项目的开发流程和技术选项
  - 1.4 本次项目的统计指标
  - 1.5 本次项目的数据格式
- 二、项目的第一个环节：数据产生环节
- - 2.1 作用
  - 2.2 实现
  - 2.3 部署运行
- 三、项目的第二个环节（大数据环节的第一个阶段）：数据采集存储阶段
- - 3.1 概念
  - 3.2 技术选项
  - 3.3 开发流程
  - - 3.3.1 核心思想
    - 3.3.2 设计Flume的Agent中三个组件
    - 3.3.3 采集存储的流程
    - 3.3.4 编写项目的采集脚本
    - 3.3.5 采集数据
- 四、项目的第三个环节（大数据环节的第二个阶段）：数据清洗预处理阶段
- - 4.1 概念
  - 4.2 数据清洗预处理的技术选项
  - 4.3 项目的数据清洗预处理的规则
  - - 4.3.1 清洗规则的问题
    - 4.3.2 规则
  - 4.4 开发数据清洗预处理程序（MapReduce编写）
- 五、相关代码

8.29笔记

一、《白龙马电商用户行为日志分析平台》项目概述–大数据离线项目

1.1 项目的预备知识

1.1.1 电商平台

1.1.2 用户行为数据

访客的用户信息
访客的终端信息
请求网址信息
请求来源信息
请求的产品信息

1.1.3 常见的软件/网站的组成和技术实现

前端
后端
数据库

1.1.4 大数据中数据计算场景

离线计算
实时计算
图计算
算法挖掘推荐等等

1.2 项目的开发背景和开发意义

1.3 项目的开发流程和技术选项

数据产生环节（不属于我们项目的一部分，只不过因为我们没有数据产生的源头，所以我们需要根据白龙马网站脱敏数据格式我们模拟数据产生即可）–才有数据供大数据环境去存储和处理，同时数据产生是不会停止的，除非网站不使用了。
数据采集存储阶段：将网站产生的用户行为数据采集存储到大数据环境中，保证数据能持久化、海量化、高可靠的保存下来

技术选项：Flume+HDFS

执行周期：7*24小时不停止的执行的
数据清洗预处理阶段：采集存储的数据中把数据质量不好的数据剔除，把格式不规整的数据统一格式，得到高质量数据。

技术选项：MapReduce+HDFS

执行周期：周期性调度执行的（一天执行一次，第二天处理前一天采集存储的数据）
数据统计分析阶段：在清洗预处理完成的高质量数据基础之上，我们采用一些统计分析的技术，从数据中统计分析相关的功能指标

技术选项：Hive

执行周期：同数据清洗预处理的周期
数据迁移导出阶段：将Hive统计分析完成的结果指标迁移导出到RDBMS中，留备后期的大数据环节操作技术选项：sqoop+mysql 执行周期：同数据统计分析的执行周期

步骤3~5：大数据离线计算环节–周期性（一天执行一次）调度执行而是7、任务调度阶段（azkaban）

步骤2~5：大数据开发人员的工作
数据可视化阶段（严格意义上不属于大数据开发工程师的工作范围）：将指标结果以图表的形式进行展示

技术选项：代码可视化、DataV

执行周期：7*24小时执行的

1.4 本次项目的统计指标

终端纬度——统计不同浏览器的使用占比
用户纬度
1. 不同年龄段用户的占比
2. 网站的新老用户访问量
3. 网站的独立访客数
来源纬度——网站的站外和站内来源占比
时间纬度——不同年份/不同月份/每天/每小时/每季度的用户访问量
地理纬度——不同地理位置的用户访问量

1.5 本次项目的数据格式

254.126.32.169 - - 2018-02-10 05:14:31 "POST https://www.bailongma.com/category/a HTTP/1.0" 500 92077 https://www.bailongma.com/category/a Safari webkitwindows 甘肃 36.04 103.51 27

二、项目的第一个环节：数据产生环节

2.1 作用

模拟电商网站中用户触发行为之后，网站后端自动记录用户行为数据到日志文件的过程

2.2 实现

通过Java代码+IO流+随机数+for循环+时间格式化类实现的数据模拟

2.3 部署运行

让数据产生更加契合真实的业务数据产生场景。将数据产生的代码打成JAR包，然后再服务器上借助java -jar|-cp xxx.jar [全限定类名]

三、项目的第二个环节（大数据环节的第一个阶段）：数据采集存储阶段

3.1 概念

电商网站产生的用户行为数据记录到一个日志文件中**/root/project/data-gen/userBehavior.log**，但是文件是直接存储在我们服务器的硬盘上的，但是服务器的硬盘是有大小的，而且服务器的硬盘也不是分布式的，因此无法存储海量数据，而我们网站的用户行为数据因为它是7*24小时不停止的采集的，因此就会出现计算机无法存储userBehavior.log海量的数据。所以我们需要通过数据采集存储技术将userBehavior.log产生的用户行为数据采集存储到大数据分布式文件系统HDFS中。同时因为userBehavior.log无法记录海量数据，userBehavior.log文件真正的业务场景下会有定期的清理规则。

3.2 技术选项

大数据中数据采集技术有很多的 Flume、SQOOP、DataX、Cancl…

采集日志文件数据到大数据环境中，符合要求的只有一个技术Flume技术

Flume+HDFS

3.3 开发流程

3.3.1 核心思想

核心思想就是编写Flume数据采集存储脚本，脚本中指定Flume的agent进程中source、channel、sink的类型

3.3.2 设计Flume的Agent中三个组件

source
1. 需要采集的是我们网站产生的用户行为数据文件userBehavior.log中源源不断记录的用户行为数据
2. exec
channel——memory
sink
1. 需要把数据下沉到HDFS
2. hdfs
3. 在HDFS存储的规则必须是一个动态目录（基于时间的）形式 /dataCollect/%Y-%m-%d

3.3.3 采集存储的流程

3.3.4 编写项目的采集脚本

# 1、给Flume进程agent起名别  source  channel sink组件起别名
project.sources=s1
project.channels=c1
project.sinks=k1

# 2、配置source关联的数据源  记录用户行为数据的日志文件/root/project/data-gen/userBehavior.log
project.sources.s1.type=exec
project.sources.s1.command=tail -F /root/project/data-gen/userBehavior.log

# 3、配置channel管道  基于内存的
project.channels.c1.type=memory
project.channels.c1.capacity=20000
project.channels.c1.transactionCapacity=10000
project.channels.c1.byteCapacity=104857600

# 4、配置sink关联的目的地 HDFS  HDFS的目的地是一个基于时间的动态目录
project.sinks.k1.type=hdfs
project.sinks.k1.hdfs.path=hdfs://single:9000/dataCollect/%Y-%m-%d
project.sinks.k1.hdfs.round=true
project.sinks.k1.hdfs.roundValue=24
project.sinks.k1.hdfs.roundUnit=hour
project.sinks.k1.hdfs.filePrefix=data
project.sinks.k1.hdfs.fileSuffix=.log
project.sinks.k1.hdfs.useLocalTimeStamp=true
# 文件滚动设置只基于文件的大小的滚动 不基于event滚动、时间滚动
project.sinks.k1.hdfs.rollInterval=0
project.sinks.k1.hdfs.rollCount=0
project.sinks.k1.hdfs.rollSize=134217728
project.sinks.k1.hdfs.fileType=DataStream

# 5、关联agent的各个组件
project.sources.s1.channels=c1
project.sinks.k1.channel=c1

【问题】：采集到HDFS上文件的格式文件

3.3.5 采集数据

先启动HDFS和采集脚本
再启动数据产生程序模拟数据的产生

四、项目的第三个环节（大数据环节的第二个阶段）：数据清洗预处理阶段

4.1 概念

采集存储的数据我们是没有做任何的校验的，也就意味着不管数据正确与否（价值密度低），全部采集存储了下来，但是这样的话，我们对数据在进行统计分析的时候，有问题的数据可能就会造成我们的统计结果准确性收到影响。

其中数据正确与否的问题在大数据中是有一个专业的名词–数据质量问题。

简而言之，数据清洗预处理就是把采集的数据中质量不好的数据过滤掉，同时把数据格式统一化，得到高质量数据。

4.2 数据清洗预处理的技术选项

数据清洗预处理其实说白就是一种数据计算。而且因为我们采集的数据量比较庞大，因此我们不能使用普通技术完成数据的计算过程，最起码我们得使用大数据计算框架才能完成。

本次我们项目对计算的时间没有要求，同时因为数据中到底哪些数据有问题我们都不太清楚，所以我们可以选择使用MapReduce技术完成，使用Hive的话因为数据问题可能导致表格出现很大的偏差。

4.3 项目的数据清洗预处理的规则

4.3.1 清洗规则的问题

不同的网站/软件采集的用户行为数据都是不一样的，因此我们数据的清洗预处理的规则（哪些数据是合法数据、哪些数据是不合法的数据）不是固定的。而是基于不同的业务场景，不同的数据场景给出合适的清洗预处理规则。

清洗之前的数据格式如下：

 120.191.181.178 - - 2018-02-18 20:24:39 "POST https://www.bailongma.com/item/b HTTP/1.1" 203 69172 https://www.bailongma.com/register UCBrowser Webkit X3android 8.0 海南 20.02 110.20 36

采集的一条完整的用户行为日志是以空格分割的多个字段组成的

ip  两个无意义的中划线字段  时间字段（两个字段组成的） 行为触发之后访问网址（三个字段组成的） 响应状态码 
响应字节数  来源网址  用户使用的浏览器信息（至少有一个字段） 地址信息（三个字段组成的） 年龄 
一条完成的用户行为数据最少应该由16个字段组成。

4.3.2 规则

如果以空格分割以后，一条用户行为数据的字段个数少于16，那么代表数据不完成，清洗掉
用户行为数据中有一个字段是响应状态码，如果响应状态码大于等于400，那么代表用户访问网站失败了，这是一条错误的访问数据，清洗掉
如果用户没有开启定位权限，或者用户没有登录网站，那么用户行为数据中地理位置信息和用户年龄字段会使用中划线（-）替代，因此如果用户行为数据中省份、纬度、经度、年龄等字段是中划线（-）那么代表数据缺失了，清洗掉
我们通过以上三个规则把数据中我们认为质量不好的数据过滤清洗掉，清洗完成的数据我们最终需要输出，但是我们输出高质量数据时我们不能原模原样的输出（因为原始的数据中有很多字段对于我们目前统计分析的指标没有作用因此输出数据时，应该直接把无用字段给剔除出去—预处理）。清洗之后的数据我们还需要按照我们统计指标的要求把数据预处理一下然后输出，输出的格式主要： ip地址，访问时间，请求网站Url，来源URL，浏览器信息，省份，纬度，经度，年龄预处理完成之后多字段之间以逗号（，）分割

4.4 开发数据清洗预处理程序（MapReduce编写）

因为我们只需要对数据进行过滤和预处理操作，不涉及到聚合操作，因此MR程序中不需要包含Reduce阶段，只需要有Map阶段即可

MapReduce程序在去处理数据时，周期性调度执行的，第二天处理前一天采集存储的数据，因此MR程序在编写时，待处理的输入文件路径应该是一个动态目录（采集存储的昨天的数据目录）

五、相关代码

package com.sxuek;

import java.io.*;
import java.text.SimpleDateFormat;
import java.util.*;

/**
 * 专门用来产生用户行为数据的  而且通过这个类模拟白龙马用户行为数据产生过程
 * 120.191.181.178 - - 2018-02-18 20:24:39 "POST https://www.bailongma.com/item/b HTTP/1.1" 203 69172 https://www.bailongma.com/register UCBrowser Webkit X3android 8.0 海南 20.02 110.20 36
 * ip地址 两个中划线  日期 时间  用户的请求网站(三个字段组成的)  请求网站的响应码  请求的响应字节数  来源网站   浏览器信息（n个字段）  省份  纬度  经度  年龄
 *
 * 模拟数据的时候--数据的真实性，IP地址随机生成  时间生成-数据产生的时间  来源网站和请求网址可以从脱敏数据中获取回来
 * 浏览器信息（从文件读取）
 */
public class DataGenerator {
    //1、定义一个存储IP地址的集合 一会产生模拟数据的时候，模拟数据当中ip地址从集合中随机获取一个
    private static List<String> ipList = new ArrayList<>();
    //2、定义一个集合，集合存放请求的白龙马的网址  模拟数据当中请求网址时从集合中随机获取一个即可
    private static List<String> requestList = new ArrayList<>();
    //3、定义一个集合，集合存放来源网站信息，模拟数据的来源网站时候我们可以从集合中随机获取一个即可
    private static List<String> refererList = new ArrayList<>();
    //4、定义一个集合 存放请求的响应状态码
    private static List<String> codeList = new ArrayList<>();
    //5、定义一个集合 存放浏览器信息  一会模拟产生数据时，浏览器信息从集合中随机获取
    private static List<String> userAgentList = new ArrayList<>();
    //6、定义一个集合，集合存放地理位置信息
    private static List<String> addressList = new ArrayList<>();

    /**
     * 初始化方法，初始化方法主要是给我们上面定义的集合先填充一点数据
     */
    private static void init(){
        /**
         * 1、填充状态码集合 一会随机从集合获取一条数据，默认情况下每一条数据的获取概率都是一样
         * 如果你想让某一个值获取概率大一点那么可以将这个值在集合多添加几次
         */
        codeList.addAll(Arrays.asList("200","203","300","301","200","203","300","301","200","203","300","301","200","203","300","301","400","401","403","500","503"));
        /**
         * 2、填充浏览器信息集合
         */
        userAgentList.add("Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0)");
        userAgentList.add("Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1");
        userAgentList.add("Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0");
        userAgentList.add("Mozilla/5.0 (Windows; U; Windows NT 5.2) AppleWebKit/525.13 (KHTML, like Gecko) Version/3.1 Safari/525.13");
        userAgentList.add("Mozilla/5.0 (Windows; U; Windows NT 5.2) AppleWebKit/525.13 (KHTML, like Gecko) Chrome/0.2.149.27 Safari/525.13");
        userAgentList.add("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 Safari/536.11");
        userAgentList.add("Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400) ");
        userAgentList.add("Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 SE 2.X MetaSr 1.0");
        userAgentList.add("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 Safari/536.11");
        /**
         * 填充ip地址  请求网站 来源网站  省份地理位置信息 四个集合
         * 四个集合的填充不能随便瞎写  集合从脱敏数据文件中读取对应的值填充进来
         */
        BufferedReader bufferedReader = null;
        try {
            //如果将项目打成jar包之后，a.log文件不识别，此时我们需要使用类加载器读取jar包中的文件   要求文件必须在一个resources格式的目录下
            //这行代码只能在jar包中使用  如果项目没有打jar包的话 这行代码无法识别a.log文件
            InputStream inputStream = DataGenerator.class.getClassLoader().getResourceAsStream("b.log");
            bufferedReader = new BufferedReader(new InputStreamReader(inputStream));
//            bufferedReader = new BufferedReader(new FileReader("a.log"));
            String line = null;
            //这个数据是我们给大家发送的脱敏数据 脱敏数据大数据没法使用 原因是因为是旧数据
            while((line = bufferedReader.readLine()) != null){
                String[] array = line.split(" ");
                //脱敏数据中的IP地址放到ipList集合中
                ipList.add(array[0]);
                //需要把请求方式 请求网站 请求协议三个字段以空格组合放到requestList集合中
                requestList.add(array[5]+" "+array[6]+" "+array[7]);
                //来源信息把它加到来源列表当中
                refererList.add(array[10]);
                refererList.add("https://www.baidu.com/search");
                refererList.add("https://www.baidu.com/search");
                refererList.add("https://www.baidu.com/search");
                refererList.add("https://www.sougou.com/search");
                refererList.add("https://www.google.com/search");
                //把省份 维度 经度 加到地理位置数据中
                addressList.add(array[array.length-4]+" "+array[array.length-3]+" "+array[array.length-2]);
            }
        } catch (FileNotFoundException e) {
            throw new RuntimeException(e);
        } catch (IOException e) {
            throw new RuntimeException(e);
        } finally {
            if (bufferedReader != null){
                try {
                    bufferedReader.close();
                } catch (IOException e) {
                    throw new RuntimeException(e);
                }
            }
        }
    }

    /**
     * 程序执行入口
     * @param args
     */
    public static void main(String[] args) throws IOException, InterruptedException {
        //1、填充模拟数据集合
        init();
        /**
         * 2、模拟数据的目的是为了模拟真实的数据产生逻辑，
         * 真实场景下 数据是源源不断的产生的。所以我们模拟程序也是源源不断的产生的，不会停止的 除非你手动停止
         * 产生数据的时候，数据得有一个存放的一个文件路径 文件中通过IO流写入数据
         */
        Scanner scanner = new Scanner(System.in);
        System.out.println("请输入网站产生的用户行为日志数据文件的路径");
        String path = scanner.next();
        //定义IO输出流  用于模拟一会数据产生之后输出到日志文件的的过程
        BufferedWriter bufferedWriter = new BufferedWriter(new FileWriter(path));
        //随机类 用于产生随机数的
        Random random = new Random();
        //定义时间格式类 用于格式化时间的
        SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
        while (true){
            /**
             * 真实情况下 虽然数据是7*24小时产生的，但是并不是每时每刻都在产生数据，
             * 而是会间断性的产生的  比如每隔1-10s 产生10-50条数据
             * 尤其是在凌晨12:00 -6:00的时候 数据产生的非常缓慢
             */
            //1、先获取数据产生的一个时间
            Calendar calendar = Calendar.getInstance();
            boolean judgeNight = isJudgeNight(calendar);
            // num代表一次产生num条数据
            int num = 0;
            // time代表产生一次数据 休息多长时间
            int time = 0;
            if (judgeNight){
                //代表是凌晨的时间
                num = random.nextInt(10);
                time = 30000+random.nextInt(60001);
            }else{
                //代表的是非凌晨的时间
                num = random.nextInt(50);
                time = 1000+ random.nextInt(20001);
            }
            /**
             * for循环代表产生num条数据
             */
            for (int i = 0; i < num; i++) {
                /**
                 * 获取数据对应的值  然后拼接 输出即可
                 */
                //1、获取ip地址 [0,ipList.size()-1]
                String ip = ipList.get(random.nextInt(ipList.size()));
                //2、获取数据的生成时间
                Date date = new Date();
                //2023-08-28 18:00:00
                String dataGenTime = sdf.format(date);
                //3、随机获取请求的网址--行为触发之后请求的网址
                String request = requestList.get(random.nextInt(requestList.size()));
                //4、随机获取一个状态码
                String code = codeList.get(random.nextInt(codeList.size()));
                //5、随机产生一个响应字节数
                int bytes = random.nextInt(100000);
                //6、随机获取一个来源网站
                String referer = refererList.get(random.nextInt(refererList.size()));
                //7、随机获取一个浏览器信息
                String userAgent = userAgentList.get(random.nextInt(userAgentList.size()));
                //8、随机获取一个地理位置信息
                String address = addressList.get(random.nextInt(addressList.size()));
                //9、随机产生一个年龄
                int age = 18+ random.nextInt(71);
                //组装数据  可以使用StringBuffer完成 数据和数据之间一定要以空格分割
                String data = ip+" - - "+dataGenTime+" "+request+" "+code+" "+bytes+" "+referer+" "+userAgent+" "+address+" "+age;
                //将数据输出
                bufferedWriter.write(data);
                //写出一个换行符 保证一条用户行为数据独占一行
                bufferedWriter.newLine();
                //bufferWriter是处理流 输出数据必须加flush
                bufferedWriter.flush();
            }
            //生成num条数据之后 间隔time时间之后再继续生成
            Thread.sleep(time);
            System.out.println("间隔了"+time+"秒之后生成了"+num+"条数据");
        }
    }

    /**
     * 方法是用来判断是否为凌晨的时间
     * @param cal
     * @return
     */
    public static boolean isJudgeNight(Calendar cal){
        //先获取当前的时间
        Date currentTime = cal.getTime();
        //先获取当前日期下的凌晨时间段  两个时间 一个是开始的时间 一个是结束的时间
        //开始的时间是当天的00:00:00  结束时间 06:00:00
        cal.set(Calendar.HOUR_OF_DAY,0);
        cal.set(Calendar.MINUTE,0);
        cal.set(Calendar.SECOND,0);
        //获取当前时间对应的凌晨的开始时间
        Date startTime = cal.getTime();

        cal.set(Calendar.HOUR_OF_DAY,6);
        cal.set(Calendar.MINUTE,0);
        cal.set(Calendar.SECOND,0);
        //获取当前时间对应的结束时间
        Date endTime = cal.getTime();

        if (currentTime.after(startTime) && currentTime.before(endTime)){
            return true;
        }else{
            return false;
        }
    }
}

广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
如何创建Python工程目录九月恒心 Python python 自动测试
如何创建一个简单但是比较规范的python工程目录，本文是学习了LearnPythontheHardWay相关内容后做的一些笔记。安装python第三方包1.pipfromhttp://pypi.python.org/pypi/pip用于安装python第三方包的工具2.distributefromhttp://pypi.python.org/pypi/distribute已被弃用，是SetupT
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
百度地图迁徙大数据深度解析与实战指南
百度地图迁徙大数据深度解析与实战指南在数字化时代，人口流动数据已成为洞察社会经济活动的关键指标。百度地图依托海量位置数据和AI算法打造的"迁徙大数据"平台，为城市规划、交通管理、商业选址等领域提供了重要决策支持。本文将系统性解析百度地图迁徙大数据的查看方法、核心功能及实战应用场景，帮助读者快速掌握这一数据驱动的决策工具。一、迁徙大数据的核心价值迁徙大数据通过聚合手机用户的定位信息，构建全国范围的人
notepad++正则表达式痞子IT 嵌入式开发语言 xml c语言
notepad++正则表达式使用笔记：1.查找空行：^\s*\r\n2.排除以（开头的行：^(?!（).*$3.查找第二行以A-D开头的情况：(\r\n)(^[A-D])4.查找不含有helloworld的行：^(?!.*helloworld).*$5.查找不以com结尾的字符串：^.*?(?|"']|"[^"]*"|'[^']*')*?(?:/>|>.*?)11.查找非换行空白：(\s)(?)及
SystemVerilog LRM 学习笔记 -- clocking块
1clocking...endclocking块clocking块是SV新feature，主要是为了更好解决testbench和DUT之间的timing和同步建模的问题，可以使user基于clockcycle在更高的抽象层次上写testbench(如“##3”，表示三个clock)。clocking只能在module/interface/checker/program中声明，不能在function
JavaWeb（苍穹外卖）--学习笔记03（登录生成令牌）老虎0627 JavaWeb（苍穹外卖）学习笔记 java
前言本片文章是学习B站黑马程序员苍穹外卖的学习笔记。在Day01（如果学到登录界面这里卡住了，可以看看这篇文章），登陆界面的后端实现大致可以分为两部分登录功能和登录校验，其中登陆校验的实现是基于令牌JWT技术来实现会话追踪（校验部分还有拦截器Interceptor这个我没太学懂视频也没提，以后在更）JWT令牌基本概念JWT是一种在Web应用程序，简单且安全地处理用户身份验证和信息交换的技术，首先我
Python爬虫实战：利用Selenium与反反爬技术高效爬取天眼查企业信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy selenium
摘要本文将详细介绍如何使用Python爬虫技术获取天眼查的企业信息数据。我们将从爬虫基础开始，逐步深入到高级反反爬技术，最终构建一个能够稳定获取天眼查数据的爬虫系统。文章包含完整的代码实现、技术原理分析以及实际应用场景，帮助读者全面掌握企业信息爬取的核心技术。关键词：Python爬虫、天眼查、Selenium、反反爬技术、企业信息采集、数据挖掘一、引言在当今大数据时代，企业信息数据对于市场分析、商
智慧城市大脑解决方案
智慧城市大脑背景与意义智慧城市大脑作为城市管理的创新模式，通过集成大数据、人工智能等技术，实现了对城市运行的全面感知与智能决策。它不仅提升了城市管理效率，还为市民带来了更加便捷、安全的生活体验。智慧城市大脑建设历程某城市作为智慧城市大脑的创新策源地，自2016年起便与阿里巴巴集团深度合作，投入巨资自主研发城市数据大脑“交通小脑”平台。该平台成功接入了大量视频和数据，实现了对道路和时间资源的再分配，
智慧城市大脑：城市治理的新引擎 Fulima_cloud 智慧城市人工智能
在科技日新月异的今天，智慧城市的概念已经深入人心。而智慧城市大脑，作为智慧城市的中枢神经系统，运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系，正逐步成为提升城市治理能力、优化城市服务、推动城市可持续发展的重要力量。智慧城市大脑是什么，简而言之，是运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系。它如同城市的“智慧中枢”，通过对城市全域运行数据的
Vue3-尚硅谷笔记八月份的天气 Vue3-笔记笔记
1.Vue3简介2020年9月18日，Vue.js发布版3.0版本，代号：OnePiece（n经历了：4800+次提交、40+个RFC、600+次PR、300+贡献者官方发版地址：Releasev3.0.0OnePiece·vuejs/core截止2023年10月，最新的公开版本为：3.3.41.1.【性能的提升】打包大小减少41%。初次渲染快55%,更新渲染快133%。内存减少54%。1.2.【
Golang基础笔记十之goroutine和channel
本文首发于公众号：Hunter后端原文链接：Golang基础笔记十之goroutine和channel这一篇介绍Golang里的goroutine和channel通道。以下是本篇笔记目录：goroutinechannelgoroutine与channel的使用1、goroutinegoroutine是一种轻量级线程（用户态线程），由Go运行时管理而非操作系统，它是Go并发模型的核心，能高效处理大量
计算机网络（王道考研）笔记个人整理——第六章：应用层 onlyTonight 计算机网络计算机网络考研笔记
第六章：应用层点击上方专栏查看六章全部笔记个人笔记整理位置：个人笔记完整版b站视频：王道考研（2019版）概述应用层对应用程序的通信提供服务。应用层协议定义：应用程序交换的报文类型（请求or响应）；各个报文类型的语法，如报文中的各个字段及其详细描述；字段的语义，即包含在字段中的信息的含义；进程何时、如何发送报文，以及对报文进行响应的规则。功能：文件传输、访问和管理；电子邮件；虚拟终端；查询服务和远
笔记本电脑外接屏幕/台式电脑屏幕调节亮度方法小宇蛋电脑显示器
我之前找了很多办法都不顶用，因为屏幕电源和主机电源不一个，所以无法通过系统调节屏幕亮度。但其实办法很简单很简单，就问卖你屏幕的店家调节亮度的按钮在哪，直接通过屏幕上的按钮调节。
如何使用Python控制笔记本电脑屏幕亮度？很酷的站长编程笔记电脑 python 开发语言
Python已成为世界上最受欢迎的编程语言之一，这要归功于它的简单性、多功能性和广泛的应用程序。凭借其广泛的库和框架，Python可用于从Web开发到机器学习以及介于两者之间的任何内容。在Python中，最流行的数据分析和操作库之一是Pandas，它提供了处理表格数据的强大工具。在本教程中，我们将使用Python和屏幕亮度控制库来探索如何控制笔记本电脑屏幕亮度。我们将向您展示如何使用Python通
Springboot计算机毕业设计协同过滤的就业系统的设计与实现qd11f（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。
系统程序文件列表项目功能：学生,企业单位,岗位信息,春招信息,应聘信息,应聘通知,秋招信息,实训项目,项目选择,学院信息开题报告内容SpringBoot计算机毕业设计协同过滤的就业系统的设计与实现开题报告一、研究背景与意义1.1研究背景随着高等教育的普及与就业市场的多元化发展，高校毕业生数量逐年攀升，2025年全国毕业生预计突破1200万人。然而，传统就业服务模式存在以下问题：信息不对称：招聘信息
KaiwuDB X 济南大数据局：构建城市级重点车辆智慧监管中枢数据库
项目背景2022年2月14日，交通运输部联合多部门对《道路运输车辆动态监督管理办法》进行重要修订。新规突出"科技强监"理念，明确要求各级管理机构依托智能监管平台构建常态化监管机制：一方面强化对重点营运车辆的动态监测，另一方面建立事故预防预警体系。这一政策不仅为城市重点车辆监管提供了权威的政策指引，更在全国范围内掀起了监管平台智能化升级的热潮。作为城市治理的中枢部门，济南市大数据局肩负着重点车辆监管
huggingface 笔记： Trainer UQI-LIUWJ 笔记人工智能
Trainer是一个为Transformers中PyTorch模型设计的完整训练与评估循环只需将模型、预处理器、数据集和训练参数传入Trainer，其余交给它处理，即可快速开始训练自动处理以下训练流程：根据batch计算loss使用backward()计算梯度根据梯度更新权重重复上述流程直到达到指定的epoch数1配置TrainingArguments使用TrainingArguments定义训练
huggingface笔记：文本生成Text generation UQI-LIUWJ python库整理笔记深度学习 python
1加载LLM模型fromtransformersimportAutoTokenizer,AutoModelForCausalLMimporttorchimportosmodel=AutoModelForCausalLM.from_pretrained("gpt2",device_map="auto",#自动分配到所有可用设备（优先GPU）torch_dtype=torch.bfloat16)2编码
python transformers库笔记（BertForTokenClassification类）夏末蝉未鸣01 自然语言处理 python transformer 自然语言处理
BertForTokenClassification类BertForTokenclassification类是HuggingFacetransformers库中专门为基于BERT的序列标注任务（如命名实体识别NER、词性标注POS）设计的模型类。它在BERT的基础上添加了一个线性分类层，用于对每个token进行分类。1、特点任务类型：专为Token-level分类设计，即对输入序列中的每一个tok
debian-arm64-docker 笔记
文章目录构建debian-arm64docker宿主机系统UBUNT20.04-X86下环境安装下载文件拷贝文件文件释放修改文件qemu-arm-static环境切换环境debian网络配置,分区配置域名解析服务器串口控制台调整打包debianarm64根文件系统debian-arm64宿主机系统安装基础软件基础工具安装docker安装ubuntu20.04-X86上制作arm64-docker镜
Linux笔记之Docker安装，基于Debian 11（bullseye）名字太长真的很奇怪꒰⑅•ᴗ•⑅꒱ Linux linux debian docker
前置条件Debian平台版本为Debian11（bullseye）安装的是DockerCommunityEdition（docker-ce）安装步骤1.重新安装卸载旧版，初次安装请跳过sudoapt-getremovedockerdocker-enginedocker.iocontainerdrunc2.初次安装时，安装依赖sudoapt-getinstallapt-transport-https
CentOS6的“ifupdown“与Debian的“ifupdown“有什么不同? 笔记250706
CentOS6的"ifupdown"与Debian的"ifupdown"有什么不同?笔记250706CentOS6与Debian的ifupdown深度对比一、架构与设计差异维度CentOS6Debian核心组件Shell脚本集合二进制程序（C语言）配置存储分散式：/etc/sysconfig/network+/etc/sysconfig/network-scripts/ifcfg-*集中式：/et
《算法笔记》学习日记——4.4 贪心囷囷《算法笔记》学习日记贪心算法算法 c语言数据结构 c++
目录4.4贪心问题A:看电视问题B:出租车费问题C:ToFillorNottoFill问题D:RepairtheWall问题E:FatMouse'sTrade问题F:迷瘴问题G:找零钱小结4.4贪心CodeupContestID:100000584问题A:看电视题目描述暑假到了，小明终于可以开心的看电视了。但是小明喜欢的节目太多了，他希望尽量多的看到完整的节目。现在他把他喜欢的电视节目的转播时间表
crazyswarm无人机集群搭建笔记（一）资料索引 X_SWARM 无人机集群无人机笔记 stm32
前言为了开展无人机集群虚实结合任务调度算法测试，这次采购了crazyflie套件，本系列主要记录从零开始搭建crazyswarm集群的详细步骤。本节主要包含crazyflie安装调试主要参考的文章和教程。一、crazyflie安装使用基本资料1.Bitcraze官方网站（1）Bitcraze官方网站主页（2）Bitcraze官网安装教程（3）crazyswarm2官方文档（4）crazyswarm
Docker容器如何实现分布式微服务：从0到1的深度解析 cda2024 docker 分布式微服务
在当今云计算和大数据时代，企业面临的最大挑战之一是如何快速、稳定地部署和管理复杂的软件应用。传统的单体架构已难以满足现代互联网应用的需求，而分布式微服务架构成为了解决这一难题的关键。但问题随之而来：如何高效地构建和管理分布式微服务？Docker容器技术的出现为这个问题带来了新的曙光。它不仅简化了应用程序的打包和部署过程，还为微服务架构提供了强大的支持。本文将深入探讨Docker容器如何实现分布式微
2025年7月-9月广深地区学术会议征稿邀稿 | 2025年7-9月广州学术会议、深圳学术会议参会投稿 | 广深参会 EI 检索会议推荐 | 期待在广东与您相见，共襄学术盛举！
会议名称【点击会议名称查看详情】会议时间会议地点第四届能源与电力系统国际学术会议(ICEEPS2025)2025年7月17-19日广州第七届电子与通信，网络与计算机技术国际学术会议（ECNCT2025）2025年7月18-20日广州2025年人工智能与基础模型国际学术会议（AIFM2025）2025年7月18-20日广州第六届经济管理与大数据应用国际学术会议(ICEMBDA2025)2025年7月
Python爬企查查网站数据的爬虫代码如何写？ cda2024 python 爬虫开发语言
在大数据时代，数据的获取与分析变得尤为重要。企业信息查询平台“企查查”作为国内领先的企业信用信息查询工具，提供了丰富的企业数据资源。对于数据科学家和工程师而言，能够从这些平台高效地抓取数据，无疑是一项重要的技能。本文将详细介绍如何使用Python编写爬虫代码，从企查查网站抓取企业数据，并探讨其中的技术难点和解决方案。为什么选择Python？Python是一门广泛应用于数据科学和网络爬虫开发的语言，
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

实训笔记8.29