选手一号位

4.Flink实时项目之数据拆分

1. 摘要

我们前面采集的日志数据已经保存到 Kafka 中，作为日志数据的 ODS 层，从 kafka 的ODS 层读取的日志数据分为 3 类, 页面日志、启动日志和曝光日志。这三类数据虽然都是用户行为数据，但是有着完全不一样的数据结构，所以要拆分处理。将拆分后的不同的日志写回 Kafka 不同主题中，作为日志 DWD 层。

页面日志输出到主流，启动日志输出到启动侧输出流，曝光日志输出到曝光侧输出流

2. 识别新老用户

本身客户端业务有新老用户的标识，但是不够准确，需要用实时计算再次确认(不涉及业务操作，只是单纯的做个状态确认)。

利用侧输出流实现数据拆分

根据日志数据内容,将日志数据分为 3 类：页面日志、启动日志和曝光日志。将不同流的数据推送下游的 kafka 的不同 Topic 中

3. 代码实现

在包app下创建flink任务BaseLogTask.java，

通过flink消费kafka 的数据，然后记录消费的checkpoint存到hdfs中，记得要手动创建路径，然后给权限

checkpoint可选择性使用，测试时可以关掉。

package com.zhangbao.gmall.realtime.app;
import com.alibaba.fastjson.JSONObject;
import com.zhangbao.gmall.realtime.utils.MyKafkaUtil;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.runtime.state.filesystem.FsStateBackend;
import org.apache.flink.streaming.api.CheckpointingMode;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
/**
 * @author: zhangbao
 * @date: 2021/6/18 23:29
 * @desc:
 **/
public class BaseLogTask {
    public static void main(String[] args) {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        //设置并行度，即kafka分区数
        env.setParallelism(4);
        //添加checkpoint，每5秒执行一次
        env.enableCheckpointing(5000, CheckpointingMode.EXACTLY_ONCE);
        env.getCheckpointConfig().setCheckpointTimeout(60000);
        env.setStateBackend(new FsStateBackend("hdfs://hadoop101:9000/gmall/flink/checkpoint/baseLogAll"));
        //指定哪个用户读取hdfs文件
        System.setProperty("HADOOP_USER_NAME","zhangbao");
        //添加数据源
        String topic = "ods_base_log";
        String group = "base_log_app_group";
        FlinkKafkaConsumer kafkaSource = MyKafkaUtil.getKafkaSource(topic, group);
        DataStreamSource kafkaDs = env.addSource(kafkaSource);
        //对格式进行转换
        SingleOutputStreamOperator jsonDs = kafkaDs.map(new MapFunction() {
            @Override
            public JSONObject map(String s) throws Exception {
                return JSONObject.parseObject(s);
            }
        });
        jsonDs.print("json >>> --- ");

        try {
            //执行
            env.execute();
        } catch (Exception e) {
            e.printStackTrace();
        }

    }
}

MyKafkaUtil.java工具类

package com.zhangbao.gmall.realtime.utils;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
import org.apache.kafka.clients.consumer.ConsumerConfig;
import java.util.Properties;
/**
 * @author: zhangbao
 * @date: 2021/6/18 23:41
 * @desc:
 **/
public class MyKafkaUtil {
    private static String kafka_host = "hadoop101:9092,hadoop102:9092,hadoop103:9092";
    /**
     * kafka消费者
     */
    public static FlinkKafkaConsumer getKafkaSource(String topic,String group){
        Properties props = new Properties();
        props.setProperty(ConsumerConfig.GROUP_ID_CONFIG,group);
        props.setProperty(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG,kafka_host);
        return new FlinkKafkaConsumer(topic, new SimpleStringSchema(),props);
    }
}

4. 新老访客状态修复

识别新老客户规则

识别新老访客，前端会对新老客状态进行记录，可能不准，这里再次确认，保存mid某天状态情况（将首次访问日期作为状态保存），等后面设备在有日志过来，从状态中获取日期和日志产生日期比较，如果状态不为空，并且状态日期和当前日期不相等，说明是老访客，如果is_new标记是1，则对其状态进行修复。

import com.alibaba.fastjson.JSONObject;
import com.zhangbao.gmall.realtime.utils.MyKafkaUtil;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.functions.RichMapFunction;
import org.apache.flink.api.common.state.ValueState;
import org.apache.flink.api.common.state.ValueStateDescriptor;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.runtime.state.filesystem.FsStateBackend;
import org.apache.flink.streaming.api.CheckpointingMode;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;

import java.text.SimpleDateFormat;
import java.util.Date;

/**
 * @author: zhangbao
 * @date: 2021/6/18 23:29
 * @desc:
 **/
public class BaseLogTask {
    public static void main(String[] args) {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        //设置并行度，即kafka分区数
        env.setParallelism(4);
        //添加checkpoint，每5秒执行一次
        env.enableCheckpointing(5000, CheckpointingMode.EXACTLY_ONCE);
        env.getCheckpointConfig().setCheckpointTimeout(60000);
        env.setStateBackend(new FsStateBackend("hdfs://hadoop101:9000/gmall/flink/checkpoint/baseLogAll"));
        //指定哪个用户读取hdfs文件
        System.setProperty("HADOOP_USER_NAME","zhangbao");
        
        //添加数据源，来至kafka的数据
        String topic = "ods_base_log";
        String group = "base_log_app_group";
        FlinkKafkaConsumer kafkaSource = MyKafkaUtil.getKafkaSource(topic, group);
        DataStreamSource kafkaDs = env.addSource(kafkaSource);
        //对格式进行转换
        SingleOutputStreamOperator jsonDs = kafkaDs.map(new MapFunction() {
            @Override
            public JSONObject map(String s) throws Exception {
                return JSONObject.parseObject(s);
            }
        });
        jsonDs.print("json >>> --- ");
        /**
         * 识别新老访客，前端会对新老客状态进行记录，可能不准，这里再次确认
         * 保存mid某天状态情况（将首次访问日期作为状态保存），等后面设备在有日志过来，从状态中获取日期和日志产生日期比较，
         * 如果状态不为空，并且状态日期和当前日期不相等，说明是老访客，如果is_new标记是1，则对其状态进行修复
         */
        //根据id对日志进行分组
        KeyedStream midKeyedDs = jsonDs.keyBy(data -> data.getJSONObject("common").getString("mid"));
        //新老访客状态修复，状态分为算子状态和键控状态，我们这里记录某一个设备状态，使用键控状态比较合适
        SingleOutputStreamOperator midWithNewFlagDs = midKeyedDs.map(new RichMapFunction() {
            //定义mid状态
            private ValueState firstVisitDateState;
            //定义日期格式化
            private SimpleDateFormat sdf;
            //初始化方法
            @Override
            public void open(Configuration parameters) throws Exception {
                firstVisitDateState = getRuntimeContext().getState(new ValueStateDescriptor("newMidDateState", String.class));
                sdf = new SimpleDateFormat("yyyyMMdd");
            }
            @Override
            public JSONObject map(JSONObject jsonObject) throws Exception {
                //获取当前mid状态
                String is_new = jsonObject.getJSONObject("common").getString("is_new");
                //获取当前日志时间戳
                Long ts = jsonObject.getLong("ts");
                if ("1".equals(is_new)) {
                    //访客日期状态
                    String stateDate = firstVisitDateState.value();
                    String nowDate = sdf.format(new Date());
                    if (stateDate != null && stateDate.length() != 0 && !stateDate.equals(nowDate)) {
                        //是老客
                        is_new = "0";
                        jsonObject.getJSONObject("common").put("is_new", is_new);
                    } else {
                        //新访客
                        firstVisitDateState.update(nowDate);
                    }
                }
                return jsonObject;
            }
        });

        midWithNewFlagDs.print();
        try {
            //执行
            env.execute();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

5. 利用侧输出流实现数据拆分

经过上面的新老客户修复后，再将日志数据分为 3 类

启动日志标签定义：OutputTag startTag = new OutputTag("start"){};

和曝光日志标签定义：OutputTag displayTag = new OutputTag("display"){};

页面日志输出到主流，启动日志输出到启动侧输出流，曝光日志输出到曝光日志侧输出流。

数据拆分后发送到kafka

dwd_start_log：启动日志
dwd_display_log：曝光日志
dwd_page_log：页面日志

package com.zhangbao.gmall.realtime.app;
import com.alibaba.fastjson.JSONArray;
import com.alibaba.fastjson.JSONObject;
import com.zhangbao.gmall.realtime.utils.MyKafkaUtil;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.functions.RichMapFunction;
import org.apache.flink.api.common.state.ValueState;
import org.apache.flink.api.common.state.ValueStateDescriptor;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.runtime.state.filesystem.FsStateBackend;
import org.apache.flink.streaming.api.CheckpointingMode;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.ProcessFunction;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
import org.apache.flink.util.Collector;
import org.apache.flink.util.OutputTag;
import java.text.SimpleDateFormat;
import java.util.Date;
/**
 * @author: zhangbao
 * @date: 2021/6/18 23:29
 * @desc:
 **/
public class BaseLogTask {
    private static final String TOPIC_START = "dwd_start_log";
    private static final String TOPIC_DISPLAY = "dwd_display_log";
    private static final String TOPIC_PAGE = "dwd_page_log";
    public static void main(String[] args) {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        //设置并行度，即kafka分区数
        env.setParallelism(4);
        //添加checkpoint，每5秒执行一次
        env.enableCheckpointing(5000, CheckpointingMode.EXACTLY_ONCE);
        env.getCheckpointConfig().setCheckpointTimeout(60000);
        env.setStateBackend(new FsStateBackend("hdfs://hadoop101:9000/gmall/flink/checkpoint/baseLogAll"));
        //指定哪个用户读取hdfs文件
        System.setProperty("HADOOP_USER_NAME","zhangbao");

        //添加数据源，来至kafka的数据
        String topic = "ods_base_log";
        String group = "base_log_app_group";
        FlinkKafkaConsumer kafkaSource = MyKafkaUtil.getKafkaSource(topic, group);
        DataStreamSource kafkaDs = env.addSource(kafkaSource);
        //对格式进行转换
        SingleOutputStreamOperator jsonDs = kafkaDs.map(new MapFunction() {
            @Override
            public JSONObject map(String s) throws Exception {
                return JSONObject.parseObject(s);
            }
        });
        jsonDs.print("json >>> --- ");
        /**
         * 识别新老访客，前端会对新老客状态进行记录，可能不准，这里再次确认
         * 保存mid某天状态情况（将首次访问日期作为状态保存），等后面设备在有日志过来，从状态中获取日期和日志产生日期比较，
         * 如果状态不为空，并且状态日期和当前日期不相等，说明是老访客，如果is_new标记是1，则对其状态进行修复
         */
        //根据id对日志进行分组
        KeyedStream midKeyedDs = jsonDs.keyBy(data -> data.getJSONObject("common").getString("mid"));
        //新老访客状态修复，状态分为算子状态和键控状态，我们这里记录某一个设备状态，使用键控状态比较合适
        SingleOutputStreamOperator midWithNewFlagDs = midKeyedDs.map(new RichMapFunction() {
            //定义mid状态
            private ValueState firstVisitDateState;
            //定义日期格式化
            private SimpleDateFormat sdf;
            //初始化方法
            @Override
            public void open(Configuration parameters) throws Exception {
                firstVisitDateState = getRuntimeContext().getState(new ValueStateDescriptor("newMidDateState", String.class));
                sdf = new SimpleDateFormat("yyyyMMdd");
            }
            @Override
            public JSONObject map(JSONObject jsonObject) throws Exception {
                //获取当前mid状态
                String is_new = jsonObject.getJSONObject("common").getString("is_new");
                //获取当前日志时间戳
                Long ts = jsonObject.getLong("ts");
                if ("1".equals(is_new)) {
                    //访客日期状态
                    String stateDate = firstVisitDateState.value();
                    String nowDate = sdf.format(new Date());
                    if (stateDate != null && stateDate.length() != 0 && !stateDate.equals(nowDate)) {
                        //是老客
                        is_new = "0";
                        jsonObject.getJSONObject("common").put("is_new", is_new);
                    } else {
                        //新访客
                        firstVisitDateState.update(nowDate);
                    }
                }
                return jsonObject;
            }
        });

//        midWithNewFlagDs.print();

        /**
         * 根据日志数据内容,将日志数据分为 3 类, 页面日志、启动日志和曝光日志。页面日志
         * 输出到主流,启动日志输出到启动侧输出流,曝光日志输出到曝光日志侧输出流
         * 侧输出流：1接收迟到数据，2分流
         */
        //定义启动侧输出流标签，加大括号为了生成相应类型
        OutputTag startTag = new OutputTag("start"){};
        //定义曝光侧输出流标签
        OutputTag displayTag = new OutputTag("display"){};
        SingleOutputStreamOperator pageDs = midWithNewFlagDs.process(
                new ProcessFunction() {
                    @Override
                    public void processElement(JSONObject jsonObject, Context context, Collector collector) throws Exception {
                        String dataStr = jsonObject.toString();
                        JSONObject startJson = jsonObject.getJSONObject("start");
                        //判断是否启动日志
                        if (startJson != null && startJson.size() > 0) {
                            context.output(startTag, dataStr);
                        } else {
                            //判断是否曝光日志
                            JSONArray jsonArray = jsonObject.getJSONArray("displays");
                            if (jsonArray != null && jsonArray.size() > 0) {
                                //给每一条曝光事件加pageId
                                String pageId = jsonObject.getJSONObject("page").getString("page_id");
                                //遍历输出曝光日志
                                for (int i = 0; i < jsonArray.size(); i++) {
                                    JSONObject disPlayObj = jsonArray.getJSONObject(i);
                                    disPlayObj.put("page_id", pageId);
                                    context.output(displayTag, disPlayObj.toString());
                                }
                            } else {
                                //如果不是曝光日志，则是页面日志，输出到主流
                                collector.collect(dataStr);
                            }
                        }
                    }
                }
        );

        //获取侧输出流
        DataStream startDs = pageDs.getSideOutput(startTag);
        DataStream disPlayDs = pageDs.getSideOutput(displayTag);
        //打印输出
        startDs.print("start>>>");
        disPlayDs.print("display>>>");
        pageDs.print("page>>>");

        /**
         * 将不同流的日志数据发送到指定的kafka主题
         */
        startDs.addSink(MyKafkaUtil.getKafkaSink(TOPIC_START));
        disPlayDs.addSink(MyKafkaUtil.getKafkaSink(TOPIC_DISPLAY));
        pageDs.addSink(MyKafkaUtil.getKafkaSink(TOPIC_PAGE));

        try {
            //执行
            env.execute();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

uniapp中使用webview并与原页面通信数学分析分析什么？ uni-app
uniapp中使用webview并与原页面通信1.接收数据主要使用@message与@onPostMessage接收原页面数据，且两个方法只能在APP中使用，其他平台均不支持。/***接收页面返回参数*@param{Object}item*/htmlMessage(item){console.log('收到的消息',item)letdata=item.detail...},2.发送数据（调用原页面
如何轻松爬取 TikTok 评论？手把手教你高效采集数据！ pzhyy 大数据数据分析数据挖掘内容运营新媒体运营
引言随着TikTok的全球火爆，越来越多的数据分析师、营销人员和研究人员希望获取TikTok视频评论，以分析用户反馈、市场趋势或热门内容。然而，手动整理TikTok评论既耗时又低效，因此，使用一款高效的TikTok采集器成为刚需。Tapicker是一款功能强大的TikTok采集软件，可以帮助用户自动爬取TikTok评论，省去繁琐的手工整理工作。本文将详细介绍如何使用Tapicker爬取TikTok
thinkphp5模型查询数据库，查出来的字段直接修改成另外的名字知码客个人随笔 thinkphp5 php开发
在ThinkPHP5中，如果你希望在查询数据库时将返回的字段名直接修改为其他名称，可以通过以下几种方式实现：方法1：使用field方法指定字段别名在查询时通过field方法直接为字段指定别名（使用AS关键字）。示例代码：//使用Db类查询$result=Db::name('user')->field('idASuser_id,nameASfull_name')->select();//使用模型查询
史上最全JVM面试八股文合集 Java小海. 面试 java 职场和发展程序人生后端
简述JVM内存模型线程私有的运行时数据区:程序计数器、Java虚拟机栈、本地方法栈。线程共享的运行时数据区:Java堆、方法区。简述程序计数器程序计数器表示当前线程所执行的字节码的行号指示器。程序计数器不会产生StackOverflowError和OutOfMemoryError。简述虚拟机栈Java虚拟机栈用来描述Java方法执行的内存模型。线程创建时就会分配一个栈空间，线程结束后栈空间被回收。
《基于图神经网络的安卓应用检测系统设计与实现》开题报告大数据蟒行探索者毕业论文/研究报告神经网络 android 人工智能机器学习大数据深度学习 python
个人主页：@大数据蟒行探索者目录一、课题的研究目的和意义1.研究目的2.研究意义二、国内(外)研究现状及分析1.国内研究现状2.国外研究现状3.研究分析三、课题主要研究内容及可行性分析1.研究内容2.可行性分析四、研究方案和技术途径1.研究方案2.技术途径五、外部条件及解决办法1.开发环境2.解决办法六、主要参考文献一、课题的研究目的和意义1.研究目的随着智能手机的普及，安卓操作系统成为全球最为广
一文了解ThreadLocal Key~美好的每一天 java 开发语言
什么是ThreadLocal？ThreadLocal是每个线程私有的，线程可以把自己的私有数据放到ThreadLocal里面，不用担心其他线程访问到自己ThreadLocal。通过set()方法将值存入ThreadLocal或者修改值，get()方法取出值，remove()方法移除值。ThreadLocal原理ThreadLocal类中有一个内部类ThreadLocalMap，它其实就是一个哈希表
计算机专业开题报告案例19：基于spring boot的养老院信息管理系统的设计与实现平姐设计计算机毕业设计100套 java项目实战网站开发与搭建实战项目 spring boot 后端 java 计算机毕业设计养老院信息管理系统开题报告老人信息
计算机毕业设计100套微信小程序项目实战java项目实战需要源码可以滴滴我一、课题论证1.1国内外研究动态目前，基于springboot的养老院信息管理系统的研究和开发已经在国内外得到了较多关注和实践。北京大学医学部的研究人员开发了一套养老院信息管理系统，该系统可以实现对老人的生活、医疗、营养等方面的全面管理和监测。此外，南开大学、清华大学等高校也都开展了相关研究。其中就有采取建立于微信小程序平台
python中datetime模块 a1111111111ss python python
参考大佬cmzsteven双手奉上大佬的网址https://blog.csdn.net/cmzsteven/article/details/64906245datetime模块中包含如下类：2、通过year,month,day三个数据描述符可以进行访问：date对象由year年份、month月份及day日期三部分构成：date（year，month，day)>>>a=datetime.date.t
c++高性能多进程 cuda编程: safe_softmax实现 + cub::BlockReduce自定义归约操作 FakeOccupational 深度学习 c++开发语言
目录cub::BlockReduce自定义归约操作(`cub::BlockReduce::Reduce`)1.语法safe_softmax实现cub::BlockReducecub::BlockReduce是CUB库（CUDAUnBound）提供的一种用于GPU线程块内数据归约(一般完成所有数据规约需要两次规约)的高效工具。它允许线程块内的多个线程并行地对数据执行归约操作，cub::BlockRe
智慧城市道路防护栏破损缺陷检测数据集VOC+YOLO格式6939张3类别 FL1623863129 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：6939标注数量(xml文件个数)：6939标注数量(txt文件个数)：6939标注类别数：3标注类别名称(注意yolo格式类别顺序不和这个对应，而以labels文件夹classes.txt为准):["body","cr
如何合法抓取TikTok视频信息和评论：完整Python爬虫教程 Python爬虫项目 2025年爬虫实战项目音视频 python 爬虫开发语言
一、引言TikTok是全球最受欢迎的短视频平台之一，每天吸引着数百万的用户上传和分享视频内容。作为内容创作者和数据分析师，抓取TikTok上的视频和评论可以帮助你分析社交趋势、受欢迎的内容类型和用户互动。然而，TikTok明确表示其平台的数据抓取行为受到限制，这也意味着我们不能直接通过常规的网络爬虫技术去抓取其数据。本文将介绍如何在合法的前提下进行TikTok数据抓取。我们将探索TikTok的AP
JVM部分八股努力向前ing JVM八股详究 java jvm 八股
什么是JVM？有哪些好处？索引越界可能导致程序覆盖其他程序内存中的代码JVM是一套规范，有多种实现JVM运行流程？1.类加载器将java程序翻译为java字节码文件2.运行数据区将字节码文件加载到内存，字节码文件是JVM规范的文件，不能直接运行，而是交给执行引擎运行3.执行引擎中的解释器将字节码文件翻译为机器指令，交给CPU执行，执行过程中可能通过本地方法调用接口调用本地方法类的生命周期？加载：将
uni-app——计时器和界面交互API 阿常11 uni-app移动应用开发 uni-app
API基本概要概念说明API（应用程序接口）是预先定义的方法集合，用于实现特定功能。在uni-app中，通过全局对象uni调用API，例如uni.getSystemInfoSync获取设备信息。API分类与调用规则事件监听型以on开头，如uni.onNetworkStatusChange监听网络变化。数据操作型获取数据：以get开头，如uni.getStorage读取本地缓存。设置数据：以set开
JavaScript typeof 运算符详解 wjs2024 开发语言
JavaScripttypeof运算符详解概述在JavaScript中，typeof是一个一元运算符，用于检测给定变量的数据类型。它是JavaScript中最常用的类型检查方法之一。本文将详细解释typeof运算符的用法、返回值以及其局限性。typeof运算符的用法typeof运算符后面跟一个要检查类型的变量或表达式。它不区分大小写，以下是其基本用法：leta=10;console.log(typ
[NOIP2017 提高组] 列队题解零衣贰题解 c++
数据结构。n=1n=1n=1的case：考虑有m+qm+qm+q个位置，每次操作队移，出队人直接插入队尾。维护位置对应的人，每次查询第kkk个人的位置ppp，输出ppp位置对应的人，并将出对者加入队尾。实现考虑维护01序列，表示位置上是/否有人，每次查前缀和为kkk的位置即可。一般情况：每次操作只会影响某一行以及最后一列。考虑将最后一列单独处理。对于查询(x,y)(x,y)(x,y)：需查询第xx
SMOTE算法的改进与扩展 Java 第一深情不平衡数据分类机器学习人工智能
一、SMOTE的改进算法1、Boderline-SMOTE只考虑分布在分类边界附近的少数类样本，并将其作为根样本首先通过k-NN方法将原始数据中的少数类样本划分成“Safe”、“Danger”和“Noise”3类，其中“Danger”类样本是指靠近分类边界的样本。对属于“Danger”类少数类样本进行过采样，可增加用于确定分类边界的少数类样本。这样做可以增加这些关键区域的少数类样本数量，使得模型在
TCP/IP学习笔记(5) --IP选路 ox0080 Linux 网络 linux网络
静态IP选路一个简单的路由表选路是IP层最重要的一个功能之一。前面的部分已经简单的讲过路由器是通过何种规则来根据IP数据包的IP地址来选择路由。这里就不重复了。首先来看看一个简单的系统路由表。命令:routeprint|more对于一个给定的路由器，可以打印出五种不同的flag。U表明该路由可用。G表明该路由是到一个网关。如果没有这个标志，说明和Destination是直连的，而相应的Gatewa
基于STC89C52的温度检测系统(DS18B20) @小张要努力嵌入式硬件 51单片机单片机 proteus mcu
引言在现代电子应用中，温度检测系统扮演着至关重要的角色。从工业生产到日常生活，准确的温度监测为各种设备的稳定运行和环境调控提供了有力保障。本文将介绍一种基于STC89C52单片机的温度检测系统，该系统利用DS18B20温度传感器进行温度数据采集，并通过LCD1602液晶显示屏实时显示温度数值。同时，借助Proteus仿真软件对整个系统进行设计与验证，确保其可行性和稳定性。系统硬件设计STC89C5
利用 HAI 平台进行 DeepSeek 模型训练的详细指南
摘要本文旨在为非专业用户提供在HAI平台上进行DeepSeek模型训练的详细步骤。从创建项目、上传数据集、配置训练参数到启动训练任务并监控训练过程，本文将逐步指导用户完成整个流程。此外，本文还包含可运行的示例代码模块和相关章节配图，以帮助用户更好地理解和操作。引言HAI（HyperAI）平台是一个强大的AI模型训练平台，但对于非专业用户来说，其复杂性可能会成为使用的障碍。本文将详细介绍如何在HAI
基于oracle linux的 DBI/DBD 标准化安装文档(三) oracle
一、安装DBIDBI(DatabaseInterface)是perl连接数据库的接口。其是perl连接数据库的最优方法，他支持包括Orcale,Sybase,mysql,db2等绝大多数的数据库，下面将简要介绍其安装方法。1.1解压tar-zxvfDBI-1.616_901.tar.gz1.2安装依赖yuminstallperl-ExtUtils-CBuilderperl-ExtUtils-Mak
FerretDB 2.0：开源 MongoDB 替代品的安装与使用指南田猿笔记 MongoDB 开源数据库 FerretDB
介绍FerretDB2.0是一个开源数据库，旨在作为MongoDB的替代品。它与MongoDB5.0+的驱动程序和工具兼容，适合需要避免MongoDB许可复杂性的开发者。它的核心特点是使用PostgreSQL作为后端，并通过DocumentDB扩展提升性能，研究表明某些工作负载可快20倍。安装与使用安装FerretDB2.0使用dockercompose需要以下步骤：创建docker-compos
@RequestParam、@RequestBody、@PathVariable YUELEI118 Java springboot
1.@RequestParam@RequestParam：get请求时如果用不到它的3个属性，可以省略；其他请求如果是通过param传送数据，必须使用该注释要点：可用于任何类型的请求（get请求数据在请求行中，post请求数据在请求体中）无论时在请求行还是请求体，格式都是：[email protected]属性v
图片压缩及水印添加概述华为云微认证大嘴巴子华为网络技术华为华为云网络
一、图片压缩和水印添加概述（1）为更好地传输，存储和辨识数据；使用压缩降低图片大小，节约了成本；图片压缩：简单易用；；图片压缩软件：功能单一；网页在线图片压缩；自设图片压缩代码：需要变成基础；使用云服务批量压缩：适合批量处理，可结合自设代码；（2）水印：logo增加辨识，盖章表示版权；附加信息，可增加了地点等信息；二、函数工作流简介（1）是华为云提供的一款无服务器计算服务，它包含了函数和工作流两个
基于传感器数据的城市空气质量预测与污染源分类云端.代码农夫CloudFarmer 分类数据挖掘人工智能
项目名称：基于传感器数据的城市空气质量预测与污染源分类创新点：结合时间序列预测（回归）与污染源分类（多标签分类），使用公开API获取实时数据。项目目标预测未来6小时的空气质量指数（AQI）。根据传感器数据判断可能的污染源类型（如工业排放、交通尾气、扬尘等）。数据集来源数据获取：通过开放API实时抓取（如OpenAQ、AirNow或国内公开的城市空气质量平台）。特征示例：PM2.5、PM10、SO2
Stream流与Guava工具类使用小薛博客 guava 数据库 java
Stream流与Guava工具类使用小薛博客官方地址Stream流与Guava工具类使用1、StreamAPI1、了解StreamJava8中有两大最为重要的改变。第一个是Lambda表达式；另外一个则是StreamAPI(java.util.stream.*)。Stream是Java8中处理集合的关键抽象概念，它可以指定你希望对集合进行的操作，可以执行非常复杂的查找、过滤和映射数据等操作。使用S
使用MarkdownHeaderTextSplitter拆分Markdown文档 scaFHIO python 前端开发语言
在AI驱动的应用中，如聊天机器人或问答系统，处理大型文档时，通过分片技术将文档拆分为更小的单元是必要的步骤。尤其是对于Markdown格式的文件，它们通常由各种层级的标题结构化组织。通过按标题拆分，有利于保留文档的上下文语义一致性。本篇文章将讲解如何使用MarkdownHeaderTextSplitter来实现这一目标。技术背景介绍在将完整的段落或文档进行嵌入时，嵌入过程会考虑文本的整体上下文以及
【项目实战】—— 高并发内存池 Ryan.Alaskan Malamute 开发语言 c++高并发内存池缓存
文章目录什么是高并发内存池？项目介绍一、项目背景二、项目目标三、核心组件四、关键技术五、应用场景六、项目优势什么是高并发内存池？高并发内存池是一种专门设计用于高并发环境下的内存管理机制。它的原型是Google的一个开源项目tcmalloc，全称Thread-CachingMalloc，实现了高效的多线程内存管理，用于替换系统的内存分配相关函数malloc和free。在高并发系统中，大量的线
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
Java之ArrayList M(菜鸡) java list
ArrayList1.1ArrayList简介ArrayList的底层是数组队列，相当于动态数组。与Java中的数组相比，它的容量能动态增长。在添加大量元素前，应用程序可以使用ensureCapacity操作来增加ArrayList实例的容量。这可以减少递增式再分配的数量。ArrayList继承了AbstractList，实现了List,RandomAccess,Cloneable,java.io
数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb