编程之路-java

Flink学习总结

Flink概述

Apache Flink是一个计算框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎，Flink提供了诸多更高抽象层的API以便用户编写分布式任务：
DataSet API，对静态数据进行批处理操作，将静态数据抽象成分布式的数据集，用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理，支持Java、Scala和Python。
DataStream API，对数据流进行流处理操作，将流式的数据抽象成分布式的数据流，用户可以方便地对分布式数据流进行各种操作，支持Java和Scala。
Table API，对结构化数据进行查询操作，将结构化数据抽象成关系表，并通过类SQL的DSL对关系表进行各种查询操作，支持Java和Scala。

Flink例子学习

场景:分析商品item的点击率，并关联输出商品的名称
准备item数据UserBehavior2.csv， itemInfo.csv数据

UserBehavior2.csv

    543462,1715,1464116,pv,1587635915932
    662867,1162383,570735,pv,1587635915932
    561558,3611281,965809,pv,1587635915932
    894923,3076029,1879194,pv,1587635915932
    834377,1256540,1451783,pv,1587635915932
    315321,942195,4339722,pv,1587635915932
    625915,1162383,570735,pv,1587635915932
    578814,534083,4203730,pv,1587635915932
    873335,1256540,1451783,pv,1587635915932
    429984,4625350,2355072,pv,1587635915932
    866796,534083,4203730,pv,1587635915932
    937166,534083,4203730,pv,1587635915932

itemInfo.csv

1715,aeeeeeeeee
1162383,beeeeeeee
3611281,9eee
3076029,18eee
1256540,14eee
942195,43ddd
534083,42bbb
4625350,23bbb
534083,42aaa

我们采用Flink sql来演示例子，数据通过csv组件导入，并通过sql解析过滤，聚合并计算，最后输出。

批量例子代码

package myflink;


import lombok.Data;
import myflink.entity.ItemInfo;
import myflink.entity.UserBehavior;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.runtime.state.filesystem.FsStateBackend;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.java.BatchTableEnvironment;

import java.net.URL;


public class TableJobJoinExample {

    public static void main(String[] args) throws Exception {
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
//        env.
//        env.setStateBackend(new FsStateBackend("hdfs://namenode:40010/flink/checkpoints"));
//        env


        BatchTableEnvironment tableEnv = BatchTableEnvironment.create(env);
        Table topScore = getOrder(env, tableEnv);
        //将topScore注册为一个表 ，
        tableEnv.registerTable("topScore", topScore);

        // 商品信息表
        Table itemInfo = getItemInfo(env, tableEnv);
        tableEnv.registerTable("itemInfo", itemInfo);


        //查询item点击数，及itemId的名字
        String groupSql="select a.itemId,count(*) as sum_total_score,b.desc from topScore a join itemInfo b on a.itemId=b.itemId  group by a.itemId,categoryId,b.desc order by itemId desc";
        // 按照滚动时间窗口来处理
       String tumbleWinGroupSql="select a.itemId,count(*) as sum_total_score from topScore a join itemInfo b on a.itemId=b.itemId  group by TUMBLE(a.createTime,INTERVAL '2' MINUTE), a.itemId order by itemId desc";

        Table groupedByCountry = tableEnv.sqlQuery(groupSql);

        //转换回dataset
        DataSet result = tableEnv.toDataSet(groupedByCountry, Result.class);

        //将dataset map成tuple输出
        result.map(new MapFunction>() {
            @Override
            public Tuple2 map(Result result) throws Exception {
                System.out.println("=============================" + result);
                Long country = result.itemId;
                Long sum_total_score = result.sum_total_score;
                return Tuple2.of(country, sum_total_score);
            }
        }).print();

    }

    /**
     * item点击
     *
     * @param env
     * @param tableEnv
     * @return
     */
    private static Table getOrder(ExecutionEnvironment env, BatchTableEnvironment tableEnv) {
        // UserBehavior.csv 的本地文件路径, 在 resources 目录下
        URL fileUrl = HotItemsSql.class.getClassLoader().getResource("UserBehavior2.csv");

        //source,这里读取CSV文件，并转换为对应的Class
        DataSet csvInput = env
                .readCsvFile(fileUrl.getPath())

                .ignoreFirstLine().pojoType(UserBehavior.class, "userId", "itemId", "categoryId", "behavior", "createTime");

        //将DataSet转换为Table
        return tableEnv.fromDataSet(csvInput);
    }


    /**
     * itemInfo
     *
     * @param env
     * @param tableEnv
     * @return
     */
    private static Table getItemInfo(ExecutionEnvironment env, BatchTableEnvironment tableEnv) {
        // UserBehavior.csv 的本地文件路径, 在 resources 目录下
        URL fileUrl = HotItemsSql.class.getClassLoader().getResource("ItemInfo.csv");

        //source,这里读取CSV文件，并转换为对应的Class
        DataSet csvInput = env
                .readCsvFile(fileUrl.getPath())
                .ignoreFirstLine().pojoType(ItemInfo.class, "itemId", "desc");

        //将DataSet转换为Table
        return tableEnv.fromDataSet(csvInput);
    }


    /**
     * 统计结果对应的类
     */
    @Data
    public static class Result {
        //            public String country;
        public Long sum_total_score;
        //            public String userId;
        public Long itemId;
        public String desc;

        public Result() {
        }
    }
}

基础环境变量构建
通过csvInput读取对应的csv文件转换成对应的DataSet。
执行sql，按照item分组，统计点击数。

流式例子代码


import lombok.Data;
import lombok.extern.slf4j.Slf4j;
import myflink.entity.ItemInfo;
import myflink.entity.UserBehavior;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.io.PojoCsvInputFormat;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.typeutils.PojoTypeInfo;
import org.apache.flink.api.java.typeutils.TypeExtractor;
import org.apache.flink.core.fs.Path;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.ProcessFunction;
import org.apache.flink.streaming.api.functions.timestamps.AscendingTimestampExtractor;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.java.StreamTableEnvironment;
import org.apache.flink.util.Collector;

import java.io.File;
import java.net.URL;

/**
 *
 *
 *
 */
@Slf4j
public class HotItemsSql {

    public static void main(String[] args) {

        try {

            // 创建 execution environment
            StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
            // 告诉系统按照 EventTime 处理
            env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
            // 为了打印到控制台的结果不乱序，我们配置全局的并发为1，改变并发对结果正确性没有影响
            env.setParallelism(1);
//        env.setStateBackend(new FsStateBackend("hdfs://namenode:40010/flink/checkpoints"))
//        env.setStateBackend(new FsStateBackend("file://D:\\img\\data"));
            StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);
            Table topScore = getOrder(env, tableEnv);
            //将topScore注册为一个表 ，
            tableEnv.registerTable("topScore", topScore);
            // 商品信息表
            Table itemInfo = getItemInfo(env, tableEnv);
            tableEnv.registerTable("itemInfo", itemInfo);
            //查询item点击数，及itemId的名字
            String groupSql = "select a.itemId,count(*) as sum_total_score,b.desc from topScore a join itemInfo b on a.itemId=b.itemId  group by a.itemId,categoryId,b.desc order by itemId desc";

//            groupSql = "select a.itemId,b.desc from topScore a join itemInfo b on a.itemId=b.itemId  group by a.itemId,categoryId,b.desc ";

            // 按照滚动时间窗口来处理
            String tumbleWinGroupSql = "select a.itemId,count(*) as sum_total_score from topScore a join itemInfo b on a.itemId=b.itemId  group by TUMBLE(a.createTime,INTERVAL '2' MINUTE), a.itemId order by itemId desc";

            Table groupedByCountry = tableEnv.sqlQuery(groupSql);


            DataStream> result = tableEnv.toRetractStream(groupedByCountry, Result.class);


//        //将dataset map成tuple输出
//        result.map(new MapFunction, String>() {
//
//            @Override
//            public String map(Tuple2 booleanResultTuple2) throws Exception {
//                System.out.println("=============================" + result);
//                return null;
//            }
//        }).print();
//
//
////
            result.process(new TopNHotItems2())
                    .print();
            env.execute("Hot Items Job");

        } catch (Exception e) {
            e.printStackTrace();
        }
    }


    public static class TopNHotItems2 extends ProcessFunction, String> {


        @Override
        public void processElement(Tuple2 value, Context context, Collector collector) throws Exception {
            System.out.println("0:" + value.f0 + "1:" + value.f1);
        }
    }

    /**
     * item点击
     *
     * @param env
     * @param tableEnv
     * @return
     */
    private static Table getOrder(StreamExecutionEnvironment env, StreamTableEnvironment tableEnv) throws Exception {
        // UserBehavior.csv 的本地文件路径, 在 resources 目录下
        URL fileUrl = HotItemsSql.class.getClassLoader().getResource("UserBehavior2.csv");
        Path filePath = Path.fromLocalFile(new File(fileUrl.toURI()));
        //source,这里读取CSV文件，并转换为对应的Class
        // 抽取 UserBehavior 的 TypeInformation，是一个 PojoTypeInfo
        PojoTypeInfo pojoType = (PojoTypeInfo) TypeExtractor.createTypeInfo(UserBehavior.class);
        // 由于 Java 反射抽取出的字段顺序是不确定的，需要显式指定下文件中字段的顺序
        String[] fieldOrder = new String[]{"userId", "itemId", "categoryId", "behavior", "createTime"};
        // 创建 PojoCsvInputFormat
        PojoCsvInputFormat csvInput = new PojoCsvInputFormat(filePath, pojoType, fieldOrder);


        DataStream dataStream = env
                // 创建数据源，得到 UserBehavior 类型的 DataStream
                .createInput(csvInput, pojoType)
                // 抽取出时间和生成 watermark
                .assignTimestampsAndWatermarks(new AscendingTimestampExtractor() {
                    @Override
                    public long extractAscendingTimestamp(UserBehavior userBehavior) {
                        // 原始数据单位秒，将其转成毫秒
                        return userBehavior.createTime;
                    }
                });

        //将DataSet转换为Table
        return tableEnv.fromDataStream(dataStream);
    }


    private static Table getItemInfo(StreamExecutionEnvironment env, StreamTableEnvironment tableEnv) throws Exception {
        // UserBehavior.csv 的本地文件路径, 在 resources 目录下
        URL fileUrl = HotItemsSql.class.getClassLoader().getResource("ItemInfo.csv");
        Path filePath = Path.fromLocalFile(new File(fileUrl.toURI()));
        //source,这里读取CSV文件，并转换为对应的Class
        // 抽取 UserBehavior 的 TypeInformation，是一个 PojoTypeInfo
        PojoTypeInfo pojoType = (PojoTypeInfo) TypeExtractor.createTypeInfo(ItemInfo.class);
        // 由于 Java 反射抽取出的字段顺序是不确定的，需要显式指定下文件中字段的顺序
        String[] fieldOrder = new String[]{"itemId", "desc"};
        // 创建 PojoCsvInputFormat
        PojoCsvInputFormat csvInput = new PojoCsvInputFormat(filePath, pojoType, fieldOrder);


        DataStream dataStream = env
                // 创建数据源，得到 UserBehavior 类型的 DataStream
                .createInput(csvInput, pojoType);
        // 抽取出时间和生成 watermark


        //将DataSet转换为Table
        return tableEnv.fromDataStream(dataStream);
    }


    /**
     * 统计结果对应的类
     */
    @Data
    public static class Result {
        //            public String country;
//        public String sum_total_score;
        //            public String userId;
        public Long itemId;
        public String desc;

        public Result() {
        }

        public Result(Long itemId, String desc) {
            this.itemId = itemId;
            this.desc = desc;
        }
    }
}

揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义
Big Data (H/M) Assessed Exercise 后端
BigData(H/M)AssessedExerciseTaskSheet2024/25–Individual–v107/02/25SummaryThegoalofthisexerciseistofamiliarizeyourselveswiththedesign,implementationandperformancetestingofBigDataanalysistasksusingApach
2025年计算机工程与大数据应用国际会议（CEBDA 2025） Yangxshy EI 会议大数据
2025年计算机工程与大数据应用国际会议2025InternationalConferenceonComputerEngineeringandBigDataApplications大会信息会议名称：2025年计算机工程与大数据应用国际会议会议简称：CEBDA2025收录检索：提交EiCompendex,CPCI,CNKI,GoogleScholar等大会地点：中国·北京审稿通知：投稿后2-3日内通
大数据安全项目是小酒大数据 python pycharm sql mysql
1.项目详情用python写一个大数据安全项目（使用tk，页面布局使用盒子模型，页面中各个按钮，主题要美观，按扭间的距离不要太进），需要连接数据库连接名是root（数据库名为bigdata_security,数据库密码是123456。查询数据库中的student表（包括id，name,sex,school,height,weight这些字段））。包括管理员和学生两个功能。2.代码详
【软考高项】【英语知识】- 21 - 单词积累 oo寻梦in记软考高项（信息系统项目管理师）软考
目录一、常见计算机技术词汇二、项目管理词汇2.1十大知识域2.2五大过程组2.349个子过程2.4工具和技术汇总2.5输入和输出汇总一、常见计算机技术词汇序号中文英文1云计算Cloudcomputing2云存储Cloudstorage3云服务Cloudservice4软件即服务SaaS5平台即服务PaaS6基础设施即服务laaS7虚拟资源Virtualresources8大数据bigdata9大数
Ubuntu下配置安装Hadoop 2.2 weixin_30501857 大数据 java 运维
---恢复内容开始---这两天玩Hadoop，之前在我的Mac上配置了好长时间都没成功的Hadoop环境，今天想在win7虚拟机下的Ubuntu12.0464位机下配置，然后再建一个组群看一看。参考资料：1.InstallingsinglenodeHadoop2.2.0onUbuntu：http://bigdatahandler.com/hadoop-hdfs/installing-single-
[转载] awesome big data weixin_30343157 javascript java runtime ViewUI
原文:https://github.com/onurakpolat/awesome-bigdata#graph-data-model作者把分布式领域相关的大部分开源项目和论文分类整理了一遍,造福人类啊.AwesomeBigDataAcuratedlistofawesomebigdataframeworks,resourcesandotherawesomeness.Inspiredbyawesome
2014 6月，比较老了金金2019
AwesomeBigDataAcuratedlistofawesomebigdataframeworks,resourcesandotherawesomeness.Inspiredbyawesome-php,awesome-python,awesome-ruby,hadoopecosystemtable&big-data.Yourcontributionsarealwayswelcome!Awes
Centos7服务器运维服务系统安装过程中遇到的问题总结阿卜力米提40 服务器运维
Centos7服务器运维服务系统安装过程中遇到的问题总结centos服务器运维由于我们Sinesafe的客户要求网站的服务器要装Centos7版本所以给大家分享下安装的过程与经验,如果需要深入的服务器运维服务也可以找我们。机器域名机器别名xxx.xxx.xxx.xxxbigdata1xxx.xxx.xxx.xxxbigdata2xxx.xxx.xxx.xxxbigdata33台机器用户名和密码：用
【大数据治理】局外人_Jia 大数据安全人工智能
大数据治理（BigDataGovernance）是指通过一系列策略、流程和技术手段，确保大数据的质量、安全性、合规性和可用性，从而最大化数据的价值。以下是大数据治理的核心内容、挑战和最佳实践：1.大数据治理的核心内容1.1数据质量管理确保数据的准确性、完整性、一致性和及时性。数据清洗：处理缺失值、重复数据和错误数据。数据验证：定义数据规则，确保数据符合业务需求。数据监控：实时监控数据质量，及时发现
简记一段数据清洗项目经历 Jo乔戈里 sql database mysql python
声明：该项目是从github上下载的，原项目地址在:https://github.com/TurboWay/bigdata_analyse这个数据分析项目选自其中的"Amoy_job",即"10万条厦门招聘数据分析",但是没有严格沿用里面的代码，绝大部分都是自己思考所做的数据清洗。注意，此处仅是数据清洗，尚未进入到真正的数据分析和可视化，得出结论这些阶段！代码镇楼:fromcollectionsi
nginx+flume网络流量日志实时数据分析实战_日志数据分析(1) 2401_84182578 程序员 nginx flume 数据分析
得到visits模型hadoopjar/export/data/mapreduce/web_log.jarcn.itcast.bigdata.weblog.clickstream.ClickStreamVisit网络日志数据分析-数据加载对于日志数据的分析，Hive也分为三层：ods层、dw层、app层创建数据库createdatabaseifnotexistsweb_log_ods;create
探秘高效大数据处理：揭秘开源项目【BigData】温宝沫Morgan
探秘高效大数据处理：揭秘开源项目【BigData】databaseBlazegraphHighPerformanceGraphDatabase项目地址:https://gitcode.com/gh_mirrors/dat/database1、项目介绍在如今的数字化时代，数据已成为企业的重要资产。对于海量数据的处理和分析，我们常常需要依赖强大的工具来支撑。这就是我们要向您推荐的开源项目——BigDa
开源项目推荐：基于Lambda架构的大数据管道柳旖岭
开源项目推荐：基于Lambda架构的大数据管道big-data-pipeline-lambda-archAfullbigdatapipeline(LambdaArchitecture)withSpark,Kafka,HDFSandCassandra.项目地址:https://gitcode.com/gh_mirrors/bi/big-data-pipeline-lambda-arch1.项目基础介
Hadoop HDFS 安装详细步骤碟中碟山 hadoop hdfs 大数据
Hadoop安装详细步骤安装前分别在master、slave1、slave2三台机器的root用户下的主目录下创建目录bigdata，即执行下面的命令：mkdir~/bigdataHadoop安装包下载检查Hadopp和java版本是否对应，在官网中查hadoop-3.1.3JDK1.8hadoop-2.10.2JDK1.7or1.8hadoop-2.9.2JDK1.7or1.8hadoop-2.
大数据治理体系构建与关键技术实践一ge科研小菜鸡大数据大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着信息技术的快速发展和数据规模的爆炸式增长，大数据已经成为各行业的核心资产。然而，数据质量低、数据孤岛、数据安全风险等问题日益突出，影响了数据的有效利用和价值挖掘。因此，大数据治理（BigDataGovernance）成为企业和政府机构提升数据管理能力、优化决策支持的重要手段。本篇文章将深入探讨大数据治理的体系构建、核心技术及其在实际应
Hive 整合 Spark 全教程（Hive on Spark）字节全栈_rJF hive spark hadoop
hadoop.proxyuser.luanhao.groups*hadoop.proxyuser.luanhao.groups*2）HDFS配置文件配置hdfs-site.xmldfs.namenode.http-addressBigdata00:9870dfs.namenode.secondary.http-addressBigdata00:9868dfs.replication13）YARN配
centos7搭建flink1.18并以 standalone模式启动咸鱼c君 flink 大数据大数据
版本组件版本scala2.12.20java1.8.0_181flink1.18.1关于scala和Java的安装参考：scala和java安装flink下载地址：flink下载链接集群规划bigdata01bigdata02bigdata03masterworkerworkerworker安装1.创建存放路径三个节点都需要操作用于存放安装包:mkdir/home/software/用于存放存放解
一文了解大数据概论程序员
一.大数据概论1.1大数据概念大数据（bigdata）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决，海量数据的存储和海量数据的分析计算问题。按顺序给出数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit
ranger-kms安装蘑菇丁 eclipse java ide
默认已安装ranger-admin和mysql服务。Ranger组件服务默认都在/opt/bigdata.test/core/ranger目录下安装。解压安装包[hadoop~]$cd/opt/ranger[hadoop@ranger]$tar-xzvfranger-2.1.0-kms.tar.gz[hadoop@xranger]$mvranger-2.1.0-kmsranger/ranger-k
把hive中的数据导出到mysql 樱浅沐冰笔记 hadoop hive mysql
注意事项！！！！1.hive中的表的字段和类型必须和mysql表中的字段和类型一样不如hive中的stnamevarchar（50），那么mysql中的字段和类型也必须为stnamestring2.sqoopexport--connectjdbc:mysql://localhost:3306/xiandian--usernameroot--passwordbigdata--tablem1--hca
Django常用ORM 程序猿_小天 Django django django orm
聚合分组Sum函数将None变为0xx=Coalesce(Sum('number'),0,output_field=CharField())跨表分组去重#B表中有一个外键表是A,即a=models.ForeignKey(A)a_queryset=BigData.objects.filter(pk=OuterRef("a")).annotate(Sum('number',distinct=True)
大数据治理：概念、框架与实践一ge科研小菜鸡大数据 Python 大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言随着数据量的爆炸性增长，大数据治理（BigDataGovernance）成为数据管理领域的重要议题。大数据治理旨在对海量数据进行有效管理，确保数据的质量、可用性、安全性和合规性，同时为企业决策提供有力支持。本文系统介绍大数据治理的概念、核心框架、实施步骤及典型应用案例，结合实际场景提供技术支持和代码示例。一、大数据治理的定义与重要性1.什么是
【Springer斯普林格出版，Ei稳定，往届快速见刊检索】第四届电子信息工程、大数据与计算机技术国际学术会议（ EIBDCT 2025）艾思科蓝 AiScholar 学术会议计算机科学电子信息科学与技术大数据信息可视化可信计算技术深度学习人工智能自然语言处理信息与通信
第四届电子信息工程、大数据与计算机技术国际学术会议（EIBDCT2025）20254thInternationalConferenceonElectronicInformationEngineering,BigDataandComputerTechnology中国-青岛|2025年2月21-23日|www.eibdct.net组织单位长春电子科技大学、加拿大魁北克大学、美国新泽西理工学院、美国欧道
分布式系统理论基础二-CAP 王知无(import_bigdata)
GitHub：https://github.com/wangzhiwubigdata/God-Of-BigData关注公众号,内推,面试,资源下载,关注更多大数据技术~大数据成神之路~预计更新500+篇文章，已经更新50+篇~引言CAP是分布式系统、特别是分布式存储领域中被讨论最多的理论，“什么是CAP定理？”在Quora分布式系统分类下排名FAQ的No.1。CAP在程序员中也有较广的普及，它不仅
使用java代码消费kafka数据二进制_博客大数据 java kafka
首先创建maven项目，导入jar包org.apache.kafkakafka-clients3.0.0org.slf4jslf4j-log4j121.7.25示例一：使用java代码消费kafka所有数据packagecom.bigdata.day03;importorg.apache.kafka.clients.consumer.ConsumerConfig;importorg.apache.
Hive 查看partition 以及msck 修复分区 dgsdaga3026010 大数据
#checktable的partitionhive>showpartitionstable_name;如果是外部表，不小心把表给删除了，可以适用下命令重新关联表和数据[MSCKREPAIRTABLE]全量修复分区hive>msckrepairtabletable_name;转载于:https://www.cnblogs.com/TendToBigData/p/10501178.html
2024年总结：大转向年度总结
本文于2025年1月2号首发于公众号“狗哥琐话”。2024年是个打工人苦命年，我看到几乎每个人都比以往辛苦。这让我想起了六字真言，钱难赚屎难吃。职业转向今年我在职业上尝试做了一个转向，具体的结果可能需要比较长的时间来检验我选择是否正确，所以转向的细节我就不全部展开了，可以确定是我依然会专注在Infra和BigData，比如今年我发布了SparkSQL和FlinkSQL的IDEA提效插件。那么我为什
官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake 阿里云大模型
2024年6月，国内优质大模型应用月之暗面Kimi与清华大学MADSys实验室（MachineLearning,AI,BigDataSystemsLab）联合发布了以KVCache为中心的大模型推理架构Mooncake。通过使用以KVCache为中心的PD分离和以存换算架构，大幅提升大模型应用Kimi智能助手推理吞吐的同时有效降低了推理成本，自发布以来受到业界广泛关注。近日，清华大学和研究组织9#
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

Flink学习总结

Flink概述

Flink例子学习

批量例子代码

流式例子代码

你可能感兴趣的:(bigData)