漠小浅

sparkStreaming_电商案例

数据生成：

package com.java__SparkStreaming;

import kafka.javaapi.producer.Producer;
import kafka.producer.KeyedMessage;
import kafka.producer.ProducerConfig;

import java.util.*;

/**
 * Created by Administrator on 2016/7/12.
 */
public class MockAdClickedStats {

    public static void main(String[] args ){

        Random random = new Random();
        String[] provinces = new String[]{"Guanddong,","Zhejiang","Jiangsu","Fujian"};
        Map,String[]> cities = new HashMap,String[]>();
        cities.put("Guanddong",new String[]{"Guangzhou","Shenzhen","DongGuan"});
        cities.put("Zhejiang",new String[]{"Hangzhou","Wenzhou","Ningbo"});
        cities.put("Jiangsu",new String[]{"Nanjing","Suzhou","Wuxi"});
        cities.put("Fujian",new String[]{"Fuzhou","Xiamen","Sanming"});
        String[] ips = new String[]{
                "192.168.111.0",
                "192.168.111.1",
                "192.168.111.2",
                "192.168.111.3",
                "192.168.111.4"
        };

        /**
         * kafka相关的基本配置信息
         */
        Properties kafkaConf = new Properties();
        kafkaConf.put("serializer.class","kafka.serializer.StringEncoder");
        kafkaConf.put("metadata.broker.list","master:9092,slave1:9092,slavw2:9092");
        ProducerConfig producerConfig = new ProducerConfig(kafkaConf);

        Producer,String> producer = new Producer,String>(producerConfig);

        new Thread(new Runnable() {
            @Override
            public void run() {
                while (true) {
                    //数据格式：tiemstamp,ip,userID,adID,province,city
                    Long timestamp = new Date().getTime();
                    String ip = ips[random.nextInt(5)];//可以采用网络上免费提供的IP库
                    int userID = random.nextInt(10000);
                    int adID = random.nextInt(100);
                    String province = provinces[random.nextInt(4)];
                    String city = cities.get(province)[random.nextInt(3)];
                    String clickedAd = timestamp + "\t" + ip + "\t" + userID + "\t" +
                            adID + "\t" + province + "\t" + city;
                    producer.send(new KeyedMessage("AdClicked", "clickedAd"));//topic和消息本身
                    try {
                        Thread.sleep(50);
                    } catch (InterruptedException e) {
                        e.printStackTrace();
                    }
                }
            }
        }).start();
    }
}

以下实现了

1，电商广告在线点击统计

2，黑名单过滤

3，广告点击流的在线更新统计

4，广告点击趋势计算

思路详解代码注释

需要说明的是：本次代码没有经过测试。

package com.java__SparkStreaming;

import com.google.common.base.Optional;
import groovy.lang.Tuple;
import kafka.serializer.StringDecoder;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.hive.HiveContext;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;
import org.apache.spark.streaming.Durations;
import org.apache.spark.streaming.api.java.JavaDStream;
import org.apache.spark.streaming.api.java.JavaPairDStream;
import org.apache.spark.streaming.api.java.JavaPairInputDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;
import org.apache.spark.streaming.kafka.KafkaUtils;
import org.kitesdk.shaded.com.google.common.base.*;
import scala.Int;
import scala.Tuple2;

import java.sql.*;
import java.util.*;
import java.util.Objects;
import java.util.concurrent.LinkedBlockingQueue;

/**
 * Created by Administrator on 2016/7/1.
 * 数据格式：timestamp,ip,userID,adID,province,city
 */
public class AdClickedStreamingStats {

    public static void mian(String[] args) {

        SparkConf conf = new SparkConf().setMaster("local[5]").setAppName("AdClickedStreamingStats");
        JavaStreamingContext jsc = new JavaStreamingContext(conf, Durations.seconds(10));

        Map,String> kafkaParameters = new HashMap,String>();
        kafkaParameters.put("metadata.broker.list", "master:9092,slave1:9092,slave2:9092");
        Set topics = new HashSet();
        topics.add("SparkStreamingDirected");
        JavaPairInputDStream,String> adClickedStreaming = KafkaUtils.createDirectStream(jsc,
                String.class,
                String.class,
                StringDecoder.class,
                StringDecoder.class,
                kafkaParameters,
                topics);
        /**
         *整体思路
         * 统计过滤出有效点击 adClickedStreaming ->mapToPair->reduceByKey->filter->foreachRDD（存储到外部存储系统中）
         * 黑名单过滤：一天中同一个用户点击同一个ad超过50次就列入黑名单
         *             数据每次流入的时候首先需要判断是否是黑名单 adClickedStreaming.transformToPair（查询黑名单数据表
         *             blacklisttable 然后进行过滤）
         *             然后后面进行黑名单的生成（一天中同一个用户点击（adclicked）同一个ad超过50次就列入黑名单），然后
         *             写入数据库blacklisttable以供下次数据流入进来进行判断过滤出黑名单
         */
        //基本数据格式：timestamp、ip、userID、adID、province、

        /**
         * 因为要对黑名单进行在线过滤，而数据是在RDD中的，所以必然使用transform，
         * 但是在这里我们必须使用transformToPair，原因是读取进来的Kafka的数据是, Long>类型的
         * 另外一个原因是过滤后的数据要进行进一步处理。所以必须是读进来的Kafka数据的原始类型DStream,Long>
         */
        JavaPairDStream,String> filteradClickedStreaming = adClickedStreaming.transformToPair(new Function, String>, JavaPairRDD, String>>() {
            @Override
            public JavaPairRDD, String> call(JavaPairRDD, String> rdd) throws Exception {
                /**
                 * 思路：
                 * 1，从数据库中获取黑名单转换成RDD，即用新的RDD实例封装黑名单数据
                 * 2，然后把代表黑名单的RDD的实例和Batch Duration产生的RDD进行leftOuterJoin操作。也就是说使用Batch Duration
                 * 产生的RDD和代表黑名单的RDD的实例进行leftOuterJoin操作，如果两者都有内容
                 * 的话，就会是true，否则的话就是false；
                 * 我们要留下来的是操作结果是false
                 */
                JavaSparkContext jsc = new JavaSparkContext(rdd.context());
                /**
                 * 黑名单的表中只有userID，但是如果要进行join操作的话，就必须是key-value，
                 * 所以在这里我们需要基于数据表中的数据产生Key-Value类型的数据集合；
                 */
                List blackListNames = new ArrayList();//用于保存从数据库查询出来的黑名单
                JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();
                jdbcWrapper.doQueryBatch("SELECT * FROM blacklisttable", null, new ExecuteCallBack() {
                    @Override
                    public void resultCallBack(ResultSet result) throws Exception {
                        while(result.next()){
                            blackListNames.add(result.getString(1));
                        }
                    }
                });
                List,Boolean>> blackListTuple = new ArrayList, Boolean>>();
                for(String name : blackListNames) {
                    blackListTuple.add(new Tuple2,Boolean>(name,true));//映射成name，true
                }
                //List>
                List blackListFromDB =blackListTuple;//数据来自于查询的黑名单数据表中并映射成String，Boolean。
                JavaPairRDD, Boolean> blackListRDD = jsc.parallelizePairs(blackListFromDB);

                /**
                 * 进行join操作的时候肯定是基于userID进行join的，所以必须把rdd进行mapToPair操作转化成为符合格式的rdd
                 */
                JavaPairRDD, Tuple2, String>> rdd2Pair = rdd.mapToPair(new PairFunction, String>, String, Tuple2, String>>() {
                    @Override
                    public Tuple2, Tuple2, String>> call(Tuple2, String> t) throws Exception {
                        String userID = t._2().split("\t")[2];
                        return new Tuple2, Tuple2, String>>(userID, t);
                    }
                });
                /**
                 * var rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2)
                 var rdd2 = sc.makeRDD(Array(("A","a"),("C","c"),("D","d")),2)

                 scala> rdd1.leftOuterJoin(rdd2).collect
                 res11: Array[(String, (String, Option[String]))] = Array((B,(2,None)), (A,(1,Some(a))), (C,(3,Some(c))))
                 */
                JavaPairRDD, Tuple2, String>, Optional>> joined = rdd2Pair.leftOuterJoin(blackListRDD);

                JavaPairRDD, String> result = joined.filter(new Function, Tuple2, String>, Optional>>, Boolean>() {
                    @Override
                    public Boolean call(Tuple2, Tuple2, String>, Optional>> v1) throws Exception {
                        Optional optional = v1._2()._2();
                        if (optional.isPresent() && optional.get()) {
                            return false;
                        } else {
                            return true;
                        }
                    }
                }).mapToPair(new PairFunction, Tuple2, String>, Optional>>, String, String>() {
                    @Override
                    public Tuple2, String> call(Tuple2, Tuple2, String>, Optional>> t) throws Exception {
                        return t._2()._1();
                    }
                });
                return result;
            }
        });
        JavaPairDStream,Long> pairs = filteradClickedStreaming.mapToPair(new PairFunction, String>, String, Long>() {
            @Override
            public Tuple2, Long> call(Tuple2, String> t) throws Exception {
                String[] splited = t._2().split("\t");
                String timestamp = splited[0];//YYYY-MM-DD
                String ip = splited[1];
                String userID = splited[2];
                String adID = splited[3];
                String province = splited[4];
                String city = splited[5];
                String clickedRecord = timestamp + "_" +
                        ip + "_" +
                        userID + "_" +
                        adID + "_" +
                        province + "_" +
                        city;
                return new Tuple2, Long>(clickedRecord, 1L);
            }
        });

        //计算每个Batch Duration用户广告点击量
        JavaPairDStream,Long>  adClickedUsers= pairs.reduceByKey(new Function2, Long, Long>() {
            @Override
            public Long call(Long v1, Long v2) throws Exception {
                return v1 + v2;
            }
        });
        /**
         * 计算出有效的点击
         * 此处是判断每个Batch Duration中用户点击的次数如果大于一次,则过滤掉
         */
        JavaPairDStream,Long> filteredClickInBatch = adClickedUsers.filter(new Function, Long>, Boolean>() {
            @Override
            public Boolean call(Tuple2, Long> v1) throws Exception {
                if(v1._2() > 1) {
                    //更新一下黑名单的数据表
                    return false;
                } else {
                    return true;
                }
            }
        });

        /**
         * 默认情况下，RDD中的数据插入MySQL中是一条一条的插入的，也就是说遍历每个Partition的iterator中的每一条记录，每一次
         * 都要建立一个数据库的链接，当我们使用foreachRDD的时候操作的对象是RD，然后我们使用rdd的foreachPartition，此时操作
         * 的对象是RDD，而不是一条一条的记录，也就是说每次读取的是整个Partition。读取数据的时候效率非常高，然后我们采用
         * ExecuteBatch的方法插入或者更新数据，此时也是数据库更加高效的链接和更新方式。不过一次读取一个Partition的弊端是
         * 有可能内存OOM，所以此时就需要非常关注内存的使用。
         */
        filteredClickInBatch.foreachRDD(new Function, Long>, Void>() {
            @Override
            public Void call(JavaPairRDD, Long> rdd) throws Exception {
                rdd.foreachPartition(new VoidFunction, Long>>>() {
                    @Override
                    public void call(Iterator, Long>> partition) throws Exception {
                        /**
                         * 在这里我们使用数据库连接池的高效读写数据库的方式把数据写入数据库MySQL；
                         * 由于传入的参数是一个Iterator类型的集合，所以为了更加高效的操作我们需要
                         * 批量处理（数据库的操作），例如说一次性插入1000条Record，使用insertBatch或者
                         * updateBatch类型的操作；插入的用户信息可以只包含：timestamp,ip,user,adID,province,city
                         * 这里有一个问题：可能出现两条记录的Key是一样的，因此就需要更新累加操作
                         */

                        List userAdClickedList = new ArrayList();//保存插入数据库的数据

                        while(partition.hasNext()) {
                            Tuple2,Long> record = partition.next();
                            String[] splited = record._1().split("\t");

                            UserAdClicked userClicked = new UserAdClicked();
                            userClicked.setTimestamp(splited[0]);
                            userClicked.setIp(splited[1]);
                            userClicked.setUserID(splited[2]);
                            userClicked.setAdID(splited[3]);
                            userClicked.setProvince(splited[4]);
                            userClicked.setCity(splited[5]);
                            userAdClickedList.add(userClicked);
                        }
                        List inserting = new ArrayList();//保存需要插入的
                        List updating = new ArrayList();//保存需要更新的

                        JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();
                        //adclicked 表的字段：timestamp,ip,user,adID,province,city,clickedCount
                        for(UserAdClicked clicked : userAdClickedList) {
                            jdbcWrapper.doQueryBatch("SELECT count(1) FROM adclicked WHERE "
                                    + "timestamp = ? AND userID = ? AND adID = ? ", new Object[]{
                                    clicked.getTimestamp(), clicked.getUserID(), clicked.getAdID()}, new ExecuteCallBack() {
                                @Override
                                public void resultCallBack(ResultSet result) throws Exception {
                                    if(result.next()){
                                        long count = result.getLong(1);
                                        clicked.setClickedCount(count);
                                        updating.add(clicked);
                                    } else {
                                        inserting.add(clicked);
                                    }
                                }
                            });
                        }

                        //插入操作
                        ArrayList insertParametersList = new ArrayList();
                        for(UserAdClicked insertRecord: inserting){
                            insertParametersList.add(new Object[]{
                                    insertRecord.getTimestamp(),
                                    insertRecord.getIp(),
                                    insertRecord.getUserID(),
                                    insertRecord.getAdID(),
                                    insertRecord.getProvince(),
                                    insertRecord.getCity(),
                                    insertRecord.getClickedCount()
                            });
                        }
                        jdbcWrapper.doBatch("INSERT INTO adclicked VALUES(?,?,?,?,?,?,?",insertParametersList);

                        //更新操作
                        ArrayList updateParametersList = new ArrayList();
                        for(UserAdClicked updateRecord: updating){
                            updateParametersList.add(new Object[]{
                                    updateRecord.getClickedCount(),
                                    updateRecord.getTimestamp(),
                                    updateRecord.getIp(),
                                    updateRecord.getUserID(),
                                    updateRecord.getAdID(),
                                    updateRecord.getProvince(),
                                    updateRecord.getCity()
                            });
                        }
                        jdbcWrapper.doBatch("UPDATE adclicked set clickedCount = ? " +
                                "  WHERE timestamp = ? AND ip = ? AND userID = ? AND adID = ? " +
                                " AND province = ? AND city = ? ",updateParametersList);

                    }
                });
                return null;
            }
        });

        //二次过滤，通过判断用户当天累计点击广告的次数是否大于某个阈值（例如50），用户当天点击某个广告的次数在数据表中
        JavaPairDStream,Long> blackListBasedOnHistory = filteredClickInBatch.filter(new Function, Long>, Boolean>() {
            @Override
            public Boolean call(Tuple2, Long> v1) throws Exception {
                String[] splited = v1._1().split("\t");

                String data = splited[0];
                String userID = splited[2];
                String adId = splited[3];

                /**
                 * 接下来根据data、userID、adID等条件去查询用户点击广告的数据表，
                 * 获得总的点击次数，这个时候基于点击次数判断是否属于黑名单点击。
                 */
                int clickedCountTotalToday = 81;
                if(clickedCountTotalToday > 50) {
                    return true;//黑名单
                } else {
                    return false;
                }
            }
        });

        //下一步把blackListBasedOnHistory写入到黑名单数据表中
        //filteredClickInBatch.foreachRDD由于其内部使用 rdd.foreachPartition，所以有可能partition之间存在同一用户，用户重复，
        //所以需要整个RDD去重
        //以上是人家的意思，我认为不对，因为前面进行了reduceByKey，我认为是这个样子：
        // 因为前面的Key是由userID和adID共同决定的，所以可以出现同一用户点击不同的广告
        /**
         * 必须对黑名单的整个RDD进行去重操作
         * 怎么对其（blackListBasedOnHistory）进行去重操作，方法：transform直接对rdd进行操作，使用rdd.distinct，原因就是
         * DStream没有该方法，但是RDD含有该方法。
         */
        JavaDStream blackListuserIDBasedOnHistory = blackListBasedOnHistory.map(new Function, Long>, String>() {
            @Override
            public String call(Tuple2, Long> v1) throws Exception {
                return v1._1().split("]t")[2];
            }
        });
        JavaDStream blackListUniqueuserIDBasedOnHistory = blackListuserIDBasedOnHistory.transform(new Function, JavaRDD>() {
            @Override
            public JavaRDD call(JavaRDD rdd) throws Exception {
                return rdd.distinct();
            }
        });
        //下一步写入黑名单数据表中（结束）
        blackListUniqueuserIDBasedOnHistory.foreachRDD(new Function, Void>() {
            @Override
            public Void call(JavaRDD rdd) throws Exception {
                rdd.foreachPartition(new VoidFunction>() {
                    @Override
                    public void call(Iterator t) throws Exception {
                        /**
                         * 在这里我们使用数据库连接池的高效读写数据库的方式把数据写入数据库MySQL；
                         * 由于传入的参数是一个Iterator类型的集合，所以为了更加高效的操作我们需要
                         * 批量处理（数据库的操作），例如说一次性插入1000条Record，使用insertBatch或者
                         * updateBatch类型的操作；插入的用户信息可以只包含：userID\
                         */
                        List blackList = new ArrayList();

                        while(t.hasNext()) {
                            blackList.add(new Object[]{(Object)t.next()});
                        }
                        JDBCWrapper jdbcWrapper =  JDBCWrapper.getJDBCInstance();
                        jdbcWrapper.doBatch("INSERT INTO blacklisttable VALUES (?)",blackList);

                    }
                });
                return null;
            }
        });


        /**
         * 广告点击累计次数动态更新（多个Batch之间），每个updateStateByKey都会在 Batch Duration的时间
         * 间隔的基础上进行广告点击次数的更新，更新之后我们一般都会持久化到外部存储设备上，在这里我们存储到
         * MySQL数据库中；
         */
        JavaPairDStream,Long> updateStateByKeyDStream = filteradClickedStreaming.mapToPair(new PairFunction, String>, String, Long>() {
            @Override
            public Tuple2, Long> call(Tuple2, String> t) throws Exception {
                String[] splited = t._2().split("\t");
                String timestamp = splited[0];//YYYY-MM-DD
                String adID = splited[3];
                String province = splited[4];
                String city = splited[5];

                String clickedRecord = timestamp + "_" + adID + "_" + province + "_" + city;
                return new Tuple2, Long>(clickedRecord, 1L);
            }
        }).updateStateByKey(new Function2, Optional, Optional>() {
            @Override
            public Optional call(List v1, Optional v2) throws Exception {
                /**
                 * v1:代表的是当前的key在当前的Batch Duration中出现的次数的集合。例如{1,1,1}
                 * v2:代表当前key在以前的Batch Duration中积累下来的结果；
                 */
                Long clickedTotalHistory = 0L;
                if (v2.isPresent()) {
                    clickedTotalHistory = v2.get();
                }
                for (Long one : v1) {
                    clickedTotalHistory += one;
                }
                return Optional.of(clickedTotalHistory);
            }
        });
        updateStateByKeyDStream.foreachRDD(new Function, Long>, Void>() {
            @Override
            public Void call(JavaPairRDD, Long> rdd) throws Exception {
                rdd.foreachPartition(new VoidFunction, Long>>>() {
                    @Override
                    public void call(Iterator, Long>> partition) throws Exception {
                        List adClickedList = new ArrayList();

                        while (partition.hasNext()) {
                            Tuple2, Long> record = partition.next();
                            String[] splited = record._1().split("\t");

                            AdClicked adClicked = new AdClicked();
                            adClicked.setTimestamp(splited[0]);
                            adClicked.setAdID(splited[1]);
                            adClicked.setProvince(splited[2]);
                            adClicked.setCity(splited[3]);
                            adClicked.setClickedCount(record._2());

                            adClickedList.add(adClicked);
                        }

                        List inserting = new ArrayList();//保存需要插入的
                        List updating = new ArrayList();//保存需要更新的

                        JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();
                        for (AdClicked clicked : adClickedList) {
                            jdbcWrapper.doQueryBatch("SELECT count(1) FROM adclickedcount WHERE "
                                    + "timestamp = ? AND userID = ? AND adID = ?,And province = ? AND city = ? ", new Object[]{
                                    clicked.getTimestamp(), clicked.getTimestamp(), clicked.getAdID(), clicked.getProvince(), clicked.getCity()}, new ExecuteCallBack() {
                                @Override
                                public void resultCallBack(ResultSet result) throws Exception {
                                    if (result.next()) {
                                        long count = result.getLong(1);
                                        clicked.setClickedCount(count);
                                        updating.add(clicked);
                                    } else {
                                        inserting.add(clicked);
                                    }
                                }
                            });
                        }

                        //插入操作
                        ArrayList insertParametersList = new ArrayList();
                        for (AdClicked insertRecord : inserting) {
                            insertParametersList.add(new Object[]{
                                    insertRecord.getTimestamp(),
                                    insertRecord.getAdID(),
                                    insertRecord.getProvince(),
                                    insertRecord.getCity(),
                                    insertRecord.getClickedCount()
                            });
                        }
                        jdbcWrapper.doBatch("INSERT INTO adclickedcount VALUES(?,?,?,?,?", insertParametersList);

                        //更新操作
                        ArrayList updateParametersList = new ArrayList();
                        for (AdClicked updateRecord : updating) {
                            updateParametersList.add(new Object[]{
                                    updateRecord.getClickedCount(),
                                    updateRecord.getTimestamp(),
                                    updateRecord.getAdID(),
                                    updateRecord.getProvince(),
                                    updateRecord.getCity()
                            });
                        }
                        jdbcWrapper.doBatch("UPDATE adclickedcount set clickedCount = ? " +
                                "  WHERE timestamp = ? AND adID = ? AND province = ? AND city = ?", updateParametersList);

                    }
                });
                return null;
            }
        });

        /**
         * 对广告点击进行TopN的计算，计算出每天每个省份的Top5排名的广告
         * 因为要对RDD进行操作，所以我们使用了transform算子
         * 最后保存到数据库中(先删除后插入)
         */
        updateStateByKeyDStream.transform(new Function, Long>, JavaRDD>() {
            @Override
            public JavaRDD call(JavaPairRDD, Long> rdd) throws Exception {
                JavaRDD rowRDD = rdd.mapToPair(new PairFunction,Long>, String, Long>() {
                    @Override
                    public Tuple2, Long> call(Tuple2, Long> t) throws Exception {
                        String[] splited = t._1().split("_");
                        String timestamp = splited[0];
                        String adID = splited[1];
                        String province = splited[2];

                        String clickedRecord = timestamp + "_" + adID + "_" + province;
                        return new Tuple2, Long>(clickedRecord,t._2());
                    }
                }).reduceByKey(new Function2, Long, Long>() {
                    @Override
                    public Long call(Long v1, Long v2) throws Exception {
                        return v1 + v2;
                    }
                }).map(new Function,Long>, Row>() {
                    @Override
                    public Row call(Tuple2, Long> v1) throws Exception {
                        String[] splited = v1._1().split("_");
                        String timestamp = splited[0];
                        String adID = splited[1];
                        String province = splited[2];
                        return RowFactory.create(timestamp,adID,province,v1._2());
                    }
                });

                StructType structType = DataTypes.createStructType(Arrays.asList(
                        DataTypes.createStructField("timestamp", DataTypes.StringType, true),
                        DataTypes.createStructField("adID", DataTypes.StringType, true),
                        DataTypes.createStructField("province", DataTypes.StringType, true),
                        DataTypes.createStructField("clickedCount", DataTypes.StringType, true)
                ));
                HiveContext hiveContext = new HiveContext(rdd.context());
                DataFrame df = hiveContext.createDataFrame(rowRDD,structType);
                df.registerTempTable("topNTableSource");
                DataFrame result = hiveContext.sql("SELECT timestamp,adID,province,clickedCount FROM" +
                        "(SELECT timestamp,adID,province,clickedCount,ROW_NUMBER OVER(PARTITION BY " +
                        " province ORDER BY clickedCount DESC) rank FROM topNTableSource) subquery " +
                        "WHERE rank <= 5 " );


                return result.toJavaRDD();
            }
        }).foreach(new Function, Void>() {
            @Override
            public Void call(JavaRDD rdd) throws Exception {
                rdd.foreachPartition(new VoidFunction>() {
                    @Override
                    public void call(Iterator t) throws Exception {
                        List adProvinceTopN = new ArrayList();
                        while (t.hasNext()) {
                            Row row = t.next();
                            AdProvinceTopN item = new AdProvinceTopN();
                            item.setTimestamp(row.getString(0));
                            item.setAdID(row.getString(1));
                            item.setProvince(row.getString(2));
                            item.setClickedCount(row.getString(3));
                            adProvinceTopN.add(item);
                        }

                        JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();

                        //去重操作 原因就在于delete删除操作的where条件，他是根据province删除的，topn里面一个地方有5个广告
                        Set set = new HashSet();
                        for (AdProvinceTopN item : adProvinceTopN) {
                            set.add(item.getTimestamp() + "_" + item.getProvince());
                        }

                        ArrayList deleteParametersList = new ArrayList();
                        for (String deleteRecord : set) {
                            String[] splited = deleteRecord.split("_");
                            deleteParametersList.add(new Object[]{
                                    splited[0], splited[1]
                            });
                        }
                        jdbcWrapper.doBatch("DELETE FROM adprovincetopn WHERE timestamp = ? AND province = ?", deleteParametersList);

                        //插入操作
                        //adprovincetopn 表的子酸：timestamp,adIN,province,clickedCount
                        ArrayList insertParametersList = new ArrayList();
                        for (AdProvinceTopN updateRecord : adProvinceTopN) {
                            insertParametersList.add(new Object[]{
                                    updateRecord.getTimestamp(),
                                    updateRecord.getAdID(),
                                    updateRecord.getProvince(),
                                    updateRecord.getProvince()
                            });
                        }
                        jdbcWrapper.doBatch("INSERT INTO adprovincetopn VALUES(?,?,?,?)", insertParametersList);

                    }
                });
                return null;
            }
        });

        /**
         * 分析30分钟广告的点击趋势
         * 然后把数据放到DB中，然后通过第三方绘制趋势图
         * filteradClickedStreaming里面是kafka里面获取的数据，key没有意义，value是需要的数据
         */
        filteradClickedStreaming.mapToPair(new PairFunction,String>, String, Long>() {
            @Override
            public Tuple2, Long> call(Tuple2, String> t) throws Exception {
                String[] splited = t._2().split("\t");
                String adID = splited[3];
                String time = splited[0];//Todo:后续需要重构代码实现时间戳和分钟的转换提取，此处需要提取出该广告的分钟单位
                return new Tuple2, Long>(time + "_" + adID,1L);
            }
        }).reduceByKeyAndWindow(new Function2, Long, Long>() {
            @Override
            public Long call(Long v1, Long v2) throws Exception {
                return v1 + v2;
            }
        }, new Function2, Long, Long>() {
            @Override
            public Long call(Long v1, Long v2) throws Exception {
                return v1 - v2;
            }
        }, Durations.minutes(30), Durations.minutes(5)).foreachRDD(new Function, Long>, Void>() {
            @Override
            public Void call(JavaPairRDD, Long> rdd) throws Exception {
                rdd.foreachPartition(new VoidFunction, Long>>>() {
                    @Override
                    public void call(Iterator, Long>> partition) throws Exception {
                        List adTrend = new ArrayList();
                        while(partition.hasNext()){
                            Tuple2,Long> record = partition.next();
                            String[] splited = record._1().split("_");
                            String time = splited[0];
                            String adID = splited[1];
                            Long ClickedCount = record._2();

                            /**
                             * 在插入数据到数据库的时候具体需要哪些字段？time、adID、ClickedCount
                             * 而我们通过J2EE技术进行趋势绘图的时候肯定是需要年、月、日、时、分这个维度的，所以
                             * 我们在里面需要年、月、日、时、分这些时间维度；
                             */

                            AdTrendStat adtrendStat = new AdTrendStat();
                            adtrendStat.setAdID(adID);
                            adtrendStat.setClickedCount(ClickedCount);
                            adtrendStat.set_data(time);//Todo:获取年月日
                            adtrendStat.set_hour(time);//Todo:获取小时
                            adtrendStat.set_minute(time);//TOdo获取分钟

                            adTrend.add(adtrendStat);
                        }

                        List inserting = new ArrayList();//保存需要插入的
                        List updating = new ArrayList();//保存需要更新的

                        JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();
                        for (AdTrendStat clicked : adTrend) {
                            AdTrendCountHistory adTrendCountHistory = new AdTrendCountHistory();
                            jdbcWrapper.doQueryBatch("SELECT count(1) FROM adclickedtrend WHERE "
                                    + "date = ? AND hour = ? AND minute = ?,And adID = ?  ", new Object[]{
                                    clicked.get_data(), clicked.get_hour(), clicked.get_minute(), clicked.getAdID()}, new ExecuteCallBack() {
                                @Override
                                public void resultCallBack(ResultSet result) throws Exception {
                                    if (result.next()) {
                                        long count = result.getLong(1);
                                        adTrendCountHistory.setClickedCountHistory(count);
                                        updating.add(clicked);
                                    } else {
                                        inserting.add(clicked);
                                    }
                                }
                            });
                        }

                        //插入操作
                        ArrayList insertParametersList = new ArrayList();
                        for (AdTrendStat insertRecord : inserting) {
                            insertParametersList.add(new Object[]{
                                    insertRecord.get_data(),
                                    insertRecord.get_hour(),
                                    insertRecord.get_minute(),
                                    insertRecord.getClickedCount(),
                            });
                        }
                        //adclickedtrend字段：data,minute,adID,clickedCount
                        jdbcWrapper.doBatch("INSERT INTO adclickedtrend VALUES(?,?,?,?", insertParametersList);

                        //更新操作:因为以分钟为单位的，而数据流入是10秒钟，所以有可能是1分钟有相同的广告有许多次
                        ArrayList updateParametersList = new ArrayList();
                        for (AdTrendStat updateRecord : updating) {
                            updateParametersList.add(new Object[]{
                                    updateRecord.getClickedCount(),
                                    updateRecord.get_data(),
                                    updateRecord.get_hour(),
                                    updateRecord.get_minute(),
                                    updateRecord.getAdID()

                            });
                        }
                        jdbcWrapper.doBatch("UPDATE adclickedtrend set clickedCount = ? " +
                                "  WHERE date = ? AND hour = ? AND minute = ?,And adID = ?", updateParametersList);
                    }
                });
                return null;
            }
        });
        jsc.start();
        jsc.awaitTermination();
        jsc.close();
    }
}
class JDBCWrapper {

    private static JDBCWrapper jdbcInstance = null;
    private static LinkedBlockingQueue dbConnectionPool = new LinkedBlockingQueue();

    static {
        try {
            Class.forName("com.mysql.jdbc.Driver");
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
        }
    }

    public  static JDBCWrapper getJDBCInstance() {
        if(jdbcInstance == null) {
            synchronized (JDBCWrapper.class) {
                if(jdbcInstance == null) {
                    jdbcInstance = new JDBCWrapper();
                }
            }
        }
        return jdbcInstance;
    }

    private JDBCWrapper() {
        for (int i = 0; i < 10; i++) {
            try {
                Connection conn = DriverManager.getConnection("jdbc://mysql://master:3306/sparkstreaming", "root", "root");
                dbConnectionPool.put(conn);
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }

    public synchronized  Connection getConnection(){
        while (0 == dbConnectionPool.size()) {
            try {
                Thread.sleep(20);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        }
        return dbConnectionPool.poll();
    }

    public int[] doBatch(String sqlText,List paramsList) {
        Connection conn = getConnection();
        PreparedStatement preparedStatement = null;
        int[] result = null;
        try {
            conn.setAutoCommit(false);
            preparedStatement = conn.prepareStatement(sqlText);
            for(Object[] parameters : paramsList) {
                for(int i = 0; i < parameters.length; i++) {
                    preparedStatement.setObject(i+1,parameters[i]);
                }
                preparedStatement.addBatch();
            }
            result = preparedStatement.executeBatch();
            conn.commit();
        } catch (SQLException e) {
            e.printStackTrace();
        } finally {
            if(preparedStatement != null) {
                try {
                    preparedStatement.close();
                } catch (SQLException e) {
                    e.printStackTrace();
                }
            }
            if(conn != null) {
                try {
                    dbConnectionPool.put(conn);
                } catch (InterruptedException e) {
                    e.printStackTrace();
                }
            }
        }
        return result;
    }

    public void doQueryBatch(String sqlText,Object[] paramsList,ExecuteCallBack callBack) {
        Connection conn = getConnection();
        PreparedStatement preparedStatement = null;
        ResultSet result = null;
        try {
            preparedStatement = conn.prepareStatement(sqlText);
                for(int i = 0; i < paramsList.length; i++) {
                    preparedStatement.setObject(i+1,paramsList[i]);
                }
            result = preparedStatement.executeQuery();
            try {
                callBack.resultCallBack(result);
            } catch (Exception e) {
                e.printStackTrace();
            }
        } catch (SQLException e) {
            e.printStackTrace();
        } finally {
            if(preparedStatement != null) {
                try {
                    preparedStatement.close();
                } catch (SQLException e) {
                    e.printStackTrace();
                }
            }
            if(conn != null) {
                try {
                    dbConnectionPool.put(conn);
                } catch (InterruptedException e) {
                    e.printStackTrace();
                }
            }
        }
    }
}

//doBatchQuery方法的回调函数的接口
interface ExecuteCallBack {
    void resultCallBack(ResultSet result) throws Exception;
}

/**
 * javaBean:对adclicked表的字段进行封装
 */
class UserAdClicked{
    private String timestamp;
    private String ip;
    private String userID;
    private String adID;
    private String province;
    private String city;

    public Long getClickedCount() {
        return clickedCount;
    }

    public void setClickedCount(Long clickedCount) {
        this.clickedCount = clickedCount;
    }

    private Long clickedCount;




    public String getTimestamp() {
        return timestamp;
    }

    public void setTimestamp(String timestamp) {
        this.timestamp = timestamp;
    }

    public String getIp() {
        return ip;
    }

    public void setIp(String ip) {
        this.ip = ip;
    }

    public String getUserID() {
        return userID;
    }

    public void setUserID(String userID) {
        this.userID = userID;
    }

    public String getAdID() {
        return adID;
    }

    public void setAdID(String adID) {
        this.adID = adID;
    }

    public String getProvince() {
        return province;
    }

    public void setProvince(String province) {
        this.province = province;
    }

    public String getCity() {
        return city;
    }

    public void setCity(String city) {
        this.city = city;
    }

}

class AdClicked {
    private String timestamp;
    private String adID;
    private String province;
    private String city;
    private Long clickedCount;

    public String getTimestamp() {
        return timestamp;
    }

    public void setTimestamp(String timestamp) {
        this.timestamp = timestamp;
    }

    public String getAdID() {
        return adID;
    }

    public void setAdID(String adID) {
        this.adID = adID;
    }

    public String getProvince() {
        return province;
    }

    public void setProvince(String province) {
        this.province = province;
    }

    public String getCity() {
        return city;
    }

    public void setCity(String city) {
        this.city = city;
    }

    public Long getClickedCount() {
        return clickedCount;
    }

    public void setClickedCount(Long clickedCount) {
        this.clickedCount = clickedCount;
    }
}

class AdProvinceTopN {
    private String timestamp;
    private String adID;
    private String province;
    private String clickedCount;

    public String getTimestamp() {
        return timestamp;
    }

    public void setTimestamp(String timestamp) {
        this.timestamp = timestamp;
    }

    public String getAdID() {
        return adID;
    }

    public void setAdID(String adID) {
        this.adID = adID;
    }

    public String getProvince() {
        return province;
    }

    public void setProvince(String province) {
        this.province = province;
    }

    public String getClickedCount() {
        return clickedCount;
    }

    public void setClickedCount(String clickedCount) {
        this.clickedCount = clickedCount;
    }
}

class AdTrendStat{
    private String _data;
    private String _hour;
    private String _minute;
    private String adID;
    private Long clickedCount;

    public String get_data() {
        return _data;
    }

    public void set_data(String _data) {
        this._data = _data;
    }

    public String get_hour() {
        return _hour;
    }

    public void set_hour(String _hour) {
        this._hour = _hour;
    }

    public String get_minute() {
        return _minute;
    }

    public void set_minute(String _minute) {
        this._minute = _minute;
    }

    public String getAdID() {
        return adID;
    }

    public void setAdID(String adID) {
        this.adID = adID;
    }

    public Long getClickedCount() {
        return clickedCount;
    }

    public void setClickedCount(Long clickedCount) {
        this.clickedCount = clickedCount;
    }
}

class AdTrendCountHistory {


    private Long clickedCountHistory;

    public Long getClickedCountHistory() {
        return clickedCountHistory;
    }

    public void setClickedCountHistory(Long clickedCountHistory) {
        this.clickedCountHistory = clickedCountHistory;
    }

}

大数据技术之Flink
第1章Flink概述1.1Flink是什么1.2Flink特点1.3FlinkvsSparkStreaming表Flink和Streaming对比FlinkStreaming计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有1.4Flink的应用场景1.5Flink分层API第2章Flink快速上手2.1创建项目在准备
Spark Streaming 与 Flink 实时数据处理方案对比与选型指南浅沫云归后端技术栈小结 spark-streaming flink real-time
SparkStreaming与Flink实时数据处理方案对比与选型指南实时数据处理在互联网、电商、物流、金融等领域均有大量应用，面对海量流式数据，SparkStreaming和Flink成为两大主流开源引擎。本文基于生产环境需求，从整体架构、编程模型、容错机制、性能表现、实践案例等维度进行深入对比，并给出选型建议。一、问题背景介绍业务场景日志实时统计与告警用户行为实时画像实时订单或交易监控流式ET
Spark Streaming 原理与代码实例讲解 AI智能应用 AI大模型应用入门实战与进阶 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
SparkStreaming原理与代码实例讲解1.背景介绍1.1实时流数据处理的重要性在当今大数据时代,海量的数据正以前所未有的速度不断产生。传统的批处理模式已经无法满足实时性要求较高的应用场景,如实时推荐、实时欺诈检测等。因此,实时流数据处理技术应运而生,成为大数据领域的研究热点。1.2SparkStreaming的优势SparkStreaming是ApacheSpark生态系统中的一个重要组件
HoRain云--SparkStreaming实时分析的7大优势解析 HoRain 云小助手 spark 前端服务器
HoRain云小助手：个人主页⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。目录⛳️推荐1.与Spark生态的深度集成2.高吞吐量与水平扩展能力3.强大的容错机制4.灵活的状态管理与窗口操作5.丰富的输入/输出连接器6.开发与调试便捷性7.成本效益适用场景总结与其他流处理框架的对比总结SparkSt
Spark快速入门与实战案例解析喵手数据库 spark 大数据分布式
全文目录：开篇语前言️目录什么是ApacheSpark？为什么选择Spark？⚙️Spark核心组件及架构解析Spark的架构设计‍Spark环境配置与启动1.安装Java2.下载并配置Spark3.启动SparkShell实战案例：使用Spark进行数据分析1.准备数据2.编写Spark程序3.执行结果Spark扩展与高级应用1.数据流处理（SparkStreaming）2.机器学习（MLlib
数据分析学习 Day_01 Detachym sql hadoop mysql spark 大数据
一、大数据核心概念与典型业务需求实时分析特点：处理短时间内产生的数据流（如日志、交易、传感器数据）。目标：对正在发生的事件进行即时洞察、监控和响应。技术侧重：流式计算框架（如Flink,SparkStreaming,Storm）。批处理/离线分析特点：处理较长时间跨度内积累的海量历史数据（如日/周/月数据）。目标：面向过去，进行周期性（如每日/每周）的统计、汇总、报表生成和深度挖掘。技术侧重：批处
征服Spark as a Service wangruoze Spark Spark课程 Spark培训 Spark企业内训 Spark讲师
Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台，基于RDD，Spark成功的构建起了一体化、多元化的大数据处理体系，在“OneStacktorulethemall”思想的引领下，Spark成功的使用SparkSQL、SparkStreaming、MLLib、GraphX近乎完美的解决了大数据中BatchProcessing、StreamingProcessing、Ad-hocQu
一天征服Spark！ wangruoze Spark Spark课程 Spark培训 Spark企业内训 Spark讲师
Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台，基于RDD，Spark成功的构建起了一体化、多元化的大数据处理体系，在“OneStacktorulethemall”思想的引领下，Spark成功的使用SparkSQL、SparkStreaming、MLLib、GraphX近乎完美的解决了大数据中BatchProcessing、StreamingProcessing、Ad-hocQu
使用 PySpark 从 Kafka 读取数据流并处理为表 Bug Spray kafka linq 分布式
使用PySpark从Kafka读取数据流并处理为表下面是一个完整的指南，展示如何通过PySpark从Kafka消费数据流，并将其处理为可以执行SQL查询的表。1.环境准备确保已安装:ApacheSpark(包含SparkSQL和SparkStreaming)KafkaPySpark对应的Kafka连接器(通常已包含在Spark发行版中)2.完整代码示例frompyspark.sqlimportSp
Spark实时流数据处理实例（SparkStreaming通话记录消息处理） qrh_yogurt spark python pycharm
所用资源：通过网盘分享的文件：spark-streaming-kafka-0-8-assembly_2.11-2.4.8.jar等4个文件链接:https://pan.baidu.com/s/1zYHu29tLgDvS_L2Ud-22ZA?pwd=hnpg提取码:hnpg1.需求分析：假定有一个手机通信计费系统，用户通话时在基站交换机上临时保存了相关记录，由于交换机的容量有限且分散在各地，因此需要
【SparkStreaming】面试题言之。大数据
SparkStreaming是ApacheSpark提供的一个扩展模块，用于处理实时数据流。它使得可以使用Spark强大的批处理能力来处理连续的实时数据流。SparkStreaming提供了高级别的抽象，如DStream（DiscretizedStream），它代表了连续的数据流，并且可以通过应用在其上的高阶操作来进行处理，类似于对静态数据集的操作（如map、reduce、join等）。Spark
Spark入门秘籍 £菜鸟也有梦大数据基础 spark 大数据分布式
目录一、Spark是什么？1.1内存计算：速度的飞跃1.2多语言支持：开发者的福音1.3丰富组件：一站式大数据处理平台二、Spark能做什么？2.1电商行业：洞察用户，精准营销2.2金融行业：防范风险，智慧决策2.3科研领域：加速研究，探索未知三、Spark核心组件揭秘3.1SparkCore3.2SparkSQL3.3SparkStreaming3.4SparkMLlib3.5SparkGrap
TasksetManager冲突导致SparkContext异常关闭 liujianhuiouc spark
背景介绍当正在悠闲敲着代码的时候，业务方兄弟反馈接收到大量线上运行的sparkstreaming任务的告警短信，查看应用的web页面信息，发现spark应用已经退出了，第一时间拉起线上的应用，再慢慢的定位故障原因。本文代码基于spark1.6.1。问题定位登陆到线上机器，查看错误日志，发现系统一直报CannotcallmethodsonastoppedSparkContext.，全部日志如下[ER
Flink和Spark的选型静听山水大数据 flink spark 大数据
在Flink和Spark的选型中，需要综合考虑多个技术维度和业务需求，以下是在项目中会重点评估的因素及实际案例说明：一、核心选型因素处理模式与延迟要求Flink：基于事件驱动的流处理优先架构，支持毫秒级低延迟、高吞吐的实时处理，适合严格的无界数据流场景（如实时风控、监控告警）。Spark：基于微批处理（SparkStreaming）或连续处理（StructuredStreaming），延迟通常在秒
spark运行架构及核心组件介绍大数据知识搬运工 spark学习 spark 架构大数据
目录1.Spark的运行架构1.1Driver1.2Executor1.3ClusterManager1.4工作流程2.Spark的核心组件2.1SparkCore2.2SparkSQL2.3SparkStreaming2.4MLlib2.5GraphX3.Spark架构图4.Spark的优势4.1高性能4.2易用性4.3扩展性4.4容错性5.总结1.Spark的运行架构Spark的运行架构采用M
大数据Flink相关面试题（一）从头再来的码农 Flink面试题大数据 flink
文章目录一、基础概念‌1.Flink的核心设计目标是什么？与SparkStreaming的架构差异？2.解释Flink的“有状态流处理”概念。3.Flink的流处理（DataStreamAPI）与批处理（DataSetAPI）底层执行模型有何不同？4.Flink的时间语义（EventTime、ProcessingTime、IngestionTime）区别与应用场景。5.如何配置Flink使用Eve
SparkStreaming之persist缓存稳哥的哥 SparkStreaming
SparkStreaming之缓存与RDD的缓存类似，DStream也允许用户将数据持久化到内存中，只需要使用DStream.persist()方法，就会自动将DSstream中的数据缓存在内存中，这对需要多次计算的DStream数据是一个很好的优化，对于window操作「比如reduceByWindow，reduceByKeyAndWindow」和state操作算子如「updateStateBy
Kafka使用教程大三小小小白 kafka 分布式
1.Kafka简介与应用场景ApacheKafka是一种高性能的分布式消息队列系统，广泛应用于以下场景：日志聚合：收集和汇总系统日志，便于集中管理和分析。事件源：实时处理用户行为事件，如点击流、购买行为等。流处理：与流处理框架（如ApacheFlink、ApacheSparkStreaming）结合，进行实时数据分析。微服务通信：作为微服务架构中的消息中间件，实现服务间异步通信。物联网（IoT）：
Kafka+sparkStreaming+Hbase(一) 郝少 Spark技术经验大数据 spark
一、说明1、需求分析实时定位系统：实时定位某个用户的具体位置，将最新数据进行存储；2、具体操作sparkStreaming从kafka消费到原始用户定位信息，进行分析。然后将分析之后且满足需求的数据按rowkey=用户名进行Hbase存储；这里为了简化，kafka消费出的原始数据即是分析好之后的数据，故消费出可以直接进行存储；3、组件版本组件版本kafkakafka_2.10-0.10.2.1sp
实时步数统计系统 kafka + spark +redis ShAn DiAn redis kafka spark redis 分布式大数据
基于微服务架构设计并实现了一个实时步数统计系统，采用生产者-消费者模式，利用Kafka实现消息队列，SparkStreaming处理实时数据流，Redis提供高性能数据存储，实现了一个高并发、低延迟的数据处理系统，支持多用户运动数据的实时采集、传输、处理和统计分析。1.介绍1.数据采集与生产者（StepDataProducer）作用：负责生成用户步数数据并发送到Kafka主题。原理：生产者会随机生
Flume+kafka+SparkStreaming整合逆水行舟如何大数据架构 kafka常用命令 flume进行数据收集的编写实时架构
一、需求模拟一个流式处理场景：我再说话，我编写好的一个sparkstreaming做词频统计1.模拟说话：nc-lk3399flumesource:avro(qyl01:3399)channel:memorysink:kafkasink模拟实时的日志生成：echoaabbcc>>/home/qyl/logs/flume.logflumesource：exec(tail-f)channel:memo
Spark SQL核心解析：大数据时代的结构化处理利器北屿升：微信新浪微博百度
在大数据处理领域，Spark以其强大的分布式计算能力脱颖而出，而SparkSQL作为Spark生态系统的重要组成部分，为结构化和半结构化数据处理提供了高效便捷的解决方案。它不仅整合了传统SQL的强大查询功能，还深度集成到Spark的计算框架中，实现了与其他组件（如SparkStreaming、SparkML等）的无缝协作。下面我们将深入探讨SparkSQL的核心概念与技术要点。一、SparkSQL
SparkStreaming概述淋一遍下雨天 spark 大数据学习
SparkStreaming主要用于流式计算，处理实时数据。DStream是SparkStreaming中的数据抽象模型，表示随着时间推移收到的数据序列。SparkStreaming支持多种数据输入源（如Kafka、Flume、Twitter、TCP套接字等）和数据输出位置（如HDFS、数据库等）。SparkStreaming特点易用性：支持Java、Python、Scala等编程语言，编写实时计
spark与kafka zqk-Sun big data spark kafka
sparkspark基础知识spark的任务提交流程shuffle过程分析rdd的特点与五大属性spark整合kafka1、SparkStreaming+Kafka----Receiver用的是Kafka高层次的消费者api，不能自己维护offsetobjectSparkkafka08ReceiverDStream{defmain(args:Array[String]):Unit={valspar
kafka spark java_Kafka与Spark整合 weixin_39630247 kafka spark java
本篇文章帮大家学习Kafka与Spark整合，包含了Kafka与Spark整合使用方法、操作技巧、实例演示和注意事项，有一定的学习价值，大家可以用来参考。在本章中，将讨论如何将apacheKafka与SparkStreamingAPI集成。Spark是什么？SparkStreamingAPI支持实时数据流的可扩展，高吞吐量，容错流处理。数据可以从Kafka，Flume，Twitter等许多来源获取
KafkaSpark Streaming整合原理与代码实例讲解 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Kafka-SparkStreaming整合原理与代码实例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：Kafka,SparkStreaming,大数据处理,实时流处理,分布式系统1.背景介绍1.1问题的由来随着大数据时代的发展，实时数据处理成为了许多业务的关键需求。在这样的背景下，如何有效地从海量数据中提取有价值的信息，成为了一个亟待
Spark-Streaming核心编程 [太阳]88 spark
以下是今天所学的知识点与代码测试：Spark-StreamingDStream实操案例一：WordCount案例需求：使用netcat工具向9999端口不断的发送数据，通过SparkStreaming读取端口数据并统计不同单词出现的次数实验步骤：添加依赖org.apache.sparkspark-streaming_2.123.0.0编写代码valsparkConf=newSparkConf().
KafkaSpark Streaming整合原理与代码实例讲解 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Kafka-SparkStreaming整合原理与代码实例讲解1.背景介绍1.1实时数据处理的重要性在当今大数据时代,海量数据以前所未有的速度持续产生。企业需要实时处理和分析这些数据,以便及时洞察业务状况,快速响应市场变化。传统的批处理方式已无法满足实时性要求,因此实时数据处理技术应运而生。1.2Kafka与SparkStreaming在实时处理中的地位Kafka作为高吞吐量的分布式消息队列,能够
Spark详解（二、SparkCore）杨老七 SparkNode spark 大数据 big data
SparkCore是Spark计算引擎的基础，后面的sparksql以及sparkstreaming等，都是基于SparkCore的。这里笔者就开始详细的介绍SparkCore。如果要介绍SparkCore，必须详细介绍一下RDD。一、RDD编程RDD（ResilientDistributedDataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并
Spark upupfeng Spark spark
简介Spark是使用Scala语言编写、基于内存运算的大数据计算框架。以Sparkcore为核心，提供了SparkSQL、SparkStreaming、MLlib几大功能组件中文文档：https://spark.apachecn.org/#/github地址：https://github.com/apache/sparkSparkCoreSpark提供了多种资源调度框架，基于内存计算、提供了DAG
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

sparkStreaming_电商案例

你可能感兴趣的:(sparkStreaming)