宗哲

educoder平台+大数据从入门到实战+14个模块习题

配置的题型需要根据自己的实际情况来在平台上一步一步完成，下面配置的题型的代码，仅做参考。（配置的题型争取在网络环境好的情况下，一次通过，不要间断，否则会比较麻烦）

大数据从入门到实战

第1关：配置开发环境 - JavaJDK的配置（根据实际情况来输入以下代码，仅作为参考）

mkdir /app
cd /opt
tar -zxvf jdk-8u171-linux-x64.tar.gz
mv jdk1.8.0_171/ /app
cd /app
vim /etc/profile

JAVA_HOME=/app/jdk1.8.0_171
CLASSPATH=.:$JAVA_HOME/lib/tools.jar
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME CLASSPATH PATH


source /etc/profile
java –version

第2关：配置开发环境 - Hadoop安装与伪分布式集群（根据实际情况来输入以下代码，仅作为参考）

cd /opt
tar –zxvf hadoop-3.1.0.tar.gz –C /app
cd /app
mv hadoop-3.1.0/ hadoop3.1
ssh-keygen -t rsa -P ''
1.	cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
2.	chmod 600 ~/.ssh/authorized_keys
cd /app/hadoop3.1/etc/hadoop/
vim hadoop-env.sh
1.	export JAVA_HOME=/app/jdk1.8.0_171
2.	vim yarn-env.sh
3.	export JAVA_HOME=/app/jdk1.8.0_171
4.	vim core-site.xml
5.	vim hdfs-site.xml
6.	vim mapred-site.xml
7.	vim yarn-site.xml
8.	
9.	vim /etc/profile
export HADOOP_HOME=/app/hadoop3.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile
hadoop namenode -format
start-dfs.sh
cd /app/hadoop3.1/sbin
vim start-dfs.sh
1.	HDFS_DATANODE_USER=root
2.	HADOOP_SECURE_DN_USER=hdfs
3.	HDFS_NAMENODE_USER=root
4.	HDFS_SECONDARYNAMENODE_USER=root
vim stop-dfs.sh
5.	HDFS_DATANODE_USER=root
6.	HADOOP_SECURE_DN_USER=hdfs
7.	HDFS_NAMENODE_USER=root
8.	HDFS_SECONDARYNAMENODE_USER=root

vim start-yarn.sh
1.	YARN_RESOURCEMANAGER_USER=root
2.	HADOOP_SECURE_DN_USER=yarn
3.	YARN_NODEMANAGER_USER=root
vim stop-yarn.sh
4.	YARN_RESOURCEMANAGER_USER=root
5.	HADOOP_SECURE_DN_USER=yarn
6.	YARN_NODEMANAGER_USER=root
start-dfs.sh

第3关：HDFS系统初体验（根据实际情况来输入以下代码，仅作为参考）

hadoop fs –mkdir /test
hadoop fs -ls /
touch hello txt
vim hello.txt
hello hdfs nice to meet to you
hadoop fs –put hello.txt /test
hadoop fs –cat /test/hello.txt 

hadoop fs –mkdir /task
hadoop fs -ls /
touch task.txt
vim task.txt
hello educoder
hadoop fs –put task.txt /task
hadoop fs –cat /task/task.txt

Hive的安装与配置

第1关：Hive的安装与配置（根据实际情况来输入以下代码，仅作为参考）

1.	cd /opt
2.	tar -zxvf apache-hive-3.1.0-bin.tar.gz
3.	
4.	mv apache-hive-3.1.0-bin hive
5.	vi /etc/profile
6.	export HIVE_HOME=/opt/hive
7.	export PATH=$HIVE_HOME/bin:$PATH
hive –version

rm /opt/hive/lib/log4j-slf4j-impl-2.10.0.jar


1.	tar -zxvf mysql-connector-java-5.1.45.tar.gz
2.	
3.	cd mysql-connector-java-5.1.45
4.	
5.	cp mysql-connector-java-5.1.45-bin.jar /opt/hive/lib/
6.	mysql -uroot -p123123 -h127.0.0.1
7.	create database hiveDB;
8.	create user 'bee'@'%' identified by '123123';
9.	grant all privileges on hiveDB.* to 'bee'@'%' identified by '123123';
10.	flush privileges;
cd /opt/hive/conf
vi hive-site.xml

cp hive-env.sh.template hive-env.sh
vim hive-env.sh
1.	HADOOP_HOME=/usr/local/hadoop  #在本地环境安装，要根据自己hadoop的路径来确定
schematool -dbType mysql –initSchema
start-dfs.sh

第2关：Hive Shell入门基础命令

这个配置，得通过实际平台来试验，步骤较为简单，这里就不放过程了。

Flume入门

第1关：Flume 简介

第一题：A、C、D；

第二题：A、B、D；

第三题：A、B；

第2关：采集目录下所有新文件到Hdfs

# 配置source,channel，sink名称
a1.sources = r1
a1.channels = c1
a1.sinks = k1

# 配置source
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir=/opt/flume/data

# 配置 channel
a1.channels.c1.type=memory
a1.channels.c1.capacity=100
# 配置 sink
a1.sinks.k1.type=hdfs
a1.sinks.k1.hdfs.path=hdfs://localhost:9000/flume
a1.sinks.k1.hdfs.filePrefix=flume
a1.sinks.k1.hdfs.rollInterval=4
a1.sinks.k1.hdfs.fileType=DataStream

#配置source和sink绑定到channel
a1.sources.r1.channels=c1
a1.sinks.k1.channel=c1

Kafka入门篇

第1关：kafka - 初体验

#1.创建一个副本数量为1、分区数量为3、名为 demo 的 Topic
kafka-topics.sh --create --zookeeper 127.0.0.1:2181 --replication-factor 1 --partitions 3 --topic demo
#2.查看所有Topic
kafka-topics.sh --list --zookeeper 127.0.0.1
#3.查看名为demo的Topic的详情信息
kafka-topics.sh --topic demo --describe --zookeeper 127.0.0.1:2181

第2关：生产者（Producer ） - 简单模式

public class App {
    public static void main(String[] args) {
        /**
         * 1.创建配置文件对象，一般采用 Properties
         */
        /**----------------begin-----------------------*/
        Properties props = new Properties();
        /**-----------------end-------------------------*/
        /**
         * 2.设置kafka的一些参数
         *          bootstrap.servers --> kafka的连接地址 kafka-01:9092,kafka-02:9092,kafka-03:9092
         *          key、value的序列化类 -->org.apache.kafka.common.serialization.StringSerializer
         *          acks：1，-1,0
         */
        /**-----------------begin-----------------------*/
         props.put("bootstrap.servers","127.0.0.1:2181,127.0.0.1:9092,127.0.0.1:9092");
         props.put("acks", "1");
         props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
         props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        /**-----------------end-------------------------*/
        /**
         * 3.构建kafkaProducer对象
         */
        /**-----------------begin-----------------------*/
        Producer producer = new KafkaProducer<>(props);
        /**-----------------end-------------------------*/
        for (int i = 0; i < 100; i++) {
            ProducerRecord record = new ProducerRecord<>("demo", i + "", i + "");
            /**
             * 4.发送消息
             */
            /**-----------------begin-----------------------*/
        producer.send(record);
            /**-----------------end-------------------------*/
        }
        producer.close();
    }
}

第3关：消费者（ Consumer）- 自动提交偏移量

public class App {
    public static void main(String[] args) {
        Properties props = new Properties();
        /**--------------begin----------------*/
        //1.设置kafka集群的地址
        props.put("bootstrap.servers","127.0.0.1:9092,127.0.0.1:9092");
        //2.设置消费者组，组名字自定义，组名字相同的消费者在一个组
        props.put("group.id","demo");
        props.put("auto.offset.reset","earliest");

        //3.开启offset自动提交
        props.put("enable.auto.commit", "true");
        //4.自动提交时间间隔
        props.put("auto.commit.interval.ms", "1000");
        //5.序列化器
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        /**---------------end---------------*/
        /**--------------begin----------------*/
        //6.创建kafka消费者
        KafkaConsumer consumer = new KafkaConsumer<>(props);
        //7.订阅kafka的topic
        consumer.subscribe(Arrays.asList("demo"));
        /**---------------end---------------*/
        int i = 1;
        while (true) {
            /**----------------------begin--------------------------------*/
            ConsumerRecords records = consumer.poll(100);
            //8.poll消息数据,返回的变量为crs
            for (ConsumerRecord record : records) {
                System.out.println("consume data:" + i);
                //System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
                i++;
            }
            /**----------------------end--------------------------------*/
            if (i > 10) {
                return;
            }
        }
    }
}

第4关：消费者（ Consumer ）- 手动提交偏移量

public class App {
    public static void main(String[] args){
        Properties props = new Properties();
        /**-----------------begin------------------------*/
        //1.设置kafka集群的地址
        props.put("bootstrap.servers","127.0.0.1:9092");
        //2.设置消费者组，组名字自定义，组名字相同的消费者在一个组
        props.put("group.id","demo");
        props.put("auto.offset.reset","earliest");
        //3.关闭offset自动提交
        props.put("enable.auto.commit", "false");
        //4.序列化器
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
 KafkaConsumer consumer = new KafkaConsumer<>(props);
        //6.消费者订阅主题，订阅名为demo的主题
        consumer.subscribe(Arrays.asList("demo"));

        /**-----------------end------------------------*/
        final int minBatchSize = 10;
        List> buffer = new ArrayList<>();
        while (true) {
            ConsumerRecords records = consumer.poll(100);
            for (ConsumerRecord record : records) {
                buffer.add(record);
            }
 if (buffer.size() >= minBatchSize) {
                for (ConsumerRecord bf : buffer) {
                    System.out.printf("offset = %d, key = %s, value = %s%n", bf.offset(), bf.key(), bf.value());
                }

                /**-----------------begin------------------------*/
                //7.手动提交偏移量
                consumer.commitSync();
                /**-----------------end------------------------*/
                buffer.clear();
                return;
            }
        }
}
}

大数据从入门到实战-第3章MapReduce基础实战

首先：start-dfs.sh 再做后面的

第1关：成绩统计

public class WordCount {
    /********** Begin **********/
    //Mapper函数
    public static class TokenizerMapper extends Mapper {
        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();
        private int maxValue = 0;
        public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString(),"\n");
            while (itr.hasMoreTokens()) {
                String[] str = itr.nextToken().split(" ");
                String name = str[0];
                one.set(Integer.parseInt(str[1]));
                word.set(name);
                context.write(word,one);
            }
            //context.write(word,one);
        }
    }
    public static class IntSumReducer extends Reducer {
        private IntWritable result = new IntWritable();
        public void reduce(Text key, Iterable values, Context context)
                throws IOException, InterruptedException {
            int maxAge = 0;
            int age = 0;
            for (IntWritable intWritable : values) {
                maxAge = Math.max(maxAge, intWritable.get());
            }
            result.set(maxAge);
            context.write(key, result);
        }
    }
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = new Job(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        String inputfile = "/user/test/input";
        String outputFile = "/user/test/output/";
        FileInputFormat.addInputPath(job, new Path(inputfile));
        FileOutputFormat.setOutputPath(job, new Path(outputFile));
        job.waitForCompletion(true);
    /********** End **********/
    }
}

第2关：文件内容合并去重

public class Merge {
 
    public static class Map extends Mapper 
    {
        public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException 
        {
            String str=value.toString();
            String[] data=str.split(" ");
            Text t1=new Text(data[0]);
            Text t2=new Text(data[1]);
            context.write(t1,t2);
        }
    }
    public static class Reduce extends Reducer 
    {
        public void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException 
        {
            List list=new ArrayList<>();
            for(Text text:values)
            {
                String str=text.toString();
                if(!list.contains(str))
                {
                    list.add(str);
                }
            }
            Collections.sort(list);
            for(String text:list)
            {
                context.write(key,new Text(text));
            }
        }
    }
    public static void main(String[] args) throws Exception 
    {
        // delete output directory
        Configuration conf = new Configuration();
        Job job =new Job(conf,"word count");
        job.setJarByClass(Merge.class);
        job.setMapperClass(Map.class);
        //job.setRedCombinerClass(Reduce.class);
        job.setReducerClass(Reduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        String inputPath="/user/tmp/input/";
        String outputPath="/user/tmp/output/";
        FileInputFormat.addInputPath(job, new Path(inputPath));
        FileOutputFormat.setOutputPath(job, new Path(outputPath));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

第3关：信息挖掘 - 挖掘父子关系

public class simple_data_mining {
    public static int time = 0;

    /**
     * @param args
     * 输入一个child-parent的表格
     * 输出一个体现grandchild-grandparent关系的表格
     */
    //Map将输入文件按照空格分割成child和parent，然后正序输出一次作为右表，反序输出一次作为左表，需要注意的是在输出的value中必须加上左右表区别标志
    public static class Map extends Mapper{
        public void map(Object key, Text value, Context context) throws IOException,InterruptedException{
            /********** Begin **********/
        String child_name=new String();
        String parent_name=new String();
        String relation_type=new String();
        String line=value.toString();
        int i=0;
        while(line.charAt(i)!=' '){
            i++;
        }
        String[] values={line.substring(0,i),line.substring(i+1)};
        if(values[0].compareTo("child")!=0)
        {
            child_name=values[0];
            parent_name=values[1];
            relation_type="1";
            context.write(new Text(values[1]),new Text(relation_type+"+"+child_name+"+"+parent_name));
            relation_type="2";
            context.write(new Text(values[0]),new Text(relation_type+"+"+child_name+"+"+parent_name));
        }
            /********** End **********/
        }
    }

    public static class Reduce extends Reducer{
        public void reduce(Text key, Iterable values,Context context) throws IOException,InterruptedException{
                /********** Begin **********/
                //输出表头
                if(time==0){
                    context.write(new Text("grand_child"),new Text("grand_parent"));
                    time++;
                }
                int grand_child_num=0;
                String grand_child[]=new String[10];
                int grand_parent_num=0;
                String grand_parent[]=new String[10];
                Iterator ite=values.iterator();
                while(ite.hasNext()){
                    String record = ite.next().toString();
                    int len = record.length();
                    int i=2;
                    if(len == 0) continue;
                    char relation_type = record.charAt(0);
                    String child_name = new String();
                    String parent_name = new String();
                    while(record.charAt(i) != '+'){
                        child_name = child_name + record.charAt(i);
                        i++;
                    }
                    i=i+1;
                    while(i

 
   
     ZooKeeper入门初体验 
   
  第1关：ZooKeeper初体验 
  zkServer.sh start 
  第2关：ZooKeeper配置 
  这个配置，得通过实际平台来试验，步骤较为简单，这里就不放过程了。 
  第3关：Client连接及状态（需要根据实际情况来输入下面是条语句） 
  vi /opt/zookeeper-3.4.12/conf/zoo.cfg
vi /opt/zookeeper-3.4.12/bin/zkEnv.sh
preAllocSize=300
zkCli.sh -server 127.0.0.1:2182
 
   
   Spark算子 
   
  第1关：Transformation - map 
  if __name__ == "__main__":
    #********** Begin **********#
    # 1.初始化 SparkContext，该对象是 Spark 程序的入口
    sc = SparkContext("local", "Simple App")
    # 2.创建一个1到5的列表List
    data = [1, 2, 3, 4, 5]
    # 3.通过 SparkContext 并行化创建 rdd
    rdd = sc.parallelize(data)
    # 4.使用rdd.collect() 收集 rdd 的元素。
    print(rdd.collect())
    """
    使用 map 算子，将 rdd 的数据 (1, 2, 3, 4, 5) 按照下面的规则进行转换操作，规则如下:
    需求：
        偶数转换成该数的平方
        奇数转换成该数的立方
    """
    # 5.使用 map 算子完成以上需求
    rdd_map = rdd.map(lambda x: x * x if x % 2 == 0 else x * x * x)
    # 6.使用rdd.collect() 收集完成 map 转换的元素
    print(rdd_map.collect())
    # 7.停止 SparkContext
    sc.stop()
    #********** End **********#
 
  a第2关：Transformation - mapPartitions 
  def f(iterator):
    list = []
    for x in iterator:
        list.append((x, len(x)))
    return list
#********** End **********#
if __name__ == "__main__":
    #********** Begin **********#
    # 1.初始化 SparkContext，该对象是 Spark 程序的入口
    sc = SparkContext("local", "Simple App")
    # 2. 一个内容为（"dog", "salmon", "salmon", "rat", "elephant"）的列表List
    data = ["dog", "salmon", "salmon", "rat", "elephant"]
    # 3.通过 SparkContext 并行化创建 rdd
    rdd = sc.parallelize(data)
    # 4.使用rdd.collect() 收集 rdd 的元素。
    print(rdd.collect())
    """
    使用 mapPartitions 算子，将 rdd 的数据 ("dog", "salmon", "salmon", "rat", "elephant") 按照下面的规则进行转换操作，规则如下:
    需求：
        将字符串与该字符串的长度组合成一个元组，例如：
        dog  -->  (dog,3)
        salmon   -->  (salmon,6)
    """
    # 5.使用 mapPartitions 算子完成以上需求
    partitions = rdd.mapPartitions(f)
    # 6.使用rdd.collect() 收集完成 mapPartitions 转换的元素
    print(partitions.collect())
    # 7.停止 SparkContext
    sc.stop()
 
  第3关.Transformation – filter 
  if __name__ == "__main__":
    #********** Begin **********#
    # 1.初始化 SparkContext，该对象是 Spark 程序的入口
    sc = SparkContext("local", "Simple App")
    # 2.创建一个1到8的列表List
    data = [1, 2, 3, 4, 5, 6, 7, 8]
    # 3.通过 SparkContext 并行化创建 rdd
    rdd = sc.parallelize(data)
    # 4.使用rdd.collect() 收集 rdd 的元素。
    print(rdd.collect())
    """
    使用 filter 算子，将 rdd 的数据 (1, 2, 3, 4, 5, 6, 7, 8) 按照下面的规则进行转换操作，规则如下:
    需求：
        过滤掉rdd中的奇数
    """
    # 5.使用 filter 算子完成以上需求
    rdd_filter = rdd.filter(lambda x: x % 2 == 0)
    # 6.使用rdd.collect() 收集完成 filter 转换的元素
    print(rdd_filter.collect())
    # 7.停止 SparkContext
    sc.stop()
    #********** End **********#
 
  第4关：Transformation - flatMap 
  if __name__ == "__main__":
       #********** Begin **********#
       
    # 1.初始化 SparkContext，该对象是 Spark 程序的入口
    sc = SparkContext("local", "Simple App")

    # 2.创建一个[[1, 2, 3], [4, 5, 6], [7, 8, 9]] 的列表List
    data = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

    # 3.通过 SparkContext 并行化创建 rdd
    rdd = sc.parallelize(data)

    # 4.使用rdd.collect() 收集 rdd 的元素。
    print(rdd.collect())

    """
        使用 flatMap 算子，将 rdd 的数据 ([1, 2, 3], [4, 5, 6], [7, 8, 9]) 按照下面的规则进行转换操作，规则如下:
        需求：
            合并RDD的元素，例如：
                            ([1,2,3],[4,5,6])  -->  (1,2,3,4,5,6)
                            ([2,3],[4,5],[6])  -->  (1,2,3,4,5,6)
        """
    # 5.使用 filter 算子完成以上需求
    flat_map = rdd.flatMap(lambda x: x)

    # 6.使用rdd.collect() 收集完成 filter 转换的元素
    print(flat_map.collect())

    # 7.停止 SparkContext
    sc.stop()

    #********** End **********#
 
  第5关：Transformation - distinct 
  if __name__ == "__main__":
    #********** Begin **********#
    # 1.初始化 SparkContext，该对象是 Spark 程序的入口
    sc = SparkContext("local", "Simple App")
    # 2.创建一个内容为（1, 2, 3, 4, 5, 6, 5, 4, 3, 2, 1）的列表List
    data = [1, 2, 3, 4, 5, 6, 5, 4, 3, 2, 1]
    # 3.通过 SparkContext 并行化创建 rdd
    rdd = sc.parallelize(data)
    # 4.使用rdd.collect() 收集 rdd 的元素
    print(rdd.collect())
    """
       使用 distinct 算子，将 rdd 的数据 (1, 2, 3, 4, 5, 6, 5, 4, 3, 2, 1) 按照下面的规则进行转换操作，规则如下:
       需求：
           元素去重，例如：
                        1,2,3,3,2,1  --> 1,2,3
                        1,1,1,1,     --> 1
       """
    # 5.使用 distinct 算子完成以上需求
    distinctResult = rdd.distinct()
    # 6.使用rdd.collect() 收集完成 distinct 转换的元素
    print(distinctResult.collect())
    # 7.停止 SparkContext
    sc.stop()
    #********** End **********#
 
  第6关：Transformation - sortBy 
  if __name__ == "__main__":
    # ********** Begin **********#
    # 1.初始化 SparkContext，该对象是 Spark 程序的入口
    sc = SparkContext("local", "Simple App")
    # 2.创建一个内容为（1, 3, 5, 7, 9, 8, 6, 4, 2）的列表List
    data = [1, 3, 5, 7, 9, 8, 6, 4, 2]
    # 3.通过 SparkContext 并行化创建 rdd
    rdd = sc.parallelize(data)
    # 4.使用rdd.collect() 收集 rdd 的元素
    print(rdd.collect())
    """
       使用 sortBy 算子，将 rdd 的数据 (1, 3, 5, 7, 9, 8, 6, 4, 2) 按照下面的规则进行转换操作，规则如下:
       需求：
           元素排序，例如：
            5,4,3,1,2  --> 1,2,3,4,5
       """
    # 5.使用 sortBy 算子完成以上需求
    sort_result = rdd.sortBy(lambda x: x)
    # 6.使用rdd.collect() 收集完成 sortBy 转换的元素
    print(sort_result.collect())
    # 7.停止 SparkContext
    sc.stop()
    #********** End **********#
 
  第7关：Transformation - sortByKey 
  if __name__ == "__main__":
    # ********** Begin **********#
    # 1.初始化 SparkContext，该对象是 Spark 程序的入口
    sc = SparkContext("local", "Simple App")
    # 2.创建一个内容为[(B',1),('A',2),('C',3)]的列表List
    data = [('B', 1), ('A', 2), ('C', 3)]
    # 3.通过 SparkContext 并行化创建 rdd
    rdd = sc.parallelize(data)
    # 4.使用rdd.collect() 收集 rdd 的元素
    print(rdd.collect())
    """
       使用 sortByKey 算子，将 rdd 的数据 ('B', 1), ('A', 2), ('C', 3) 按照下面的规则进行转换操作，规则如下:
       需求：
           元素排序，例如：
            [(3,3),(2,2),(1,1)]  -->  [(1,1),(2,2),(3,3)]
       """
    # 5.使用 sortByKey 算子完成以上需求
    sort_by_key = rdd.sortByKey()
    # 6.使用rdd.collect() 收集完成 sortByKey 转换的元素
    print(sort_by_key.collect())
    # 7.停止 SparkContext
    sc.stop()
    # ********** End **********#
 
  第8关：Transformation - mapValues 
  if __name__ == "__main__":
    # ********** Begin **********#
    # 1.初始化 SparkContext，该对象是 Spark 程序的入口
    sc = SparkContext("local", "Simple App")
    # 2.创建一个内容为[("1", 1), ("2", 2), ("3", 3), ("4", 4), ("5", 5)]的列表List
    data = [("1", 1), ("2", 2), ("3", 3), ("4", 4), ("5", 5)]
    # 3.通过 SparkContext 并行化创建 rdd
    rdd = sc.parallelize(data)
    # 4.使用rdd.collect() 收集 rdd 的元素
    print(rdd.collect())
    """
           使用 mapValues 算子，将 rdd 的数据 ("1", 1), ("2", 2), ("3", 3), ("4", 4), ("5", 5) 按照下面的规则进行转换操作，规则如下:
           需求：
               元素（key,value）的value进行以下操作：
                                                偶数转换成该数的平方
                                                奇数转换成该数的立方
    """
    # 5.使用 mapValues 算子完成以上需求
    values = rdd.mapValues(lambda x: x * x if x % 2 == 0 else x * x * x)
    # 6.使用rdd.collect() 收集完成 mapValues 转换的元素
    print(values.collect())
    # 7.停止 SparkContext
    sc.stop()
    # ********** End **********#
 
  第9关：Transformations - reduceByKey 
  if __name__ == "__main__":
    # ********** Begin **********#
    # 1.初始化 SparkContext，该对象是 Spark 程序的入口
    sc = SparkContext("local", "Simple App")
    # 2.创建一个内容为[("python", 1), ("scala", 2), ("python", 3), ("python", 4), ("java", 5)]的列表List
    data = [("python", 1), ("scala", 2), ("python", 3), ("python", 4), ("java", 5)]
    # 3.通过 SparkContext 并行化创建 rdd
    rdd = sc.parallelize(data)
    # 4.使用rdd.collect() 收集 rdd 的元素
    print(rdd.collect())
    """
          使用 reduceByKey 算子，将 rdd 的数据[("python", 1), ("scala", 2), ("python", 3), ("python", 4), ("java", 5)] 按照下面的规则进行转换操作，规则如下:
          需求：
              元素（key-value）的value累加操作，例如：
                                                (1,1),(1,1),(1,2)  --> (1,4)
                                                (1,1),(1,1),(2,2),(2,2)  --> (1,2),(2,4)
    """
    # 5.使用 reduceByKey 算子完成以上需求
    result = rdd.reduceByKey(lambda x, y: x + y)
    # 6.使用rdd.collect() 收集完成 reduceByKey 转换的元素
    print(result.collect())
    # 7.停止 SparkContext
    sc.stop()
    # ********** End **********#
 
  第10关：Actions - 常用算子 
  if __name__ == "__main__":
    # ********** Begin **********#
    # 1.初始化 SparkContext，该对象是 Spark 程序的入口
    sc = SparkContext("local", "Simple App")
    # 2.创建一个内容为[1, 3, 5, 7, 9, 8, 6, 4, 2]的列表List
    data = [1, 3, 5, 7, 9, 8, 6, 4, 2]
    # 3.通过 SparkContext 并行化创建 rdd
    rdd = sc.parallelize(data)
    # 4.收集rdd的所有元素并print输出
    print(rdd.collect())
    # 5.统计rdd的元素个数并print输出
    print(rdd.count())
    # 6.获取rdd的第一个元素并print输出
    print(rdd.first())
    # 7.获取rdd的前3个元素并print输出
    print(rdd.take(3))
    # 8.聚合rdd的所有元素并print输出
    print(rdd.reduce(lambda x, y: x + y))
    # 9.停止 SparkContext
    sc.stop()
    # ********** End **********#
 
   
    RDD理解检测 
   
  第一题·：C； 
  第一题·：D； 
  第一题·：A、C； 
   
    RDD的创建-python 
   
  第1关：集合并行化创建RDD 
  if __name__ == "__main__":
    #********** Begin **********#
    # 1.初始化 SparkContext，该对象是 Spark 程序的入口
    sc = SparkContext("local", "Simple App")
    # 2.创建一个1到8的列表List
    data = [1, 2, 3, 4, 5, 6, 7, 8]
    # 3.通过 SparkContext 并行化创建 rdd
    rdd = sc.parallelize(data)
    # 4.使用 rdd.collect() 收集 rdd 的内容。 rdd.collect() 是 Spark Action 算子，在后续内容中将会详细说明，主要作用是：收集 rdd 的数据内容
    result = rdd.collect()
    # 5.打印 rdd 的内容
    print(result)
    # 6.停止 SparkContext
    sc.stop()
    #********** End **********#
 
  第2关：读取外部数据集创建RDD 
  if __name__ == '__main__':
    #********** Begin **********#
    # 1.初始化 SparkContext，该对象是 Spark 程序的入口
    sc = SparkContext("local", "Simple App")
    # 文本文件 RDD 可以使用创建 SparkContext 的t extFile 方法。此方法需要一个 URI的 文件（本地路径的机器上，或一个hdfs://，s3a://等URI），并读取其作为行的集合
    # 2.读取本地文件，URI为：/root/wordcount.txt
    rdd = sc.textFile("/root/wordcount.txt")
    # 3.使用 rdd.collect() 收集 rdd 的内容。 rdd.collect() 是 Spark Action 算子，在后续内容中将会详细说明，主要作用是：收集 rdd 的数据内容
    result = rdd.collect()
    # 4.打印 rdd 的内容
    print(result)
    # 5.停止 SparkContext
    sc.stop()
    #********** End **********#
 
    
   
    Spark任务提交 
   
  第1关：spark-submit提交 
  ./spark-submit --class Student /root/project.jar 
    
   
    spark算子简单案例 – Python 
   
  第1关：WordCount - 词频统计 
  if __name__ == "__main__":

    """
        需求：对本地文件系统URI为：/root/wordcount.txt 的内容进行词频统计
    """
    # ********** Begin **********#
    sc=SparkContext("local","Simple App")
    rdd=sc.textFile("/root/wordcount.txt")
    rdd1=rdd.flatMap(lambda line:line.split(" "))
    rdd2=rdd1.map(lambda word:(word.encode("utf-8"),1))
    rdd3=rdd2.reduceByKey(lambda x,y:x+y)
    rdd4=rdd3.sortBy(lambda x:-x[1])
    print(rdd4.collect())
    sc.stop()





    # ********** End **********#
 
  第2关：Friend Recommendation - 好友推荐 
  def fun1(line):
    result = []
    arrs = str(line).split(" ")
    me = arrs[0]
    for x in range(1, len(arrs)):
        friendA = arrs[x]
        resultA = (me + "_" + friendA, 0) if hash(me) > hash(friendA) else (friendA + "_" + me, 0)
        result.append(resultA)
        for y in range(x + 1, len(arrs)):
            friendB = arrs[y]
            resultB = (friendA + "_" + friendB, 1) if hash(friendA) > hash(friendB) else (friendB + "_" + friendA, 1)
            result.append(resultB)
    return result
def fun2(x):
    flag = False
    t = tuple(x)
    count = 0
    name = t[0]
    Iterable = t[1]
    for y in Iterable:
        if y == 0:
            flag = True
        else:
            count = count + 1
    if flag == True:
        return ("直接好友", 0)
    else:
        return (name, count)
# ********** End **********#
if __name__ == "__main__":
    """
        需求：对本地文件系统URI为：/root/friend.txt 的数据统计间接好友的数量
    """
    # ********** Begin **********#
    sc = SparkContext("local", "pySpark")
    result = sc.textFile("/root/friend.txt").flatMap(fun1).groupByKey().map(fun2).filter(
        lambda x: tuple(x)[1] != 0).collect()
    print(result)
    # ********** End **********#

 
   
    Spark运行架构及流程 
   
  第一题：A； 
  第二题：B； 
  第三题：A； 
   
    Spark任务提交 
   
  ./spark-submit --class Student /root/project.jar 
    
   
    企业Spark案例--酒店数据分析实战 
   
  第1关：数据清洗--过滤字段长度不足的且将出生日期转换成指定格式 
  object edu{
    /**********Begin**********/
    // 此处可填写相关代码
    case class Person(id:String,Name:String,CtfTp:String,CtfId:String,Gender:String,Birthday:String,Address:String,Zip:String,Duty:String,Mobile:String,Tel:String,Fax:String,EMail:String,Nation:String,Taste:String,Education:String,Company:String,Family:String,Version:String,Hotel:String,Grade:String,Duration:String,City:String)
    /**********End**********/
    def main(args: Array[String]): Unit = {
        val spark = SparkSession
        .builder()
        .appName("Spark SQL")
        .master("local")
        .config("spark.some.config.option", "some-value")
        .getOrCreate()
        val rdd = spark.sparkContext.textFile("file:///root/files/part-00000-4ead9570-10e5-44dc-80ad-860cb072a9ff-c000.csv")
        /**********Begin**********/
        // 清洗脏数据（字段长度不足 23 的数据视为脏数据）
        val rdd1: RDD[String] = rdd.filter(x=>{
        val e=x.split(",",-1)
        e.length==23  })
        // 将出生日期改为 xxxx-xx-xx 格式（例如 19000101：1900-01-01，如果该属性为空不做处理，结果只取前 10 行）
        val rdd2: RDD[Person] = rdd1.map(x=>{val str=x.split(",",-1)
            if (str(5).trim != "" && str(5).length == 8) {
                str(5) = str(5).substring(0,4)+"-"+str(5).substring(4,6)+"-"+str(5).substring(6,8)
            }
            Person(str(0),str(1),str(2),str(3),str(4),str(5),str(6),str(7),str(8),str(9),str(10),str(11),str(12),str(13),str(14),str(15),str(16),str(17),str(18),str(19),str(20),str(21),str(22))
        })
        import spark.implicits._
        val df =rdd2.toDS()
        df.createOrReplaceTempView("yy")
        val out= spark.sql("select * from yy limit 10")
        // 将结果保存成 csv 格式到 file:///root/files-out 目录下
        out.write.csv("file:///root/files-out")
        /**********End**********/
        spark.stop()
      }
}
 
  第2关：数据分析--通过入住时间和入住总时长计算用户离开时间 
  object edu1{
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder()
      .appName("Spark SQL")
      .master("local")
      .config("spark.some.config.option", "some-value")
      .getOrCreate()
          /**********Begin**********/
          //加载第一关处理后的数据，数据位于/root/files2目录下，文件名为part-00000-f9f4bd23-1776-4f84-9a39-f83840fa1973-c000.csv
    val df = spark.read.option("header", true).csv("file:///root/files2/part-00000-f9f4bd23-1776-4f84-9a39-f83840fa1973-c000.csv")
    //通过入住时间和入住总时长计算用户离开时间（入住时间或者入住总时长为空的不做计算）
    df.createOrReplaceTempView("yy")
    val df2: DataFrame =spark.sql("select Name,from_unixtime(unix_timestamp(Version)+Duration*3600,'yyyy-MM-dd HH:mm:ss') from yy where Version  != '' and Duration != '' limit 10")
    //将结果保存成csv格式到file:///root/files-out1目录下
    df2.write.csv("file:///root/files-out1")
       /**********End**********/ 
    spark.stop()
  }
}
 
  第3关：数据分析--酒店被入住次数最多的3家和他们的平 
  object edu2{
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder()
      .appName("Spark SQL")
      .master("local")
      .config("spark.some.config.option", "some-value")
      .getOrCreate()
         /**********Begin**********/
   //加载第一关处理后的数据，数据位于/root/files3目录下，文件名为part-00000-f9f4bd23-1776-4f84-9a39-f83840fa1973-c000.csv
  val df = spark.read.option("header", true).csv("file:///root/files3/part-00000-f9f4bd23-1776-4f84-9a39-f83840fa1973-c000.csv")
    //酒店被入住次数最多的10家和他们的平均得分以及所在城市（评分为空的不做计算,注意考虑连锁酒店的情况，即同一家酒店开设在不同的城市） 
    df.createOrReplaceTempView("yy")
    val df2: DataFrame =spark.sql("select City,Hotel,avg from (select count(Hotel)as num ,Hotel,City ,round(avg(Grade),2) as avg from yy  where Grade != '' group by Hotel,City ) aa order by num desc limit 3")      
   //将结果保存成csv格式到file:///root/files-out2目录下
   df2.write.csv("file:///root/files-out2")
     /**********End**********/ 
    spark.stop()
  }
}
 
  第4关：数据分析--每个用户每年去酒店次数及入住总时长 
  object edu3{
    def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder()
      .appName("Spark SQL")
      .master("local")
      .config("spark.some.config.option", "some-value")
      .getOrCreate()
          /**********Begin**********/
    //加载第一关处理后的数据，数据位于/root/files4目录下，文件名为part-00000-f9f4bd23-1776-4f84-9a39-f83840fa1973-c000.csv
     val df = spark.read.option("header", true).csv("file:///root/files4/part-00000-f9f4bd23-1776-4f84-9a39-f83840fa1973-c000.csv")
    //每个用户每年去酒店次数及入住总时长
    df.createOrReplaceTempView("yy")
    val df2: DataFrame =spark.sql("  select Name ,count(Id),sum(Duration),time from ( select Name ,Id,Duration,year(Version) as time  from yy where Version != '' ) a group by time,Name limit 10")  
    //将结果保存成csv格式到file:///root/files-out3目录下
    df2.write.csv("file:///root/files-out3")
       /**********End**********/
    spark.stop()
  }
}
 
   
   在拿来时，一次没通过的，要多试几次。

Oracle 分区在什么情况下使用？思维导图代码示例（java 架构) 用心去追梦 oracle java 架构
Oracle分区的适用场景Oracle分区（Partitioning）是一种强大的数据管理工具，适用于特定类型的数据库工作负载和数据结构。以下是一些适合使用分区的情况：1.大型表优化超大数据量：当表包含数百万甚至数十亿行时，分区可以帮助提高查询性能。频繁更新：对于经常被插入、更新或删除的数据，分区可以减少锁定范围，提高并发性。2.数据仓库历史数据分析：在数据仓库中，通常会存储多年的历史数据。通过按
【爬虫】JS逆向解决蝉妈妈加密参数data 秋无之地爬虫JS逆向 python 爬虫 js逆向
⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️作者：秋无之地简介：CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作，主要擅长领域有：爬虫、后端、大数据开发、数据分析等。欢迎小伙伴们点赞、收藏⭐️、留言、关注，关注必回关目录一、先打开目标网站，打开F12调试模式二、通过刷新页面定位接口，并找到接口上的加密参数data三、打开启动器（Initiator）
Windows下Go语言环境搭建和使用 go语言学习基地 GO语言学习 golang windows 开发语言
简介go语言是一种开源的、语法精简的静态编程语言，它的开源社区比较庞大，应用场景非常广范。可以用于系统监控、容器技术(Docker)、大数据、存储技术、分布式系统(HyperledgerFabric)、消息系统(Kafka客户端)、服务器管理、安全工具、Web工具等。这里介绍在Linux上安装并配置go。下载go安装包到GoLang中国：https://golang.google.cn/dl/下载
多租户架构未提供统一的安全策略和框架，导致安全策略不一致图幻未来网络安全
多租户架构下的网络安全分析与AI技术应用在云计算和大数据技术的快速发展背景下，多租户架构已成为企业应用的首选。多租户架构允许多个独立的应用共享同一套基础架构和资源池，从而降低了企业的运营成本。然而，多租户架构在给企业带来便利的同时，也面临着一系列安全挑战。本文将围绕多租户架构未提供统一的安全策略和框架导致安全策略不一致的问题展开分析，并探讨AI技术在网络安全领域的应用场景。一、多租户架构下的安全挑
kylin套_Apache Kylin（一）Kylin介绍 weixin_39898011 kylin套
1.传统大数据分析的问题在基于Hadoop生态的传统大数据分析中，主要使用的技术是MPP(MassivelyParallelProcessing)大规模并行处理和列式存储。MPP使用线性增加计算资源换取计算时间的线性下降，列式存储可以提高读取数据的速率。两者结合可以使得基于Hadoop的SQL查询速度从小时级降为分钟级。不过分钟级别的查询响应仍未达到交互式分析级别，主要问题在于：MPP以及列式存储
可视化大屏梦屿千寻！！信息可视化
可视化大屏是一种利用计算机图形学技术，将复杂的数据和信息转换为直观的可视化图形，以呈现数据信息的工具。它不仅在电影中常见，而且已经实实在在地被应用在商业、金融、制造等各个行业的业务场景中，成为大数据分析和展示的重要工具。一、可视化大屏的特点直观性：通过图形、图表、地图等可视化元素，将复杂的数据直观展示出来，便于用户快速理解。实时性：支持实时更新数据，使用户能够随时掌握最新情况。高效性：一次性处理大
从零开始构建一个简单的Python Web爬虫实战指南与技巧一键难忘 python 前端爬虫 Python Web
从零开始构建一个简单的PythonWeb爬虫实战指南与技巧随着数据科学和大数据分析的快速发展，网络爬虫（WebScraping）成为了获取互联网数据的重要工具。通过爬虫，我们可以自动化地从网页上获取各种信息，如新闻、产品价格、社交媒体内容等。本文将带您从零开始，使用Python构建一个简单的Web爬虫，抓取网页内容并保存数据。Web爬虫的基本概念什么是Web爬虫？Web爬虫（也称为网络蜘蛛或抓取器
MongoDB深度解析与实践案例我的运维人生 mongodb 数据库运维开发技术共享
MongoDB深度解析与实践案例在当今大数据盛行的时代，NoSQL数据库以其灵活的数据模型和水平扩展能力，成为了众多应用场景下的首选。MongoDB，作为NoSQL数据库的领军者之一，凭借其面向文档的存储方式、强大的查询功能以及丰富的生态系统，在众多领域大放异彩。本文将从MongoDB的基本概念出发，深入探讨其核心特性，并通过一个实际案例展示如何在项目中高效使用MongoDB。一、MongoDB基
2024年作品汇总萝卜青今天也要开心 spring java 后端笔记学习
思维读书笔记-《当下的力量》读书笔记-《暗时间》信息技术如何设计离线跑批系统程序员工作中常见问题，你遇到过几个？读书笔记-《Redis设计与实现》（一）数据结构与对象（上）读书笔记-《大数据时代》读书笔记-《Spring技术内幕》（一）IoC容器的实现读书笔记-《Spring技术内幕》（二）AOP的实现读书笔记-《Spring技术内幕》（三）MVC与Web环境读书笔记-《Spring技术内幕》（四
基于云计算的自然资源视频监控系统设计与研究罗伯特之技术屋大数据与数字化的设计应用专栏云计算音视频
摘要为了解决当前自然资源执法监管信息化系统存在的问题，满足对违法行为进行实时发现的需求，构建一个覆盖全省的实时监控视频系统。该系统基于云计算和视频中台等技术构建了两级云架构的视频处理与存储系统，通过AI等大数据算法对数据进行整合、分析，进而构建了具有执法线索、监督问效、行动处置和综合指挥等功能的自然资源管理系统。同时，该系统遵循安全等级保护三级要求，确保网络与信息安全，助力自然资源监管数字化。引言
老玩童：互联网智慧助老平台——科技赋能银发族，开启智慧养老新生活 IT源码大师科技生活
详细描述：1.引言随着全球老龄化社会的加速到来，老年人的生活质量和社会参与度成为社会关注的焦点。传统的养老服务模式往往存在资源不足、服务单一、效率低下等问题，难以满足老年人日益增长的多样化需求。基于互联网技术的智慧助老平台“老玩童”，通过整合物联网、大数据、人工智能等先进技术，构建了一个全方位、智能化、个性化的助老服务体系，为老年人及其家庭提供了全新的解决方案。本文将深入探讨这一平台的核心理念、技
简述web3.0前端开发的最简单三个步骤飞机号Mrsfu223 web3 区块链 python java 开发语言
Web3.0是互联网的下一代前沿技术，包括人工智能，大数据和区块链都是这项技术的核心，Web3.0为用户提供了更为智能的互联网服务体验，该技术的核心要素为去中心化，也就是摆脱中心化的权力控制，能够让数据和各项交易通过网络里的各项节点来维护和验证，并不是通过中心化的机构或服务器控制各项节点，Web3有车有中心化，有户权益性，去信任化，互操作性这些特点，可以拥有更大的操作空间和可能性。去中心化是基于区
22章2节：如何在 R Markdown 和 R Notebook 中创建使用 DAT｜R科学用R探索医药数据科学 r语言开发语言
RMarkdown是一种广泛使用的工具，可以帮助数据科学家、统计学家和研究人员创建动态和交互式的报告。它结合了R语言的强大数据处理和分析能力，以及Markdown的简洁易用的文本格式，使得创建专业和美观的报告变得更加简单和高效。同时，RNotebook是一种交互式文档格式，它将叙述性文本、数据可视化以及其他多媒体组件与用R语言编写的代码结合在一起。RNotebook使用户能够创建和分享包含数据分析
JavaSE笔记总结火车驶向云外.11 java 开发语言
一、Java简介1、三大平台JavaSE：Java标准版，用于桌面应用开发，为今后从事JavaEE开发打基础（C语言和C++语言占有优势）。JavaME：小型版的Java语言，用于嵌入式电子设备或者小型移动设备。JavaEE：企业版，web方向的网站开发和服务器开发，这个领域Java第一。2、Java能做什么？桌面应用开发企业级应用开发移动应用开发科学计算大数据开发游戏开发3、Java的特性面向对
我的名字叫大数据：第1~4章大数据张老师我的名字叫大数据大数据大数据认知大数据启蒙什么是大数据数据库 python
第1章大家好，我叫大数据1.1我的家族传统：从我小小的祖先到壮大的我1.1.1最初的我：原始部落里的计数石头大家好，我是你们人类文明的“老朋友”——大数据。你们知道吗？在我还没有变成你们手机、电脑里飞速跑动的那些数字前，我最初的模样可是一块块“计数石头”。没错，就是普通的小石头！想象一下，很久很久以前，当原始部落里的人们想要知道他的羊群有多少只时，他就会找一块石头代表一只羊。如果他有三只羊，他就会
深度学习基因组学+机器学习单细胞分析，当下最火热研究方向！ qwmb919 人工智能深度学习机器学习 python
深度学习已经被广泛应用于基因组学研究中，利用已知的训练集对数据的类型和应答结果进行预测，深度学习，可以进行预测和降维分析。深度学习模型的能力更强且更灵活，在适当的训练数据下，深度学习可以在较少人工参与的情况下自动学习特征和规律。调控基因组学，变异检测，致病性评分成功应用。深度学习可以提高基因组数据的可解释性，并将基因组数据转化为可操作的临床信息。深度学习通过强大的深度神经网络模型从高维大数据中自动
Java 大视界 -- Java 大数据中的数据脱敏技术与合规实践（60）青云交大数据新视界 Java 大视界大数据数据脱敏替换法加密法掩码法 Spark SQL Flink
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- Java 大数据实时数仓的构建与运维实践（55）青云交大数据新视界 Java 大视界大数据实时数仓 Flume Flink HBase ClickHouse Lambda架构
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、欢迎加入【福利社群
Java 大视界 -- Java 大数据中的强化学习算法实践与优化（57）青云交大数据新视界 Java 大视界大数据强化学习算法 Q-learning 经验回放探索利用平衡智能能源管理算法优化
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大数据自动化数据管道构建：工具与最佳实践（47）青云交大数据新视界 Java 大视界大数据自动化数据管道 Sqoop Flume NiFi 数据质量性能优化 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Java 大数据与区块链的融合：数据可信共享与溯源（45）青云交大数据新视界 Java 大视界大数据区块链数据可信共享数据溯源智能合约区块链存储金融应用 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Java 大数据高性能计算：利用多线程与并行计算框架（39）青云交大数据新视界 Java 大视界大数据高性能计算多线程并行计算框架 Apache Spark 线程安全数据一致性 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Java 与量子计算在大数据中的潜在融合：原理与展望（33）青云交大数据新视界 Java 大视界大数据量子计算融合原理技术路径未来展望跨学科人才量子云计算 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
大数据新视界 -- Hive 事务管理的应用与限制（2 - 16 - 8）青云交大数据新视界 #Hive 之道 Hive 事务管理应用场景优化策略数据一致性并发处理大数据爱好者们大数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
深度学习-图像数据标注工具使用（LabelImg和BBox） AI研习图书馆方法教程 LabelImg BBox 图像标注工具
文章与视频资源多平台更新微信公众号|知乎|B站|头条：AI研习图书馆深度学习、大数据、IT编程知识与资源分享，欢迎关注，共同进步~图像数据标注工具的使用教程1.LabelImgLabelImg下载地址：https://github.com/tzutalin/labelImg（下载源码，需要编译）Windows和Linux系统可运行软件：http://tzutalin.github.io/label
Spark 任务与 Spark Streaming 任务的差异详解 goTsHgo spark-streaming 分布式大数据 spark streaming 大数据分布式
Spark任务与SparkStreaming任务的主要差异源自于两者的应用场景不同：Spark主要处理静态的大数据集，而SparkStreaming处理的是实时流数据。这些差异体现在任务的调度、执行、容错、数据处理模式等方面。接下来，我们将从底层原理和源代码的角度详细解析Spark任务和SparkStreaming任务的差别。1.任务调度模型差异1.1Spark任务的调度模型Spark的任务调度基
Python大数据之PySpark(三)使用Python语言开发Spark程序代码_windows spark python 2401_84181704 程序员大数据 python spark
算子：rdd的api的操作，就是算子，flatMap扁平化算子，map转换算子Transformation算子Action算子步骤：1-首先创建SparkContext上下文环境2-从外部文件数据源读取数据3-执行flatmap执行扁平化操作4-执行map转化操作，得到(word,1)5-reduceByKey将相同Key的Value数据累加操作6-将结果输出到文件系统或打印代码：#-*-codi
《大数据时代“快刀”：Flink实时数据处理框架优势全解析》程序猿阿伟大数据 flink
在数字化浪潮中，数据呈爆发式增长，实时数据处理的重要性愈发凸显。从金融交易的实时风险监控，到电商平台的用户行为分析，各行业都急需能快速处理海量数据的工具。Flink作为一款开源的分布式流处理框架，在这一领域崭露头角，备受瞩目。一、真正实时，毫秒级响应与部分将流处理模拟为微批处理的框架不同，Flink是专为实时流处理打造的“原生”引擎。它直接处理持续不断的事件流，无需将数据攒成批次再处理，这种设计赋
园区智能化系统实现管理与服务的智能化转型与创新进阶快鲸智慧楼宇管理系统其他
内容概要园区智能化系统的出现，标志着管理与服务向智能化转型的重要一步。这一系统不仅仅是一个技术解决方案，更是一个全面提升园区运营效率与安全性的独特工具。通过集成大数据分析、物联网和人工智能，园区智能化系统能够为各类园区如工业园、产业园、物流园、写字楼与公寓等提供切实可行的解决方案。“智能化管理不仅是未来的发展趋势，更是提升竞争力的必要手段。”在资产管理方面，智能化系统能够实时监控并优化资源的配置，
CDH_6.3.2的搭建我的K8409 Flink linux 大数据分布式
一站式搭建大数据的应用1、前提条件和准备工作hostnamectlset-hostnamecdh01hostnamectlset-hostnamecdh02hostnamectlset-hostnamecdh032、修改IP和Host映射关系（所有节点）在window中也配置一下vim/etc/hosts192.168.92.201cdh01192.168.92.202cdh02192.168.9
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

educoder平台+大数据从入门到实战+14个模块习题

配置的题型需要根据自己的实际情况来在平台上一步一步完成，下面配置的题型的代码，仅做参考。（配置的题型争取在网络环境好的情况下，一次通过，不要间断，否则会比较麻烦）

在拿来时，一次没通过的，要多试几次。

你可能感兴趣的:(大数据)