zyw2002

⼤数据采集和可视化系统实现

前言
本篇博客用来记录 2022年春季大数据课程结课大作业（大三下，前8周，小组作业）
非常感谢小组同学的付出和积极配合！

文章目录

1. 实验目的
2. 实验环境
3. 实验要求
4. 实验内容
- 4.1 准备工作
- 4.2 数据的采集和发送
- - 4.2.1 流程介绍
  - 4.2.2 实验过程
  - 4.2.3 源码解析
- 4.3 数据的消费和处理
- - 4.3.1 流程介绍
  - 4.3.2 实验过程
  - 4.3.3 源码解析
  - 4.3.4 程序集成
- 4.4 数据的存储
- - 4.4.1 Hbase存储
  - 4.4.2 Hive存储
  - 4.4.3 Hdfs存储
  - 4.4.4 Mysql存储
- 4.5 可视化展示
- - 4.5.1 后端实现
  - 4.5.2 前端实现
  - 4.5.3 网站部署
5. 踩坑记录
6. 心得体会
7. 团队协作

1. 实验目的

了解Kafka、HDFS、MapReduce、Spark、HBase、Hive等组件在大数据体系结构中的角色，并通过本次综合实验对大数据技术在实际应用中的主要流程有初步的认识;

2. 实验环境

实验平台：基于实验一搭建的虚拟机Hadoop大数据实验平台上的Kafka、HDFS、MapReduce、Spark、HBase、Hive等集群;
编程语言：JAVA（推荐使用）、Python、C++等;

3. 实验要求

编程实现Kafka生产者，模拟数据采集的过程，向指定topic发送数据。
编写MapReduce或Spark程序，消费上述topic中的数据，并对数据进行一定的
处理，如求和、排序等。（鼓励使用流计算框架消费kafka上的数据，可以获得额外加分)
上述程序将处理结果存储到HDFS文件系统中。（如果选用Hbase或Hive代替
HDFS，需要分别设计Hbase表或Hive表，会得到额外加分)
将聚合后的结果通过简单的前端网页进行展示，这里可以考虑将聚合结果存储
到Mysql数据库再进行简单的展示。
对以上实验内容编写实验报告，并提交实验相关代码。

4. 实验内容

4.1 准备工作

同步cluster1、cluster2、cluster3的时间

// 重启时间同步服务(cluster1 上)
service ntpd restart
//同步时间(cluster2和cluster3)
ntpdate cluster1

// 切换到用户hadoop (三台)
su hadoop
//启动zookeeper (三台)
zkServer.sh start
//启动kafka (三台)
kafka-server-start.sh /usr/local/kafka_2.10-0.8.2.1/config/server.properties &
///启动HDFS (cluster1 上)
start-dfs.sh
//启动YARN (cluster1 上)
start-yarn.sh
//查看进程信息
jps

4.2 数据的采集和发送

4.2.1 流程介绍

考虑到实际待处理的数据非常大，但是在测试的过程中并不需要处理全部的数据量，因此将代码设置成用户可以自定义发送数据的条数。生产者首先从txt文件中读取数据，然后每读取一行数据就发送一条，直到发送完指定数目的条数或者到达文件末尾。kafka生产者的发送流程主要如下图所示：

具体来说，一个kafka的生产者逻辑主要包括如下4个步骤

配置生产者客户端参数及创建相应的生产者实例。
构建待发送的消息。
发送消息
关闭生产者实例

4.2.2 实验过程

编写java代码实现Kafka生产者，模拟数据采集过程，向指定的topic发送数据。

在/home/hadoop目录下创建目录lab4用来存放实验数据和代码。(kafka采集数据实验.txt重命名为kafkadata.txt,内容不变)

由于直接上传的代码xftp默认是root用户，因此需要修改用户的权限。

//改变所有者为hadoop
su root
chown -R hadoop:hadoop /home/hadoop/

cd ~/lab4
//编译
javac -cp /usrlocal/kafka_2.10-0.8.2.1/libs/* : Producer3.java
//运行
java -cp l/usr/local/kafka_2.10-0.8.2.1/lib/* : Producer3

创建名称为dsj3 的topic，并先设置发送数据的行数是30条。

然后运行代码，成功的发送了前30条数据。

4.2.3 源码解析

props.put("metadata.broker.list", "cluster1:9092")用来指定生产者客户端连接Kafka集群所需的broker地址清单，具体的内容格式为host1：port1，host2：port2，可以设置一个或多个地址，中间以逗号隔开，此参数的默认值为“”。注意这里并非需要所有的broker地址，因为生产者会从给定的broker里查找到其他broker的信息。在此，我们设置生产者为cluster1。

Producer3.java代码具体实现如下:

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.util.Properties;
import java.util.Scanner;
import kafka.javaapi.producer.Producer;
import kafka.producer.KeyedMessage;
import kafka.producer.ProducerConfig;

public class Producer3 {
    public static void main(String[] args) {
				// 1.配置生产者客户端参数及创建相应的生产者实例。
        Scanner in = new Scanner(System.in);
        Properties props = new Properties();
        props.put("serializer.class", "kafka.serializer.StringEncoder"); // 序列化
        props.put("metadata.broker.list", "cluster1:9092"); // broker 地址清单
        Producer<Integer, String> producer = new Producer<Integer, String>(new ProducerConfig(props)); // 构建生产者
	      // 2. 构建待发送的消息  
        String topic;
        System.out.print("请输入topic名称："); // 创建topic
        topic = in.next(); 
        File file = new File("/home/hadoop/lab4/kafkadata.txt");  //文件读取路径
        BufferedReader reader = null;
        System.out.print("请输入发送数据行数："); 
        int num = in.nextInt(); // 用户自定义数据发送的行数
				// 3. 生产者发动消息
        try {
            reader = new BufferedReader(new FileReader(file)); 
            String tempString = null;
            int line = 1;
            while ((tempString = reader.readLine()) != null) { // 当没有达到文件末尾时，继续读取
                producer.send(new KeyedMessage<Integer, String>(topic, tempString)); // 生产者发送数据
                System.out.println("成功发送第 " + line + " 行数据...");
                if (line == num) // 当发送指定条数的数据后，停止发送
                    break;
                line++;
            }
            reader.close();
        } catch (Exception e) { // 文件读取失败
            e.printStackTrace();
        } finally {
            if (reader != null) { 
                try {
                    reader.close();
                } catch (IOException e1) {
                }
            }
        }
				// 4. 关闭生产者实例
        producer.close();
    }
}

4.3 数据的消费和处理

4.3.1 流程介绍

这一部分处理数据的逻辑就是kafka消费者接受来自生产者数据，然后在消费者端提交storm的topology,利用storm进行数据处理后将生成结果存储入库，再可视化展示。我们的消费者拉取数据类是Consumer_pull.java，拉取topic中的数据，支持多线程处理多个topic的分区，这里测试只采用了一个线程然后对应topic只建立了一个分区，对应消费实例是Consumer_storm,测试数据条数也只有30条。storm部分书写四个类，Topology类，Spout类，Split_Bolt类和Sum_Bolt类。Topology是提交的拓朴文件，描述storm数据流的拓朴结构，Spout是数据源，发送数据的源头，Split_Bolt和Sum_Bolt是两个数据处理类，分别用于分割数据和聚合数据。我们的结构非常简单，Spout — Split_Bolt — Sum_Bolt的线形结构，实验流程就是将消费者启动，再将生产者启动，输入topic名和数据条数，然后程序就启动成功。实现的功能是将航空公司日志聚合，统计出以一小时为时间间隔的时间段内各航空公司预定成功的数量。

4.3.2 实验过程

首先在生产者端(cluster1)要部属我的自己混合的lib文件夹以及producer_push.java和kafka.txt，三个文件；在消费者端(cluster2)要部署lib和Consumer_pull.java Consumer_storm.java Topology.java Spout.java Split_Bolt.java 和Sum_Bolt.java 七个文件。lib文件夹中是程序运行所需要的包，解决了storm和kafka运行包冲突的问题，所以在编译和运行时只需要导入lib文件中的包即可。

在编译程序之前要先启动kafka以及storm，实验流程在实验一的手册中，流程不再赘述，有一点区别是storm的nimbus端是cluster2,也就是要将cluster2和cluster1的实验一storm操作流程对换。

编译程序，在程序根文件夹下键入命令

javac -cp lib/*: *.java

编译成功

生产者端和消费者端都做如上编译处理，编译成功后，要先在生产者端利用kafka的console创建一个topic，键入命令如下,创建bighope主题名

kafka-topics.sh --create --zookeeper cluster1:2181,cluster2:2181,cluster3:2181 --replication-factor 3 --partitions 1 --topic bighope

然后先启动消费者程序，键入命令,

java -cp lib/*: Consumer_pull bighope

再启动生产者程序，键入命令，

java -cp lib/*: Producer_push

然后根据提示输入topic名以及数据条数，这里测试我们采取30条数据，topic名就是在之前创建的topic名，我们这里是bighope，结果如下

生产者端接收数据成功

在接收数据后，kafka会进行一个消费实例，此实例可以实现不同线程处理方式不同，这里我们是单线程，使用Consumer_storm实例来利用storm消费数据，流程首先是成功提交Topology

spout开始传输数据

split_Bolt分割数据文件

sum_Bolt聚合分割数据

sum_Bolt写入文件

统计结果先写入fly-company_sum.txt,这里只处理了30条，数据量很少，后续会将数据写入数据存储设备

4.3.3 源码解析

接下来这部分，我会介绍消费者端以及storm的源码解析

Consumer_pull.java

Comsumer_pull类，包含执行消费者拉取数据的主类

私有属性定义，消费者连接，topic名，线程执行对象

private final ConsumerConnector consumer;//consumer对象
private final String topic;//订阅的topic
private ExecutorService executor;//线程执行对象

初始化方法，Consumer_pull方法，连接kafka配置程序段，以及接收topic名

/**
 *初始化消费者对象
*@parama_topic订阅的topic
 */
public Consumer_pull(String a_zookeeper,String a_groupId,String a_topic){
    System.out.println("=============begin connect==============");
    consumer= Consumer.createJavaConsumerConnector(createConsumerConfig(a_zookeeper,a_groupId));
    System.out.println("=============end connect================");
    this.topic=a_topic;
}

kafka消费者关闭方法，关闭线程执行以及消费者连接

/**
     * kafka消费者关闭方法
     */
    public void shutdown(){
        if (consumer != null) consumer.shutdown();
        if (executor != null) executor.shutdown();
        try {
            if (!executor.awaitTermination(60000, TimeUnit.MILLISECONDS)) {
                System.out.println("Timed out waiting for consumer threads to shut down, exiting uncleanly");
            }
        } catch (InterruptedException e) {
            System.out.println("Interrupted during shutdown, exiting uncleanly");
        }
    }

kafka消费者配置文件，这里的参数设置都是参考官网给的解释

/**
     * 消费者配置文件
     * @return  ConsumerConfig
     */
    private static ConsumerConfig createConsumerConfig(String a_zookeeper,String a_groupId) {
        Properties props = new Properties();
        props.put("group.id",a_groupId);//"group1"
        props.put("zookeeper.connect",a_zookeeper);//"cluster1:2181,cluster2:2181,cluster3:2181"
        props.put("zookeeper.session.timeout.ms", "400");
        props.put("zookeeper.sync.time.ms", "200");
        props.put("auto.commit.interval.ms", "1000");
        props.put("consumer.timeout.ms","10000");
 //       props.put("auto.offset.reset","smallest");
 //      props.put(org.apache.kafka.clients.consumer.ConsumerConfig.PARTITION_ASSIGNMENT_STRATEGY_CONFIG,"range");
        return new ConsumerConfig(props);
    }

消费者run方法取出kafkastream这一数据流对象，然后我们进行处理将其传输到消费者实例中，使用excutor提交线程

/**
     * 消费者kafkastream处理方式
     * @param a_numThreads 线程总数
     */
    public void run(int a_numThreads)  {

        System.out.println("==========begin to pull data from kafka===========");
        Map<String,Integer> topicCountMap=new HashMap<String,Integer>();
        topicCountMap.put(topic,new Integer(a_numThreads));
        //System.out.println("================begin to fetch================");
        Map<String,List<KafkaStream<byte[],byte[]>>> consumerMap=consumer.createMessageStreams(topicCountMap);
        //System.out.println("=================end fetch==================");
        //取出后的数据流存放在容器中，每个流对应一个线程
        List<KafkaStream<byte[],byte[]>> streams=consumerMap.get(topic);
        //部署所有线程
        executor= Executors.newFixedThreadPool(a_numThreads);

        //创建消费者对象，
        int threadNumber=0;
         for(final KafkaStream stream:streams){
            executor.submit(new Consumer_storm(stream,threadNumber));//提交线程
            threadNumber++;
         }
    }

消费者运行主函数，获取参数，传入方法中，并执行方法，这里只采用了单线程处理一个topic的一个分区，后续可以实现多分区处理，通过控制台控制线程数。

/**
 *运行消费者端
*@paramargs控制台参数，会获取topic名
*/
public static void main(String[] args) {

/**
     *执行kafka消费者端的进程，读取Consumer_pull拉取的数据
*/
String zookeeper="cluster1:2181,cluster2:2181,cluster3:2181";//zookeeper集群地址
    String groupId="group1";//消费者群组名
    String topic=args[0];//topic名
    int threads=Integer.parseInt("1");//线程数
    Consumer_pull pull=new Consumer_pull(zookeeper,groupId,topic);
    pull.run(threads);//运行进程

    try{
        Thread.sleep(10000);
    }catch (InterruptedException ie){
        System.out.println("=======something interrupt=========");
    }
    pull.shutdown();
}

Consumer_storm.java

在Consumer_pull里面的run方法中我们利用excutor提交了一个Consumer_storm对象，在这里会解析这一运行实例

属性定义，kafka数据流以及线程编号

private KafkaStream m_stream;//kafka数据流
    private int m_threadNumber;//线程号

初始化对象

/**
     * 消费类初始化
     * @param a_stream kafka数据流
     * @param a_threadNumber 线程号
     */
    public Consumer_storm(KafkaStream a_stream,int a_threadNumber){
        m_stream=a_stream;
        m_threadNumber=a_threadNumber;
    }

重写run函数，Consumer_storm实现Runnable接口方法，遍历kafka流，然后进行topology应用

public void run() {
        ConsumerIterator<byte[], byte[]> it = m_stream.iterator();
        int count = 0;
        String[] str = new String[30];//存储30个数据大小
        while (it.hasNext()) {
            String data = new String(it.next().message());
            System.out.println("=========Thread" + m_threadNumber + ":" + data);
            str[count] = data;
            count++;
        }//数据遍历循环
        System.out.println("==========pull " + count + " data from kafka ==============");
        System.out.println("=======================end to pull data from kafka=====================");
        System.out.println("============================Shutting down Thread: " + m_threadNumber);
        Topology.Topology_arrage(new Spout(str));
    }

Topology.java

topology定义，配置topology，这里会画出你的topology结构，例如我的拓朴是split_bolt接收名为data_source的spout数据流源头的数据，sum_bolt接收名为split_data数据流源头的数据，一个简单的线形结构，后续若做出改进可以实现更复杂的topology。

public static void Topology_arrage(Spout spout){
    Split_Bolt split_bolt=new Split_Bolt();
    Sum_Bolt sum_bolt=new Sum_Bolt();
    TopologyBuilder builder=new TopologyBuilder();//定义拓扑
    builder.setSpout("data_source",spout,1);//设置spout线程
    builder.setBolt("split_data",split_bolt,1).shuffleGrouping("data_source");//设置split_bolt线程
    builder.setBolt("sum_data",sum_bolt,1).shuffleGrouping("split_data");//设置sum_bolt线程

利用本地提交topology，这里未向集群提交，在测试环节先实现本地处理，后续会努力实现向集群提交打包的jar包

Config conf=new Config();

        //提交topology
        try {
            LocalCluster cluster = new LocalCluster();
            System.out.println("=====================Topology local run begin=====================");
            cluster.submitTopology("mytopology", conf, builder.createTopology());//提交topology
            Utils.sleep(40000);
            cluster.killTopology("mytopology");
            cluster.shutdown();
//        System.out.println("not local");
//        StormSubmitter.submitTopology("mytopology",conf,builder.createTopology());
        }catch (Exception e){
            e.printStackTrace();
            System.out.println("=============something wrong==============");
        }

Spout.java

继承BaseRichSpout，以及要重写其主要函数方法

属性定义，接收数据对象，存储数据的数组，以及定义自己发送tuple的名字

private SpoutOutputCollector collector;//定义发射tuple的对象
    private int count=1;//发射数据的次数
    private String[] str=new String[30];//存放数据的数组(30代表能处理数据的最大值）
    private static final String field="string";//形成的tuple命名为string

初始化对象，将数据写入属性

/**
 *初始化，获取数据
*@paramstr应用端输入的数据
*/
public Spout(String[] str){
    this.str=str;
}

open方法，在spout开始执行时，首先进入该方法，将发射数据的collector类型写入属性

/**
     * open 方法
     * @param map storm的配置
     * @param topologyContext topology组件信息
     * @param spoutOutputCollector 发射tuple的方法
     */
    @Override
    public void open(Map map, TopologyContext topologyContext, SpoutOutputCollector spoutOutputCollector) {
        System.out.println("======================spout start======================");
        collector=spoutOutputCollector;
    }

nextTuple 主要的执行方法，将数据打包成一个一个tuple发送出去，collector的emit方法就是发送数据的方法，将数据转换成tuple的value值写入tuple

/**
     * nextTuple 方法
     * 主要的执行方法，用于输出数据，是Spout实现的核心
     */
    @Override
    public void nextTuple() {
        //遍历数据，进行发送
        if (count<=str.length){
            System.out.println("==========begin "+count+" data transform=========");
            System.out.println(str[count-1]);
            collector.emit(new Values(str[count-1]));
        }
        this.count++;
    }

declareOutputFields方法，在这里定义tuple的键的名字，在属性定义时，field字段的名为“string”

/**
 *声明数据格式，在输出的一个Tuple中包含几个字段
*@paramoutputFieldsDeclarer
*/
@Override
public void declareOutputFields(OutputFieldsDeclarer outputFieldsDeclarer) {
    System.out.println("===================combine frame...=======================");
    outputFieldsDeclarer.declare(new Fields(field));
}

其余还有一些不重要的重写函数方法，有tuple处理失败以及成功时调用的方法，关闭spout数据流的方法，在这些方法里没有写入什么程序逻辑，只打印了一些标识，不再做过多赘述。

Split_Bolt.java

Split_Bolt继承BaseRichBolt，实现数据分割，并重写多个函数

函数属性定义

    private OutputCollector collector;//获取tuple的对象
    private static int count=1;//数据处理条数记录
    private static String field="word";//输出tuple的键值名

prepare函数，在类启动时首先执行的方法，参数传输OutputCollector对象，利用其发送tuple对象

/**
     * Bolt启动前的执行代码
     * @param map
     * @param topologyContext
     * @param outputCollector
     */
    @Override
    public void prepare(Map map, TopologyContext topologyContext, OutputCollector outputCollector) {
        System.out.println("===================prepare split_Bolt begin==================");
        collector=outputCollector;
    }

excute函数，是Bolt的主要实现函数，在这部分将实现对数据的分割处理，我将代码分开进行分析

利用tuple获取tuple键值对中键值为string的值

public void execute(Tuple tuple) {
        String str=tuple.getStringByField("string");//接收数据

然后对传入数据以‘，’分割后，对于索引为1的数据信息，判断该数据串是预定信息还是查询信息，我们期望对预定信息实现信息提取，将时间段和预定成功公司信息提取出来，利用空格连接后向后传输。list_cmp表单中保存预定成功公司信息，获取方式是将数据最后一个字段以‘；’分割，再将分割后的字段以‘：’分割，索引0就是公司名。数据字段3保存起始时间信息，我们的时间间隔是一小时，所以只记录起始时间，最后该Bolt实现数据转化的格式如下

原数据：TB.P1780,ITARES,20180830,19,19:45:36:257,1,CA:success;CA:success;

分割后数据：19 CA CA

String[] split_str=str.split(",");
if(split_str[1].equals("ITARES")){
            List<String> list_cmp=new ArrayList<>();//公司列表
            String[] comp_g=split_str[split_str.length-1].split(";");
            for(int i=0;i<comp_g.length;i++){ //
                String[] comp=comp_g[i].split(":");
                //System.out.println("================="+comp[0]+"==================");//
                list_cmp.add(comp[0]);//对应公司写入表单
            }
            String output=split_str[3];//最后输出结果，先将时间写入
            //将表单中的公司名连接到结果串中
            for(int i=0;i<list_cmp.size();i++){
                //System.out.println("========"+list_cmp.get(i)+"==========");
                output=output.concat(" ").concat(list_cmp.get(i));
            }
            System.out.println("============"+output+"==============");
            collector.emit(new Values(output));
            collector.ack(tuple);
            System.out.println("==========================eff_data spilt succeed=======================");
        }

当不为预定信息时，我们同样也做处理，保证前后数据大小的一致性，将该种数据转化为Null，在后续聚合时进行一个识别然后不做处理

else {
            collector.emit(new Values("Null"));
            collector.ack(tuple);
            System.out.println("============================NULL_data spilt succeed============================");
        }

declareOutputFields函数，定义发出tuple的键值名

@Override
    public void declareOutputFields(OutputFieldsDeclarer outputFieldsDeclarer) {
        outputFieldsDeclarer.declare(new Fields(field));
    }

Sum_Bolt.java

将数据聚合，并在测试阶段先写入文件，这里只解析主要的execute函数,和释放资源写入文件的clean up函数

属性定义，时间和航空公司编号建立二维数组存储结果，利用编号查询list_camp

对应的公司名

private int sum[][]=null;//时间与航空公司关于预定成功次数的二维数组
private List list_camp=null;//航空公司序列号
private static intcount=1;//数据处理条数

excute函数，将数据分割聚合保存，同样分段解析

读取split_bolt发送的word字段的值

@Override
    public void execute(Tuple tuple) {
        String str=tuple.getStringByField("word");

读入字段不为Null时证明时预定信息，将其以空格分割，索引值为0的字段是时间信息，对应sum的行索引。遍历剩余字段，若在公司表单不存在该公司，将其加入公司表单，然后输出数据字段的公司名在表单中的索引，对应sum的列索引，每个数据字段代表其对应的sum要加一，全部处理成功后数据存储在sum数组中。

if(!str.equals("Null")) {
            String[] data = str.split(" ");//输入数据格式是19 CV CX
            int time=Integer.parseInt(data[0]);//时间索引
            //System.out.println("=================="+time+"===================");
            int camp_c=0;//公司索引
            for(int i=1;i<data.length;i++){
                if(!list_camp.contains(data[i])){
                    list_camp.add(data[i]);
                }
                camp_c=list_camp.indexOf(data[i]);
                //System.out.println("==============="+data[i]+"====================="+camp_c+"====================");
                sum[time][camp_c]++;//聚合统计
            }
            System.out.println("=======================company_data has been sumed==========================");
        }

空字符，不做任何处理

else{
            System.out.println("==================Null_data has been sumed===================");
        }

cleanup()函数，将聚合结果写入文件，与正常的文件写入流程相同，没什么逻辑，就是简单的遍历数组，得到实验流程中的文件结果。

@Override
public void cleanup(){
    System.out.println("==============begin to write==============");
    try {
        //文件成员变量
        BufferedWriter wr=new BufferedWriter(new FileWriter("fly-company_sum.txt"));
        //遍历每一行数据，写入文件
        for (int i = 0; i < 24; i++) {
            System.out.println("==========begin to write time"+i+"-"+(i+1)+"============");
            String wr_str=new String(""+i+":");
            for (int j = 0; j < list_camp.size(); j++) {
                wr_str=wr_str.concat(" "+list_camp.get(j) +" "+sum[i][j]);
                //System.out.println("================write company"+list_camp.get(j));
            }
            wr_str=wr_str.concat("\n");
            wr.write(wr_str);
            System.out.println("========== time"+i+"-"+(i+1)+" has wrote "+wr_str+"============");
        }
        wr.close();
        System.out.println("==============finish write file==============");
    }catch (IOException e){
        System.out.println("write-file failed");
    }
}

至此，整个kafka storm数据消费处理的测试阶段完成，后续会将上面的cleanup方法进行一个改进将数据写入数据存储设备，不再写入文件。

4.3.4 程序集成

在实验的最后阶段，我将全部kafka数据集进行了一个处理，利用storm-kafka的集成技术，实现从topic直接拉取数据流作为Spout，进行后续的数据处理，并写入存储设备或写入文件。在测试阶段，实际上并没有将kafka和storm配合起来，只是利用kafka消费者端接收数据存储在一个数组中，然后传递给定义的Spout对象。这种方式实际上是在用流数据的框架进行批处理的任务，在实际场景中，本次实验的200MB的数据，java的堆不能容纳这么大的数据，所以让测试程序在实际场景中无法完成数据处理。

改进方式

将Consumer_pull以及消费者实例去掉，不再先用消费者端保存数据再处理，使用kafkaSpout这一集成对象，直接订阅kafka的topic作为Spout的数据流，代码在提交的压缩包里的src/application文件夹中。代码解析如下，

利用配置文件配置kafkaSpout，输入参数是订阅的topic，代理，以及要将Byte流的数据转化成string形式，Topology的结构和测试是相同的，提交方式依旧是本地提交，在Topology.java中设置主程序的入口。

public static void main(String[] args)throws Exception{
        String zkConnString="cluster1:2181,cluster2:2181,cluster3:2181";
        String topic=args[0];
        BrokerHosts hosts=new ZkHosts(zkConnString);//Kafka代理
        //kafka配置
        SpoutConfig kafkaSpoutConfig=new SpoutConfig(hosts,topic,"/"+topic, UUID.randomUUID().toString());
        kafkaSpoutConfig.bufferSizeBytes=1024*1024*300;
        kafkaSpoutConfig.fetchSizeBytes=1024*1024*300;
        kafkaSpoutConfig.scheme=new SchemeAsMultiScheme(new StringScheme());

        //定义topology，storm直接从kafka的topic获取数据
        KafkaSpout spout=new KafkaSpout(kafkaSpoutConfig);
        Split_Bolt split_bolt=new Split_Bolt();
        Sum_Bolt sum_bolt=new Sum_Bolt();
        TopologyBuilder builder=new TopologyBuilder();//定义拓扑
        builder.setSpout("data_source",spout,1);//设置spout线程
        builder.setBolt("split_data",split_bolt,1).shuffleGrouping("data_source");//设置split_bolt线程
        builder.setBolt("sum_data",sum_bolt,1).shuffleGrouping("split_data");//设置sum_bolt线程

实验结果

由于实验室的条件很不稳定，kafka总会掉线，所以只处理了一部分数据，结果如下

4.4 数据的存储

4.4.1 Hbase存储

使用HBase存储实际上就是将我们实验三的程序在这里集成一下，利用创建的连接类进行数据的插入即可，实验过程如下。

实验流程

首先要启动hbase，kafka，storm，启动程序都在实验一的文档中，storm的注意事项在数据消费阶段也提到了，这里不再重复。在本地创建一个lib文件夹，里面存储数据消费的集成包和hbase运行的包，在消费者端部署4.3的全部消费者源码以及HBaseUtils.java、Hbase_Store.java。

编译程序，键入

javac -cp lib/*: *.java

编译成功

按照4.3的运行流程，运行程序，利用hbase内核查看结果

因为只有30条数据，结果在第二张图片更清晰，可以与4.3的结果文件比对一下。

源码解析

Sum_Bolt.cleanup

在这一部分做了一些修改，将4.3的写入文件改成了写入数据库，并打印一些标识

@Override
public void cleanup(){
    System.out.println("==============begin to put data into HBase==============");
    if(hbase.hbase_store(list_camp,sum)==24*list_camp.size()){
        System.out.println("==================data has been put into HBase===================");
    }
    else {
        System.out.println("==================Some data lost==================");
    }
}

HBaseUtils.java

在这里我们不讲全部HBaseUtils文件做解析了，因为在实验三都使用过了，只介绍两个我们用到的方法。

第一个是创建table，没什么解析的，就调用方法就行。

/**
     * 创建 HBase 表
     *
     * @param tableName      表名
     * @param columnFamilies 列族的数组
     */
    public static boolean createTable(String tableName, List<String> columnFamilies) {
        try {
            HBaseAdmin admin = (HBaseAdmin) connection.getAdmin();//获取admin
            if (admin.tableExists(tableName)) {
                return false;
            }
            HTableDescriptor tableDescriptor = new HTableDescriptor(TableName.valueOf(tableName));
            for(String columnFamily:columnFamilies){
                HColumnDescriptor columnDescriptor = new HColumnDescriptor(columnFamily);
                columnDescriptor.setMaxVersions(1);
                tableDescriptor.addFamily(columnDescriptor);
            }
            admin.createTable(tableDescriptor);
        } catch (IOException e) {
            e.printStackTrace();
        }
        return true;
    }

添加行，输入参数表名，列簇名，列名，行号，值。

/**
     * 插入数据
     *
     * @param tableName        表名
     * @param rowKey           唯一标识
     * @param columnFamilyName 列簇名
     * @param qualifier        列标识
     * @param value            数据
     */
    public static boolean putRow(String tableName, String rowKey, String columnFamilyName, String qualifier,
                                 String value) {
        try {
            Table table = connection.getTable(TableName.valueOf(tableName));//连接表
            Put put = new Put(Bytes.toBytes(rowKey));//读入行名
            put.addColumn(Bytes.toBytes(columnFamilyName), Bytes.toBytes(qualifier), Bytes.toBytes(value));//读入列簇名，列名，以及值
            table.put(put);
            table.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return true;
    }

Hbase_Store.java 定义了插入数据的执行方法，在第一个解析的cleanup方法中调用了。

属性定义，列名

private final List<String> column= Collections.singletonList("company");//列簇名

执行方法，参数为公司表单和聚合数据，先创建一个表名为“ITARES_SUM“的表，然后遍历数组将数据插入，每个列名为公司名，行号就是起始时间，并且将插入数据数放回到cleanup做一个判断数据是否丢失。

public int hbase_store(List<String> list_cmap, int[][] sum) {
    //创建HBase表，表名为ITARES_SUM
    //HBase表名
    String tablename = "ITARES_SUM";
    if(HBaseUtils.createTable(tablename, column)){
        System.out.println("======================Successfully create hbase table=====================");
    }else {
        System.out.println("======================Failed to create hbase table===================");
    }
    //写入数据
    System.out.println("==========================begin to put data========================");
    int count=0;
    for(int i=0;i<24;i++){
        for(int j=0;j<list_cmap.size();j++){
            System.out.println("=================data row "+i+" col "+j);
            HBaseUtils.putRow(tablename,String.valueOf(i),"company",list_cmap.get(j),String.valueOf(sum[i][j]));
            System.out.println("=================data row "+i+" col "+j+" successfully put");
            count++;
        }
    }
    return count;
}

将测试的数据消费入库的全部操作完成，

4.4.2 Hive存储

配置JDBC远程连接

Hive刚安装完成时不支持远程连接，因此需要事先配置好，才能够使用JDBC进行远程连接并操作Hive数据库。
1. 配置hive-site.xml文件
  
  修改或添加下列属性到/usr/local/apache-hive-1.1.0-bin/conf/hive-site.xml，3台虚拟机都要配置。
```

<property>
	<name>hive.metastore.uris</name>
	<value>thrift://cluster2:9083</value>
	<description>metastore连接的url</description>
</property>


<property>
	<name>hive.server2.thrift.bind.host</name>
	<value>cluster2</value>
  <description>hiveserver2的连接host</description>
</propety>
<property>
	<name>hive.server2.thrift.port</name>
	<value>10000</value>
  <description>hiveserver2的连接端口</description>
</propety>
```
2. 初始化Hive服务
  
  在本实验平台上，Hive使用的数据库是mysql数据库中的hive数据库，因此需要对数据库进行重新建立操作。
  1. 在mysql数据库中删除hive（如果存在），如何新建数据库hive
```
drop database if exists hive;
create database hive;
```
  2. 将hive数据库的全部权限赋予Hive所使用的用户hive
```
grant all on hive.* to hive@’%’;
```
  3. 初始化Hive服务
```
schematool -initSchema -dbType mysql
```
    出现如下结果代表初始化Hive成功。
1. 启动远程连接服务
  1. 新开一个终端，切换到hadoop用户，启动metastore服务。
```
hive --service metastore
```
    出现如下界面即成功启动metastore服务。
  2. 再新开一个终端，切换到hadoop用户，启动hiveserver2服务。
```
hive --service hiveserver2
```
    出现如下界面即成功启动hiveserver2服务。
2. 测试
  
  使用beeline工具测试远程连接是否成功（最好使用apache-hive-1.1.0-bin/bin/目录下的beeline进行测试）
```
cd /usr/local/apache-hive-1.1.0-bin/
bin/beeline -u jdbc:hive2://cluster2:10000/default -n hadoop
```
  出现如下结果，可以远程连接对Hive进行操作。

远程操作Hive数据库文件 HiveTools.java

为了便于连接并操作Hive，书写了java代码，使用 JDBC 工具远程连接并操作Hive数据库，具体功能在HiveTools.java中集成实现

基础配置

包括JDBC连接Hive数据库配置，连接HDFS文件系统配置等

private final static String driverName = "org.apache.hive.jdbc.HiveDriver";
private final static String databaseName = "myTest";  // 数据库名称 数据库必须存在，否则要手动创建
private final static String tableName = "demo2";  // 数据表名称
private static String sql;
private static Connection connection;
private static Statement statement;
private static ResultSet resultSet;
private static Configuration conf;

static {
    try {
        Class.forName(driverName);
    } catch (ClassNotFoundException e) {
        e.printStackTrace();
        System.exit(1);
    }
    try {
        String user_name = "hadoop";  // 用户名
        String user_password = "19281020";  // 密码
        connection = DriverManager.getConnection(
                "jdbc:hive2://cluster2:10000/" + databaseName, 
								user_name, user_password);
        statement = connection.createStatement();
        System.out.println(connection);
    } catch (Exception e) {
        e.printStackTrace();
    }
    try {
        // 加载HDFS文件配置项
        conf = new Configuration();
        conf.set("fs.defaultFS", "hdfs://cluster1:9000");
        conf.set("fs.hdfs.impl", "org.apache.hadoop.hdfs.DistributedFileSystem");
    } catch (Exception e) {
        e.printStackTrace();
    }
}

创建实验存放数据的表

/**
 * 创建内部表
 * @param colName 内部表字段名称
 * @param colType 内部表字段类型
 */
public static void createTable(List<String> colName, List<String> colType) throws SQLException {
    // 若存在则先移除表
    sql = "drop table if exists " + tableName;
    statement.execute(sql);

    // 表结构设计
    String colStr = "(";  // 内部表字段
    int colLen = colName.size();
    for (int i = 0; i < colLen - 1; i++) {
        colStr += colName.get(i) + " " + colType.get(i) + ',';
    }
    colStr += colName.get(colLen - 1) + " " + colType.get(colLen - 1) + ")";

    // 创建内部表
    System.out.println("====== create table " + tableName + " ======");
    sql = String.format("create table %s %s row format delimited fields terminated by ','", tableName, colStr);
    statement.execute(sql);

    // 打印表结构
    describeTable();
}

上传数据操作

将实验数据上传到HDFS文件系统中，便于将实验数据存入Hive数据库

/**
 * 将数据上传到 HDFS 上的文件中
 * @param targetPath HDFS 路径
 * @param list_camp 公司名称
 * @param count 成交次数
 */
public static void uploadData(String targetPath, List<String> list_camp, int[][] count) throws IOException {
    // 创建文件系统实例
    FileSystem fs = FileSystem.get(conf);
    // 创建文件实例
    Path file = new Path(targetPath);
    // 重建文件
    FSDataOutputStream outputStream = fs.create(file, true);

    System.out.println("====== upload data to HDFS ======");
    long t1 = System.currentTimeMillis();
    for (int i = 0; i < list_camp.size(); i++) {
        String name = list_camp.get(i);  // 公司名称
        for (int j = 0; j < count.length; j++) {
            int sum = count[j][i];  // 成交次数
            // 写入数据到文件中
            outputStream.write(String.format("%s,%d,%d\n", name, j, sum).getBytes(StandardCharsets.UTF_8));
            //System.out.println(String.format("%s,%d,%d", name, j, sum));
        }
    }
    long t2 = System.currentTimeMillis();
    System.out.println("succeed to upload data to " + "hdfs://cluster1:9000" + targetPath );
    // 打印消耗时间
    System.out.printf("upload data spend time %dms%n", t2 -t1);
    fs.close();
}

导入数据

将HDFS中的数据文件导入到Hive表中存放

/**
 * 从HDFS中导入数据到Hive表中
 * @param filePath 数据文件在HDFS中的绝对路径  eg: /kunHive/data.txt
 */
public static void loadData(String filePath) throws SQLException, IOException {
    System.out.println("====== load data inpath filePath overwrite into table " + tableName + " ======");

    if (!checkFile(filePath, false)) {
        if (!putFile("data.txt", filePath)) {
            return;
        }
    }

    // 开始导入数据
    long t1 = System.currentTimeMillis();
    sql = String.format("load data inpath '%s' overwrite into table %s", filePath, tableName);
    statement.execute(sql);
    long t2 = System.currentTimeMillis();
    // 打印消耗时间
    System.out.printf("load data spend time %dms%n", t2 -t1);
}

查看数据

查看导入到Hive表中的所有数据并返回

/**
 * select * from tableName;
 */
public static ResultSet selectAll() throws SQLException {
    System.out.println("====== select * from " + tableName + " ======");
    long t1 = System.currentTimeMillis();
    sql = String.format("select * from %s", tableName);
    resultSet = statement.executeQuery(sql);
    printResultSet(resultSet);  // 打印信息
    long t2 = System.currentTimeMillis();
    // 打印消耗时间
    System.out.printf("select data spend time %dms%n", t2 - t1);
    return resultSet;
}

对外接口

这个函数是对外接口，将实验得到的数据一步到位存放到Hive数据库中并展示。

/**
 * 此次实验的入口函数
 * @param list_camp 公司名称 list_camp.get(i)
 * @param count 成交次数 二维数组 时间j 成交次数 count[j][i]
 */
public static void storeToHive(List<String> list_camp, int[][] count) throws IOException, SQLException {
    // 传入参数存在空值则退出
    if (list_camp.isEmpty() || (count == null || count.length == 0) || (count.length == 1 && count[0].length == 0)) {
        return;
    }

    System.out.println("====== store data to Hive ======");
    long t1 = System.currentTimeMillis();
    // 初始化表，即判断是否存在，不存在则创建
    initialize();
    // 上传数据到 HDFS 中
    uploadData("/kunHive/data.txt", list_camp, count);
    // 将数据加载到 Hive 中
    loadData("/kunHive/data.txt");
    long t2 = System.currentTimeMillis();
    // 打印消耗时间
    System.out.printf("store data to Hive spend time %dms%n", t2 -t1);
    // 查看 Hive 中的数据
    selectAll();
}

演示

将Sum_Bolt.java文件中的cleanup函数修改为如下。

@Override
public void cleanup(){
    System.out.println("************** begin to write to Hive **************");
    try {
        HiveTools hiveTools = new HiveTools();
				hiveTools.storeToHive(list_camp, sum);
				System.out.println("************** finish write to Hive **************");
    } catch (Exception e){
	System.out.println("!!!!!! fail to write to Hive !!!!!!");
        e.printStackTrace();
    }
}

将HiveTools.java和修改后的Sum_Bolt.java文件移动到消费端，进行第4.3步：数据的采集和消费操作。
区别在于，编译和运行Consumer_pull.java文件时指令修改为如下

javac -cp lib/*:/usr/local/apache-hive-1.1.0-bin/lib/*:/usr/local/hadoop-2.6.5/share/hadoop/common/*:/usr/local/hadoop-2.6.5/share/hadoop/common/lib/*:/usr/local/hadoop-2.6.5/share/hadoop/hdfs/*: Consumer_pull.java
java -cp lib/*:/usr/local/apache-hive-1.1.0-bin/lib/*:/usr/local/hadoop-2.6.5/share/hadoop/common/*:/usr/local/hadoop-2.6.5/share/hadoop/common/lib/*:/usr/local/hadoop-2.6.5/share/hadoop/hdfs/*: Consumer_pull

运行结果：

![在这里插入图片描述](https://img-blog.csdnimg.cn/334c8ea723c942479e7cd1f0c22a44ba.png)

3. 在Hive数据库中查看结果
    
    ```sql
    use myTest;
    select * from demo2;
    ```

4.4.3 Hdfs存储

实验流程

使用Hdfs存储的过程首先应该按启动zookeeper集群，再在cluster1上启动HDFS和YARN。

$ zkServer.sh start   //启动zookeeper集群（所有cluster）
$ start-dfs.sh        //启动HDFS(cluster1)
$ start-yarn.sh       //启动YARN(cluster1

编译，按照4.3的步骤运行程序

//cluster1
$ kafka-topics.sh --create --zookeeper cluster1:2181,cluster2:2181,cluster3:2181 --replication-factor 3 --p  Created topic "test01"
$ javac -cp lib/*: *.java
$ java -cp lib/*: Producer_push
//cluster2
$ javac -cp lib/*: *.java
$ java -cp lib/*: Consumer_pull test01

在HDFS查看结果

$ hadoop fs -ls     //查看目录
$ hadoop fs -text fly-company_sum.txt  //查看文件内容

在此展示前30条数据的结果。

源码解析

编写uploadtoHDFS()函数实现对生成文件的上传功能

使用 FileSystem来与HDFS文件系统建立连接，再根据生成文件的存放位置和HDFS存放位置，用copyFromLocalFile进行从本地到HDFS的文件拷贝。可以在此处把函数放在Consumer_Pull.java的main函数中调用执行。

public void uploadtoHDFS() throws Exception{  
				// 1 创建配置信息对象
        String dsf = "hdfs://cluster1:9000";  
        Configuration conf = new Configuration();  
        FileSystem fs = FileSystem.get(URI.create(dsf),conf);  
        // 2  结果存放位置
        Path src = new Path( "fly-company_sum.txt");
        // 3  HDFS存放位置
        Path dst = new Path("final_flyout.txt");
        System.out.println("==============Upload to HDFS==============");
        fs.copyFromLocalFile(src, dst);
        System.out.println("==============finish Upload==============");
    }

4.4.4 Mysql存储

使用Maven管理拓展jar包依赖
ORM类型框架MyBatis成Mysql数据库管理
- 查询
- 插入
- 删除
- 修改
使用Junit4进行单元测试

第一步：

配置数据源：采用本地数据库测试（前端展示可以采用其他数据源）

操作映射：


DOCTYPE configuration
        PUBLIC "-//mybatis.org//DTD Config 3.0//EN"
        "http://mybatis.org/dtd/mybatis-3-config.dtd">
<configuration>
    <environments default="dev">
        <environment id="dev">
            <transactionManager type="JDBC">transactionManager>
            <dataSource type="POOLED">
                <property name="driver" value="com.mysql.jdbc.Driver"/>
                <property name="url"
                          value="jdbc:mysql://rm-2ze1525no1u02fazjao.mysql.rds.aliyuncs.com:3306/cloud_db?useUnicode=true&characterEncoding=UTF-8"/>
                <property name="username" value="xxx"/>
                <property name="password" value="xxx"/>
            dataSource>
        environment>
    environments>
    <mappers>
        <package name="dao">package>
    mappers>
configuration>

第二步：工具类

package com.liangjiajia.mybatis.utils;

import org.apache.ibatis.io.Resources;
import org.apache.ibatis.session.SqlSession;
import org.apache.ibatis.session.SqlSessionFactory;
import org.apache.ibatis.session.SqlSessionFactoryBuilder;

import java.io.IOException;
import java.io.Reader;

public class MyBatisUtils {
    private static SqlSessionFactory sqlSessionFactory = null;

    static {
        Reader reader = null;
        try {
            reader = Resources.getResourceAsReader("mybatis-config.xml");
            sqlSessionFactory = new SqlSessionFactoryBuilder().build(reader);
        } catch (IOException e) {
            e.printStackTrace();
            throw new ExceptionInInitializerError(e);
        }
    }

    public static SqlSession openSession() {
        return sqlSessionFactory.openSession();
    }

    public static void closeSession(SqlSession session) {
        if (session != null) {
            session.close();
        }
    }
}

package utils;

import java.io.IOException;
import java.io.RandomAccessFile;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

public class IOUtils {
    public static void main(String[] args) {
        IOData();
    }

    public static List<Map<String, Integer>> IOData() {
        List<Map<String, Integer>> entries = new ArrayList<Map<String, Integer>>();
        try {
            RandomAccessFile file = new RandomAccessFile("src/main/java/fly-company_sum.txt", "r");
            String str;
            while ((str = file.readLine()) != null) {
                Map<String, Integer> temp = new HashMap<String, Integer>();
                int index = str.indexOf(":");
                int time = Integer.parseInt(str.substring(0, index));
                temp.put("time", time);
                String ss = str.substring(index + 2);
                String[] sss = ss.split(" ");
                for (int i = 1, j = 0; j < sss.length; i++) {
                    temp.put(sss[j].toLowerCase(), Integer.parseInt(sss[j + 1]));
                    j += 2;
                }
                entries.add(temp);
            }
            file.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return entries;
    }
}

测试：

第三步：实体类Sum.java
第四步：DAO SQL语句接口

package dao;

import entity.Sum;
import org.apache.ibatis.annotations.Insert;
import org.apache.ibatis.annotations.SelectKey;

public interface SumDAO {
    @Insert("INSERT INTO `sum`(`time`,ca, cx, ae, hx, b7, ci, hu, gs, mu, cz, tg) VALUES (#{time}, #{ca} , #{cx}, #{ae}, #{hx}, #{b7}, #{ci},#{hu}, #{gs}, #{mu}, #{cz}, #{tg})")
    @SelectKey(statement = "select last_insert_id()", before = false, keyProperty = "time", resultType = Integer.class)
    public int insert(Sum sums);
}

远程连接测试

@Test
public void testMyBatisUtils() throws Exception {
    SqlSession sqlSession = null;
    try {
        sqlSession = MyBatisUtils.openSession();
        Connection connection = sqlSession.getConnection();
        System.out.println(connection);
    } catch (Exception e) {
        throw e;
    } finally {
        MyBatisUtils.closeSession(sqlSession);
    }
}

远程初始化数据库

@Test
public void testInsert() throws Exception {
    SqlSession session = null;
    try {
        session = MyBatisUtils.openSession();
        List<Map<String, Integer>> collection = IOUtils.IOData();
        for (Map<String, Integer> element : collection) {
            Class SumClass = Class.forName("entity.Sum");
            Class[] classes = new Class[12];
            Arrays.fill(classes, Integer.class);
            Constructor constructor = SumClass.getConstructor(classes);
            Object[] objects = new Object[12];
            Arrays.fill(objects, 0);
            Sum sum = (Sum) constructor.newInstance(objects);
            for (String key : element.keySet()) {
                Integer value = element.get(key);
                Field keyField = SumClass.getDeclaredField(key);
                keyField.setAccessible(true);
                keyField.set(sum, value);
            }
            SumDAO sumDAO=session.getMapper(SumDAO.class);
            sumDAO.insert(sum);
            session.commit();
        }
    } catch (Exception e) {
        if (session != null) {
            session.rollback();
        }
        throw e;
    } finally {
        MyBatisUtils.closeSession(session);
    }
}

Alibaba MySQL 查看

初始化云数据库成功（前面演示的30条数据）

4.5 可视化展示

4.5.1 后端实现

django 环境配置

安装虚拟环境以及django

// 首先打开Anaconda Prompt,新建一个名为djangoEnv的虚拟环境
conda create -n djangoEnv python=3.6.3
//  进入虚拟环境
activate djangoEnv
// 安装django 2.1.4 版本
pip install django==2.1.4

检查是否安装成功

// 检测是否安装成功。在命令行中输入python 
import django
django.get_version()

设置环境变量

输入 conda env list 查看该虚拟环境的安装路径。

然后在该安装路径下找到Script 文件夹

Scripts 文件夹中有一个django-admin.exe文件，就说明Django已安装成功。把scripts文件夹的路径加入操作系统的环境变量Path中，这样就可以直接在命令行终端输入Django命令。
在这里插入图片描述

创建django 项目

使用 django-admin 来创建项目：Anaconda Prompt窗口下输入django-admin startproject 项目名称

然后就可以看到新生成的项目目录bigdata,以及manage.py文件，可以通过这个文件生成应用程序。

然后打开项目目录，会有4个文件，分别如下

	__init.py__　
　# 一个空文件，用来告诉Python这是myproject目录的一个模块
　setting.py　 
　# 项目配置文件，包含一些初始化设置# 存放URL表达式的文件，这里定义的每一个URL都对应一个视图函数，这个文件称为路由文件
　urls.py
　# 服务器程序和应用程序的一个协议接口，规定了使用的接口和功能，这个文件不需修改， Django已为项目配置好
　wsgi.py
　# 一个 WSGI 兼容的 Web 服务器的入口，以便运行你的项目

创建应用程序

创建应用（一个项目下可以创建多个应用）：键入命令python manage.py startapp myapp

__init__.py
admin.py　　# 配置管理后台，写少量代码就可以启用Django Admin管理后台
apps.py：　　# 存放当前应用程序的配置
models.py　 # 存放数据库相关的内容
tests.py　　# 可在这个文件写测试代码以对当前应用程序进行测试
views.py　　# 存放业务请求功能的代码
migrations/ # 这个文件夹中的文件保存该应用程序的数据库表与变化的相关内容

最后在pycharm中导入django的环境

连接阿里云数据库

新建一个云数据库 cloud_db
创建表格

use `cloud_db`;
DROP TABLE IF EXISTS sum;
create table sum
(
   	time int(10)AUTO_INCREMENT ,
   	ca int (10) DEFAULT 0,
   	cx int (10) DEFAULT 0,
    ae int (10) DEFAULT 0,
    hx int (10) DEFAULT 0,
    b7 int (10) DEFAULT 0,
    ci int (10) DEFAULT 0,  
    hu int (10) DEFAULT 0,
   	gs int (10) DEFAULT 0,
    mu int (10) DEFAULT 0,
    cz int (10) DEFAULT 0,
    tg int (10) DEFAULT 0,
    primary key (time)
);

DESC sum;

运行效果如下图所示：

向表中插入数据
连接阿里云数据库RDS

首先现在阿里云控制台上申请一个外网地址，然后复制该外网地址。

setting.py 文件中修改数据库的配置如下：

NAME：数据库的名称。先要进阿里云创建一个数据库才行，因为一个RDS云数据库里面可以有很多个数据库的。

USER：阿里云数据库的账号。

PASSWORD：账号的密码。

HOST：数据库服务器的外网地址。

PORT：数据库默认的端口是3306。

然后需要在_init_.py文件中添加如下配置，指明以pymysql模块代替MySQLdb模块，这里要十分注意字母的大小写

功能模块1：表格显示

编写models.py文件，建立数据表。

其中sum是数据表的名称，以一个类的形式被定义。然后接下来的每一项都是一列数据。如time表示时间段，其中0表示0_{1点，1表示1}2点，以此类推。后续的ca, cx分别表示不同航空公司在该时间段预定成功的个数。

from django.db import models

# Create your models here.
class sum(models.Model):
    time = models.IntegerField()
    ca = models.IntegerField(default=0)
    cx = models.IntegerField(default=0)
    ae = models.IntegerField(default=0)
    hx = models.IntegerField(default=0)
    b7 = models.IntegerField(default=0)
    ci = models.IntegerField(default=0)
    hu = models.IntegerField(default=0)
    gs = models.IntegerField(default=0)
    mu = models.IntegerField(default=0)
    cz = models.IntegerField(default=0)
    tg = models.IntegerField(default=0)

编写views.py文件，实现业务逻辑代码

定义一个index函数，传入的参数是request的请求信息。首先用MySQLdb.connect函数用来连接数据库，然后用游标conn.cursor对数据表进行遍历。得到数据库cloud_db中数据表sum的所有信息，然后用render返回给网页进行展示。

编写index.xml文件，建立网页模板

在myapp下新建一个templates的文件夹，然后在该文件夹下新建一个index.html的文件。

DOCTYPE html>
<html lang="en">
<head> <meta charset="UTF-8">
    <title>数据汇总title>
head>
<body> <table border="1px" width="100%" style="border-collapse: collapse;">
    <h1>大数据统计平台h1>
    <h5>说明: Time这列中0表示0点到1点，1表示1点到2点，依次类推h5>
    <tr>
    <th>序号th>
    <th>Timeth>
    <th>CAth>
    <th>CXth>
    <th>AEth>
    <th>HXth>
    <th>B7th>
    <th>CIth>
    <th>HUth>
    <th>GSth>
    <th>MUth>
    <th>CZth>
    <th>TGth>
    tr>
    {% for item in items %}
    <tr>
        <td>{{ forloop.counter }} td>
        <td align="center">{{ item.time }}td>
        <td align="center">{{ item.ca }}td>
        <td align="center">{{ item.cx }} td>
        <td align="center">{{ item.ae }}td>
        <td align="center">{{ item.hx }} td>
        <td align="center">{{ item.b7 }}td>
        <td align="center">{{ item.ci }} td>
        <td align="center">{{ item.hu }}td>
        <td align="center">{{ item.gs }} td>
        <td align="center">{{ item.mu }}td>
        <td align="center">{{ item.cz }} td>
        <td align="center">{{ item.tg }}td>
    tr>
    {% endfor %}

table>
body>
html>

配置urls.py, 建立URL和视图函数的对应关系

首先在myapp文件夹下新建一个urls.py文件，在urlpatterns中添加列表项，声明views中编写的逻辑代码与网页地址之间的映射关系，代码内容如下

from django.conf.urls import url
from . import views
urlpatterns = [ url(r'^$', views.index),
                ]

然后还需要修改bigdata/urls.py 文件，使其包括所有在myapp/urls.py中定义的路径，修改代码如下：

from django.contrib import admin
from django.urls import path,include
from myapp import views
urlpatterns = [
    path('admin/', admin.site.urls),
    path('', include('myapp.urls')),
]

运行代码，测试结果

直接在pycharm中点击运行，然后在浏览器中访问127.0.0.1:8000 , 效果示意如下图，说明成功的实现了代码逻辑部分。

功能模块2：数据查询

在views.py文件中添加逻辑函数time_select，执行SELECT * FROM sum where time between 0 and 11 实现按照时间段的范围进行查找的功能。

编写time_select.html文件,实现前端网页模板

建立URL与视图函数间的对应关系

在主页面index中添加查询入口

同理，按照上述的方法还实现了查询13-24点的航班预定信息。测试效果如下

功能模块3——数据统计

按照功能模块2的实现方法，同样可以编写逻辑函数，通过对游标执行不同的sql语句实现数据的统计功能。例如 cursor.execute("SELECT AVG(ca) as avg_ca,AVG(cx) as avg_cx, AVG(ae) as avg_ae, AVG(hx) as avg_hx, AVG(b7) as avg_b7, AVG(ci) as avg_ci, AVG(hu) as avg_hu,AVG(gs) as avg_gs,AVG(mu) as avg_mu, AVG(cz) as avg_cz,AVG(tg) as avg_tg from sum") 语句实现平均值，然后还可以将AVG函数变为MAX，MIN函数来求解最大值和最小值。具体实现不再赘述，功能展示如下：

功能模块4——数据排序

按照功能模块2的实现方法，同样可以编写逻辑函数，通过对游标执行不同的sql语句实现数据的排序功能。例如 SELECT * FROM sum order by ca 语句实现按照ca的数量进行升序排序，然后还可以在其后添加关键字 DESC实现降序排序。具体实现不再赘述，功能展示如下：

4.5.2 前端实现

前端实现配置

由于Django在默认情况下不能实现CSS、FONT等界面前端效果，因此我们需要对Django进行进一步配置。

在项目中manage.py同级目录下新建static文件夹，在static文件夹下新建css、js等文件夹，并在相应的文件下放入我们需要的文件。

与项目同名的包下的settings.py中配置静态文件路径，在settings.py的最后面，STATIC_URL = '/static/'这一行后面添加：

STATIC_URL = '/static/'
STATICFILES_DIRS = [
    (os.path.join(BASE_DIR, 'static'))
]

在调用了.css文件的html文件(templates\index.html)中加入custom-style.css的路径，注意此处路径为/static/css/custom-style.css
在terminal下运行python [manage.py](http://manage.py) runserver，在浏览器中输入http://127.0.0.1:8000/即可看见可视化界面（下图为index.html文件的示例）

界面总体设计

基于4.5.1中提到的后端基本功能，我们进行了界面的进一步细化与展示。

我们将现有功能分为四部分（全部数据展示、数据查询、数据统计、数据排序），并由index.html作为主界面完成数据的全部展示，并在界面左侧提供数据查询、统计与排序的选项，点击左侧栏相应按钮进行功能界面跳转。各界面展示如下

首页：index.html

此部分主要采取表格的形式展示，如上图

数据查询（0-11）：time_select.html

数据查询（12-23）：time_select2.html

数据统计-计算平均值（cal_avg.html）

在此界面除了利用表格展示信息外，我们额外增加了柱状图便于观察。

首先引入echarts用以柱状图的显示，需要在中加入

<script src="https://cdn.bootcdn.net/ajax/libs/echarts/5.3.2/echarts.common.js"></script>

然后在中加入柱状图的具体实现部分，用dd存取从数据库中获取的数据，由于获取的数据为一个字符串，且存在一定的干扰项，因此我们通过正则语法对其进行拆分，再将拆分后的数据进行显示。

<script type="text/javascript">
    var dd = '{{ items }}';
    console.log(typeof dd);
    var ss = dd.match(/\d+\.\d+/g);
    ss = ss.map(Number);
    var myChart = echarts.init(document.getElementById('main'));
    var option = {
        title: {
            text: '不同航班的平均值'
        },
        tooltip: {},
        legend: {
            data: ['count']
        },
        xAxis: {
            data: ['CA', 'CX', 'AE', 'HX', 'B7', 'CI', 'HU', 'GS', 'MU', 'CZ', 'TG']
        },
        yAxis: {},
        series: [
            {
                name: 'count',
                type: 'bar',
                data: ss
            }
        ]
    };
    myChart.setOption(option);
</script>

界面运行展示如下：

数据统计-计算最大值（cal_max.html）

同cal_avg.html一样，我们采用了echarts用以显示折线图，除了增加必要的echarts引用外，我们还需要在部分增加的代码部分如下

<script type="text/javascript">
    var dd = '{{ items }}';
    console.log(dd);
    console.log(typeof dd);
    var dd = dd.split("'");
    console.log(dd);
    var ss = []
    for (var i = 1; i <= dd.length - 1; i++) {
        if (i % 2 == 0) {
            ss.push(dd[i]);
            console.log(dd[i]);
        }
    }
    for (let i in ss) {
        ss[i] = ss[i].replace(/[^0-9]/ig, "");
        console.log(ss[i]);
    }
    ss = ss.map(Number);
    var myChart = echarts.init(document.getElementById('main'));
    var option = {
        xAxis: {
            data: ['CA', 'CX', 'AE', 'HX', 'B7', 'CI', 'HU', 'GS', 'MU', 'CZ', 'TG']
        },
        yAxis: {},
        series: [
            {
                data: ss,
                type: 'line',
                label: {
                    show: true,
                    position: 'bottom',
                    textStyle: {
                        fontSize: 20
                    }
                }
            }
        ]
    };
    myChart.setOption(option);
</script>

界面运行展示如下：

数据统计-计算最小值（cal_min.html）

部分增加的代码部分如下：

<script type="text/javascript">
    var dd = '{{ items }}';
    console.log(dd);
    console.log(typeof dd);
    var dd = dd.split("'");
    console.log(dd);
    var ss = []
    for (var i = 1; i <= dd.length - 1; i++) {
        if (i % 2 == 0) {
            ss.push(dd[i]);
            console.log(dd[i]);
        }
    }
    for (let i in ss) {
        ss[i] = ss[i].replace(/[^0-9]/ig, "");
        console.log(ss[i]);
    }
    ss = ss.map(Number);
    var myChart = echarts.init(document.getElementById('main'));
    var option = {
        xAxis: {
            data: ['CA', 'CX', 'AE', 'HX', 'B7', 'CI', 'HU', 'GS', 'MU', 'CZ', 'TG']
        },
        yAxis: {},
        series: [
            {
                data: ss,
                type: 'line',
                label: {
                    show: true,
                    position: 'bottom',
                    textStyle: {
                        fontSize: 20
                    }
                }
            }
        ]
    };
    myChart.setOption(option);
</script>

界面运行展示如下：

数据排序-按CA降序排序(orderby_ca.html )、按CA升序排序(orerby_ca_up.html)

4.5.3 网站部署

环境部署

一、下载 python3 到/usr/local 目录
1.1. 切换到 /usr/local 目录
1.2. 获取 python3.6 的压缩文件 wget [https://www.python.org/ftp/python/3.6.3/Python-3.6.3.tgz](https://www.python.org/ftp/python/3.6.3/Python-3.6.3.tgz)
1.3 解压 python3.6 tar -zxvf Python-3.6.6.tgz

1.4 编译安装 python3 到指定路径

1.4.1 执行命令 ./configure --prefix=/usr/local/python3
1.4.2 安装 python3 make make install
1.4.3 安装完成之后，建立软链接，添加变量，方便在终端中直接使用 python3
a)python3 的软连接
执行命令： ln -s /usr/local/python3/bin/python3.6 /usr/bin/python3
b)pip3 的软连接
执行命令： ln -s /usr/local/python3/bin/pip3.6 /usr/bin/pip3

二、安装软件管理包和可能使用的依赖
2.1. 执行命令： yum -y groupinstall "Development tools"
2.2. 执行命令： yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel

三、安装 virtualenv
3.1.执行命令： pip3 install virtualenv
3.2.建立软连接执行命令： ln -s /usr/local/python3/bin/virtualenv /usr/bin/virtualenv
3.3.在根目录下建立文件夹，用于存放 env mkdir -p /data/env

四、切换到/data/env/下，创建指定版本的虚拟环境
4.1.执行命令： cd /data/env 切换目录
4.2.执行命令： virtualenv --python=/usr/bin/python3 pyweb
4.3.进入/data/env/pyweb/bin，启动虚拟环境
A.执行命令： cd /data/env/pyweb/bin
B.执行命令： source activate

修改代码配置

修改 setting.py 文件

ALLOWED_HOSTS = ['*'] # 设置为所有的主机都可以访问
STATIC_ROOT = os.path.join(BASE_DIR,"static") # 设置静态文件的路径
DEBUG = False

修改url.py文件, 添加静态配置路径

urlpatterns = [
    path('admin/', admin.site.urls),
    path('', include('myapp.urls')),
    url(r'^static/(?P.*)$',static.serve,{'document_root': '/www/wwwroot/bigdata/static',}),
]

代码上传与启动

通过阿里云控制台，开放安全组

首先通过宝塔面板，将代码上传到阿里云服务器上。

输入如下命令，激活并进入虚拟环境

cd /www/wwwroot/bigdata/
source /data/env/pyweb/bin/activate

然后启动网站

python manage.py runserver 0.0.0.0:8002

测试

分别在手机和电脑的浏览器中输入域名+端口号

电脑端测试
手机端测试

5. 踩坑记录

在向kafka传输数据时，出现以下错误，ERROR Failed to collate messages by topic, partition due to: Failed to fetch topic metadatafor topic: zzj(kafka.producer.async.DefaultEventHandler)，原因是kafka-0.8.2.1需要先手动创建topic然后才能发送数据，利用命令创建一个topic后报错消失，但原先的报错并不影响topic的创建。
导入路径运行程序时，报错，detected both log4j-over-slf4j.jar and bound slf4j-log4j12.jar on the class path，原因是kafka libs里面的slf4j-log4j12.jar和storm lib里面的log4j-over-slf4j.jar 冲突，将slf4j-log4j12.jar先剪切到本地，问题解决
消费者的线程数要与topic的分区数相对应，即一个线程对应一个分区，对应可以改正的错误没有遇到，但是我做了这方面的修改。
在部署kafka消费者和生产者时，一开始没有仔细理解kafka的结构，将生产者程序和消费者程序部署在同一台服务器上，导致无法接收到数据，以及程序卡住等现象，正确的顺序应该是消费者部署在cluster2，生产者部署在cluster1，先启动消费者，再启动生产者，数据传输成功。
在使用storm向集群上传数据时，需要将程序打包，在本地maven工程打包时，pom.xml的依赖导入不了，使用手动命令输入的形式，将包下载下来之后导入。命令如下mvn install:install-file -Dfile=libs/kafka_2.10-0.8.2.1.jar DgroupId=org.apache.kafka DartifactId=kafka_2.10 -Dversion=0.8.2.1 -Dpackaging=jar，这是kafka的包导入，storm格式相同，将名称改变即可。
在实验的后续过程中发现，测试和调试只需要在本地提交topology就可以，无需将程序打包，也就减少了很多错误的处理。
在kafka消费者配置时有一个参数，consumer.timeout.ms，这个参数决定在消费者实例中while(it.hasnext())中判断条件的真值，其默认值为-1，所以在未设置时，此循环始终无法进入。
在4.3程序集成部分，storm 1.1.1的包中的kafkaSpout无法使用，将包替换成storm-core-1.0.4，不同核心的匹配方式在maven的依赖库中都能查找，并且还根据提示增加了依赖的包，最关键的是curator的client和framework包，添加后编译成功。
在4.3程序集成部分，在cluster2上接收数据时会报错java的heap满了，也就是java的堆满了，上网查找也并没有找到好的解决方法，仔细分析了一下，发现数据发送和处理的速度并不匹配，我认为应该是kafkaSpout将数据都先存储在数组中导致堆爆了，所以在发送数据端书写一个线程延迟，让发送和处理速度基本一致，发送一条就处理一条。问题解决。
在处理django view向模板文件发送item对象时，误认为为json object，发送不符合json对象标准，为了不破坏前后端的接口，我将其解析为字符串，并用正则表达式已经一系列字符串操作得到对应的数值，并结合Echart的图表官方给出的样例合理优化形成我们自己所需要的折线图和柱状图。

6. 心得体会

ZYW

通过本次实验，我主要负责了kafka数据的发送，网页展示的后端实现，以及网站的部署。首先对整个大数据流程都有一个整体的认识。其次，我们将数据保存到阿里云的RDS云数据库中，网站的后端连接云数据库。最后又把网站的代码上传到云服务器中，实现了通过域名就可以在任何设备上访问网站。在本次实验中，大家远程互相帮助，小组内的合作氛围非常好，使得我受益匪浅。
ZZJ

通过本次实验，我对kafka storm hbase在实际场景中的应用进行了尝试，提高了我的java编程能力，让我熟练掌握流处理技术和kafka之间的配合。掌握本次课程所学的所有技术，为将来的继续学习做了铺垫。理解了API，classpath在编译运行过程中的大致作用，完成了基本上整个的实验流程，收获很大。
ZYQ

本次大作业，我主要负责HDFS部分的数据存储以及前端的部分代码实现。虽然并没有完全的参与到整个实验设计中，但我对每一步实验流程都有着一定的了解。虽然在实验的过程中遇见过一定的复现困难，但在组内同学的帮助下，问题都得以解决。本次大作业对我不但是对本学期所学知识的一次巩固与提升，也是对我们小组分工合作能力的测试与考验，我从中受益匪浅。
WK

这次实验，我做的主要工作是将消费数据处理的结果存储到Hive数据库中。在这个过程中，我学习并掌握了利用 JDBC 远程连接并操作Hive的知识技能。由于一开始Hive未能开启远程连接方式，我还顺便学习了如何开启Hive远程连接的功能。
Hive 对于每一次insert和update操作，都要执行Map和Reduce的操作，因此我使用 load data 的方法将数据直接存储到数据库中，具体做法是先将数据临时存放到HDFS文件系统中，在将其导入Hive数据库，完成了实验要求。
LJJ

通过本次实验，在同学们共同的努力下完成了一个比较完整的企业数据处理流程，对我来说的任务主要是将解析数据文本并将数据存储在云数据库，以及和朱雨琦同学一起将将组长搭建的框架前端部分完善。因为这两项任务基于的都是我这学期学习的课程内容，相当于也是一种别样的训练。数据存储部分为了得到数据部署了张子健同学的相同的结果也走了一遍流程，大致了解了kafka的工作流程。总得来说，一是个人收获很大！其次十分感谢同学们的配合和支持！

7. 团队协作

ZYW负责工作
- 完成4.1：准备工作
- 完成4.2：数据的采集与发送
- 完成4.5.1: 数据可视化展示——后端实现
- 完成4.5.3: 网站部署
ZZJ负责工作
- 完成4.3：数据的消费和处理
- 完成4.4.1：数据的存储——Hbase存储
ZYQ负责工作
- 完成4.4.3：数据的存储——Hdfs存储
- 完成4.5.2：数据可视化展示——前端实现
WK负责工作
- 完成4.4.2：数据的存储——Hive存储
LJJ负责工作
- 完成4.4.4：数据的存储——mysql存储
- 完成4.5.2：数据可视化展示——前端实现

后记：由于时间原因，如网站可视化的交互功能以及界面比较简单，有待后续进一步完善和美化。

你可能感兴趣的:(#,大数据,kafka,big,data,hadoop)

Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
Kafka系列之：Dead Letter Queue死信队列DLQ 快乐骑行^_^ Kafka Kafka系列 Dead Letter Queue 死信队列 DLQ
Kafka系列之：DeadLetterQueue死信队列DLQ一、死信队列二、参数errors.tolerance三、创建死信队列主题四、在启用安全性的情况下使用死信队列更多内容请阅读博主这篇博客：Kafka系列之：KafkaConnect深入探讨-错误处理和死信队列一、死信队列死信队列（DLQ）仅适用于接收器连接器。当一条记录以JSON格式到达接收器连接器时，但接收器连接器配置期望另一种格式，如
消息中间件巡检搬砖小常消息中间件运维笔记 RocketMQ kafka 中间件巡检运维
除资源使用情况外，消息中间件RocketMQ、kafka还可以巡检哪些？一、RocketMQ巡检1、检查broker写入耗时是否有压力2、检查brokerbusy的数量与频率3、主题发送TPS、发送错误率巡检4、从节点消费情况检查5、集群各broker消息流转情况巡检二、Kafka巡检1、检查是否有分区发生ISR频繁扩张收缩2、检查分区leader选举值是否处于正常水平3、检查controller
“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
老系统改造增加初始化，自动化数据源配置（tomcat+jsp+springmvc）
老系统改造增加初始化，自动化数据源配置一、前言二、改造描述1、环境说明2、实现步骤简要思考三、开始改造1、准备sql初始化文件2、启动时自动读取jdbc文件，创建数据源，如未配置，需要一个默认的临时数据源2.1去掉spingmvc原本配置的固定dataSource，改为动态dataSource2.2代码类，这里是示例，我就不管规范了，放到一起2.2.1DynamicDataSourceConfig
redis中什么是bigkey？会有什么影响？ Vic2334 redis
什么是bigkey？会有什么影响？bigkey是指key对应的value所占的内存空间比较大，例如一个字符串类型的value可以最大存到512MB，一个列表类型的value最多可以存储23-1个元素。如果按照数据结构来细分的话，一般分为字符串类型bigkey和非字符串类型bigkey。字符串类型：体现在单个value值很大，一般认为超过10KB就是bigkey，但这个值和具体的OPS相关。非字符串
如何发现 Redis 中的 BigKey？ sevevty-seven redis bootstrap 数据库
如何发现Redis中的BigKey？Redis因其出色的性能，常被用作缓存、消息队列和会话存储。然而，在Redis的使用过程中，BigKey是一个不容忽视的问题。BigKey指的是存储了大量数据或包含大量成员的键。它们不仅会占用大量内存，还可能导致网络延迟、主从同步延迟，甚至在极端情况下引发Redis服务崩溃。因此，有效地发现和处理BigKey对于维护Redis服务的稳定性和性能至关重要。本文将深
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
TCP和UDP协议区别+应用场景+优缺点+常用协议马拉萨的春天一天一读基础知识点 tcp/ip udp 网络
文章目录1.TCP协议特点应用场景优点缺点运行于TCP协议之上的协议2.UDP协议特点应用场景优点缺点运行于UDP协议之上的协议TCP（TransmissionControlProtocol）和UDP（UserDatagramProtocol）是两种常用的传输层协议，它们在网络通信中扮演不同的角色，各有优缺点。1.TCP协议特点提供面向连接的、可靠的数据传输服务。使用三次握手建立连接，四次挥手断开
将多个小型YOLO数据集合并为一个大型数据集梦实学习室 YOLO python YOLO python 机器学习
一、将多个小型YOLO数据集合并为一个大型数据集importosimportshutilimportargparsedefmerge_data(source_dir,target_dir,images_dir,labels_dir):images_target=os.path.join(target_dir,images_dir)labels_target=os.path.join(target_
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
MySQL数据库访问（C/C++）敲上瘾 MySQL数据库 mysql 数据库 c++c语言数据库开发数据库架构
访问数据库的方式：命令行：使用命令行输入SQL指令直接访问。需记忆命令和SQL语法，对新手不友好。正因如此推荐新手使用该方式访问，能倒逼学习者对SQL语法的记忆，并对MySQL更深入理解。图形化界面访问：使用图形化界面工具，如：DBeaver、DataGrip、Navicat、HeidiSQL（MySQL）、MySQLWorkbench。特点：有语法提示，可以直接对数据手动增删改。编程接口：在编写
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink 2.0 DataStream算子全景 Edingbrugh.南空大数据 flink flink 人工智能
在实时流处理中，ApacheFlink的DataStreamAPI算子是构建流处理pipeline的基础单元。本文基于Flink2.0，聚焦算子的核心概念、分类及高级特性。一、算子核心概念：流处理的"原子操作1.数据流拓扑（StreamTopology）每个Flink应用可抽象为有向无环图（DAG），由源节点（Source）、算子节点（Operator）和汇节点（Sink）构成，算子通过数据流（S
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
Flink DataStream API详解（一） bxlj_jcj Flink flink 大数据
一、引言Flink的DataStreamAPI，在流处理领域大显身手的核心武器。在很多实时数据处理场景中，如电商平台实时分析用户购物行为以实现精准推荐，金融领域实时监控交易数据以防范风险，DataStreamAPI都发挥着关键作用，能够对源源不断的数据流进行高效处理和分析。接下来，就让我们一起深入探索FlinkDataStreamAPI。二、DataStream编程基础搭建在开始使用FlinkDa
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Flink DataStream API详解（二）
一、引言咱两书接上回，上一篇文章主要介绍了DataStreamAPI一些基本的使用，主要是针对单数据流的场景下，但是在实际的流处理场景中，常常需要对多个数据流进行合并、拆分等操作，以满足复杂的业务需求。Flink的DataStreamAPI提供了一系列强大的多流转换算子，如union、connect和split等，下面我们来详细了解一下它们的功能和用法。二、多流转换2.1union算子union算
docker常见问题解决方法小王聊技术 docker
目录迁移至其他服务器清理Docker占用的磁盘空间常见问题：迁移至其他服务器1.将docker容器导出dockerexport-o保存路径/xxx.tar容器id2.将容器tar远程拷贝到新的服务器(从新的服务器上向老服务器上请求复制)scproot@服务器地址:/data/xxx.tar/root3.将导入的tar包转为镜像dockerimport-cxxx.tarimage_name:tag
vue如何实现Cascader 级联选择器(二级全部选中只展示一级，三级全部选中只展示二级) 小周同学: vue vue.js
select提交重置级联exportdefault{data(){return{ruleForm:{selectLabel:[],idList:[],},citiesList:[],rules:{selectLabel:[{type:'array',required:true,message:'多选不能为空',trigger:'change'}],},props:{multiple:true,va
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修