保护胖丁

Day15:数据采集工具Flume与Sqoop

- 知识点01：回顾
- 知识点02：目标
- 知识点03：Flume的功能与应用
- 知识点04：Flume的基本组成
- 知识点05：Flume的开发规则
- 知识点06：Flume开发测试
- 知识点07：常用Source：Exec
- 知识点08：常用Source：Taildir
- 知识点09：常用Channel：file和mem
- 知识点10：常用Sink：HDFS
- 知识点11：Sqoop的功能与应用
- 知识点12：Sqoop导入：HDFS
- 知识点13：Sqoop导入：Hive
- 知识点14：Sqoop导入：增量
- 知识点15：Sqoop导出：全量
- 知识点16：Sqoop导出：增量
- 知识点17：Sqoop Job
- 知识点18：Sqoop密码问题与脚本封装

知识点01：回顾

在线教育项目中的需求和模块是什么？
- 需求
  - step1：基于各个维度统计分析转化率
    - 访问、咨询、意向、报名
  - step2：基于各个维度统计分析考勤指标
    - 出勤率、迟到率、旷课率、请假率
- 模块
  - 访问与咨询分析模块
  - 意向分析模块
  - 报名分析模块
  - 考勤分析模块
整个项目架构中使用到了哪些技术？
- 数据生成：MySQL
  - 访问与咨询：客服系统
  - 意向与报名：CRM系统
  - 考勤分析：学员管理系统
- 数据采集：Sqoop
- 数据存储：Hive【数据仓库】
- 数据处理：HiveQL：MapReduce
- 数据应用
  - 结果：MySQL
  - 报表：FineBI
- 可视化交互：Hue
- 任务流调度：Oozie
- 集群管理：CM
常用的数据源有哪些？
- 业务数据：MySQL
  - 本次项目所有数据都来自于业务系统
- 用户行为数据：日志文件
  - 基于埋点，监听用户的行为，将用户行为的数据发送给日志服务器
- 爬虫数据
- 运维数据
- 第三方数据

知识点02：目标

实时数据流采集工具：Flume
- 整个大数据平台中：Flume几乎都会是一个必选项
- 核心：实现实时数据采集
- 目标：掌握怎么使用Flume
  - 根据自己的需求和官方文档，学会自己开发Flume程序
基于Hadoop的数据库同步工具：Sqoop
- 项目中以及工作中依旧会用到
- 核心：Sqoop未来必然会被淘汰，底层必须依赖于MapReduce
- 目标：掌握Sqoop的使用
  - 记住Sqoop的功能和常用参数

知识点03：Flume的功能与应用

目标：掌握Flume的功能与应用场景
路径
- step1：功能
- step2：特点
- step3：应用
实施
- 功能
  - 数据采集：将数据从一个地方采集到另外一个地方
    - 将数据进行了复制
    - 大数据中的数据采集：将各种需要处理的数据源复制到大数据数据仓库中
  - 实现**分布式实时数据流**的数据采集，可以将各种各样不同数据源的数据实时采集到各种目标地中
    - 数据源：文件、网络端口
    - Flume：实时
    - 目标地：HDFS、Hbase、Hive、Kafka
- 特点
  - 功能全面
    - 所有的读取和写入的程序，都已经封装好了
    - 只需要配置从哪读，写入哪里，就可以实现采集
  - 允许自定义开发
    - 如果功能不能满足实际的业务需求，Flume提供各种接口，允许自定义开发
    - 基于Java开发的应用程序
  - 开发相对简单
    - 所有功能都封装好了，只要调用即可
    - 写一个配置文件：从哪读，读谁，写到哪里去
  - 可以实现分布式采集
    - 分布式采集：每一台机器都可以用Flume进行采集
    - 注意：自己不是分布式架构
- 应用
  - 应用于实时数据流采集场景
    - 基于**文件或者网络协议端口**的数据流采集
  - 美团的Flume设计架构
    - https://tech.meituan.com/2013/12/09/meituan-flume-log-system-architecture-and-design.html
小结
- Flume的功能是什么？
- 功能：实现分布式实时数据流的数据采集
  - 应用：实时采集文件或者网络端口

知识点04：Flume的基本组成

目标：掌握Flume的基本组成
路径
- step1：Agent
- step2：Source
- step3：Channel
- step4：Sink
- step5：Event
实施
- 官方：flume.apache.org

- http://flume.apache.org/releases/content/1.7.0/FlumeUserGuide.html

Agent：每个Agent就是一个Flume的程序，每个Agent由三个部分组成：source、channel、sink
Source：负责读取数据，Source会动态的监听数据源，将数据源新增的数据实时采集变成Event数据流，将每个Event发送到Channel中
- 每一条数据会变成一个Event
- 实时监听数据源
Channel：临时缓存数据，将source发送过来的event的数据缓存起来，供Sink取数据
- 内存、文件【磁盘】
Sink：负责发送数据，从Channel中读取采集到的数据，将数据写入目标地
- Sink主动到Channel中取数据的
Event：用于构建每一条数据的对象，每一条数据就会变成一个Event，进行传递，最终写入目标
- 组成
  - head：定义一些KV属性和配置，默认head是空的
  - body：数据就存在body中
- 理解
```
Event{
	Map head;
	byte[] body;--每一条数据的字节流
}
```
小结
- Flume中的Agent是什么，由什么组成？
  - 一个Agent就是一个Flume程序
- 组成：source、channel、sink
- Source、Channel、Sink的功能分别是什么？
  - source：负责读取数据源的数据
  - channel：负责临时缓存source采集到的数据
  - sink：负责从channel中读取数据，发送到目标地

知识点05：Flume的开发规则

目标：掌握Flume的基本开发规则
实施
- step1：开发一个Flume的参数配置文件
  - properties格式的文件
```
#step1：定义一个agent：agent的名称、定义source、channel、sink
#step2：定义source：读什么、读哪
#step3：定义channel：缓存在什么地方
#step4：定义sink：写入什么地方
```
- step2：运行flume的agent程序
```
flume-ng
Usage: bin/flume-ng  [options]...
```
  - 为什么叫flume-ng?
    - flume-og：老的版本，架构非常麻烦，性能非常差，后来不用了
    - flume-ng：现在用的版本
```
flume-ng agent --conf,-c   --conf-file,-f  --name,-n  
```
  - agent：表示要运行一个Flume程序
  - –conf,-c ：指定Flume的配置文件目录
  - –conf-file,-f ：要运行哪个文件
  - –name,-n ：运行的agent的名字是什么
    - 一个程序文件中可以有多个agent程序，通过名字来区别
小结
- 如何开发一个Flume程序？
  - step1：先开发一个配置文件：properties
    - 定义agent
    - 定义source
    - 定义channel
    - 定义sink
  - step2：运行这个文件
```
flume-ng agent -c  -f  -n 
```

知识点06：Flume开发测试

目标：实现Flume程序的开发测试
实施
- 需求：采集Hive的日志、临时缓存在内存中、将日志写入Flume的日志中并打印在命令行
  - source：采集一个文件数据

  - Exec Source
    - 功能：执行一条Linux的命令来实现采集
    - 命令：搭配tail -f

- channel：Flume提供了各种channel用于缓存数据

  - memory channel：将数据缓存在内存中

    

- sink：Flume提供了很多种sink

开发

创建测试目录

cd /export/server/flume-1.6.0-cdh5.14.0-bin
mkdir usercase

复制官方示例

cp conf/flume-conf.properties.template usercase/hive-mem-log.properties

开发配置文件

      # The configuration file needs to define the sources, 
      # the channels and the sinks.

    # Sources, channels and sinks are defined per a1, 
      # in this case called 'a1'
      #define the agent
      a1.sources = s1
      a1.channels = c1
      a1.sinks = k1

      #define the source
      a1.sources.s1.type = exec
      a1.sources.s1.command = tail -f /export/server/hive-1.1.0-cdh5.14.0/logs/hiveserver2.log

      #define the channel
      a1.channels.c1.type = memory
      a1.channels.c1.capacity = 10000

      #define the sink
      a1.sinks.k1.type = logger

      #bond
      a1.sources.s1.channels = c1
      a1.sinks.k1.channel = c1

运行

flume-ng agent -c conf/ -f usercase/hive-mem-log.properties -n a1 -Dflume.root.logger=INFO,console

-Dflume.root.logger=INFO,console：将flume的日志打印在命令行

结果

小结
- 实现测试即可

知识点07：常用Source：Exec

目标：掌握Exec Source的功能与应用场景
路径
- step1：功能与应用场景
- step2：测试实现
实施
- 功能与应用场景
  - 功能：通过执行一条Linux命令来实现数据动态采集
    - 固定搭配tail -f命令来使用
- 应用场景：实现动态监听采集单个文件的数据
- 测试实现
  - 需求：动态采集hiveserver的日志文件，输出在Flume的日志并打印在命令行中
  - 开发：参考知识点06
小结
- Exec Source的功能与应用场景是什么？
- 功能：通过执行Linux 命令实现数据的采集
  - 一般搭配tail -f
  - 应用：只能动态监听采集单个文件

知识点08：常用Source：Taildir

目标：掌握Taildir Source的功能与应用场景
路径
- step1：功能与应用场景
- step2：测试实现
实施
- 功能与应用场景
  - 应用场景
    - 需求：当前日志文件是一天一个，需要每天将数据实时采集到HDFS上
    - 数据：Linux
```
/tomcat/logs/2020-01-01.log
             2020-01-02.log
             ……
             2020-11-10.log
```
    - 问题：能不能exec source进行采集？
      - 不能，exec只能简单单个文件
    - 解决：Taildir Source
  - 功能：从Apache Flume1.7版本开始支持，动态监听采集多个文件
    - 如果用的是1.5或者1.6，遇到这个问题，需要自己手动编译这个功能
- 测试实现
  - 需求：让Flume动态监听一个文件和一个目录下的所有文件
  - 准备

      cd /export/server/flume-1.6.0-cdh5.14.0-bin
      mkdir position
      mkdir -p /export/data/flume
      echo " " >> /export/data/flume/bigdata01.txt
      mkdir  -p /export/data/flume/bigdata

开发

# define sourceName/channelName/sinkName for the agent 
a1.sources = s1
a1.channels = c1
a1.sinks = k1

# define the s1
a1.sources.s1.type = TAILDIR
#指定一个元数据记录文件
a1.sources.s1.positionFile = /export/server/flume-1.6.0-cdh5.14.0-bin/position/taildir_position.json
#将所有需要监控的数据源变成一个组，这个组内有两个数据源
a1.sources.s1.filegroups = f1 f2
#指定了f1是谁：监控一个文件
a1.sources.s1.filegroups.f1 = /export/data/flume/bigdata01.txt
#指定f1采集到的数据的header中包含一个KV对
a1.sources.s1.headers.f1.headerKey1 = value1
#指定f2是谁：监控一个目录下的所有文件
a1.sources.s1.filegroups.f2 = /export/data/flume/bigdata/.*
#指定f2采集到的数据的header中包含一个KV对
a1.sources.s1.headers.f2.headerKey1 = value2
a1.sources.s1.fileHeader = true

# define the c1
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# def the k1
a1.sinks.k1.type = logger

#source、channel、sink bond
a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

结果

元数据文件的功能：/export/server/flume-1.6.0-cdh5.14.0-bin/position/taildir_position.json
- 问题：如果Flume程序故障，重启Flume程序，已经被采集过的数据还要不要采集？
- 需求：不需要，不能导致数据重复
- 功能：记录Flume所监听的每个文件已经被采集的位置
```
[
{
         "inode":34599996,"pos":14,"file":"/export/data/flume/bigdata01.txt"},{
         "inode":67595704,"pos":19,"file":"/export/data/flume/bigdata/test01.txt"},{
         "inode":67805657,"pos":7,"file":"/export/data/flume/bigdata/test02.txt"}
]
```
补充：工作中可能会见到其他的source
- Kafka Source：监听读取Kafka数据
- Spooldir Source：监控一个目录，只要这个目录中产生一个文件，就会采集一个文件
  - 缺点：不能动态监控文件，被采集的文件是不能发生变化的
小结
- taildir Source的功能与应用场景是什么？
- 功能：实现动态监听多个文件
  - 应用：数据划分多个文件动态变化存储

知识点09：常用Channel：file和mem

目标：掌握file channel与mem channel的功能与应用
实施
- mem Channel：将数据缓存在内存中
  - 特点：读写快、容量小、安全性较差
  - 应用：小数据量的高性能的传输
- file Channel：将数据缓存在文件中
  - 特点：读写相对慢、容量大、安全性较高
  - 应用：数据量大，读写性能要求不高的场景下
- 常用属性
  - capacity：缓存大小：指定Channel中最多存储多少条event
  - transactionCapacity：每次传输的大小
    - 每次source最多放多少个event和每次sink最多取多少个event
    - 这个值一般为capacity的十分之一，不能超过capacity
小结
- mem channel的功能与应用？
  - 功能：将数据存在内存
- 应用：数据量小，性能高
- file channel的功能与应用？
  - 功能：将数据缓存在磁盘
  - 应用：数据量大，性能要求不高

知识点10：常用Sink：HDFS

目标：掌握HDFS Sink的功能与应用
路径
- step1：HDFS sink的功能
- step2：指定文件大小
- step3：指定分区

实施

HDFS sink的功能
- 常用的SINk
  - kafka SInk
  - HDFS SInk
- 问题：为什么离线采集不直接写入Hive，使用Hive sink
  - 原因1：很多场景下，需要对数据提前做一步ETL，将ETL以后的结果再入库
  - 原因2：Hive Sink有严格的要求，表必须为桶表，文件类型必须为orc
  - 解决：如果要实现将数据直接放入Hive表？
    - 用HDFS sink代替Hive sink
- 功能：将Flume采集的数据写入HDFS
  - 问题：Flume作为HDFS客户端，写入HDFS数据
    - Flume必须知道HDFS地址
    - Flume必须拥有HDFS的jar包
  - 解决
    - 方式一：Flume写地址的时候，指定HDFS的绝对地址
```
hdfs://node1:8020/nginx/log
```
      - 手动将需要的jar包放入Flume的lib目录下
    - 方式二：在Flume中配置Hadoop的环境变量，将core-site和hdfs-site放入Flume的配置文件目录
- 需求：将Hive的日志动态采集写入HDFS
```
# The configuration file needs to define the sources, 
# the channels and the sinks.
# Sources, channels and sinks are defined per a1, 
# in this case called 'a1'


#定义当前的agent的名称，以及对应source、channel、sink的名字
a1.sources = s1
a1.channels = c1
a1.sinks = k1

#定义s1:从哪读数据，读谁
a1.sources.s1.type = exec
a1.sources.s1.command = tail -f /export/server/hive-1.1.0-cdh5.14.0/logs/hiveserver2.log 

#定义c1:缓存在什么地方
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000


#定义k1:将数据发送给谁
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://node1:8020/flume/test1


#s1将数据给哪个channel
a1.sources.s1.channels = c1
#k1从哪个channel中取数据
a1.sinks.k1.channel = c1
```

指定文件大小

问题：Flume默认写入HDFS上会产生很多小文件，都在1KB左右，不利用HDFS存储

解决：指定文件大小

hdfs.rollInterval	30			每隔多长时间产生一个文件，单位为s
hdfs.rollSize		1024		每个文件多大产生一个文件，字节
hdfs.rollCount		10			多少个event生成一个文件
如果不想使用某种规则，需要关闭，设置为0

      # The configuration file needs to define the sources, 
      # the channels and the sinks.
      # Sources, channels and sinks are defined per a1, 
      # in this case called 'a1'
      
      
      #定义当前的agent的名称，以及对应source、channel、sink的名字
      a1.sources = s1
      a1.channels = c1
      a1.sinks = k1
      
      #定义s1:从哪读数据，读谁
      a1.sources.s1.type = exec
      a1.sources.s1.command = tail -f /export/server/hive-1.1.0-cdh5.14.0/logs/hiveserver2.log 
      
      #定义c1:缓存在什么地方
      a1.channels.c1.type = memory
      a1.channels.c1.capacity = 1000
      
   
    #定义k1:将数据发送给谁
      a1.sinks.k1.type = hdfs
      a1.sinks.k1.hdfs.path = hdfs://node1:8020/flume/test1
      #指定按照时间生成文件，一般关闭
      a1.sinks.k1.hdfs.rollInterval = 0
      #指定文件大小生成文件，一般120 ~ 125M对应的字节数
    a1.sinks.k1.hdfs.rollSize = 10240
      #指定event个数生成文件，一般关闭
      a1.sinks.k1.hdfs.rollCount = 0
      
      #s1将数据给哪个channel
      a1.sources.s1.channels = c1
      #k1从哪个channel中取数据
      a1.sinks.k1.channel = c1

  ![在这里插入图片描述](https://img-blog.csdnimg.cn/20210508164241255.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQ1OTI1NDY3,size_16,color_FFFFFF,t_70)

指定分区

问题：如何实现分区存储，每天一个或者每小时一个目录？

解决：添加时间标记目录

# The configuration file needs to define the sources, 
# the channels and the sinks.
# Sources, channels and sinks are defined per a1, 
# in this case called 'a1'


#定义当前的agent的名称，以及对应source、channel、sink的名字
a1.sources = s1
a1.channels = c1
a1.sinks = k1

#定义s1:从哪读数据，读谁
a1.sources.s1.type = exec
a1.sources.s1.command = tail -f /export/server/hive-1.1.0-cdh5.14.0/logs/hiveserver2.log 

#定义c1:缓存在什么地方
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000


#定义k1:将数据发送给谁
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://node1:8020/flume/log/daystr=%Y%m%d
#指定按照时间生成文件，一般关闭
a1.sinks.k1.hdfs.rollInterval = 0
#指定文件大小生成文件，一般120 ~ 125M对应的字节数
a1.sinks.k1.hdfs.rollSize = 10240
#指定event个数生成文件，一般关闭
a1.sinks.k1.hdfs.rollCount = 0
a1.sinks.k1.hdfs.useLocalTimeStamp = true


#s1将数据给哪个channel
a1.sources.s1.channels = c1
#k1从哪个channel中取数据
a1.sinks.k1.channel = c1

其他参数

#指定生成的文件的前缀
a1.sinks.k1.hdfs.filePrefix = nginx
#指定生成的文件的后缀
a1.sinks.k1.hdfs.fileSuffix = .log
#指定写入HDFS的文件的类型：普通的文件
a1.sinks.k1.hdfs.fileType = DataStream

小结
- HDFS sink的功能与应用？
- 功能：将Flume采集的数据写入HDFS
  - 应用：离线数据仓库平台：直接将数据采集到HDFS，或者将数据采集到Hive
Flume补充：自己回去看，只要知道有这个东西即可
- Flume架构
  - 多SINK

一个agent中可以有多个source、channel、sink
```
a1.sources = s1
a1.channels = c1 c2
a1.sinks = k1 k2
```
- 多个sink架构中，为了每个sink都有一份完整数据，每个sink必须对应一个独立的channel
Collect架构

两层Flume架构：如果大量并发直接写入HDFS，导致HDFS的IO负载比较高
第一层
- source：taildir source
- sink：avro sink
第二层
- source：avro source
- sink：HDFS sink
高级组件
- Flume Channel Selectors
  - 功能：用于决定source怎么将数据给channel
  - 规则
    - 默认：source默认将数据给每个channel一份
      - Replicating Channel Selector (default)
    - 选择：根据event头部的key值不同，给不同的channel
      - Multiplexing Channel Selector
        
        a1.sources = r1 a1.channels = c1 c2 c3 c4 a1.sources.r1.selector.type = multiplexing a1.sources.r1.selector.header = state a1.sources.r1.selector.mapping.CZ = c1 a1.sources.r1.selector.mapping.US = c2 c3 a1.sources.r1.selector.default = c4
- Flume Interceptors：拦截器
  - 功能：可以给event的头部添加KV，还可以对数据进行过滤
  - 提供
    - Timestamp Interceptor：自动在每个event头部添加一个KV
      - key：timestamp
      - value：event产生的时间
        
        a1.sources = r1 a1.channels = c1 a1.sources.r1.channels = c1 a1.sources.r1.type = seq a1.sources.r1.interceptors = i1 a1.sources.r1.interceptors.i1.type = timestamp
    - Host Interceptor：自动在每个event头部添加一个KV
      - key：host
      - value：这个event所在的机器的名称
    - Static Interceptor：自动在每个event头部添加一个KV
      - KV由用户自己指定
    - Regex Filtering Interceptor：正则过滤拦截器，判断数据是否符合正则表达式，不符合就直接过滤，不采集
      - 不用掌握
- Sink processor
  - 功能：实现collect架构中的高可用和负载均衡
    - 高可用failover：两个sink，一个工作，一个不工作
```
a1.sinkgroups = g1
a1.sinkgroups.g1.sinks = k1 k2
a1.sinkgroups.g1.processor.type = failover
a1.sinkgroups.g1.processor.priority.k1 = 5
a1.sinkgroups.g1.processor.priority.k2 = 10
a1.sinkgroups.g1.processor.maxpenalty = 10000
```
      - priority：权重越大，就先工作
    - 负载均衡load_balance：两个sink，一起工作
```
a1.sinkgroups = g1
a1.sinkgroups.g1.sinks = k1 k2
a1.sinkgroups.g1.processor.type = load_balance
a1.sinkgroups.g1.processor.selector = random
```
      - 分配策略：round_robin,random

第一层必须有两个sink，作为一个整体，称为sink group

知识点11：Sqoop的功能与应用

目标：掌握Sqoop的功能与应用场景
路径
- step1：功能
- step2：本质
- step3：应用
- step4：测试
实施
- 功能
  - 用于实现MySQL等RDBMS数据库与HDFS之间的数据导入与导出
  - 导入与导出相对HDFS而言的
    - 导入：将MySQL的数据导入到HDFS
    - 导出：将HDFS的数据导出到MySQL
- 本质
  - 底层就是MapReduce程序：大多数都是三大阶段的MapReduce
  - 将Sqoop的程序转换成了MapReduce程序，提交给YARN运行，实现分布式采集
  - 导入：MySQL =》 HDFS
    - Input：DBInputFormat：读MySQL
    - Output：TextOutputFormat：写HDFS
  - 导出：HDFS =》 MySQL
    - Input：TextInputFormat：读HDFS
    - Output：DBOutputFormat：写MySQL
- 特点
  - 必须依赖于Hadoop：MapReduce + YARN
  - MapReduce是离线计算框架，Sqoop离线数据采集的工具，只能适合于离线业务平台
- 应用
  - 数据同步：定期将离线的数据进行采集同步到数据仓库中
    - 全量：每次都采集所有数据
    - 增量：每次只采集最新的数据，大部分都是增量处理
  - 数据迁移：将历史数据【MySQL、Oracle】存储到HDFS中
    - 全量：第一次一定是全量的
- 测试
```
sqoop list-databases --connect jdbc:mysql://node3:3306 --username root --password 123456
```

小结
- Sqoop的功能与应用场景？
- 功能：用于实现RDBMS与HDFS之间的数据的导入和导出
  - 本质：底层就是MapReduce程序
  - 应用
    - 数据同步：增量同步
    - 数据迁移：全量同步

知识点12：Sqoop导入：HDFS

目标：实现Sqoop导入数据到HDFS中
路径
- step1：准备数据
- step2：导入语法
- step3：测试导入
- step4：常用参数

实施

准备数据

MySQL创建数据库==【在MySQL中执行】==

create database sqoopTest;
use sqoopTest;

MySQL创建数据表==【在MySQL中执行】==

CREATE TABLE `tb_tohdfs` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(100) NOT NULL,
  `age` int(11) NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

MySQL插入数据==【在MySQL中执行】==

insert into tb_tohdfs values(null,"laoda",18);
insert into tb_tohdfs values(null,"laoer",19);
insert into tb_tohdfs values(null,"laosan",20);
insert into tb_tohdfs values(null,"laosi",21);

导入语法
```
sqoop import --help
usage: sqoop import [GENERIC-ARGS] [TOOL-ARGS]
```
- 指定数据源：MySQL
  - url
  - username
  - password
  - table
- 指定目标地：HDFS
  - 指定写入的位置

测试导入

需求1：将MySQL中tb_tohdfs表的数据导入HDFS的/sqoop/import/test01目录中

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--target-dir /sqoop/import/test01

MapTask 个数太多了
更改分隔符

常用参数
- 需求2：将tb_tohdfs表的id和name导入HDFS的/sqoop/import/test01目录，并且用制表符分隔

    sqoop import \
      --connect jdbc:mysql://node3:3306/sqoopTest \
    --username root \
      --password 123456 \
    --table tb_tohdfs \
      --columns id,name \
      --delete-target-dir  \
      --target-dir /sqoop/import/test01 \
      --fields-terminated-by '\t' \
      -m 1

-m：指定MapTask的个数
–fields-terminated-by：用于指定输出的分隔符
–columns：指定导入哪些列
–delete-target-dir :提前删除输出目录

需求3：将tb_tohdfs表中的id >2的数据导入HDFS的/sqoop/import/test01目录中

      sqoop import \
      --connect jdbc:mysql://node3:3306/sqoopTest \
      --username root \
      --password 123456 \
      --table tb_tohdfs \
      --where 'id > 2' \
      --delete-target-dir  \
      --target-dir /sqoop/import/test01 \
    --fields-terminated-by '\t' \
      -m 1

–where ：用于指定行的过滤条件

需求4：将tb_tohdfs表中的id>2的数据中id和name两列导入/sqoop/import/test01目录中

方案一

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--columns id,name \
--where 'id > 2' \
--delete-target-dir \
--target-dir /sqoop/import/test01 \
--fields-terminated-by '\t' \
-m 1

方案二

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
-e 'select id,name from tb_tohdfs where id > 2 and $CONDITIONS' \
--delete-target-dir \
--target-dir /sqoop/import/test01 \
--fields-terminated-by '\t' \
-m 1

-e,–query ：使用SQL语句读取数据.只要使用SQL语句，必须在where子句中加上$CONDITIONS

小结
- 实现导入HDFS即可

知识点13：Sqoop导入：Hive

目标：实现Sqoop导入MySQL数据到Hive表中
路径
- step1：准备数据
- step2：直接导入
- step3：hcatalog导入
实施
- 准备数据：在Hive 中创建一张表
```
use default;
create table fromsqoop(
id int,
name string,
age int
);
```
- 直接导入
```
sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--hive-import \
--hive-database default \
--hive-table fromsqoop \
--fields-terminated-by '\001' \
-m 1
```
  - –hive-import \：表示导入Hive表
  - –hive-database default \：表示指定导入哪个Hive的数据库
  - –hive-table fromsqoop \：表示指定导入哪个Hive的表
  - –fields-terminated-by ‘\001’ \：指定Hive表的分隔符，一定要与Hive表的分隔符一致
  - 原理
    - step1：将MySQL的数据通过MapReduce先导入HDFS
    - step2：将HDFS上导入的这个文件通过load命令加载到了Hive表中

hcatalog导入

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--hcatalog-database default \
--hcatalog-table fromsqoop \
--fields-terminated-by '\001' \
-m 1

原理
- step1：先获取Hive表的元数据
- step2：将Hive表的目录直接作为MapReduce输出

小结
- 实现导入Hive表

知识点14：Sqoop导入：增量

目标：掌握Sqoop如何实现增量导入
路径
- step1：增量需求
- step2：Sqoop中的两种增量方式
- step3：append
- step4：lastmodifield
- step5：特殊方式

实施

增量需求

第一天：产生数据

+----+--------+-----+
|  1 | laoda  |  18 |
|  2 | laoer  |  19 |
|  3 | laosan |  20 |
|  4 | laosi  |  21 |

第二天的0点：采集昨天的数据

sqoop import --connect jdbc:mysql://node3:3306/sqoopTest --username root --password 123456 --table tb_tohdfs --target-dir /sqoop/import/test02 -m 1

+----+--------+-----+
|  1 | laoda  |  18 |
|  2 | laoer  |  19 |
|  3 | laosan |  20 |
|  4 | laosi  |  21 |

第二天：产生新的数据

|  5 | laowu  |  22 |
|  6 | laoliu |  23 |
|  7 | laoqi  |  24 |
|  8 | laoba  |  25 |
+----+--------+-----+

第三天：采集昨天的数据

sqoop import --connect jdbc:mysql://node3:3306/sqoopTest --username root --password 123456 --table tb_tohdfs --target-dir /sqoop/import/test02 -m 1

问题：每次导入都是所有的数据，每次都是全量
- 数据重复

Sqoop中的两种增量方式

设计：用于对某一列值进行判断，只要大于上一次的值就会被导入

参数


Incremental import arguments:
   --check-column         Source column to check for incremental
                                  change
   --incremental     Define an incremental import of type
                                  'append' or 'lastmodified'
   --last-value            Last imported value in the incremental
                                  check column

–check-column ：按照哪一列进行增量导入
–last-value：用于指定上一次的值
–incremental：增量的方式
- append
- lastmodified

append

要求：必须有一列自增的值，按照自增的int值进行判断
特点：只能导入新增的数据，无法导入更新的数据

测试

第一次导入

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--target-dir /sqoop/import/test02 \
--fields-terminated-by '\t' \
--check-column id \
--incremental append \
--last-value 1 \
-m 1

第二次产生新的数据

insert into tb_tohdfs values(null,"laowu",22);
insert into tb_tohdfs values(null,"laoliu",23);
insert into tb_tohdfs values(null,"laoqi",24);
insert into tb_tohdfs values(null,"laoba",25);

第二次导入

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--target-dir /sqoop/import/test02 \
--fields-terminated-by '\t' \
--incremental append \
--check-column id \
--last-value 4 \
-m 1

lastmodifield

要求：必须包含动态时间变化这一列，按照数据变化的时间进行判断
特点：既导入新增的数据也导入更新的数据

测试

MySQL中创建测试数据

CREATE TABLE `tb_lastmode` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `word` varchar(200) NOT NULL,
  `lastmode` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP  ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

insert into tb_lastmode values(null,'hadoop',null);
insert into tb_lastmode values(null,'spark',null);
insert into tb_lastmode values(null,'hbase',null);

第一次采集

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_lastmode \
--target-dir /sqoop/import/test03 \
--fields-terminated-by '\t' \
--incremental lastmodified \
--check-column lastmode \
--last-value '2021-05-06 16:09:32' \
-m 1

数据发生变化

  insert into tb_lastmode values(null,'hive',null);
  update tb_lastmode set word = 'sqoop' where id = 1;

第二次采集

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_lastmode \
--target-dir /sqoop/import/test03 \
--fields-terminated-by '\t' \
--merge-key id \
--incremental lastmodified \
--check-column lastmode \
--last-value '2021-05-07 16:10:38' \
-m 1

–merge-key ：按照id进行合并

特殊方式

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
-e 'select id,name from tb_tohdfs where id > 12 and $CONDITIONS' \
--delete-target-dir \
--target-dir /sqoop/import/test01 \
--fields-terminated-by '\t' \
-m 1

要求：必须每次将最新导入的数据放到一个目录单独存储，不能相同

小结
- Sqoop中如何实现增量导入？
  - append
  - 要求：必须有一列自增的int值
    - 特点：只导入新增的数据
  - lastmodifield
    - 要求：必须有一列标记时间的列
    - 特点：既能导入新增的数据，也能导入更新的数据
  - 直接通过where过滤
    - 要求：每次导入的目录不能一样

知识点15：Sqoop导出：全量

目标：实现Sqoop全量导出数据到MySQL
路径
- step1：准备数据
- step2：全量导出

实施

准备数据

MySQL中创建测试表

use sqoopTest;
CREATE TABLE `tb_url` (
  `id` int(11) NOT NULL,
  `url` varchar(200) NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

Hive中创建表，并加载数据

vim /export/datas/lateral.txt
1	http://facebook.com/path/p1.php?query=1
2	http://www.baidu.com/news/index.jsp?uuid=frank
3	http://www.jd.com/index?source=baidu

use default;
create table tb_url(
id int,
url string
) row format delimited fields terminated by '\t';

load data local inpath '/export/data/lateral.txt' into table tb_url;

全量导出

sqoop export \
--connect  jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_url \
--export-dir /user/hive/warehouse/tb_url \
--input-fields-terminated-by '\t' \
-m 1

–export-dir：指定导出的HDFS目录
–input-fields-terminated-by ：用于指定导出的HDFS文件的分隔符是什么

小结
- 实现导出即可

知识点16：Sqoop导出：增量

目标：实现Sqoop增量导出到MySQL
路径
- step1：增量导出场景
- step2：增量导出方式
- step3：updateonly
- step4：allowinsert

实施

增量导出场景

Hive中有一张结果表：存储每天分析的结果

--第一天：10号处理9号
id		daystr			UV 			PV			IP
1		2020-11-09		1000		10000		500

insert into result
select id,daystr,uv,pv ,ip from datatable where daystr=昨天的日期
--第二天：11号处理10号
id		daystr			UV 			PV			IP
1		2020-11-09		1000		10000		500
2		2020-11-10		2000		20000		1000

MySQL：存储每一天的结果
```
1		2020-11-09		1000		10000		500
```

增量导出方式
- updateonly：只增量导出更新的数据
- allowerinsert：既导出更新的数据，也导出新增的数据

updateonly

修改lateral.txt数据

1	http://www.itcast.com/path/p1.php?query=1
2	http://www.baidu.com/news/index.jsp?uuid=frank
3	http://www.jd.com/index?source=baidu
4	http://www.heima.com

重新加载覆盖

load data local inpath '/export/data/lateral.txt' overwrite into table tb_url;

增量导出

sqoop export \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_url \
--export-dir /user/hive/warehouse/tb_url \
--input-fields-terminated-by '\t' \
--update-key id \
--update-mode updateonly \
-m 1

allowerinsert

修改lateral.txt

1	http://bigdata.itcast.com/path/p1.php?query=1
2	http://www.baidu.com/news/index.jsp?uuid=frank
3	http://www.jd.com/index?source=baidu
4	http://www.heima.com

覆盖表中数据

load data local inpath '/export/data/lateral.txt' overwrite into table tb_url;

增量导出

sqoop export \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_url \
--export-dir /user/hive/warehouse/tb_url \
--input-fields-terminated-by '\t' \
--update-key id \
--update-mode allowinsert \
-m 1

小结
- Sqoop如何实现增量导出？
- updateonly：只导出更新的数据
  - allowerinsert：既能导出更新的，也能导出新增的

知识点17：Sqoop Job

目标：了解Sqoop Job的功能与应用
路径
- step1：增量导入的问题
- step2：Sqoop Job的使用

实施

增量导入的问题

增量导入每次都要手动修改上次的值执行，怎么解决？

sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--target-dir /sqoop/import/test04 \
--fields-terminated-by '\t' \
--incremental append \
--check-column id \
--last-value 4 \
-m 1

Sqoop Job的使用

MySQL插入数据

insert into tb_tohdfs values(null,'laojiu',26);
insert into tb_tohdfs values(null,'laoshi',27);

创建job

sqoop job --create job01 \
-- import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--target-dir /sqoop/import/test04 \
--fields-terminated-by '\t' \
--incremental append \
--check-column id \
--last-value 8 \
-m 1

创建job，不会运行程序，只是在元数据中记录信息

列举job
```
sqoop job --list
```
查看job的信息
```
sqoop job --show jobName
```
运行job
```
sqoop job --exec jobName
```
删除job
```
sqoop job --delete jobName
```

小结
- 了解即可

知识点18：Sqoop密码问题与脚本封装

目标：了解Sqoop密码的问题及脚本的封装
路径
- step1：Sqoop中的数据库密码
- step2：Sqoop封装脚本
实施
- Sqoop中的数据库密码
  - 如何解决手动输入密码和密码明文问题？
  - 方式一：在sqoop的sqoop-site.xml中配置将密码存储在客户端中，比较麻烦，一般不用
  - 方式二：将密码存储在文件中，通过文件的权限来管理密码
```
sqoop job --create job02 \
-- import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password-file file:///export/data/sqoop.passwd \
--table tb_tohdfs \
--target-dir /sqoop/import/test05 \
--fields-terminated-by '\t' \
--incremental append \
--check-column id \
--last-value 4 \
-m 1
```
    - –password-file
    - 读取的是HDFS文件，这个文件中只能有一行密码

Sqoop封装脚本

如何封装Sqoop的代码到文件中？

step1：将代码封装到一个文件中

vim /export/data/test.sqoop

import
--connect
jdbc:mysql://node3:3306/sqoopTest
--username 
root
--password-file 
file:///export/data/sqoop.passwd
--table 
tb_tohdfs
--target-dir 
/sqoop/import/test05
--fields-terminated-by 
'\t' 
-m 
1

要求：一行只放一个参数

step2：运行这个文件

    sqoop --options-file /export/data/test.sqoop

小结
- 了解即可

你可能感兴趣的:(flume,sqoop,hive,大数据,hue集群)

ZooKeeper集群高可用性测试与实践：从规划到故障模拟磐基Stack专业服务团队 Zookeeper zookeeper 可用性测试
#作者：任少近文章目录ZooKeeper集群环境规划1.集群数据一致性测试2.集群节点故障测试ZooKeeper集群高可用性测试的主要目的是确保在分布式环境中，ZooKeeper服务能够持续提供一致性和高可用性的协调服务。ZooKeeper集群环境规划节点ipZooKeeper版本java版本对外端口集群通信端口集群选举端口192.168.x.xZooKeeper-3.6.11.8.0_33221
Kafka跨集群数据备份与同步：MirrorMaker运用磐基Stack专业服务团队 Kafka kafka 分布式
#作者：张桐瑞文章目录前言MirrorMaker是什么运行MirrorMaker各个参数的含义前言在大多数情况下，我们会部署一套Kafka集群来支撑业务需求。但在某些特定场景下，可能需要同时运行多个Kafka集群。比如，为了实现灾难恢复，你可以在不同机房分别部署独立的Kafka集群。如果一个机房发生故障，你可以快速切换流量到另一个正常运行的机房。另外，如果你希望为地理上较近的客户提供低延迟的消息服
安装Qt 5.15.2 noodleboy qt
安装Qt5.15.2自Qt5.15开始，Qt不提供离线安装包了，需要使用在线安装器安装，但是Qt5.15版本不直接显示。需要勾选Archive选项，且很有可能需要梯子工具。
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
istio 介绍-01-一个用于连接、管理和保护微服务的开放平台概览后端java
istioistio一个用于连接、管理和保护微服务的开放平台。介绍Istio是一个开放平台，用于提供统一的方式来集成微服务、管理跨微服务的流量、执行策略和聚合遥测数据。Istio的控制平面在底层集群管理平台（例如Kubernetes）上提供了一个抽象层。Istio由以下组件组成：Envoy-每个微服务的Sidecar代理，用于处理集群中服务之间以及从服务到外部服务的入口/出口流量。这些代理形成了一
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
知识蒸馏：让大模型“瘦身“而不失智慧的魔术一休哥助手人工智能人工智能
引言：当AI模型需要"减肥"在人工智能领域，一个有趣的悖论正在上演：大模型的参数规模每年以10倍速度增长，而移动设备的算力却始终受限。GPT-4的1750亿参数需要价值500万美元的GPU集群运行，但现实中的智能设备可能只有指甲盖大小。这种矛盾催生了一项神奇的技术——知识蒸馏（KnowledgeDistillation），它就像给AI模型进行"脑外科手术"，将庞然大物的智慧浓缩到轻量模型中。第一章
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
YashanDB恢复数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%95%B0%E6%8D%AE%...操作说明使用本方式执行恢复时，要求当前数据库实例处于NOMOUNT状态。执行恢复操作的数据库版本需与生成备份集的数据库版本完全一致。共享集群部署中，只能在主集群上执行恢复操作（即其角色必须为MASTER\_ROLE，可查询视图
YashanDB SQL命令备份恢复数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%95%B0%E6%8D%AE%...SQL命令方式的备份恢复操作适用于单机/共享集群部署的数据库。操作示例以下为对单机部署的数据库执行备份恢复的模拟场景：1.通过yasql连接数据库，将数据库切换到归档模式，归档模式必须在数据库MOUNT状态下才能开启。$yas
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
亿级分布式系统架构演进实战（一）- 总体概要 power-辰南 java技术架构师成长专栏高并发分布式系统微服务架构设计 springcloud
前言不说废话，这次分享是某500强企业真实亿级流量业务中台技术架构演进过程实战。核心目标构建一个兼具高性能、高可用、强一致性的分布式系统，支撑亿级流量场景下的稳定运行。演进路线大纲阶段一：横向扩展（应对万级QPS）核心目标：突破单机性能瓶颈，建立弹性基础[Nginx]/|\[App1][App2][App3]←无状态服务集群\|/[DBProxy]←读写分离中间件/\[Master]←写节点[Sl
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
Mysql-经典实战案例（10）：如何用PT-Archiver完成大表的自动归档从不删库的DBA Mysql 经典实战案例 mysql 数据库
真实痛点：电商订单表存储优化场景现状分析某电商平台订单表（order_info）每月新增500万条记录主库：高频读写，SSD存储（空间告急）历史库：HDD存储，只读查询优化目标✅自动迁移7天前的订单到历史库✅每周六23:30执行，不影响业务高峰✅确保数据一致性第一章：前期准备：沙盒实验室搭建1.1实验环境架构生产库：10.33.112.22历史库：10.30.76.41.2环境初始化（双节点执行）
【赵渝强老师】达梦数据库MPP集群的架构数据库信创
为了支持海量数据存储和处理等方面的需求，为高端数据仓库提供解决方案，达梦数据库提供了大规模并行处理MPP架构，以极低的成本代价，提供高性能的并行计算。通过使用MPP可以解决以下问题：需要较高的系统性能支持以支持大量的复杂查询操作硬件束缚对数据库响应能力的影响降低数据库成本视频讲解如下：https://www.bilibili.com/video/BV1dBftYoEkk/?aid=11386961
数据让农业更聪明——用大数据激活田间地头 Echo_Wish 大数据大数据
数据让农业更聪明——用大数据激活田间地头在农业领域，随着人口增长和气候变化的影响，如何提升生产力始终是个关键话题。大数据，这个曾经只属于科技领域的概念，如今已悄然进入田间地头。今天，我以Echo_Wish的视角，和大家聊聊大数据如何赋能农业生产力，帮农民在阳光下也能掌握“科技的钥匙”。认识农业中的大数据什么是农业中的“大数据”？简单来说，就是收集和分析有关土地、气候、作物、病虫害以及市场需求等方面
优化Apache Spark性能之JVM参数配置指南 weixin_30777913 jvm spark 大数据开发语言性能优化
ApacheSpark运行在JVM之上，JVM的垃圾回收（GC）、内存管理以及堆外内存使用情况，会直接对Spark任务的执行效率产生影响。因此，合理配置JVM参数是优化Spark性能的关键步骤，以下将详细介绍优化策略和配置建议。通过以下优化方法，可以显著减少GC停顿时间、提升内存利用率，进而提高Spark作业吞吐量和数据处理效率。同时，要根据具体的工作负载和集群配置进行调整，并定期监控Spark应
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
第三十篇维度建模：从理论到落地的企业级实践随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、维度建模核心理论体系1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi）2.4事实表类型与设计三、企业级建模实战：电商用户分析3.1业务矩阵分析3.2模型实现代码四、高级建模技巧4.1多星型模式关联4.2大数据场景优化五、性能
Hive面试题御风行云天面试题大全 hive hadoop 数据仓库面试
Hive面试题1Hive基础概念1.1解释Hive是什么以及它的用途Hive的主要用途：1.2描述Hive架构和组件1.HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents（核心组件）9.HiveUDFs
【Kafka高级】Kafka性能优化与调优实践全栈追梦人 kafka 性能优化 linq
在大规模数据处理和实时消息传递场景中，Kafka的性能优化至关重要。本文将从生产者性能优化、消费者性能优化以及集群性能调优三个方面展开，结合实际代码示例和配置参数，帮助读者更好地理解和应用Kafka性能优化策略。一、生产者性能优化Kafka生产者的性能直接影响消息发送的效率和系统的吞吐量。以下是一些关键优化策略：1.1批量发送生产者会将消息批量发送到Kafka，减少网络请求次数。以下参数对批量发送
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
【K8S】ImagePullBackOff状态问题排查。执键行天涯 K8s kubernetes 容器云原生
ImagePullBackOff是在使用Kubernetes（K8s）时经常遇到的一种错误状态，下面为你详细介绍其含义、可能的原因及解决办法。含义当你在K8s集群中创建一个Pod时，Kubelet会尝试从指定的镜像仓库拉取所需的容器镜像。如果拉取镜像失败，Kubelet会进行重试。随着重试次数的增加，重试的间隔时间会逐渐变长，这就是所谓的“指数退避”策略。当Kubelet多次尝试拉取镜像都失败后，
深陷“大数据杀熟”漩涡的飞猪，庄卓然如何力挽狂澜？财经三剑客大数据
在线旅游市场（OTA）的蓬勃发展为消费者带来了诸多便利，然而，在这股数字化浪潮中，飞猪旅行却因其频繁陷入“大数据杀熟”的争议而备受瞩目。这一行为不仅损害了消费者的合法权益，更让飞猪的品牌形象蒙上了一层阴影。近年来，飞猪平台上关于价格乱象的投诉屡禁不止。在黑猫投诉平台上，与“飞猪”相关的投诉累计已超9万条，其中直接以“飞猪杀熟”为关键词的投诉便达数百条。消费者们纷纷反映，在飞猪平台上预订机票、酒店等
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那