Impala

1:Hive 基与mapreduce mapreduce基于硬盘
#!/bin/bash
a=5
b=6
c=7
echo "$a $b c " e c h o ′ c" echo ' c"echoa $b $c’
执行结果:
5 $b 7
$a $b $c

sed ‘s/wo/ni/g’ sed.txt g代表的意思? 全局
sort -t : -nrk 3 sort.sh

薄弱点: 重听
开窗函数
硅谷影音 hive
shell cut sed awk sort
shuffle
impala : 第四章 重听 impala的数据类型 impalad 架构
全量和增量的区别?
流式数据:
离线数据:

推测执行算法 :
备份任务推测完成时刻 = 当前时刻 + 运行完成任务的平均时间Impala_第1张图片

flume难点:
a3.sources.r3.fileHeader = true
#是否按照时间滚动文件夹
a3.sinks.k3.hdfs.round = true
#文件的滚动与Event数量无关
a3.sinks.k3.hdfs.rollCount = 0
#忽略所有以.tmp结尾的文件,不上传
a3.sources.r3.ignorePattern = ([^ ]*.tmp)

channel 选择器: default
replicating 全部复制
mutiplexing 选择那些数据可以放到那些channel里面
拦截器:拿到event事件 可以获取header 和body 对里面数据进行修改
header和body中的数据?

telnet hadoop102 44444, flume能否接收到?
#设置文件类型,可支持压缩 其它几种 类型
a3.sinks.k3.hdfs.fileType = DataStream
a1.sources.r1.selector.type = replicating
a1.sinkgroups.g1.processor.selector = round_robin
failover:故障转移
load_balance 负载均衡 和故障转移
Impala_第2张图片

ctrl+H 查看实现类

你可能感兴趣的:(大数据)