weixin_30752699

数仓1.1 | 概述| 集群环境搭建

宏观上；模块调用关系图
复杂问题简单化; 清晰数据结构; 1天数据1层

1. 数据仓库DW

数据来源：
　　爬虫日志采集系统业务数据财务系统

数据去向：
　　报表系统、用户画像、推荐系统、机器学习、风控系统

项目需求分析

　　① 数据采集平台搭建
　　② 实现用户行为数据仓库的分层搭建
　　③ 实现业务数据仓库的分层搭建
　　④ 针对数据仓库中的数据进行，留存、转化率、GMV（每天交易额）、复购率、活跃等报表行为；

项目框架

技术选型

采集：
方式一： log日志--->flume--->kafka(API)--->hdfs；方式二： Logstash(读取日志)-->ELK(存储查询)全文检索引擎-sqoop
DataX导数据； mysql->sqoop

存储：mysql(存储业务--分析结果) ；ES(存、查都很快)<---->HBase(存快，分析慢)； S3

计算：Tez(分析hive中指标)&hive； Flink--Spark

查询：Presto,Impala,Kylin

系统架构图：

日志文件| mysql数据表--->分别由flume| sqoop处理--> 分别交给-->kafka| HDFS
由Yarn统一调度
Hive| Presto负责数据查询;
Azkaban任务调度器
最后可视化展示；

系统数据流程：

Web/App埋点行为数据--->log日志服务器(友盟-第三方日志服务器)--->logFile格式->Flume生产-->kafka(kafka(相当于路由池)可以接实时数据、es等)--flume消费-->HDFS
业务交互-->mysql(业务服务器-->Nginx实现负载均衡)->sqoop-->>hdfs--->hive数仓-->把结果存储到mysql

框架版本选型
产品   　　　　　　　　 版本
Hadoop 　　 　　　　  2.7.2
Flume  　　 　　　 　 1.7.0
Kafka   　　　　　　  0.11.0.2
Kafka Manager  　   1.3.3.22
Hive   　　　　　　   1.2.1
Sqoop   　　　　　　  1.4.6
MySQL  　　　 　　　  5.6.24
Azkaban 　　　　    2.5.0
Java   　　　　　　　 1.8
Zookeeper  　　　　  3.4.10
Presto   　　　　　　 0.189

集群资源规划设计
   　　　　 　　　　服务器hadoop101    服务器hadoop102    服务器hadoop103
HDFS  　　  　　　　　NameNode　　　　　　DataNode 　　       DataNode    　　　　
　　　　　　　　　　　　DataNode　　　　　　　　　　　　　　　    SecondaryNameNode
Yarn    　　　　　　　NodeManager       Resourcemanager　　　NodeManager    
　　　　　　　　　　　　　　　 　　　　　　　 NodeManager
Zookeeper   　　　　 Zookeeper          Zookeeper  　　　　  Zookeeper
Flume(采集日志)  　　  Flume   　　　　  Flume    
Kafka   　　　　　　　  Kafka    　　　　Kafka   　　　　　　　 Kafka
Flume（消费Kafka）         　　　　　　　　　　　　　　　　　　   Flume
Hive  　　　　　　　　  Hive        
MySQL   　　　　　　　　MySQL        
Presto  　　　　　　　  Presto

2. 数据生成模块

埋点数据--想记录的数据(web端、app端)：
产品字段ap(产品字段可以有多个app)
①公共字段所有的事件都需要记录的字段,公共的; <<-cm-->>AppBase
　　cm(公共字段基本所有安卓手机都包含的字段); cm公共字段；json对象
　　et事件; et事件字段：json数组

②业务字段(埋点上报的字段，有具体的业务类型，有(用户)具体的行为;)

日志格式：
　　时间戳|json字符串
　　cm:公共字段
　　et:事件(日志)字段(用户行为--针对每一个事件)

事件日志的设计：

①商品列表页(loading)

action            动作：开始加载=1，加载成功=2，加载失败=3
loading_time    加载时长：计算下拉开始到接口返回数据的时间，（开始加载报0，加载成功或加载失败才上报时间）
loading_way        加载类型：1-读取缓存，2-从接口拉新数；（加载成功才上报加载类型）
extend1            扩展字段 Extend1
extend2            扩展字段 Extend2
type            加载类型：自动加载=1，用户下拽加载=2，底部加载=3（底部条触发点击底部提示条/点击返回顶部加载）
type1            加载失败码：把加载失败状态码报回来（报空为加载成功，没有失败）

View Code

②商品点击(display)

action    动作：曝光商品=1，点击商品=2，
goodsid    商品ID（服务端下发的ID）
place    顺序（第几条商品，第一条为0，第二条为1，如此类推）
extend1    曝光类型：1 - 首次曝光 2-重复曝光（没有使用）
category    分类ID（服务端定义的分类ID）

View Code

③商品详情页(newsdetail)详情页从哪来

entry            页面入口来源：应用首页=1、push=2、详情页相关推荐=3
action            动作：开始加载=1，加载成功=2（pv），加载失败=3, 退出页面=4
goodsid            商品ID（服务端下发的ID）
show_style        商品样式：0、无图、1、一张大图、2、两张图、3、三张小图、4、一张小图、5、一张大图两张小图
news_staytime    页面停留时长：从商品开始加载时开始计算，到用户关闭页面所用的时间。若中途用跳转到其它页面了，则暂停计时，待回到详情页时恢复计时。或中途划出的时间超过10分钟，则本次计时作废，不上报本次数据。如未加载成功退出，则报空。
loading_time    加载时长：计算页面开始加载到接口返回数据的时间 （开始加载报0，加载成功或加载失败才上报时间）
type1            加载失败码：把加载失败状态码报回来（报空为加载成功，没有失败）
category        分类ID（服务端定义的分类ID）

View Code

④广告(ad)

entry            入口：商品列表页=1  应用首页=2 商品详情页=3
action            动作：请求广告=1 取缓存广告=2  广告位展示=3 广告展示=4 广告点击=5 
content            状态：成功=1  失败=2  
detail            失败码（没有则上报空）
source            广告来源:admob=1 facebook=2  ADX（百度）=3 VK（俄罗斯）=4
behavior        用户行为：主动获取广告=1  ；被动获取广告=2
newstype        Type: 1- 图文 2-图集 3-段子 4-GIF 5-视频 6-调查 7-纯文 8-视频+图文  9-GIF+图文  0-其他
show_style        内容样式：无图(纯文字)=6 一张大图=1  三站小图+文=4 一张小图=2 一张大图两张小图+文=3 图集+文 = 5  一张大图+文=11   GIF大图+文=12  视频(大图)+文 = 13 来源于详情页相关推荐的商品，上报样式都为0（因为都是左文右图）

View Code

⑤消息通知(notification)

action            动作：通知产生=1，通知弹出=2，通知点击=3，常驻通知展示（不重复上报，一天之内只报一次）=4
type            通知id：预警通知=1，天气预报（早=2，晚=3），常驻=4
ap_time            客户端弹出时间
content            备用字段

View Code

⑥用户前台活跃(active_foreground)

push_id        推送的消息的id，如果不是从推送消息打开，传空
access        1.push 2.icon 3.其他

View Code

⑦用户后台活跃(active_background)

active_source    1=upgrade,2=download(下载),3=plugin_upgrade

View Code

⑧ 评论（comment）

序号    字段名称    字段描述    字段类型    长度    允许空    缺省值
1        comment_id    评论表            int        10,0        
2            userid    用户id            int        10,0        √        0
3      p_comment_id    父级评论id(为0则是一级评论,不为0则是回复)    int    10,0    √    
4        content       评论内容            string    1000        √    
5        addtime      创建时间            string                √    
6        other_id   评论的相关id        int        10,0        √    
7     praise_count    点赞数量        int        10,0        √        0
8     reply_count    回复数量        int        10,0        √        0

View Code

⑨收藏（favorites）

序号    字段名称    字段描述    字段类型    长度    允许空    缺省值
1        id                主键        int        10,0        
2        course_id        商品id        int        10,0        √    0
3        userid            用户ID        int        10,0        √    0
4        add_time        创建时间    string                √

View Code

10 点赞（praise）

序号    字段名称    字段描述    字段类型    长度    允许空    缺省值
1        id            主键id            int        10,0        
2        userid        用户id            int        10,0    √    
3        target_id    点赞的对象id    int        10,0    √    
4        type      点赞类型     1问答点赞 2问答评论点赞 3 文章点赞数4 评论点赞    int    10,0    √    
5        add_time    添加时间        string            √

View Code

11 错误日

errorBrief    错误摘要
errorDetail    错误详情

View Code

12启动日志数据start action=1可以算成前台活跃

entry                入口： push=1，widget=2，icon=3，notification=4, lockscreen_widget =5
open_ad_type        开屏广告类型:  开屏原生广告=1, 开屏插屏广告=2
action                状态：成功=1  失败=2
loading_time        加载时长：计算下拉开始到接口返回数据的时间，（开始加载报0，加载成功或加载失败才上报时间）
detail                失败码（没有则上报空）
extend1                失败的message（没有则上报空）

View Code

sdk软件开发工具
12个主题(1个appbase公共日志)对应12张表（12张(12个bean对象，再加一个公共的即共13个bean对象)用户行为表）， 1张启动日志表； 8张业务表; 数仓分4层; 20*4=80张表;
启动日志1张表-->离线和实时; 需要写flume的拦截器
事件日志kafka的事件event主题 11个; 分的越细越灵活，

启动日志-1类
事件日志-11类

启动日志页面：
1552739869506|{
"cm":
{"ln":"-62.5","sv":"V2.8.9","os":"8.2.7","g":"6N617W86@gmail.com","mid":"999","nw":"3G","l":"en","vc":"18","hw":"640*960","ar":"MX","uid":"999","t":"1552692232488","la":"-4.9","md":"HTC-8","vn":"1.0.3","ba":"HTC","sr":"I"},
"ap":"gmall",
"et":[{"ett":"1552655708510",
        "en":"display",
        "kv":{"goodsid":"245","action":"1","extend1":"2","place":"4","category":"20"}},
      {"ett":"1552683751477",
        "en":"ad",
        "kv":{"entry":"3","show_style":"3","action":"5","detail":"325","source":"2","behavior":"1","content":"1","newstype":"9"}},
      {"ett":"1552670223504",
        "en":"active_foreground",
        "kv":{"access":"","push_id":"3"}},
     {"ett":"1552735759451",
        "en":"active_background","kv":{"active_source":"2"}}]}

将生成的jar包log-collector-0.0.1-SNAPSHOT-jar-with-dependencies.jar拷贝到hadoop101服务器上，
并同步到hadoop102的/opt/module路径下
[kris@hadoop101 module]$ xsync log-collector-1.0-SNAPSHOT-jar-with-dependencies.jar
在hadoop102上执行jar程序
[kris@hadoop101 module]$ java -classpath log-collector-1.0-SNAPSHOT-jar-with-dependencies.jar com.atguigu.appclient.AppMain  >/opt/module/test.log
在/tmp/logs路径下查看生成的日志文件
[kris@hadoop101 module]$ cd /tmp/logs/
[kris@hadoop101 logs]$ ls

Linux环境变量配置：

（1）修改/etc/profile文件：所有用户的Shell都有权使用这些环境变量。
（2）修改~/.bashrc文件：针对某一个特定的用户，如果你需要给某个用户权限使用这些环境变量，你只需要修改其个人用户主目录下的.bashrc文件就可以了。
（3）配置登录远程服务器立即source一下环境变量

[kris@hadoop101 ~]$ cat /etc/profile >> .bashrc
[kris@hadoop102 ~]$ cat /etc/profile >> .bashrc
[kris@hadoop103 ~]$ cat /etc/profile >> .bashrc

日志生成集群启动脚本

[kris@hadoop101 bin]$ vim lg.sh 
#!/bin/bash
        for i in hadoop101 hadoop102
        do
            ssh $i "java -classpath /opt/module/logcollector-1.0-SNAPSHOT-jar-with-dependencies.jar com.atguigu.appclient.
AppMain >/opt/module/test.log &"
        done

修改脚本执行权限
[kris@hadoop101 bin]$ chmod +x lg.sh
启动脚本
[kris@hadoop101 module]$ lg.sh

View Code

集群时间同步修改脚本

在/home/kris/bin目录下创建脚本dt.sh
[kris@hadoop101 bin]$ vim dt.sh
#!/bin/bash
log_date=$1
for i in hadoop101 hadoop102 hadoop103
do
        ssh $i "sudo date -s $log_date"
done        
修改脚本执行权限
[kris@hadoop101 bin]$ chmod 777 dt.sh
启动脚本
[kris@hadoop101 bin]$ dt.sh 2019-2-10

View Code

集群所有进程查看脚本；在/home/kris/bin目录下创建脚本xcall.sh

[kris@hadoop101 bin]$ vim xcall.sh
#!/bin/bash
for i in hadoop101 hadoop102 hadoop103
do
        echo ----------$i------------
        ssh $i "$*"
done

修改脚本执行权限
[kris@hadoop101 bin]$ chmod 777 xcall.sh
启动脚本
[kris@hadoop101 bin]$ xcall.sh jps

View Code

3. 集群的搭建

Hadoop安装

   　　　　 　　　　服务器hadoop101    服务器hadoop102    服务器hadoop103
HDFS  　　  　　　　　NameNode　　　　　　DataNode 　　       DataNode    　　　　
　　　　　　　　　　　　DataNode　　　　　　　　　　　　　　　    SecondaryNameNode
Yarn    　　　　　　　NodeManager       Resourcemanager　　　NodeManager   
　　　　　　　　　　　　　　　　　　　　　　 NodeManager

https://www.cnblogs.com/shengyang17/p/10274391.html

添加LZO支持包

输入端采用压缩DEFLATE(deflate)压缩
mapper输出之后采用LZO或snappy
reducer输出之后gzip或bzip2

1)下载后的文件名是hadoop-lzo-master，它是一个zip格式的压缩包，先进行解压，然后用maven编译。生成hadoop-lzo-0.4.20。
2）将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/share/hadoop/common/
[kris@hadoop101 software]$ mv hadoop-lzo-0.4.20.jar /opt/module/hadoop-2.7.2/share/hadoop/common/
[kris@hadoop101 common]$ ls
hadoop-lzo-0.4.20.jar
3）同步hadoop-lzo-0.4.20.jar到hadoop103、hadoop104
[kris@hadoop101 common]$ xsync hadoop-lzo-0.4.20.jar

2 添加配置
1）core-site.xml增加配置支持LZO压缩

"1.0" encoding="UTF-8"?>
"text/xsl" href="configuration.xsl"?>




io.compression.codecs

org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.BZip2Codec,
org.apache.hadoop.io.compress.SnappyCodec,
com.hadoop.compression.lzo.LzoCodec,
com.hadoop.compression.lzo.LzopCodec




    io.compression.codec.lzo.class
    com.hadoop.compression.lzo.LzoCodec

View Code

2）同步core-site.xml到hadoop102、hadoop103
[kris@hadoop101 hadoop]$ xsync core-site.xml

两种压缩方式配置一种即可

配置Hadoop支持Snappy压缩

1）将编译后支持Snappy压缩的Hadoop jar包解压缩，并将lib/native目录中所有文件上传到hadoop102的/opt/module/hadoop-2.7.2/lib/native目录。

2）重新启动Hadoop。

3）检查支持的压缩方式

[kris@hadoop101 native]$ hadoop checknative
hadoop:  true /opt/module/hadoop-2.7.2/lib/native/libhadoop.so
zlib:    true /lib64/libz.so.1
snappy:  true /opt/module/hadoop-2.7.2/lib/native/libsnappy.so.1
lz4:     true revision:99
bzip2:   false

Zookeeper安装

    　　　　　　　　　　服务器hadoop101    服务器hadoop102    服务器hadoop103
Zookeeper            Zookeeper        Zookeeper         Zookeeper

详细安装见：

https://www.cnblogs.com/shengyang17/p/10325484.html

zookeeper集群启动脚本；

chmod 777 zk.sh

[kris@hadoop101 bin]$ vim zk.sh 
#!/bin/bash
case $1 in
"start"){
        for i in hadoop101 hadoop102 hadoop103
        do
        ssh $i "/opt/module/zookeeper-3.4.10/bin/zkServer.sh start"
        done
};;
"stop"){
        for i in hadoop101 hadoop102 hadoop103
        do
        ssh $i "/opt/module/zookeeper-3.4.10/bin/zkServer.sh stop"
        done
};;
esac

View Code

Flume安装

https://flume.apache.org/releases/content/1.7.0/FlumeUserGuide.html 可使用ctrl+F搜索

   　　　　　　　　 服务器hadoop101    服务器hadoop102   服务器hadoop103
Flume(采集日志)    Flume   　　　　　　 Flume

详细安装见：

https://www.cnblogs.com/shengyang17/p/10405979.html

TailDirSource是Flume 1.7提供的Source组件，在1.6中并没有。

Flume直接读log日志的数据，log日志的格式是app-yyyy-mm-dd.log。

Flume的具体配置如下：

（1）在/opt/module/flume/conf目录下创建file-flume-kafka.conf文件

[kris@hadoop101 conf]$ vim file-flume-kafka.conf

a1.sources=r1
a1.channels=c1 c2
a1.sinks=k1 k2

# configure source
a1.sources.r1.type = TAILDIR
a1.sources.r1.positionFile = /opt/module/flume/log_position.json
a1.sources.r1.filegroups = f1
a1.sources.r1.filegroups.f1 = /tmp/logs/app.+
a1.sources.r1.fileHeader = true
a1.sources.r1.channels = c1 c2

#interceptor
a1.sources.r1.interceptors = i1 i2
a1.sources.r1.interceptors.i1.type = com.atguigu.flume.interceptor.LogETLInterceptor$Builder
a1.sources.r1.interceptors.i2.type = com.atguigu.flume.interceptor.LogTypeInterceptor$Builder

# selector
a1.sources.r1.selector.type = multiplexing
a1.sources.r1.selector.header = logType
a1.sources.r1.selector.mapping.start = c1
a1.sources.r1.selector.mapping.event = c2

# configure channel
a1.channels.c1.type = memory
a1.channels.c1.capacity=10000
a1.channels.c1.byteCapacityBufferPercentage=20

a1.channels.c2.type = memory
a1.channels.c2.capacity=10000
a1.channels.c2.byteCapacityBufferPercentage=20

# configure sink
# start-sink
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.kafka.topic = topic_start
a1.sinks.k1.kafka.bootstrap.servers = hadoop101:9092,hadoop102:9092,hadoop103:9092
a1.sinks.k1.kafka.flumeBatchSize = 2000
a1.sinks.k1.kafka.producer.acks = 1
a1.sinks.k1.channel = c1

# event-sink
a1.sinks.k2.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k2.kafka.topic = topic_event
a1.sinks.k2.kafka.bootstrap.servers = hadoop101:9092,hadoop102:9092,hadoop103:9092
a1.sinks.k2.kafka.flumeBatchSize = 2000
a1.sinks.k2.kafka.producer.acks = 1
a1.sinks.k2.channel = c2

View Code

Flume拦截器

本项目中自定义了两个拦截器，分别是：ETL拦截器、日志类型区分拦截器。

ETL拦截器主要用于，过滤时间戳不合法和json数据不完整的日志

日志类型区分拦截器主要用于，将启动日志和事件日志区分开来，方便发往Kafka的不同topic。

拦截器打包之后，只需要单独包，不需要将依赖的包上传。依赖包在flume的lib目录下面已经存在了。打包之后要放入flume的lib文件夹下面。

需要先将打好的包放入到hadoop101的/opt/module/flume/lib文件夹下面。

[kris@hadoop101 lib]$ ls | grep interceptor

　　flume-interceptor-1.0-SNAPSHOT.jar

分发flume到hadoop102、hadoop103

[kris@hadoop101 module]$ xsync flume/
[kris@hadoop101 flume]$ bin/flume-ng agent --conf conf/ --name a1 --conf-file conf/file-flume-kafka.conf &

日志采集Flume启动停止脚本

roundValue:30s数据滚动一次；开发中一般1/h滚动一次； logFile日志保存30天；

在/home/kris/bin目录下创建脚本f1.sh；并添加执行权限；chmod +x f1.sh

[kris@hadoop101 bin]$ vim f1.sh 
#!/bin/bash
case $1 in
"start"){
        for i in hadoop101 hadoop102
        do
           echo "------------启动 $i 采集flume数据-----------" 
        ssh $i "nohup /opt/module/flume/bin/flume-ng agent -f /opt/module/flume/conf/file-flume-kafka.conf -n a1 -Dflume.r
oot.logger=INFO,LOGFILE >/dev/null 2>&1 &"
        done
};;
"stop"){
        for i in hadoop101 hadoop102
        do
           echo "------------停止 $i 采集flume数据------------"
        ssh $i "ps -ef | grep file-flume-kafka | grep -v grep | awk '{print \$2}' | xargs kill"
        done
};;
esac

View Code

nohup，该命令可以在你退出帐户/关闭终端之后继续运行相应的进程。nohup就是不挂起的意思，不挂断地运行命令。

/dev/null代表linux的空设备文件，所有往这个文件里面写入的内容都会丢失，俗称“黑洞”。

Flume(hadoop103)消费Kafka数据写到HDFS

1）在hadoop103的/opt/module/flume/conf目录下创建kafka-flume-hdfs.conf文件

[kris@hadoop103 conf]$ vim kafka-flume-hdfs.conf ；配置了不产生大量小文件！

## 组件
a1.sources=r1 r2
a1.channels=c1 c2
a1.sinks=k1 k2

## source1
a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource
a1.sources.r1.batchSize = 5000
a1.sources.r1.batchDurationMillis = 2000
a1.sources.r1.kafka.bootstrap.servers = hadoop101:9092,hadoop102:9092,hadoop103:9092
a1.sources.r1.kafka.topics=topic_start

## source2
a1.sources.r2.type = org.apache.flume.source.kafka.KafkaSource
a1.sources.r2.batchSize = 5000
a1.sources.r2.batchDurationMillis = 2000
a1.sources.r2.kafka.bootstrap.servers = hadoop101:9092,hadoop102:9092,hadoop103:9092
a1.sources.r2.kafka.topics=topic_event

## channel1
a1.channels.c1.type=memory
a1.channels.c1.capacity=100000
a1.channels.c1.transactionCapacity=10000

## channel2
a1.channels.c2.type=memory
a1.channels.c2.capacity=100000
a1.channels.c2.transactionCapacity=10000

## sink1
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /origin_data/gmall/log/topic_start/%Y-%m-%d
a1.sinks.k1.hdfs.filePrefix = logstart-
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 30
a1.sinks.k1.hdfs.roundUnit = second

##sink2
a1.sinks.k2.type = hdfs
a1.sinks.k2.hdfs.path = /origin_data/gmall/log/topic_event/%Y-%m-%d
a1.sinks.k2.hdfs.filePrefix = logevent-
a1.sinks.k2.hdfs.round = true
a1.sinks.k2.hdfs.roundValue = 30
a1.sinks.k2.hdfs.roundUnit = second

## 不要产生大量小文件
a1.sinks.k1.hdfs.rollInterval = 10
a1.sinks.k1.hdfs.rollSize = 134217728
a1.sinks.k1.hdfs.rollCount = 0

a1.sinks.k2.hdfs.rollInterval = 10
a1.sinks.k2.hdfs.rollSize = 134217728
a1.sinks.k2.hdfs.rollCount = 0

## 控制输出文件是原生文件。
a1.sinks.k1.hdfs.fileType = CompressedStream 
a1.sinks.k2.hdfs.fileType = CompressedStream 

a1.sinks.k1.hdfs.codeC = lzop
a1.sinks.k2.hdfs.codeC = lzop

## 拼装
a1.sources.r1.channels = c1
a1.sinks.k1.channel= c1

a1.sources.r2.channels = c2
a1.sinks.k2.channel= c2

View Code

日志消费Flume启动停止脚本

2）在/home/kris/bin目录下创建脚本f2.sh；并chmod +x f2.sh

[kris@hadoop101 bin]$ vim f2.sh

#! /bin/bash

case $1 in
"start"){
        for i in hadoop103
        do
                echo "------------启动 $i 消费flume------------"
                ssh $i "nohup /opt/module/flume/bin/flume-ng agent --conf-file /opt/module/flume/conf/kafka-flume-hdfs.conf --name a1 -Dflume.root.logger=INFO,LOGFILE >/opt/module/flume/log.txt   2>&1 &"
        done
};;
"stop"){
        for i in hadoop103
        do
                echo "------------停止 $i 消费flume------------"
                ssh $i "ps -ef | grep kafka-flume-hdfs | grep -v grep |awk '{print \$2}' | xargs kill -9"
        done

};;
esac

View Code

最快消费(最大吞吐量)，消费> 生产；kafka可对接ES等

Kafka安装

详细安装见：

https://www.cnblogs.com/shengyang17/p/10443115.html

kafka启动关闭脚本：

#!/bin/bash
case $1 in
"start"){
        for i in hadoop101 hadoop102 hadoop103
        do
           echo "------------启动 $i kafka----------------"
        ssh $i "export JMX_PORT=9988 && /opt/module/kafka/bin/kafka-server-start.sh -daemon /opt/module/kafka/config/serve
r.properties"
        done
};;
"stop"){
        for i in hadoop101 hadoop102 hadoop103
        do
           echo "------------停止 $i kafka----------------"
        ssh $i "/opt/module/kafka/bin/kafka-server-stop.sh stop"
        done
};;
esac
~

View Code

注意：启动Kafka时要先开启JMX端口，是用于后续KafkaManager监控。

Kafka Manager安装

详细见：

https://www.cnblogs.com/shengyang17/p/10459101.html

启动KafkaManager

[kris@hadoop101 kafka-manager-1.3.3.22]$ 
nohup bin/kafka-manager   -Dhttp.port=7456 >/opt/module/kafka-manager-1.3.3.22/start.log 2>&1 &

在浏览器中打开 http://hadoop101:7456

至此，就可以查看整个Kafka集群的状态，包括：Topic的状态、Brokers的状态、Cosumer的状态。

在kafka的/opt/module/kafka-manager-1.3.3.22/application.home_IS_UNDEFINED 目录下面，可以看到kafka-manager的日志。

Kafka Manager启动停止脚本

1）在/home/kris/bin目录下创建脚本km.sh； chmod +x km.sh

[kris@hadoop101 bin]$ vim km.sh

#!/bin/bash
case $1 in
"start"){
        echo "---------启动KafkaManager---------"
        nohup /opt/module/kafka-manager/bin/kafka-manager -Dhttp.port=7456 >/opt/module/kafka-manager/start.log 2>&1 &
};;
"stop"){
        echo "---------停止KafkaManager---------"
        ps -ef | grep ProdServerStart | grep -v grep | awk '{print $2}' | xargs kill
};;
esac

View Code

查看所有Kafka Topic
[kris@hadoop101 kafka]$ bin/kafka-topics.sh --zookeeper hadoop101:2181 --list
bin/kafka-topics.sh --delete --zookeeper hadoop101:2181,hadoop102:2181,hadoop103:2181 --topic topic_start  ##删除主题
生产消息
[kris@hadoop101 kafka]$ bin/kafka-console-producer.sh \
--broker-list hadoop101:9092 --topic topic_start
>hello world
>kris  kris

消费消息;可以检测下
[kris@hadoop102 kafka]$ bin/kafka-console-consumer.sh \
--zookeeper hadoop101:2181 --from-beginning --topic topic_start

1）Kafka压测

用Kafka官方自带的脚本，对Kafka进行压测。Kafka压测时，可以查看到哪个地方出现了瓶颈（CPU，内存，网络IO）。一般都是网络IO达到瓶颈。

kafka-consumer-perf-test.sh

kafka-producer-perf-test.sh

2）Kafka Producer压力测试

（1）在/opt/module/kafka/bin目录下面有这两个文件。我们来测试一下

[kris@hadoop101 kafka]$ bin/kafka-producer-perf-test.sh  --topic test --record-size 100 --num-recor 100000 --throughput 1000 --producer-props bootstrap.servers=hadoop101:9092,hadoop102:9092,hadoop103:9092
5000 records sent, 1000.0 records/sec (0.10 MB/sec), 2.6 ms avg latency, 183.0 max latency.
5012 records sent, 1002.4 records/sec (0.10 MB/sec), 1.0 ms avg latency, 36.0 max latency.
5001 records sent, 1000.2 records/sec (0.10 MB/sec), 0.6 ms avg latency, 8.0 max latency.
5001 records sent, 1000.2 records/sec (0.10 MB/sec), 0.4 ms avg latency, 22.0 max latency.
5001 records sent, 1000.0 records/sec (0.10 MB/sec), 0.6 ms avg latency, 45.0 max latency.
5002 records sent, 1000.2 records/sec (0.10 MB/sec), 0.3 ms avg latency, 3.0 max latency.
5001 records sent, 1000.2 records/sec (0.10 MB/sec), 0.8 ms avg latency, 27.0 max latency.
5001 records sent, 1000.0 records/sec (0.10 MB/sec), 0.5 ms avg latency, 54.0 max latency.
5001 records sent, 1000.0 records/sec (0.10 MB/sec), 0.7 ms avg latency, 60.0 max latency.
5003 records sent, 1000.4 records/sec (0.10 MB/sec), 0.4 ms avg latency, 29.0 max latency.
5000 records sent, 1000.0 records/sec (0.10 MB/sec), 0.7 ms avg latency, 50.0 max latency.
5001 records sent, 1000.2 records/sec (0.10 MB/sec), 0.9 ms avg latency, 82.0 max latency.
5003 records sent, 1000.2 records/sec (0.10 MB/sec), 0.4 ms avg latency, 32.0 max latency.
5000 records sent, 1000.0 records/sec (0.10 MB/sec), 0.8 ms avg latency, 67.0 max latency.
5002 records sent, 1000.2 records/sec (0.10 MB/sec), 0.9 ms avg latency, 80.0 max latency.
5002 records sent, 1000.0 records/sec (0.10 MB/sec), 0.4 ms avg latency, 18.0 max latency.
5000 records sent, 1000.0 records/sec (0.10 MB/sec), 0.9 ms avg latency, 75.0 max latency.
5001 records sent, 1000.2 records/sec (0.10 MB/sec), 0.5 ms avg latency, 23.0 max latency.
5003 records sent, 1000.2 records/sec (0.10 MB/sec), 0.5 ms avg latency, 26.0 max latency.
100000 records sent, 999.950002 records/sec (0.10 MB/sec), 0.72 ms avg latency, 183.00 ms max latency, 0 ms 50th, 1 ms 95th, 3 ms 99th, 44 ms 99.9th

测试生成了多少数据，消费了多少数据；每条信息大小，总共发送的条数；每秒多少条数据；

说明：record-size是一条信息有多大，单位是字节。num-records是总共发送多少条信息。throughput 是每秒多少条信息。

参数解析：本例中一共写入10w条消息，每秒向Kafka写入了0.10MB的数据，平均是1000条消息/秒，每次写入的平均延迟为0.72毫秒，最大的延迟为183毫秒。

Kafka Consumer压力测试

Consumer的测试，如果这四个指标（IO，CPU，内存，网络）都不能改变，考虑增加分区数来提升性能。

[kris@hadoop103 kafka]$ bin/kafka-consumer-perf-test.sh --zookeeper hadoop101:2181,hadoop102:2181,hadoop103:2181 --topic topic_event --fetch-size 10000 --messages 10000000 --threads 1     
start.time, end.time, data.consumed.in.MB, MB.sec, data.consumed.in.nMsg, nMsg.sec
2019-03-15 00:04:21:474, 2019-03-15 00:04:21:740, 1.1851, 4.4551, 1492, 5609.0226

参数说明：

--zookeeper 指定zookeeper的链接信息

--topic 指定topic的名称

--fetch-size 指定每次fetch的数据的大小

--messages 总共要消费的消息个数

测试结果说明：

开始测试时间，结束测试时间；最大吞吐率1.1851MB/S；最近每秒消费4.4551MB/S；最大每秒消费1492条；平均每秒消费5609.0226条；

Kafka机器数量计算

Kafka机器数量（经验公式）=2*（峰值生产速度*副本数/100）+1

先要预估一天大概产生多少数据，然后用Kafka自带的生产压测（只测试Kafka的写入速度，保证数据不积压），计算出峰值生产速度。再根据设定的副本数，就能预估出需要部署Kafka的数量。

比如我们采用压力测试测出写入的速度是10M/s一台，峰值的业务数据的速度是50M/s。副本数为2。

Kafka机器数量=2*（50*2/100）+1=3台

采集通道启动/停止脚本

1）在/home/kris/bin目录下创建脚本cluster.sh

[kris@hadoop101 bin]$ vim cluster.sh

#!/bin/bash
case $1 in
"start"){
        echo "-----------启动集群----------"
        /opt/module/hadoop-2.7.2/sbin/start-dfs.sh 
        ssh hadoop102 /opt/module/hadoop-2.7.2/sbin/start-yarn.sh
        zk.sh start
        f1.sh start
        kf.sh start
        sleep 4s;
        f2.sh start
        km.sh start
};;
"stop"){
        echo "------------停止集群----------------"
        km.sh stop
        f2.sh stop
        kf.sh stop
        sleep 7s;
        f1.sh stop
        sleep 3s;
        zk.sh stop
        ssh hadoop102 "/opt/module/hadoop-2.7.2/sbin/stop-yarn.sh"
        /opt/module/hadoop-2.7.2/sbin/stop-dfs.sh
};;
esac

View Code

改时间重新启动集群，因为flume和kafka会去通信看时间，时间偏差大就会挂掉

Hive&Mysql的安装

详细安装：只在1台节点hadoop101上安装即可

https://www.cnblogs.com/shengyang17/p/10372242.html

Hive运行引擎Tez的安装配置

1）下载tez的依赖包：http://tez.apache.org
2）拷贝apache-tez-0.9.1-bin.tar.gz到hadoop102的/opt/module目录
[kris@hadoop101 module]$ ls
apache-tez-0.9.1-bin.tar.gz
3）解压缩apache-tez-0.9.1-bin.tar.gz
[kris@hadoop101 module]$ tar -zxvf apache-tez-0.9.1-bin.tar.gz
4）修改名称
[kris@hadoop101 module]$ mv apache-tez-0.9.1-bin/ tez-0.9.1

在Hive中配置Tez

1）进入到Hive的配置目录：/opt/module/hive/conf
[kris@hadoop101 conf]$ pwd
/opt/module/hive/conf
2）在hive-env.sh文件中添加tez环境变量配置和依赖包环境变量配置
[kris@hadoop101 conf]$ vim hive-env.sh
添加如下配置

# Set HADOOP_HOME to point to a specific hadoop install directory
export HADOOP_HOME=/opt/module/hadoop-2.7.2

# Hive Configuration Directory can be controlled by:
export HIVE_CONF_DIR=/opt/module/hive/conf

# Folder containing extra libraries required for hive compilation/execution can be controlled by:
export TEZ_HOME=/opt/module/tez-0.9.1    #是你的tez的解压目录
export TEZ_JARS=""
for jar in `ls $TEZ_HOME |grep jar`; do
    export TEZ_JARS=$TEZ_JARS:$TEZ_HOME/$jar
done
for jar in `ls $TEZ_HOME/lib`; do
    export TEZ_JARS=$TEZ_JARS:$TEZ_HOME/lib/$jar
done

export HIVE_AUX_JARS_PATH=/opt/module/hadoop-2.7.2/share/hadoop/common/hadoop-lzo-0.4.20.jar$TEZ_JARS

View Code

3）在hive-site.xml文件中添加如下配置，更改hive计算引擎


  hive.execution.engine
  tez

配置Tez

1）在Hive 的/opt/module/hive/conf下面创建一个tez-site.xml文件
[kris@hadoop101 conf]$ pwd
/opt/module/hive/conf
[kris@hadoop101 conf]$ vim tez-site.xml
添加如下内容

"1.0" encoding="UTF-8"?>
"text/xsl" href="configuration.xsl"?>


    tez.lib.uris    ${fs.defaultFS}/tez/tez-0.9.1,${fs.defaultFS}/tez/tez-0.9.1/lib


    tez.lib.uris.classpath        ${fs.defaultFS}/tez/tez-0.9.1,${fs.defaultFS}/tez/tez-0.9.1/lib


     tez.use.cluster.hadoop-libs
     true


     tez.history.logging.service.class        org.apache.tez.dag.history.logging.ats.ATSHistoryLoggingService

View Code

上传Tez到集群

1）将/opt/module/tez-0.9.1上传到HDFS的/tez路径
[kris@hadoop101 conf]$ hadoop fs -mkdir /tez
[kris@hadoop101 conf]$ hadoop fs -put /opt/module/tez-0.9.1/ /tez
[kris@hadoop101 conf]$ hadoop fs -ls /tez
/tez/tez-0.9.1

测试

1）启动Hive
[kris@hadoop101 hive]$ bin/hive
2）创建LZO表
hive (default)> create table student(
id int,
name string);
3）向表中插入数据
hive (default)> insert into student values(1,"zhangsan");
4）如果没有报错就表示成功了
hive (default)> select * from student;
1       zhangsan

小结
1）运行Tez时检查到用过多内存而被NodeManager杀死进程问题：

这种问题是从机上运行的Container试图使用过多的内存，而被NodeManager kill掉了。

解决方法：

方案一：或者是关掉虚拟内存检查。我们选这个，修改yarn-site.xml；修改完之后要分发


     yarn.nodemanager.vmem-check-enabled
     false

方案二：mapred-site.xml中设置Map和Reduce任务的内存配置如下：(value中实际配置的内存需要根据自己机器内存大小及应用情况进行修改)


　　mapreduce.map.memory.mb
　　1536


　　mapreduce.map.java.opts
　　-Xmx1024M


　　mapreduce.reduce.memory.mb
　　3072


　　mapreduce.reduce.java.opts
　　-Xmx2560M

View Code

转载于:https://www.cnblogs.com/shengyang17/p/10527700.html

你可能感兴趣的:(数仓1.1 | 概述| 集群环境搭建)

HIBERNATE - 符合Java习惯的关系数据库持久化 popkiler Atleap代码读解 hibernate 数据库 java session class payment
HIBERNATE-符合Java习惯的关系数据库持久化Hibernate2参考文档2.1.1TableofContents前言1.在Tomcat中快速上手1.1.开始Hibernate之旅1.2.第一个可持久化类1.3.映射cat1.4.与猫同乐1.5.结语2.体系结构2.1.总览2.2.持久化对象标识（PersistentObjectIdentity）2.3.JMX集成2.4.JCA支持3.Se
零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
Go 语言使用Protobuf 进行序列化详解尘鹄 Go 语言学习之路 golang 开发语言后端 rpc go
文章目录Go语言使用Protobuf进行序列化详解1.Protobuf是什么?2.安装Protobuf及Go依赖3.编写.proto文件4.实现序列化和反序列化Go语言使用Protobuf进行序列化详解1.Protobuf是什么?以下是Protobuf官方中文文档的概述:Protobuf(ProtocolBuffers)是一种语言中立、平台中立的可扩展机制，用于序列化结构化数据。它类似于JSON，
【Go语言圣经1.1】 Pyroyster golang 开发语言后端
目标学习Go的编译方式、包的组织方式以及工具链的统一调用方式概念与定义packageGo语言通过包来组织代码。包类似于其它语言的库librarries或模块modules，每个包通常对应一个目录，目录中的所有.go文件都属于同一个包。特殊的main包:当代码使用packagemain声明时，表示这是一个可独立执行的程序而非一个库。程序的执行入口就是main函数import通过import语句，编译
Linux提权-02 sudo提权藤原千花的败北权限提升 linux 运维网络安全
文章目录1.sudo提权原理1.1原理1.2sudo文件配置2.提权利用方式2.1sudo权限分配不当2.2sudo脚本篡改2.3sudo脚本参数利用2.4sudo绕过路径执行2.5sudoLD_PRELOAD环境变量2.6sudocaching2.7sudo令牌进程注入3.参考4.附录什么是环境变量**一、环境变量是什么？****二、为什么`sudo`可以重置环境变量？****1.防止权限提升攻
2.10 Spring Boot定时任务：@Scheduled与Quartz对比分析 Sendingab spring boot 后端 java
SpringBoot定时任务：@Scheduled与Quartz对比分析一、核心特性对比特性**@Scheduled**Quartz依赖复杂度内置于Spring（零配置）需额外依赖与配置任务持久化不支持（内存存储）支持（数据库持久化）动态任务管理仅静态配置支持运行时增删改查分布式支持需自行实现原生集群支持调度策略固定速率/延迟Cron表达式/日历触发错误处理简单异常捕获完善的重试与错误日志机制性能
学习笔记09——并发编程之线程基础码代码的小仙女高级开发必备技能学习笔记 python
线程基础1.1进程与线程的区别，Java中线程的实现（用户线程与内核线程）进程是操作系统分配资源的基本单位，而线程是CPU调度的基本单位。每个进程有独立的内存空间，而同一进程内的线程共享内存.可以从资源分配、切换开销、通信方式和独立性四个方面来比较两者的区别资源分配进程：操作系统分配资源（如内存、文件句柄等）的基本单位，拥有独立的地址空间。线程：隶属于进程，共享进程的资源（如内存、文件等），是CP
Dify 工作流组件完全开发指南程序员查理 AI web前端 javascript javascript 前端 react.js
1.如何添加新的工作流节点组件1.1添加新节点的步骤要在Dify工作流中添加一个新的节点类型，需要完成以下步骤：1.1.1更新节点类型枚举首先，在app/components/workflow/types.ts文件中的BlockEnum中添加新节点类型：exportenumBlockEnum{//现有节点类型//...//添加新节点类型NewNodeType='new-node-type',}1.
C 语言中的数组详解 812503533 c语言 java 开发语言
在C语言中，数组是一种非常基础且常用的数据结构。数组是存储一组相同类型元素的集合，允许我们以统一的方式访问和操作这些元素。C语言中的数组不仅在编程中使用广泛，而且它的灵活性和效率使得它成为了许多算法实现的基础。本篇文章将深入分析C语言中的一维数组，包括定义、存储方式、操作方式、常见问题等等，所有的数据结构都可以从这几个方面来学习。1.数组的定义与存储方式1.1一维数组的定义数组的定义方式包括数组大
并发编程（三）——线程间的共享和协作霸图& java并发编程并发编程
并发编程（三）——线程间的共享和协作一线程间的共享线程开始运行，拥有自己的栈空间，就如同一个脚本一样，按照既定的代码一步一步地执行，直到终止。但是，每个运行中的线程，如果仅仅是孤立地运行，那么没有一点儿价值，或者说价值很少，如果多个线程能够相互配合完成工作，包括数据之间的共享，协同处理事情。这将会带来巨大的价值。1.1synchronized内置锁synchronized关键字：synchroni
autoreconf --install的作用 812503533 git
autoreconf--install是在使用GNUAutotools构建系统的项目中常用的一条命令，下面为你详细解释其含义以及使用--install选项的原因。autoreconf命令概述autoreconf是一个用于自动重新生成Autotools项目所需配置脚本的工具。Autotools是一组用于创建可移植构建系统的工具集合，主要包括autoconf、automake和libtool。在开发或
zookeeper与kafka集群配置 zhangpeng455547940 计算机 linux java 运维
基本配置修改ipvi/etc/sysconfig/network-scripts/ifcfg-ens33BOOTPROTO=staticONBOOT=yesIPADDR=192.168.139.133NETMASK=255.255.255.0GATEWAY=192.168.139.2DNS1=192.168.1.1修改主机名hostnamectlset-hostnameSSH免密登录vi/etc/
XML文件解析跪在镜子前喊帅其他 java
文章目录前言1、XML解析1.1、SAX1.2、DOM1.3、XPath前言xml文档里包含的是xml的元素，指的是从开始标签直到结束标签的部分，元素里可以包含其他元素，元素也可以拥有其他属性，比如：yang251212students，student，name，age，stuNo等这些都叫元素标签也可以叫元素节点和元素对象。id是某个元素的节点的属性，叫属性节点和属性对象。yang，25，121
Spring IOC 容器核心功能解析与优化架构我不是少爷. Java基础 spring 架构 java
一、IOC容器创建Bean的四种方式1.1普通创建方式使用场景：直接通过类默认构造器创建对象实现步骤：代码说明：id：Bean的唯一标识符class：指定类的全限定名Spring会调用默认无参构造器实例化对象1.2工厂模式创建使用场景：需要工厂类处理复杂初始化逻辑时实现步骤：//工厂类publicclassBookFactory{publicBookcreateBook(){returnnewBo
新导则下的防洪评价报告编制方法及洪水建模实践技术吹翻书页的风水文水利地质地下水环境科学 arcgis 防洪评价报告编制 HEC-RAS软件二维水动力模型计算
目录1、《防洪评价报告编制导则解读河道管理范围内建设项目编制导则》（SL/T808-2021）解读2、防洪评价相关制度与解析3、防洪评价地形获取及常用计算4、HEC-RAS软件原理及特点5、HEC-RAS地形导入6、一维数学模型计算7、基于数学模型软件的一维构筑物的水动力模型计算及本章内容在报告中编写方法8、数值模型软件概述及数据基础处理9、基于数学模型软件的二维水动力模型计算析及结果输出及评价章
java面试题框架篇老汤姆. 面试 java spring boot 开发语言
文章目录1.Spring框架1.1Spring两大核心：IOC与AOPIOCDIAOP切面=切入点表达式+通知方法关于JDK代理和CGlib代理总结(高程/架构)!!!AOP常用注解1.2BeanFactory(懒加载初始bean)和ApplicationContext(立即初始bean)有什么区别1.3Spring框架用到了哪些设计模式1.4spring框架的优缺点1.5Spring常用注解2.
ARM64环境部署EFK8.15.3收集K8S集群容器日志 llody_55 kubernetes 容器云原生运维 es java elasticsearch
环境规划主机IP系统部署方式ES版本CPU架构用户名密码192.168.1.225Ubuntu22.04.4LTSdockerelasticsearch:8.15.3ARM64elasticllodyi4TMmZDES集群部署创建持久化目录(所有节点)mkdir-p/data/es/{data,certs,logs,plugins}mkdir-p/data/es/certs/{ca,es01}服务
主存储器、SRAM 与 DRAM 的工作原理及相关技术海大超级无敌暴龙战士计算机组成原理学习方法
主存储器、SRAM与DRAM的工作原理及相关技术本文介绍了三种内容：SRAM与DRAM的工作方式DRAM的刷新机制与地址引脚复用技术DRAM行列（Row/Column）优化原则及行缓冲器容量的计算1.主存储器中SRAM与DRAM的工作方式1.1SRAM的工作方式基本原理：SRAM（静态随机存储器）利用由晶体管构成的锁存电路（通常为6T结构）来存储每一比特。只要电源保持，SRAM单元可以无限期地保存
使用Java对接StockTV印度股票数据源API实战指南 java爬虫
关键词：JavaAPI开发、SpringBoot、WebSocket、ApacheHttpClient一、项目概述本指南将使用Java实现StockTV金融数据API的完整对接方案，包含以下核心模块：✅RESTAPI客户端：支持同步/异步调用✅WebSocket实时订阅：基于SpringWebSocket✅企业级特性：连接池管理、熔断降级✅生产就绪：完整的异常处理和监控二、环境准备1.技术栈要求J
警惕AI神话破灭：深度解析大模型缺陷与禁用场景指南领码科技 AI应用 IT职场大模型缺陷 AI工具风险伦理挑战应用场景限制可信AI
摘要当前AI大模型虽展现强大能力，但其本质缺陷可能引发系统性风险。本文从认知鸿沟、数据困境、伦理雷区、技术瓶颈四大维度剖析大模型局限性，揭示医疗诊断、法律决策等8类禁用场景，提出可信AI建设框架与用户防护策略。通过理论分析与实操案例结合，为规避AI工具风险提供系统性解决方案。关键词：大模型缺陷、AI工具风险、伦理挑战、应用场景限制、可信AI一、认知鸿沟：无法企及的人类智慧1.1创造性思维的致命短板
scala针对复杂数据源导入与分隔符乱码处理 Tometor scala javascript 后端 java 数据结构
复杂的数据源，和奇怪的数据格式是生产中经常遇到的难题，本文将探讨如何解析分隔符混乱的数据，和如何导入各种数据源文件一、非标准分隔符处理当数据源的分隔符混乱或不统一时（如,、|、\t混合使用），可采用以下方法：1.1动态检测分隔符//示例：自动检测前100行的常用分隔符valsampleLines=spark.read.text("data.csv").limit(100).collect()val
Raspberry Pi图形组件深入解析与应用示例嵌入式Jerry Linux 服务器 linux 运维 python android
一、概述RaspberryPi的图形组件集中在Yocto项目的meta-raspberrypi层中的recipes-graphics目录下。此目录不仅定义了树莓派硬件优化的图形库和驱动，也提供了丰富的配置示例和具体实现方案，涵盖了从基础绘图、3D渲染到视频加速及窗口管理系统。二、目录结构与核心作用1.图形库优化cairo文件：cairo_%.bbappend作用：针对树莓派平台特定优化的2D图形矢
Redis 主从复制机制深度解析与实践指南月落星还在 redis redis 数据库缓存
Redis的主从复制（Replication）是构建高可用、高性能分布式缓存和数据库系统的核心机制。通过主从复制，数据可以从一个主节点（Master）自动同步到多个从节点（Slave），实现读写分离、负载均衡和故障恢复。本文将深入探讨主从复制的原理、配置方法、常见问题及优化策略。一、主从复制的核心概念1.1什么是主从复制？主从复制是一种数据同步机制，允许从节点实时复制主节点的数据。主节点负责处理写
PHP 过滤器 wjs2024 开发语言
PHP过滤器概述PHP过滤器是一种强大的功能，它可以确保在应用程序中处理数据时的安全性。过滤器可以用来验证用户输入、清理数据、转换数据等。在PHP开发中，正确地使用过滤器可以显著减少安全漏洞，提高应用程序的可靠性。过滤器的分类PHP中主要的过滤器分为以下几类：数据验证数据清理数据转换1.数据验证数据验证过滤器确保用户输入的数据符合特定的格式和规则。例如，filter_var函数可以用来验证电子邮件
Servlet 服务器 HTTP 响应 wjs2024 开发语言
Servlet服务器HTTP响应引言在JavaWeb开发中，Servlet作为服务器端技术的重要组成部分，扮演着至关重要的角色。Servlet负责处理客户端的请求，并生成响应。HTTP响应是Servlet处理请求后返回给客户端的数据。本文将详细介绍Servlet服务器HTTP响应的相关知识，包括响应状态码、响应头、响应体等。Servlet服务器HTTP响应概述Servlet服务器HTTP响应是指S
地理信息系统（ArcGIS）在水文水资源、水环境中的技术应用岁月如歌，青春不败水文水资源 arcgis 水文模型水文资源水文水资源水质模型洪水地理信息系统
在水文水环境保护中，对于信息的采集、处理和分析是关键步骤。水文水环境及其相关数据均具有空间分布特征，传统的方法难以发挥作用。地理信息系统（GIS）强大的空间数据管理和分析功能，在空间信息处理上有独到的优势，是研究区域水文水环境的空间差异的有力工具，GIS在水文水环境中的应用对解决水文水环境中许多问题起着重要的作用与意义。一：ARCGIS数据管理1.1ArcGIS界面及数据加载1.2ArcGIS常见
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
深入解析Java记录类：简洁高效的数据建模利器小志开发 java 开发语言
一、记录类核心概念1.1设计背景与定位记录类（Record）是Java16正式引入的标准特性，旨在简化不可变数据载体的创建。其设计目标包括：减少模板代码（Boilerplate）增强数据透明度支持模式匹配（未来特性）替代简单DTO和值对象1.2与普通类对比特性普通类记录类默认修饰符无限制隐式final继承支持继承不可继承其他类可变性可自由设计隐式不可变方法生成手动实现自动生成规范方法构造器显式定义
Apache Doris中都用了哪些开发语言，编译过程中用到了哪些编译器，以及用到了哪些成熟的技术框架 fzip Doris apache 开发语言
ApacheDoris作为一款高性能的实时分析型数据库，其技术栈涉及多语言开发、多种编译器支持以及多个成熟技术框架的集成。以下是综合多个来源的详细分析：一、开发语言Java•应用场景：主要用于开发Frontend（FE），负责元数据管理、查询解析、集群管理等模块。•关键模块：◦FE的元数据持久化通过BDBJE（BerkeleyDBJavaEdition）实现。◦MySQL协议兼容和HTTP服务分别
5、请简述公司的系统服务架构类型（单体架构、分布式架构、微服务架构、分层架构、集群架构、SOA 架构、中台架构）静静在思考面试经验架构分布式微服务
以下是对公司常见的系统服务架构类型的简述及架构图说明：单体架构简述：将所有功能集成在一个项目中，作为一个整体进行开发、部署和运行，所有业务逻辑、数据访问等都在一个进程内。适用于小型项目或业务简单的场景，开发、部署和维护相对简单。架构图用户界面业务逻辑数据访问数据库分布式架构简述：把系统拆分为多个子系统或服务，分布在不同节点上独立运行，通过网络通信协作完成业务功能，可扩展性和可靠性较高，能应对大规模
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round