办公模板库素材蛙

大数据智慧出行开发第一周：智慧出行底层数据架构剖析纵览全局

第一周：智慧出行底层数据架构剖析纵览全局

0.大数据环境前置准备

一、文档说明

为了统一我们的操作系统与软件环境，我们统一课前基本软件环境，实现全程学习当中的软件版本都是一致的

二、VmWare与linux版本

VmWare版本：

VmWare版本不做要求，使用VmWare10版本以上即可，关于VmWare的安装，直接使用安装包一直下一步安装即可，且安装包当中附带破解秘钥，进行破解即可使用

linux版本

linux统一使用centos

centos统一使用centos7.6 64位版本

种子文件下载地址：http://mirrors.aliyun.com/centos/7.6.1810/isos/x86_64/CentOS-7-x86_64-DVD-1810.torrent

或者官网下载

1.百度搜索centos–>2.点击centos官网连接–>3.点击DVD ISO–>4.点击http://ap.stykers.moe/centos/7.6.1810/isos/x86_64/CentOS-7-x86_64-DVD-1810.iso连接进下载.

三、使用VmWare来安装linux软件

四、三台linux服务器环境准备

三台机器IP设置

三台机器修改ip地址：

vi /etc/sysconfig/network-scripts/ifcfg-ens33 

BOOTPROTO="static"
IPADDR=192.168.52.100
NETMASK=255.255.255.0
GATEWAY=192.168.52.1
DNS1=8.8.8.8

准备三台linux机器，IP地址分别设置成为

第一台机器IP地址：192.168.52.100

第二台机器IP地址：192.168.52.110

第三台机器IP地址：192.168.52.120

三台机器关闭防火墙

三台机器在root用户下执行以下命令关闭防火墙

systemctl stop firewalld
systemctl disable firewalld

三台机器关闭selinux

三台机器在root用户下执行以下命令关闭selinux

三台机器执行以下命令，关闭selinux

vi /etc/selinux/config 

SELINUX=disabled

三台机器更改主机名

三台机器分别更改主机名

第一台主机名更改为：node01.kaikeba.com

第二台主机名更改为：node02.kaikeba.com

第三台主机名更改为：node03.kaikeba.com

hostnamectl set-hostname node01.kaikeba.com

第一台机器执行以下命令修改主机名

vi /etc/hostname
node01.kaikeba.com

第二台机器执行以下命令修改主机名

vi /etc/hostname
node02.kaikeba.com

第三台机器执行以下命令修改主机名

vi /etc/hostname
node03.kaikeba.com

三台机器更改主机名与IP地址映射

三台机器执行以下命令更改主机名与IP地址映射关系

vi /etc/hosts

192.168.52.100 node01.kaikeba.com node01
192.168.52.110 node02.kaikeba.com node02
192.168.52.120 node03.kaikeba.com node03

三台机器配置时区

Asia>China>beijing

cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

三台机器同步时间

三台机器执行以下命令定时同步阿里云服务器时间

date -s ‘2018-10-11 20:55:55’

 yum -y install ntpdate
 crontab -e 
 */1 * * * * /usr/sbin/ntpdate time1.aliyun.com

三台定义统安装包解压目录

mkdir -p /opt/cdh # 安装包解压目录

三台机器安装jdk

根据自己安装的jdk配置相应的环境变量.

使用root用户来重新连接三台机器，然后使用root用户来安装jdk软件

上传压缩包到第一台服务器的root用户/home/root（也就是[root@localhost ~]目录下，顺便放个位置就可以了）下面，然后进行解压，配置环境变量即可，三台机器都依次安装即可

[root@localhost ~]# vi .bash_profile 
# .bash_profile

# Get the aliases and functions
if [ -f ~/.bashrc ]; then
        . ~/.bashrc
fi

# User specific environment and startup programs
JAVA_HOME=/usr/java/jdk1.8.0_211-amd64
PATH=$PATH:$HOME/bin:$JAVA_HOME/bin

export JAVA_HOME
export PATH

root用户免密码登录

三台机器在root用户下执行以下命令生成公钥与私钥

ssh-keygen -t rsa 

三台机器在root用户下，执行以下命令将公钥拷贝到所有服务器上面去
ssh-copy-id  node01
ssh-copy-id  node02
ssh-copy-id  node03

五、网络ping不同问题分析

1.第一种情况,ip配置错误，配置项拼写错误.

2.vnet8的ip需要配置和本地在最好在不同的网段,如果在一个网段要保证vnet8的ip和本地的网关不要一样,一样的话可能导致不能连接外网.

3.虚拟网络子网配置是否和本地在一个网段.

4.虚拟网络配置正常，虚拟机不能平通网络,此时从新修改下虚拟网络配置.

六、免密登录时创建的.ssh文件不是目录

1.如果有root用户登录进程先杀死登录进程，然后删除用户userdel -r root重新进行免密操作.

2.ssh-copy-id -i node01

一、课前准备

1.个人电脑(1T磁盘，内存16G以上,4核八代CPU)或者云环境(三台虚拟机,磁盘40G以上，内存16G以上，4核cpu).

2.准备项目运行环境(3台linux centos7的虚拟机,50G磁盘，4G内存，4核cpu)

3.下载好CDH5.14

4.下载并安装jdk8

二、课堂主题

1.课程整体介绍

2.项目整体介绍

3.技术点和使用场景的介绍

三、课堂目标

1.全局熟悉项目中使用到的技术点.

2.项目的整体框架.

3.课程的整体知识点.

四、知识要点

1、项目架构及解决方案论述

1.1 通过binlog方式实时梳理业务库高QPS压力

QPS：Queries Per Second意思是“每秒查询率”，是一台服务器每秒能够相应的查询次数，是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准。

官网binlog介绍

MySQL中通常有以下几种类型的文件:

日志类型	写入日志的信息
错误日志	记录在启动，运行或停止mysqld时遇到的问题
通用查询日志	记录建立的客户端连接和执行的语句
二进制日志	记录更改数据的语句
中继日志	从复制主服务器接收的数据更改
慢查询日志	记录所有执行时间超过 `long_query_time` 秒的所有查询或不使用索引的查询
DDL日志（元数据日志）	元数据操作由DDL语句执行

业务背景:

通常我们在进行业务系统开发是开始都会采用关系型数据库(Mysql,Oracle)，随着业务量的增大导致数据量增大，我们需要对架构进行调整演进出来主从架构(主库负责写，从库负责读),随着业务量的持续增大我们需要进行分库分表来降低单个表中的数据存储，但是单个表中数据量达到400w~500w性能比较底下，让人无法接受,如果我们按照分库分表的策略进行操作会随着业务量的不断增长导致数据库集群的维护工作变得更加复杂，同时会带来更多的问题:

辅助索引只能局部有效；
由于分库，无法使用join等函数；由于分表count、order、group等聚合函数也无法做了；
扩容：需要再次水平拆分的：迁移数据……

当我们遇到如下业务场景时:

1.业务更新数据写到数据库中

2.业务更新数据需要实时传递给下游业务依赖处理

处理架构如下:

但这个架构也存在着不少弊端：我们需要在项目中维护很多发送消息的代码。新增或者更新消息都会带来不少维护成本。所以，更好的处理方式应该是直接将数据库的数据接入到流式系统中，使用大数据生态圈中的相关技术来剥离业务数据的后续处理以及最大化优化读数据的能力从而减少业务库的压力，业务库只关心数据的写入即可,新的设计架构如下图：

使用maxwell拉取的方式实时监听mysql数据库的binlog文件

1.2 内置源码模块，细粒度监控Spark作业，失败及时邮件报警

业务背景:
通常我们在使用Spark进行数据分析时，需要对Spark应用程序进行性能的优化，此时我们就需要知道Spark应用程度内部涉及到的Job,stage,task的运行情况，虽然Spark UI中已经有了可以查看Job,stage，task运行时的一些信息，但是都是粗粒度的，如果业务中需要更细粒度的监控时就需要开发代码，同时，可以进行自定义一些任务失败时通过邮件通知运维人员及时关注业务运行情况和集群资源使用情况.

监控整个application开始执行状态
监控整个application结束的状态
监控整个Job开始执行状态
监控整个Job结束状态
监控Spark stage提交时状态
监控Spark stage完成时状态
监控Spark task开始时状态
监控Spark task完成时状态
监控整个作业的内存和磁盘变化
监控整个job上下文环境
监控rdd缓存变化状态
监控executor状态

通过实现SparkListener(离线Spark应用监听器)和StreamingListener(实时流Spark应用监听器)来达到对多Spark应用运行时状态的细粒度监控

1.2.1 spark离线任务监控

com.cartravel.programApp.ReadController //启动SparkEngine引擎
com.cartravel.spark.SparkEngine //主要用于把自定义的SparkAppListener的监听器给调用起来
com.cartravel.spark.SparkAppListener //离线监听Spark应用运行状况

1.2.2 sparkstreaming实时任务监控

com.cartravel.programApp.App  //创建KafkaManager实例
com.cartravel.spark.StreamingMonitor //监控Spark实时作业状况
com.cartravel.kafka.KafkaManager //启动StreamingMonitor

com.cartravel.kafka.KafkaManager类中启动StreamingMonitor

val endTime = System.currentTimeMillis()
            Logger.getLogger("处理事务").info(s"插入数据需要的时间：${(endTime - startTime)}")
            ssc.addStreamingListener(new StreamingMonitor(ssc , sparkConf , batchDuration.toInt , "query" , rdd , kafkaManager))

1.3 覆盖源码自定义数据源实现数据加载，从源头进行列剪枝

业务背景:

目前Spark框架是大数据开源技术中比较流行的分布式计算框架，而HBase是基于HDFS之上的分布式列式存储数据库，使用Spark作为实时和离线数据分析的也越来越多，最后把处理的结果保存到HBase中做实时的查询。或者现在越来越多的企业针对用户的行为数据建设用户画像和推荐系统都在使用HBase作为存储媒介，供客户端使用,然儿往往HBase中存储的用户和物品的数据性比较多，我们使用到的属性列比较少，这时我们就需要按需(也就是按照列)查询HBase中的数据，Spark和Hbase集成时默认进行的是全表扫描，这样会代码一个问题，如果表中有几十个G的数据时就会一次性扫描放到内存中，然后在内存中进行按列过滤，这样就会造成内存，磁盘，网络IO的压力，如果按照列进行扫描数据的话，压力会大大减少数十倍或者数百倍之多.

实现方案:

1.4 自定义维护Kafka的偏移量管理，实现exactly once

业务背景:

通常项目开发过程中，我们使用SparkStreaming和Kafka集成处理，Kafka的自动管理offset就能够满足大部分需求，但有些场景我们要保证主体中的消息只能被处理一次，不能出现重复消费的问题，这时我们就需要使用Kafka提供的手动维护offset的功能。

实现方案:

1.业务处理的地方禁用到kafka自动提交offset的配置项.

2.把偏移量手动保存到zookeeper(或hbase)中的一个数据节点中.

3.业务处理时首先获取zookeeper(或bhase)中的偏移量，如果能获取到那就从获取到的offset处进行消费，如果获取不到那就从latest处进行消费,然后把消费掉的offset保存到zookeeper中的数据节点中.

1.5 实现前后端rest接口的开发规范

[参考rest设计文档]

2、项目模块搭建

2.1 前后端模块分离

总结:前端项目+后端接口

传统项目，前后端统一在一个服务中,后端的代码内嵌在前端的代码中.

Java开发页面代码:

JSP中的JSTL标签:

PHP代码开发页面代码:

请求处理方式:

随着近几年互联网的快速发展，传统的做法已经不能满足业务的发展需要，各种前端框架的出现，渐渐出现前后端分离的架构方式，项目结构发生了变化，如下图:

请求处理方式:

实现:

1.后端提供restful接口，向前端返回json格式数据.

2.部署，前端开发好项目把编译生成的static放到后端项目中跟着后端项目一起发布部署.

2.2 项目依赖的版本规范

1.整个项目使用mave进行模块管理

2.依赖包版本管理

3、项目平台搭建（Cloudera）

请参考【Cloudera平台搭建】教程

3.1 Cloudera的服务搭建

3.2 Cloudera的Hadoop生态搭建

3.3 Cloudera的分布式消息系统搭建

4、业务库高并发解决方案介绍和架构实现

通常业务库的压力比较大主要分为写(插入，更新，删除)和读两种操作，针对于写操作我们可以通过分库分表来实现，那么针对于读的操作，尤其是各种复杂的报表需要在全局表数据中进行统计时，分库分表实现起来就比较麻烦，代码需要同时统计多个库和多个表，然后在进行统一的汇总，这样频繁的操作对业务库压力比较大，针对这样的需求业内的惯用做法就是读与写的分离，写只关注数据的产生和修改，读只需要关注数据查询，而我们要做的就是对业务库读性能的优化.

4.1 业务库binlog的落地

1.需要开启mysql数据库binlog的功能

4.2 实时抓取binlog并解析到分布式消息队列

1.配置maxwell,zookeeper,kafka

5、项目common模块的开发实现

1.common模块初步搭建

五、MySQL安装之yum安装

在CentOS7中默认安装有MariaDB，这个是MySQL的分支，但为了需要，还是要在系统中安装MySQL，而且安装完成之后可以直接覆盖掉MariaDB。

1.安装wget工具

使用wget工具下载mysql安装包和yum源文件

yum install -y wget

[root@node02 ~]# wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm
-bash: wget: command not found
You have new mail in /var/spool/mail/root
[root@node02 ~]# yum install -y wget
Loaded plugins: fastestmirror
Loading mirror speeds from cached hostfile
 * base: mirror.jdcloud.com
 * extras: mirror.jdcloud.com
 * updates: mirrors.tuna.tsinghua.edu.cn
Resolving Dependencies
--> Running transaction check
---> Package wget.x86_64 0:1.14-18.el7_6.1 will be installed
--> Finished Dependency Resolution

Dependencies Resolved

===================================================================================================
 Package            Arch                 Version                          Repository          Size
===================================================================================================
Installing:
 wget               x86_64               1.14-18.el7_6.1                  base               547 k

Transaction Summary
===================================================================================================
Install  1 Package

Total download size: 547 k
Installed size: 2.0 M
Downloading packages:
wget-1.14-18.el7_6.1.x86_64.rpm                                             | 547 kB  00:00:08     
Running transaction check
Running transaction test
Transaction test succeeded
Running transaction
  Installing : wget-1.14-18.el7_6.1.x86_64                                                     1/1 
  Verifying  : wget-1.14-18.el7_6.1.x86_64                                                     1/1 

Installed:
  wget.x86_64 0:1.14-18.el7_6.1                                                                    

Complete!
[root@node02 ~]#

2. 下载并安装MySQL官方的 Yum Repository

[root@node02 ~]# wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm
--2019-10-11 14:31:09--  http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm
Resolving dev.mysql.com (dev.mysql.com)... 137.254.60.11
Connecting to dev.mysql.com (dev.mysql.com)|137.254.60.11|:80... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm [following]
--2019-10-11 14:31:11--  https://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm
Connecting to dev.mysql.com (dev.mysql.com)|137.254.60.11|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://repo.mysql.com//mysql57-community-release-el7-10.noarch.rpm [following]
--2019-10-11 14:31:14--  https://repo.mysql.com//mysql57-community-release-el7-10.noarch.rpm
Resolving repo.mysql.com (repo.mysql.com)... 104.93.1.42
Connecting to repo.mysql.com (repo.mysql.com)|104.93.1.42|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 25548 (25K) [application/x-redhat-package-manager]
Saving to: ‘mysql57-community-release-el7-10.noarch.rpm’

100%[=========================================================>] 25,548      --.-K/s   in 0.001s  

2019-10-11 14:31:15 (31.3 MB/s) - ‘mysql57-community-release-el7-10.noarch.rpm’ saved [25548/25548]

-c: No such file or directory
No URLs found in -c.
FINISHED --2019-10-11 14:31:15--
Total wall clock time: 5.9s
Downloaded: 1 files, 25K in 0.001s (31.3 MB/s)
You have new mail in /var/spool/mail/root
[root@node02 ~]#

使用上面的命令就直接下载了安装用的Yum Repository，大概25KB的样子，然后就可以直接yum安装了。

[root@node02 ~]#  yum -y install mysql57-community-release-el7-10.noarch.rpm 
Loaded plugins: fastestmirror
Examining mysql57-community-release-el7-10.noarch.rpm: mysql57-community-release-el7-10.noarch
Marking mysql57-community-release-el7-10.noarch.rpm to be installed
Resolving Dependencies
--> Running transaction check
---> Package mysql57-community-release.noarch 0:el7-10 will be installed
--> Finished Dependency Resolution

Dependencies Resolved

===================================================================================================
 Package                     Arch     Version     Repository                                  Size
===================================================================================================
Installing:
 mysql57-community-release   noarch   el7-10      /mysql57-community-release-el7-10.noarch    30 k

Transaction Summary
===================================================================================================
Install  1 Package

Total size: 30 k
Installed size: 30 k
Downloading packages:
Running transaction check
Running transaction test
Transaction test succeeded
Running transaction
  Installing : mysql57-community-release-el7-10.noarch                                         1/1 
  Verifying  : mysql57-community-release-el7-10.noarch                                         1/1 

Installed:
  mysql57-community-release.noarch 0:el7-10                                                        

Complete!
You have new mail in /var/spool/mail/root
[root@node02 ~]#

下面就是使用yum安装MySQL了,这步可能会花些时间，安装完成后就会覆盖掉之前的mariadb。

[root@node02 ~]# yum -y install mysql-community-server
Loaded plugins: fastestmirror
Loading mirror speeds from cached hostfile
 * base: mirror.jdcloud.com
 * extras: mirror.jdcloud.com
 * updates: mirrors.tuna.tsinghua.edu.cn
mysql-connectors-community                                                  | 2.5 kB  00:00:00     
mysql-tools-community                                                       | 2.5 kB  00:00:00     
mysql57-community                                                           | 2.5 kB  00:00:00     
(1/3): mysql57-community/x86_64/primary_db                                  | 184 kB  00:00:01     
(2/3): mysql-tools-community/x86_64/primary_db                              |  61 kB  00:00:02     
(3/3): mysql-connectors-community/x86_64/primary_db                         |  44 kB  00:00:03     
Resolving Dependencies
--> Running transaction check
---> Package mysql-community-server.x86_64 0:5.7.27-1.el7 will be installed
--> Processing Dependency: mysql-community-common(x86-64) = 5.7.27-1.el7 for package: mysql-community-server-5.7.27-1.el7.x86_64
--> Processing Dependency: mysql-community-client(x86-64) >= 5.7.9 for package: mysql-community-server-5.7.27-1.el7.x86_64
--> Running transaction check
---> Package mysql-community-client.x86_64 0:5.7.27-1.el7 will be installed
--> Processing Dependency: mysql-community-libs(x86-64) >= 5.7.9 for package: mysql-community-client-5.7.27-1.el7.x86_64
---> Package mysql-community-common.x86_64 0:5.7.27-1.el7 will be installed
--> Running transaction check
---> Package mariadb-libs.x86_64 1:5.5.60-1.el7_5 will be obsoleted
--> Processing Dependency: libmysqlclient.so.18()(64bit) for package: 2:postfix-2.10.1-7.el7.x86_64
--> Processing Dependency: libmysqlclient.so.18(libmysqlclient_18)(64bit) for package: 2:postfix-2.10.1-7.el7.x86_64
---> Package mysql-community-libs.x86_64 0:5.7.27-1.el7 will be obsoleting
--> Running transaction check
---> Package mysql-community-libs-compat.x86_64 0:5.7.27-1.el7 will be obsoleting
--> Finished Dependency Resolution

Dependencies Resolved

===================================================================================================
 Package                           Arch         Version              Repository               Size
===================================================================================================
Installing:
 mysql-community-libs              x86_64       5.7.27-1.el7         mysql57-community       2.2 M
     replacing  mariadb-libs.x86_64 1:5.5.60-1.el7_5
 mysql-community-libs-compat       x86_64       5.7.27-1.el7         mysql57-community       2.0 M
     replacing  mariadb-libs.x86_64 1:5.5.60-1.el7_5
 mysql-community-server            x86_64       5.7.27-1.el7         mysql57-community       165 M
Installing for dependencies:
 mysql-community-client            x86_64       5.7.27-1.el7         mysql57-community        24 M
 mysql-community-common            x86_64       5.7.27-1.el7         mysql57-community       275 k

Transaction Summary
===================================================================================================
Install  3 Packages (+2 Dependent packages)

Total download size: 194 M
Downloading packages:
warning: /var/cache/yum/x86_64/7/mysql57-community/packages/mysql-community-common-5.7.27-1.el7.x86_64.rpm: Header V3 DSA/SHA1 Signature, key ID 5072e1f5: NOKEY
Public key for mysql-community-common-5.7.27-1.el7.x86_64.rpm is not installed
(1/5): mysql-community-common-5.7.27-1.el7.x86_64.rpm                       | 275 kB  00:00:01     
(2/5): mysql-community-libs-5.7.27-1.el7.x86_64.rpm                         | 2.2 MB  00:00:04     
(3/5): mysql-community-libs-compat-5.7.27-1.el7.x86_64.rpm                  | 2.0 MB  00:00:06     
mysql-community-client-5.7.27- FAILED                                          18 MB 170:42:08 ETA 
http://repo.mysql.com/yum/mysql-5.7-community/el/7/x86_64/mysql-community-client-5.7.27-1.el7.x86_64.rpm: [Errno 12] Timeout on http://repo.mysql.com/yum/mysql-5.7-community/el/7/x86_64/mysql-community-client-5.7.27-1.el7.x86_64.rpm: (28, 'Operation too slow. Less than 1000 bytes/sec transferred the last 30 seconds')
Trying other mirror.
mysql-community-server-5.7.27- FAILED                                          16 MB  --:--:-- ETA 
http://repo.mysql.com/yum/mysql-5.7-community/el/7/x86_64/mysql-community-server-5.7.27-1.el7.x86_64.rpm: [Errno 12] Timeout on http://repo.mysql.com/yum/mysql-5.7-community/el/7/x86_64/mysql-community-server-5.7.27-1.el7.x86_64.rpm: (28, 'Operation too slow. Less than 1000 bytes/sec transferred the last 30 seconds')
Trying other mirror.
(4/5): mysql-community-client-5.7.27-1.el7.x86_64.rpm                       |  24 MB  00:11:58     
mysql-community-server-5.7.27- FAILED                                          4 MB 2600:47:50 ETA 
http://repo.mysql.com/yum/mysql-5.7-community/el/7/x86_64/mysql-community-server-5.7.27-1.el7.x86_64.rpm: [Errno 12] Timeout on http://repo.mysql.com/yum/mysql-5.7-community/el/7/x86_64/mysql-community-server-5.7.27-1.el7.x86_64.rpm: (28, 'Operation too slow. Less than 1000 bytes/sec transferred the last 30 seconds')
Trying other mirror.
(5/5): mysql-community-server-5.7.27-1.el7.x86_64.rpm                       | 165 MB  00:07:44     
---------------------------------------------------------------------------------------------------
Total                                                              148 kB/s | 194 MB  00:22:20     
Retrieving key from file:///etc/pki/rpm-gpg/RPM-GPG-KEY-mysql
Importing GPG key 0x5072E1F5:
 Userid     : "MySQL Release Engineering "
 Fingerprint: a4a9 4068 76fc bd3c 4567 70c8 8c71 8d3b 5072 e1f5
 Package    : mysql57-community-release-el7-10.noarch (installed)
 From       : /etc/pki/rpm-gpg/RPM-GPG-KEY-mysql
Running transaction check
Running transaction test
Transaction test succeeded
Running transaction
  Installing : mysql-community-common-5.7.27-1.el7.x86_64                                      1/6 
  Installing : mysql-community-libs-5.7.27-1.el7.x86_64                                        2/6 
  Installing : mysql-community-client-5.7.27-1.el7.x86_64                                      3/6 
  Installing : mysql-community-server-5.7.27-1.el7.x86_64                                      4/6 
  Installing : mysql-community-libs-compat-5.7.27-1.el7.x86_64                                 5/6 
  Erasing    : 1:mariadb-libs-5.5.60-1.el7_5.x86_64                                            6/6 
  Verifying  : mysql-community-libs-compat-5.7.27-1.el7.x86_64                                 1/6 
  Verifying  : mysql-community-common-5.7.27-1.el7.x86_64                                      2/6 
  Verifying  : mysql-community-server-5.7.27-1.el7.x86_64                                      3/6 
  Verifying  : mysql-community-client-5.7.27-1.el7.x86_64                                      4/6 
  Verifying  : mysql-community-libs-5.7.27-1.el7.x86_64                                        5/6 
  Verifying  : 1:mariadb-libs-5.5.60-1.el7_5.x86_64                                            6/6 

Installed:
  mysql-community-libs.x86_64 0:5.7.27-1.el7    mysql-community-libs-compat.x86_64 0:5.7.27-1.el7 
  mysql-community-server.x86_64 0:5.7.27-1.el7 

Dependency Installed:
  mysql-community-client.x86_64 0:5.7.27-1.el7     mysql-community-common.x86_64 0:5.7.27-1.el7    

Replaced:
  mariadb-libs.x86_64 1:5.5.60-1.el7_5                                                             
#提示安装完成,表示安装成功
Complete!
You have new mail in /var/spool/mail/root

#已经查询不到mariadb数据库了
[root@node02 ~]# rpm -qa|grep mariadb
You have new mail in /var/spool/mail/root
[root@node02 ~]#

3. MySQL数据库设置

首先启动MySQL

#启动mysql服务
[root@node02 ~]# systemctl start  mysqld.service
#查看mysql运行状态
[root@node02 ~]# systemctl status  mysqld.service  
● mysqld.service - MySQL Server
   Loaded: loaded (/usr/lib/systemd/system/mysqld.service; enabled; vendor preset: disabled)
   #表示已经启动(linux)
   Active: active (running) since Fri 2019-10-11 15:14:57 CST; 6s ago
     Docs: man:mysqld(8)
           http://dev.mysql.com/doc/refman/en/using-systemd.html
  Process: 22525 ExecStart=/usr/sbin/mysqld --daemonize --pid-file=/var/run/mysqld/mysqld.pid $MYSQLD_OPTS (code=exited, status=0/SUCCESS)
  Process: 22449 ExecStartPre=/usr/bin/mysqld_pre_systemd (code=exited, status=0/SUCCESS)
 Main PID: 22528 (mysqld)
   CGroup: /system.slice/mysqld.service
           └─22528 /usr/sbin/mysqld --daemonize --pid-file=/var/run/mysqld/mysqld.pid

Oct 11 15:14:54 node02.kaikeba.com systemd[1]: Starting MySQL Server...
Oct 11 15:14:57 node02.kaikeba.com systemd[1]: Started MySQL Server.
[root@node02 ~]#

此时MySQL已经开始正常运行，不过要想进入MySQL还得先找出此时root用户的密码，通过如下命令可以在日志文件中找出密码：

#查找到root用户登录mysql数据库的密码:7UOv>SVzygyB
[root@node02 ~]# grep "password" /var/log/mysqld.log
2019-10-11T07:14:54.482816Z 1 [Note] A temporary password is generated for root@localhost: 7UOv>SVzygyB
You have new mail in /var/spool/mail/root
[root@node02 ~]#

命令进入数据库：

[root@node02 ~]# mysql -u root -p
Enter password: 
Welcome to the MySQL monitor.  Commands end with ; or \g.
Your MySQL connection id is 3
Server version: 5.7.27

Copyright (c) 2000, 2019, Oracle and/or its affiliates. All rights reserved.

Oracle is a registered trademark of Oracle Corporation and/or its
affiliates. Other names may be trademarks of their respective
owners.

Type 'help;' or '\h' for help. Type '\c' to clear the current input statement.

mysql> show databases;
#提示修改初始密码
ERROR 1820 (HY000): You must reset your password using ALTER USER statement before executing this statement.
mysql> show databases;
ERROR 1820 (HY000): You must reset your password using ALTER USER statement before executing this statement.
#注意密码设置不能过于简单，mysql有密码设置规范（特殊字符、字母大小写，数字三者的组合）
mysql> ALTER USER 'root'@'localhost' IDENTIFIED BY '!Qaz123456';
#添加scm用户对scm库的访问权限
mysql> grant all on scm.* to scm@'%' identified by '!Qaz123456';
Query OK, 0 rows affected, 1 warning (0.01 sec)

mysql> select user,host from user;
+---------------+-----------+
| user          | host      |
+---------------+-----------+
| scm           | %         |
| mysql.session | localhost |
| mysql.sys     | localhost |
| root          | localhost |
+---------------+-----------+
4 rows in set (0.01 sec)

#刷新访问权限的设置,这一步非常重要，如果没有操作，scm远程访问mysql数据库就失败.
mysql> flush privileges;
Query OK, 0 rows affected (0.01 sec)

#添加root用户远程访问数据库
mysql>grant all on *.* to root@'%' identified by '!Qaz123456';
mysql> flush privileges;
mysql> select user,host from user;
+---------------+-----------+
| user          | host      |
+---------------+-----------+
| root          | %         |
| scm           | %         |
| mysql.session | localhost |
| mysql.sys     | localhost |
| root          | localhost |
+---------------+-----------+
5 rows in set (0.00 sec)

mysql> delete from user where user='root' and host='localhost';
Query OK, 1 row affected (0.02 sec)

mysql> select user,host from user;
+---------------+-----------+
| user          | host      |
+---------------+-----------+
| root          | %         |
| scm           | %         |
| mysql.session | localhost |
| mysql.sys     | localhost |
+---------------+-----------+
4 rows in set (0.00 sec)

mysql> flush privileges;

mysql> update mysql.user set Grant_priv='Y',Super_priv='Y' where user = 'root' and host = '%';
Query OK, 1 row affected (0.00 sec)
Rows matched: 1  Changed: 1  Warnings: 0

mysql> flush privileges;
Query OK, 0 rows affected (0.00 sec)

mysql> quit
Bye
You have new mail in /var/spool/mail/root
#从起mysql服务
[root@node02 ~]# systemctl restart mysqld.service
[root@node02 ~]#

开启mysql的binlog

Mysql的binlog⽇日志作⽤用是⽤用来记录mysql内部增删等对mysql数据库有更更新的内容的记录(对数据库的改动)，对数据库的查询select或show等不不会被binlog⽇日志记录;主要⽤用于数据库的主从复制以及增量量恢复。

mysql的binlog⽇日志必须打开log-bin功能才能⽣生存binlog⽇日志

-rw-rw---- 1 mysql mysql 449229328 Sep  2 19:21 mysql-bin.000001
-rw-rw---- 1 mysql mysql 860032004 Sep  4 15:08 mysql-bin.000002
-rw-rw---- 1 mysql mysql    613773 Sep  4 15:17 mysql-bin.000003
-rw-rw---- 1 mysql mysql       125 Sep  4 15:18 mysql-bin.000004
-rw-rw---- 1 mysql mysql 645768398 Sep 24 00:40 mysql-bin.000005
-rw-rw---- 1 mysql mysql  81087585 Oct 25 14:33 mysql-bin.000006
-rw-rw---- 1 mysql mysql       192 Oct  9 18:25 mysql-bin.index

3.1：修改/etc/my.cnf

[mysqld]
log-bin=/var/lib/mysql/mysql-bin 【binlog⽇日志存放路路径】 
binlog-format=ROW 【⽇日志中会记录成每⼀一⾏行行数据被修改的形式】 
server_id=1 【指定当前机器器的服务ID(如果是集群，不不能重复)】

3.2：重启mysql，并验证

输入命令查看：

mysql> show variables like '%log_bin%';

进入指定的binlog路径查看是否生产binlog

cd /var/lib/mysql/

4.安装maxwell

4.1 下载maxwell

https://github.com/zendesk/maxwell/releases/download/v1.22.1/maxwell-1.22.1.tar.gz

Maxwell是一个能实时读取MySQL二进制日志binlog，并生成 JSON 格式的消息，作为生产者发送给 Kafka，Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。它的常见应用场景有ETL、维护缓存、收集表级别的dml指标、增量到搜索引擎、数据分区迁移、切库binlog回滚方案等。官网(http://maxwells-daemon.io)、GitHub(https://github.com/zendesk/maxwell)

Maxwell主要提供了下列功能：

支持 SELECT * FROM table 的方式进行全量数据初始化
支持在主库发生failover后，自动恢复binlog位置(GTID)
可以对数据进行分区，解决数据倾斜问题，发送到kafka的数据支持database、table、column等级别的数据分区
工作方式是伪装为Slave，接收binlog events，然后根据schemas信息拼装，可以接受ddl、xid、row等各种event
除了Maxwell外，目前常用的MySQL Binlog解析工具主要有阿里的canal、mysql_streamer，三个工具对比如下：

canal 由Java开发，分为服务端和客户端，拥有众多的衍生应用，性能稳定，功能强大；canal 需要自己编写客户端来消费canal解析到的数据。

maxwell相对于canal的优势是使用简单，它直接将数据变更输出为json字符串，不需要再编写客户端

4.2：解压maxwell-1.21.1.tar.gz

tar -zxvf maxwell-1.21.1.tar.gz -C /opt

4.3：Maxwell解析binlog到Kafka

在maxwell的目录下创建driver.properties配置文件并编辑填入如下内容，主要用来指定解析业务库的binlog和发送数据到kafka

[root@node02 maxwell-1.22.1]# touch driver.properties 
You have new mail in /var/spool/mail/root
[root@node02 maxwell-1.22.1]# vi driver.properties 
binlog ###############
log_level=INFO
producer=kafka
host = 10.20.3.155
user = maxwell
password = 123456
producer_ack_timeout = 600000
######### binlog ###############

######### output format stuff ###############
output_binlog_position=ture
output_server_id=true
output_thread_id=ture
output_nulls=true
output_xoffset=true
output_schema_id=true
######### output format stuff ###############
############ kafka stuff #############
kafka.bootstrap.servers=node01:9092,node02:9092,node03:9092
kafka_topic=veche
kafka_partition_hash=murmur3
kafka_key_format=hash
kafka.compression.type=snappy
kafka.retries=5
kafka.acks=all
producer_partition_by=primary_key
############ kafka stuff #############
############## misc stuff ###########
bootstrapper=async
############## misc stuff ##########
############## filter ###############
filter=exclude:*.*, include: test.order_info_201904,include: test.order_info_201905,include: test.o
rder_info_201906,include: test.order_info_201907,include: test.order_info_201908,include: test.orde
r_info_201906,include: test.order_info_201910,include: test.order_info_201911,include: test.order_i
nfo_201912,include: test.renter_info,include: test.driver_info ,include: test.opt_alliance_business
############## filter ###############
"driver.properties" 36L, 1343C written
[root@node02 maxwell-1.22.1]#

以上参数解释：http://maxwells-daemon.io/config/

######### binlog ###############
用于指定解析目标机器的binlog(业务库所在机器地址)

######### output format stuff ###############
配置输出格式


############ kafka stuff #############
指定kafka地址

############## misc stuff ###########
在处理bootstrap时，是否会阻塞正常的binlog解析  async不会阻塞

############## filter ###############
用于指定需要监控哪些库、哪些表

3.3：给maxwell添加权限

创建Maxwell用户，并赋予 maxwell 库的一些权限

CREATE USER 'maxwell'@'%' IDENTIFIED BY '!Qaz123456';
GRANT ALL ON maxwell.* TO 'maxwell'@'%' IDENTIFIED BY '!Qaz123456';
GRANT SELECT, REPLICATION CLIENT, REPLICATION SLAVE on *.* to 'maxwell'@'%'; 
FLUSH PRIVILEGES;

3.4：启动maxwell

bin/maxwell --user='maxwell' --password='!Qaz123456' --host='127.0.0.1' --producer=kafka --kafka.bootstrap.servers=node01:9092 --kafka_topic=maxwell

启动之后，通过jps -m查看进程

测试:

cd /opt/cloudera/parcels/KAFKA-3.1.0-1.3.1.0.p0.35/lib/kafka/bin/

MySQL错误：Access denied for user ‘root’@‘%’ to database ‘mytest’

https://blog.csdn.net/Roy_70/article/details/82669138

六、总结（5分钟）

1.前后端分离总结:

2.环境搭建

七、作业

1.按照课程内容搭建项目运行环境CDH大数据管理平台.

2.搭建整个项目架子.

八、Cloudera平台搭建

1.cloudera manager简单介绍

Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具（软件）,使得安装集群从几天的时间缩短在几个小时内，运维人员从数十人降低到几人以内，极大的提高集群管理的效率。

安装完成的界面.如下图:

2.cloudera manager主要核心功能

• 管理：对集群进行管理，如添加、删除节点等操作。

• 监控：监控集群的健康情况，对设置的各种指标和系统运行情况进行全面监控。

• 诊断：对集群出现的问题进行诊断，对出现的问题给出建议解决方案。

• 集成：多组件进行整合。

3.cloudera manager 的架构

4.准备三台虚拟机

参考【0.大数据环境前置准备】

5.准备cloudera安装包

由于是离线部署，因此需要预先下载好需要的文件。
需要准备的文件有:

Cloudera Manager 5
文件名: cloudera-manager-centos7-cm5.14.0_x86_64.tar.gz
下载地址: https://archive.cloudera.com/cm5/cm/5/
CDH安装包（Parecls包）
版本号必须与Cloudera Manager相对应
下载地址: https://archive.cloudera.com/cdh5/parcels/5.14.0/
需要下载下面3个文件：
CDH-5.14.0-1.cdh5.14.0.p0.23-el7.parcel
CDH-5.14.0-1.cdh5.14.0.p0.23-el7.parcel.sha1
manifest.json
MySQL jdbc驱动
文件名: mysql-connector-java-.tar.gz
下载地址: https://dev.mysql.com/downloads/connector/j/
解压出: mysql-connector-java-bin.jar

6.所有机器安装安装jdk

7.所有机器安装依赖包

yum -y install chkconfig python bind-utils psmisc libxslt zlib sqlite cyrus-sasl-plain cyrus-sasl-gssapi fuse portmap fuse-libs redhat-lsb

8.安装mysql数据库

在第二台机器上(随机选择的机器，计划在第一台机器上安装cloudera管理服务比较耗费资源,所以在第二台机器上安装mysql数据库)安装mysql数据库.

参考【MySQL安装之yum安装教程】

9.安装cloudera服务端

9.1 解压服务端管理安装包

#所有节点上传cloudera-manager-centos7-cm5.14.0_x86_64.tar.gz文件并解压
[root@node01 ~]# tar -zxvf cloudera-manager-centos7-cm5.14.2_x86_64.tar.gz -C /opt
[root@node02 ~]# tar -zxvf cloudera-manager-centos7-cm5.14.2_x86_64.tar.gz -C /opt
[root@node03 ~]# tar -zxvf cloudera-manager-centos7-cm5.14.2_x86_64.tar.gz -C /opt

解压完可以在/opt目录下看到文件

[root@node01 ~]# cd /opt/
[root@node01 opt]# ll
total 0
drwxr-xr-x. 4 1106 4001 36 Apr  3  2018 cloudera
drwxr-xr-x. 9 1106 4001 88 Apr  3  2018 cm-5.14.2
[root@node01 opt]# cd cloudera/
[root@node01 cloudera]# ll
total 0
drwxr-xr-x. 2 1106 4001 6 Apr  3  2018 csd
drwxr-xr-x. 2 1106 4001 6 Apr  3  2018 parcel-repo
[root@node01 cloudera]#

9.2 创建客户端运行目录

#所有节点手动创建文件夹
[root@node01 ~]# mkdir /opt/cm-5.14.2/run/cloudera-scm-agent
[root@node02 ~]# mkdir /opt/cm-5.14.2/run/cloudera-scm-agent
[root@node03 ~]# mkdir /opt/cm-5.14.2/run/cloudera-scm-agent

9.3 创建cloudera-scm用户

#所有节点创建cloudera-scm用户
useradd --system --home=/opt/cm-5.14.0/run/cloudera-scm-server --no-create-home --shell=/bin/false --comment "Cloudera SCM User" cloudera-scm

9.4 初始化数据库

初始化数据库（只需要在Cloudera Manager Server节点执行）

将提供的msyql驱动包上传到第一台机器的root home目录下，然后将mysql jdbc驱动放入相应位置:

[root@node01 ~]# cp mysql-connector-java.jar /opt/cm-5.14.2/share/cmf/lib/
[root@node01 ~]#  /opt/cm-5.14.2/share/cmf/schema/scm_prepare_database.sh mysql -h node02 -uroot -p'!Qaz123456' --scm-host node01 scm scm '!Qaz123456'    
JAVA_HOME=/usr/java/jdk1.8.0_211-amd64
Verifying that we can write to /opt/cm-5.14.2/etc/cloudera-scm-server
Creating SCM configuration file in /opt/cm-5.14.2/etc/cloudera-scm-server
Executing:  /usr/java/jdk1.8.0_211-amd64/bin/java -cp /usr/share/java/mysql-connector-java.jar:/usr/share/java/oracle-connector-java.jar:/opt/cm-5.14.2/share/cmf/schema/../lib/* com.cloudera.enterprise.dbutil.DbCommandExecutor /opt/cm-5.14.2/etc/cloudera-scm-server/db.properties com.cloudera.cmf.db.
[                          main] DbCommandExecutor              INFO  Successfully connected to database.

#显示初始化成功
All done, your SCM database is configured correctly!
[root@node01 ~]#

脚本参数说明:
${数据库类型} -h ${数据库所在节点ip/hostname} -u$ {数据库用户名} -p${数据库密码} –scm-host ${Cloudera Manager Server节点ip/hostname} scm(数据库) scm(用户名) scm(密码)

mysql-connector-java.jar驱动同时需要复制到node02相同目录下.

9.5 修改所有节点客户端配置

#将其中的server_host参数修改为Cloudera Manager Server节点的主机名
[root@node01 ~]# vi /opt/cm-5.14.2/etc/cloudera-scm-agent/config.ini
[root@node01 ~]# vi /opt/cm-5.14.2/etc/cloudera-scm-agent/config.ini 
[General]
# 将默认的server_host=localhost 修改成node01
server_host=node01

9.6 上传CDH安装包

#将如下文件放到Server节点的/opt/cloudera/parcel-repo/目录中:
#CDH-5.14.2-1.cdh5.14.2.p0.3-el7.parcel
#CDH-5.14.2-1.cdh5.14.2.p0.3-el7.parcel.sha1
#manifest.json
# 重命名sha1文件
[root@node01 parcel-repo]# mv CDH-5.14.2-1.cdh5.14.2.p0.3-el7.parcel.sha1 CDH-5.14.2-1.cdh5.14.2.p0.3-el7.parcel.sha

9.7 更改安装目录用户组权限

所有节点更改cm相关文件夹的用户及用户组

[root@node01 ~]# chown -R cloudera-scm:cloudera-scm /opt/cloudera
[root@node01 ~]# chown -R cloudera-scm:cloudera-scm /opt/cm-5.14.2
[root@node01 ~]#

9.8 启动Cloudera Manager和agent

Server(node01)节点

[root@node01 ~]# /opt/cm-5.14.2/etc/init.d/cloudera-scm-server start
Starting cloudera-scm-server:                              [  OK  ]
#客户端需要在所有节点上启动
[root@node01 ~]# /opt/cm-5.14.2/etc/init.d/cloudera-scm-agent start 
Starting cloudera-scm-agent:                               [  OK  ]
[root@node01 ~]#

10.服务安装

使用浏览器登录cloudera-manager的web界面,用户名和密码都是admin

登陆之后，在协议页面勾选接受协议,点击继续

选择免费版本，免费版本已经能够满足我们日常业务需求,选择免费版即可.点击继续

如下图，点击继续

如下图，点击当前管理的机器，然后选择机器，点击继续

如下图，然后选择你的parcel对应版本的包

点击后，进入安装页面，稍等片刻

如下图，集群安装中

如下图，安装包分配成功，点击继续

针对这样的警告，需要在每一台机器输入如下命令：

echo never > /sys/kernel/mm/transparent_hugepage/defrag
echo never > /sys/kernel/mm/transparent_hugepage/enabled
echo 'vm.swappiness=10'>> /etc/sysctl.conf
sysctl vm.swappiness=10

echo never > /sys/kernel/mm/transparent_hugepage/defrag”和
“echo never > /sys/kernel/mm/transparent_hugepage/enabled”

如下图，然后点击重新运行，不出以为，就不会在出现警告了，点击完成,进入hadoop生态圈服务组件的安装

如下图，选择自定义服务，我们先安装好最基础的服务组合。那么在安装之前，如果涉及到hive和oozie的安装，那么先去mysql中，自己创建数据库，并赋予权限；

因此：

create database hive;
create database oozie;

grant all on *.* to hive identified by '!Qaz123456';
grant all on *.* to oozie identified by '!Qaz123456';

如果出现如下错误:

mysql> grant all on *.* to oozie identified by '!Qaz123456';
ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES)
mysql> update mysql.user set Grant_priv='Y',Super_priv='Y' where user = 'root' and host = 'localhost';
Query OK, 1 row affected (0.00 sec)
Rows matched: 1  Changed: 1  Warnings: 0

mysql> flush privileges;
mysql> quit
Bye
You have new mail in /var/spool/mail/root
[root@node02 ~]# systemctl restart mysqld.service
[root@node02 ~]# mysql -u root -p                
Enter password: 
Welcome to the MySQL monitor.  Commands end with ; or \g.
Your MySQL connection id is 3
Server version: 5.7.27 MySQL Community Server (GPL)

Copyright (c) 2000, 2019, Oracle and/or its affiliates. All rights reserved.

Oracle is a registered trademark of Oracle Corporation and/or its
affiliates. Other names may be trademarks of their respective
owners.

Type 'help;' or '\h' for help. Type '\c' to clear the current input statement.

mysql> grant all on *.* to hive identified by '!Qaz123456';
Query OK, 0 rows affected, 1 warning (0.00 sec)

mysql> grant all on *.* to oozie identified by '!Qaz123456';
Query OK, 0 rows affected, 1 warning (0.00 sec)

mysql>

这样再安装软件！

那么，选择自定义服务,如果我们后续需要其他服务时我们在进行添加

然后点击继续，进入选择服务添加分配页面，分配即可

选择完成后服务，如下图,可以点击按照主机查看服务分部情况

点击继续后，如下图，输入mysql数据库中数数据库scm，用户名scm，密码!Qaz123456,点击测试连接，大概等30s，显示成功，点击继续

一路点击继续,剩下的就是等待

如上图，如果等待时间过长，我们可以将manager所在机器(也就是node01)停止后把内存调整的大一些建议如果是笔记本4g以上，如果是云环境8g以上，我们这里先调整为4g以上，重新启node01机器后重新启动cloudera的server和agent

[root@node01 ~]# cd /opt/cm-5.14.2/etc/init.d
#启动server
[root@node01 init.d]# ./cloudera-scm-server start
#启动agent
[root@node01 init.d]# ./cloudera-scm-agent start

11.重新登录cloudera manager

登录成功后，如下图，重新启动集群,接下来就是等待.

12.集群测试

12.1 文件系统测试

#切换hdfs用户对hdfs文件系统进行测试是否能够进行正常读写
[root@node01 ~]# su hdfs
[hdfs@node01 ~]# hadoop dfs -ls /
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.

Found 1 items
d-wx------   - hdfs supergroup          0 2019-10-11 08:21 /tmp
[hdfs@node01 ~]# touch words
[hdfs@node01 ~]# vi words 
hello world

[hdfs@node01 ~]$ hadoop dfs -put words /test
[hdfs@node01 ~]$ hadoop dfs -ls /
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.

Found 2 items
drwxr-xr-x   - hdfs supergroup          0 2019-10-11 09:09 /test
d-wx------   - hdfs supergroup          0 2019-10-11 08:21 /tmp
[hdfs@node01 ~]$ hadoop dfs -ls /test
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.

Found 1 items
-rw-r--r--   3 hdfs supergroup         12 2019-10-11 09:09 /test/words
[hdfs@node01 ~]$ hadoop dfs -text /test/words
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.

hello world

12.2 yarn集群测试

[hdfs@node01 ~]$ hadoop jar /opt/cloudera/parcels/CDH-5.14.2-1.cdh5.14.2.p0.3/jars/hadoop-mapreduce-examples-2.6.0-cdh5.14.2.jar wordcount /test/words /test/output
19/10/11 22:47:59 INFO client.RMProxy: Connecting to ResourceManager at node03.kaikeba.com/192.168.52.120:8032
19/10/11 22:47:59 INFO mapreduce.JobSubmissionFiles: Permissions on staging directory /user/hdfs/.staging are incorrect: rwx---rwx. Fixing permissions to correct value rwx------
19/10/11 22:48:00 INFO input.FileInputFormat: Total input paths to process : 1
19/10/11 22:48:00 INFO mapreduce.JobSubmitter: number of splits:1
19/10/11 22:48:00 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1570847238197_0001
19/10/11 22:48:01 INFO impl.YarnClientImpl: Submitted application application_1570847238197_0001
19/10/11 22:48:01 INFO mapreduce.Job: The url to track the job: http://node03.kaikeba.com:8088/proxy/application_1570847238197_0001/
19/10/11 22:48:01 INFO mapreduce.Job: Running job: job_1570847238197_0001
19/10/11 22:48:28 INFO mapreduce.Job: Job job_1570847238197_0001 running in uber mode : false
19/10/11 22:48:28 INFO mapreduce.Job:  map 0% reduce 0%
19/10/11 22:50:10 INFO mapreduce.Job:  map 100% reduce 0%
19/10/11 22:50:17 INFO mapreduce.Job:  map 100% reduce 17%
19/10/11 22:50:19 INFO mapreduce.Job:  map 100% reduce 33%
19/10/11 22:50:21 INFO mapreduce.Job:  map 100% reduce 50%
19/10/11 22:50:24 INFO mapreduce.Job:  map 100% reduce 67%
19/10/11 22:50:25 INFO mapreduce.Job:  map 100% reduce 83%
19/10/11 22:50:29 INFO mapreduce.Job:  map 100% reduce 100%
19/10/11 22:50:29 INFO mapreduce.Job: Job job_1570847238197_0001 completed successfully
19/10/11 22:50:30 INFO mapreduce.Job: Counters: 49
        File System Counters
                FILE: Number of bytes read=144
                FILE: Number of bytes written=1044048
                FILE: Number of read operations=0
                FILE: Number of large read operations=0
                FILE: Number of write operations=0
                HDFS: Number of bytes read=118
                HDFS: Number of bytes written=16
                HDFS: Number of read operations=21
                HDFS: Number of large read operations=0
                HDFS: Number of write operations=12
        Job Counters 
                Launched map tasks=1
                Launched reduce tasks=6
                Data-local map tasks=1
                Total time spent by all maps in occupied slots (ms)=100007
                Total time spent by all reduces in occupied slots (ms)=24269
                Total time spent by all map tasks (ms)=100007
                Total time spent by all reduce tasks (ms)=24269
                Total vcore-milliseconds taken by all map tasks=100007
                Total vcore-milliseconds taken by all reduce tasks=24269
                Total megabyte-milliseconds taken by all map tasks=102407168
                Total megabyte-milliseconds taken by all reduce tasks=24851456
        Map-Reduce Framework
                Map input records=1
                Map output records=2
                Map output bytes=20
                Map output materialized bytes=120
                Input split bytes=106
                Combine input records=2
                Combine output records=2
                Reduce input groups=2
                Reduce shuffle bytes=120
                Reduce input records=2
                Reduce output records=2
                Spilled Records=4
                Shuffled Maps =6
                Failed Shuffles=0
                Merged Map outputs=6
                GC time elapsed (ms)=581
                CPU time spent (ms)=11830
                Physical memory (bytes) snapshot=1466945536
                Virtual memory (bytes) snapshot=19622957056
                Total committed heap usage (bytes)=1150287872
        Shuffle Errors
                BAD_ID=0
                CONNECTION=0
                IO_ERROR=0
                WRONG_LENGTH=0
                WRONG_MAP=0
                WRONG_REDUCE=0
        File Input Format Counters 
                Bytes Read=12
        File Output Format Counters 
                Bytes Written=16
You have new mail in /var/spool/mail/root
    [hdfs@node01 ~]$ hdfs dfs -ls /test/output
Found 7 items
-rw-r--r--   3 hdfs supergroup          0 2019-10-11 22:50 /test/output/_SUCCESS
-rw-r--r--   3 hdfs supergroup          0 2019-10-11 22:50 /test/output/part-r-00000
-rw-r--r--   3 hdfs supergroup          8 2019-10-11 22:50 /test/output/part-r-00001
-rw-r--r--   3 hdfs supergroup          0 2019-10-11 22:50 /test/output/part-r-00002
-rw-r--r--   3 hdfs supergroup          0 2019-10-11 22:50 /test/output/part-r-00003
-rw-r--r--   3 hdfs supergroup          0 2019-10-11 22:50 /test/output/part-r-00004
-rw-r--r--   3 hdfs supergroup          8 2019-10-11 22:50 /test/output/part-r-00005
[hdfs@node01 ~]$  hdfs dfs -text /test/output/part-r-00001
world   1
[hdfs@node01 ~]$  hdfs dfs -text /test/output/part-r-00005
hello   1
You have new mail in /var/spool/mail/root
[hdfs@node01 ~]$

13.手动添加Kafka服务

我们以安装kafka为例进行演示

13.1 检查kafka安装包

首先检查是否已经存在Kafka的parcel安装包，如下图提示远程提供，说明我们下载的parcel安装包中不包含Kafka的parcel安装包，这时需要我们手动到官网上下载

13.2 检查Kafka安装包版本

首先查看搭建cdh版本和kafka版本，是否是支持的：

登录如下网址：

https://www.cloudera.com/documentation/enterprise/release-notes/topics/rn_consolidated_pcm.html#pcm_kafka

我的CDH版本是cdh5.14.0 ，我想要的kafka版本是1.0.1

因此选择：

13.3 下载Kafka parcel安装包

然后下载：http://archive.cloudera.com/kafka/parcels/3.1.0/

需要将下载的KAFKA-3.1.0-1.3.1.0.p0.35-el7.parcel.sha1 改成 KAFKA-3.1.0-1.3.1.0.p0.35-el7.parcel.sha

[root@node01 ~]# mv KAFKA-3.1.0-1.3.1.0.p0.35-el7.parcel.sha1 KAFKA-3.1.0-1.3.1.0.p0.35-el7.parcel.sha
You have new mail in /var/spool/mail/root

然后将这三个文件，拷贝到parcel-repo目录下。如果有相同的文件，即manifest.json，只需将之前的重命名备份即可。

[root@node01 ~] cd /opt/cloudera/parcel-repo/
[root@node01 parcel-repo]# mv manifest.json bak_manifest.json 
#拷贝到parcel-repo目录下
[root@node01 ~]# mv KAFKA-3.1.0-1.3.1.0.p0.35-el7.parcel* manifest.json /opt/cloudera/parcel-repo/
[root@node01 ~]# ll
total 989036
-rw-------. 1 root root      1260 Apr 16 01:35 anaconda-ks.cfg
-rw-r--r--. 1 root root 832469335 Oct 11 13:23 cloudera-manager-centos7-cm5.14.2_x86_64.tar.gz
-rw-r--r--. 1 root root 179439263 Oct 10 20:14 jdk-8u211-linux-x64.rpm
-rw-r--r--. 1 root root    848399 Oct 11 17:02 mysql-connector-java.jar
-rw-r--r--  1 root root        12 Oct 11 21:01 words
You have new mail in /var/spool/mail/root
[root@node01 ~]# ll

13.4 分配激活Kafka

如下图，在管理首页选择parcel

如下图，检查更新多点击几次，就会出现分配按钮

点击分配，等待分配按钮激活

如下图，正在分配中…

如下图按钮已经激活

如上两张图图，点击激活和确定，然后等待激活

正在激活…

如下图，分配并激活成功

13.5 添加Kafka服务

点击cloudera manager回到主页

页面中点击下拉操作按钮，点击添加服务

如下图，点击选择kafka，点击继续

如下图，选择Kakka Broker在三个节点上安装，Kafka MirrorMaker安装在node03上，Gateway安装在node02上（服务选择安装，需要自己根据每台机器上健康状态而定,这里只是作为参考）

如下图，填写Destination Broker List和Source Broker List后点击继续

注意:这里和上一步中选择的角色分配有关联,Kafka Broker选择的是三台机器Destination Broker List中就填写三台机器的主机名，中间使用逗号分开，如果选择的是一台机器那么久选择一台，一次类推.Source Broker List和Destination Broker List填写一样.

如下图，添加服务，最终状态为已完成，启动过程中会出现错误不用管，这时因为CDH给默认将kafka的内存设置为50M,太小了，后续需要我们手动调整,点击继续

如下图,点击完成.

如下图，添加成功的Kafka服务

13.6 配置Kafka的内存

如下图，点击Kafka服务

如下图，点击实例，点击Kafka Broker（我们先配置node01节点的内存大小,node02和node03内存配置方式相同，需要按照此方式进行修改）

如上图，点击Kafka Broker之后，如下图所示，点击配置

右侧浏览器垂直滚动条往下找到broker_max_heap_size，修改值为256或者更大一些比如1G,点击保存更改

node02和node03按照上述步骤进行同样修改.

13.7 重新启动kafka集群

点击启动

然后kafka在启动中肯定会报错，如下图,因为默认broker最低内存是1G

但是CDH给调节成50M了

因此调整过来

启动成功

14.手动添加服务

请参考【13.手动添加Kafka服务】操作步骤.

你可能感兴趣的:(教程,大数据,cloudera,hdfs,spark,hive,kafka)

anythingLLM 使用教程惟贤箬溪穷玩Ai AIGC 人工智能
一、anythingLLM简介anythingLLM是一款灵活且功能强大的语言模型，它基于先进的深度学习架构构建，旨在为用户提供多样化的自然语言处理服务。其设计理念注重通用性和可扩展性，能够适应多种领域和任务，无论是文本生成、智能问答，还是翻译、摘要提取等，都能展现出出色的性能。与同类模型相比，anythingLLM具有训练数据丰富、模型优化程度高的优势，能够生成更符合逻辑、更具实用性的文本内容。
java工程师常用开发工具 Monika Zhang 开发工具 java
背景：最近换新电脑，记录下本岗位需要安装的软件，也顺便给大家参考，欢迎各位留言补充1JDK（JavaDevelopmentKit）JDK是Java程序员开发Java应用程序所必需的软件包。下载地址：JavaDownloads|Oracle安装配置教程：window下win10jdk8安装与环境变量的配置（超级详细）_jdk8环境变量配置-CSDN博客目前主流的JDK版本还是JAVA8查看版本命令：
nvidia系列教程-AGX-Orin系统刷机及备份 flypig哗啦啦 nvidia nvidia AGX-Orin
目录前言一、准备工作二、AGXOrin系统刷机步骤三、AGXOrin系统备份总结前言NVIDIAAGXOrin是一款高性能的嵌入式计算平台，专为边缘计算和AI应用而设计。为了确保系统的稳定性和适应不同的应用场景，用户可能需要对AGXOrin进行系统刷机和备份操作。本文将详细介绍如何完成这些操作，帮助您更好地管理和维护AGXOrin设备。一、准备工作在开始刷机和备份之前，请确保您已经准备好以下工具和
HDFS相关的面试题努力的搬砖人. java 面试 hdfs
以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
基于Azure云平台构建实时数据仓库 weixin_30777913 云计算 azure 开发语言 spark python
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合电商网站的流数据，构建实时数据仓库，支持T+0报表（如电商订单分析），具以及具体实现的详细步骤和关键PySpark代码。一、架构设计[电商网站]→[AzureEventHubs]→[AzureDatabricksStreaming]↓[AzureDeltaLake]←→[DatabricksSQLAnal
Spring系列学习之Spring Messaging消息支持 m0_74825488 面试学习路线阿里巴巴 spring linq java
英文原文：https://docs.spring.io/spring-boot/docs/current/reference/html/boot-features-messaging.html目录JMSActiveMQ支持Artemis支持使用JNDIConnectionFactory发送消息接收消息AMQPRabbitMQ支持发送消息接收消息ApacheKafka支持发送消息接收消息Kafka流
《java面向对象(5)》＜不含基本语法＞ java小白板 java 开发语言
本笔记基于黑马程序员java教程整理，仅供参考1.异常1.1异常分类1.1.1Error指系统级别的错误，程序员无法解决，不必理会1.1.2Exception（异常）分为两类：RuntimeException：运行时异常，编译时程序不会报错，运行时报错，如数组越界其他异常：编译时异常，编译时就会报错运行时异常：publicclassText{publicstaticvoidmain(String[
linux上安装postgresql9.5 crayon-shin-chan #postgresql surprise #linux linux ubuntu PostgreSQL 数据库
1.查看源版本czy@Mint~$sudoapt-getupdateczy@Mint~$apt-cachemadisonpostgresqlpostgresql|9.5+173ubuntu0.3|http://archive.ubuntu.com/ubuntuxenial-updates/mainamd64Packagespostgresql|9.5+173ubuntu0.3|http://arc
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
大规异构集群混合并行分布式训练系统，解决算力不均衡问题 HETHUB 爱串门的小马驹万卡大规模集群大模型训练异构集群大规模集群分布式大模型训练
视频教程在这：3.2大规模异构集群，混合并行分布式系统，解释算力不均衡问题HETHUB_哔哩哔哩_bilibili一、大规模异构集群出现的原因：同一种GPU数量有限难以构建大规模集群：训练大规模模型依赖于大量的计算资源。例如，训练GPT-4模型（1.8万亿个参数）需要25000个A100GPU。用一种GPU加速器构建大规模集群是一个挑战。使用多种类型的GPU加速器构建大规模集群是解决同构GPU加速
国内高防加速CDN内容分发服务详细接入教程网友阿贵网站运维 web安全安全性测试安全威胁分析
CDN功能与接入指南CDN（内容分发网络）是一种集安全防护和内容加速于一体的网络解决方案，适用于需要兼顾安全性和访问速度的业务场景。以下是其主要功能与接入步骤：核心功能：免费SSL证书：支持一键申请SSL证书，确保数据传输安全。Web攻击防护：集成WAF防火墙，防御SQL注入、XSS等常见攻击。CC攻击防御：智能识别并拦截恶意请求，保护网站稳定运行。BOT机器人分析：自动识别并管理机器人流量，优化
hadoop3.x--搭建hadoop高可用集群（HA模式）运维小菜 hadoop hadoop hdfs
hadoop高可用集群（HA模式）一、安装前1.集群规划2.安装前配置3.安装jdk与hadoop4.克隆虚拟机与互信配置5.搭建zookeeper集群二、HDFS1.配置hdfs2.初始化启动hdfs集群三、MapReduce与Yarn1.配置MapReduce2.配置yarn3.启动yarn四、验证1.查看java进程2.hdfs与yarn前台页面一、安装前1.集群规划hostnameipNN
llama-factory 微调 Qwen2.5-3B-Instruct coco_1998_2 llama factory fine tune
0、资源链接官方readme:https://github.com/hiyouga/LLaMA-Factory/blob/v0.9.1/README_zh.md官方文档:https://llamafactory.readthedocs.io/zh-cn/latest/官方推荐的知乎教程：https://zhuanlan.zhihu.com/p/6952876071、安装LLaMAFactorygi
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
Spring Boot 集成 Kafka 消息发送方案 weixin_43833540 spring boot kafka
一、引言在SpringBoot项目中，Kafka是常用的消息队列，可实现高效的消息传递。本文介绍三种在SpringBoot中使用Kafka发送消息的方式，分析各自优缺点，并给出对应的pom.xml依赖。二、依赖引入在pom.xml中添加以下依赖：org.springframework.kafkaspring-kafka3.0.8org.jsonjson20231013若要进行测试，可添加sprin
Kafka 的消息压缩机制：优化存储与传输的利器阿贾克斯的黎明 java linq c#java
目录Kafka的消息压缩机制：优化存储与传输的利器一、消息压缩机制的重要意义1.减少存储成本2.提升网络传输效率二、Kafka常用的消息压缩算法1.GZIP压缩2.Snappy压缩3.前端展示压缩状态（Vue3+TS）在消息中间件的大家族中，Kafka以其卓越的性能而备受瞩目。其中，Kafka的消息压缩机制是一项非常重要的特性，它就像是一个高效的“压缩包”，在不损失数据内容的前提下，有效减少数据的
Django系列教程（15）——上传文件 l软件定制开发工作室 Django教程 django okhttp python
目录Django文件上传需要考虑的重要事项Django文件上传的3种常见方式项目创建与设置创建模型URLConf配置使用一般表单上传文件使用ModelForm上传文件Django文件上传需要考虑的重要事项文件或图片一般通过表单进行。用户在前端点击文件上传，然后以POST方式将数据和文件提交到服务器。服务器在接收到POST请求后需要将其存储在服务器上的某个地方。Django默认的存储地址是相对于根目
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
我要写整个中文互联网界最牛逼的JVM系列教程 | 「JVM与Java体系架构」章节：JVM的生命周期李阿昀只要你有心人人都是JVM精通者 jvm java 架构
这一讲，我们就来好好谈一谈JVM的生命周期。JVM的生命周期大家做了这么久的开发，应该知道很多的结构其实都有其生命周期吧！而关于JVM的生命周期，这里我们则主要讲述它的三个状态，即虚拟机的启动、虚拟机的执行以及虚拟机的退出，这也是一个结构的生命周期最起码应该具备的三个状态——开始、运行、结束。这就像哲学里面讨论的终极问题一样，我是谁？我从哪里来？我将到哪里去？其实，我觉得先提出我是谁这个问题不太合
从零搭建Pytorch模型教程（七）单机多卡和多机多卡训练 AI大模型探索者 pytorch 人工智能 python transformer 深度学习 ai 机器学习
前言本文主要介绍单机多卡训练和多机多卡训练的实现方法和一些注意事项。其中单机多卡训练介绍两种实现方式，一种是DP方式，一种是DDP方式。多机多卡训练主要介绍两种实现方式，一种是通过horovod库，一种是DDP方式。单机单卡训练前面我们已经介绍了一个完整的训练流程，但这里由于要介绍单机多卡和多机多卡训练的代码，为了能更好地理解它们之间的区别，这里先放一个单机单卡也就是一般情况下的代码流程。impo
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
kafka 的 message 包括哪些信息 weixin-80213251 javaweb java kafka hadoop
一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候，会在magic和crc32之间多一个字节的数据：attributes(保存一些相关属性，比如是否压缩、压缩格式等等)；如果magic的值为0，那么不存在attributes
红宝书第十一讲：超易懂版「ES6类与继承」零基础教程：用现实例子+图解实现 kovlistudio 前端 es6 javascript 开发语言前端学习
红宝书第十一讲：超易懂版「ES6类与继承」零基础教程：用现实例子+图解实现资料取自《JavaScript高级程序设计（第5版）》。查看总目录：红宝书学习大纲一、ES6类的核心语法：把事物抽象成“模板”想象你要设计一款「动物养成游戏」，需要创建多种动物对象。ES6的class就是一个代码模板：//基础类（Animal是模板，有名称和吃东西方法）classAnimal{constructor(name
在Ubuntu 20.04离线环境中轻松部署RabbitMQ 贡驰赞Powerful
在Ubuntu20.04离线环境中轻松部署RabbitMQ【下载地址】Ubuntu20.04离线安装RabbitMQ指南Ubuntu20.04离线安装RabbitMQ指南欢迎来到Ubuntu20.04系统下离线安装RabbitMQ的教程项目地址:https://gitcode.com/open-source-toolkit/2b1f7在当今快速发展的技术世界里，离线安装开源软件仍然是某些特定场景下
什么是护网（HVV）？需要什么技术？网络安全零基础入门到精通教程建议收藏！程序员晓晓 web安全干货分享计算机网络安全黑客技术护网行动渗透测试
什么是护网行动？护网行动是以公安部牵头的，用以评估企事业单位的网络安全的活动。具体实践中。公安部会组织攻防两方，进攻方会在一个月内对防守方发动网络攻击，检测出防守方（企事业单位）存在的安全漏洞。通过与进攻方的对抗，企事业单位网络、系统以及设备等的安全能力会大大提高。“护网行动”是国家应对网络安全问题所做的重要布局之一。“护网行动”从2016年开始，随着我国对网络安全的重视，涉及单位不断扩大，越来越
开源文档管理系统教程戚逸玫Silas
开源文档管理系统教程document-management-systemOpenKMisaOpenSourceDocumentManagementSystem项目地址:https://gitcode.com/gh_mirrors/do/document-management-system1.项目的目录结构及介绍openkm/├──src/│├──main/││├──java/││└──resour
Windows配置opencv详细教程吃旺旺雪饼的小男孩环境配置 windows opencv 人工智能计算机视觉
Windows配置opencv1.安装CMakeCMake安装步骤：2.安装VisualStudioVisualStudio安装步骤：3.下载OpenCV源码下载步骤：4.配置OpenCV使用CMake4.1.配置CMakeGUI4.2.配置选项5.使用VisualStudio编译OpenCV5.1.打开VisualStudio项目5.2.编译OpenCV6.配置开发环境（VisualStudio
SvelteKit 最新中文文档教程（8）—— 部署 Node 服务端
前言Svelte，一个语法简洁、入门容易，面向未来的前端框架。从Svelte诞生之初，就备受开发者的喜爱，根据统计，从2019年到2024年，连续6年一直是开发者最感兴趣的前端框架No.1：Svelte以其独特的编译时优化机制著称，具有轻量级、高性能、易上手等特性，非常适合构建轻量级Web项目。为了帮助大家学习Svelte，我同时搭建了Svelte最新的中文文档站点。如果需要进阶学习，也可以入手我
linux grep命令蓝菱 linux linux grep 正则表达式
转自http://www.cnblogs.com/end/archive/2012/02/21/2360965.htm1.作用Linux系统中grep命令是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。grep全称是GlobalRegularExpressionPrint，表示全局正则表达式版本，它的使用权限是所有用户。2.格式grep[options]3.主要参数[o
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod