victory0508

CDH集群部署与设置

1. ctdn-1
vi /etc/host
#127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
#::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
10.11.8.20 ctdn-1
10.11.8.28 ctdn-2
10.11.8.31 ctdn-3
10.11.8.16 ctdn-4
10.11.8.32 ctdn-5
10.11.8.35 ctdn-6

2.ALL
ssh-keygen -t rsa
cd .ssh

cat id_rsa.pub

3.ctdn-1
copy各台id_rsa.pub中的内容至本台的文件authorized_keys

4.ctdn-1
将authorized_keys文件scp到各台服务器
scp authorized_keys root@ctdn-2:/root/.ssh
scp authorized_keys root@ctdn-3:/root/.ssh
...
scp authorized_keys root@ctdn-6:/root/.ssh
scp /etc/hosts root@ctdn-2:/etc/
...
scp /etc/hosts root@ctdn-6:/etc/

5.ctdn-1
vi /etc/sysconfig/network
+NETWORKING_IPV6=no
scp /etc/sysconfig/network root@ctdn-2:/etc/sysconfig
...
scp /etc/sysconfig/network root@ctdn-6:/etc/sysconfig

6.关闭防火墙 ALL

检查iptables和firewalld 服务均没有安装

7.设置时间同步
ALL：
yum -y install chrony
systemctl start chronyd
ctdn-1:
vi /etc/chrony.conf
allow 10.11/24
# Listen for commands only on localhost.
bindcmdaddress 127.0.0.1
bindcmdaddress ::1
# Serve time even if not synchronized to any NTP server.
local stratum 10
others：
vi /etc/chrony.conf
+server 10.11.8.20 iburst
ALL：

systemctl restart chronyd.service

8.系统优化 ALL
禁用交换分区
sysctl -w vm.swappiness=0
禁用透明大页面
echo never > /sys/kernel/mm/transparent_hugepage/defrag

9.删除自带jdk
检查没有任何Java
ctdn-1:
下载jdk-8u121-linux-x64.tar.gz到/opt
scp jdk-8u121-linux-x64.tar.gz root@ctdn-2:/opt
...
scp jdk-8u121-linux-x64.tar.gz root@ctdn-6:/opt

10.安装JDK ALL
tar zxvf jdk-8u121-linux-x64.tar.gz
ln -s /opt/jdk1.8.0_121 /opt/jdk
mkdir /usr/java

ln -s /opt/jdk /usr/java/default

11.设置Java环境变量 ctdn-1
vi /etc/profile
+
export JAVA_HOME=/opt/jdk
export PATH="$JAVA_HOME/bin:$PATH"

scp /etc/profile root@ctdn-2:/etc
...
scp /etc/profile root@ctdn-6:/etc

ALL:
source /etc/profile

12.ctdn-1:
删除MariaDB
rpm -qa|grep mariadb
rpm -e mariadb-libs-5.5.44-2.el7.centos.x86_64 --nodeps
wget http://ftp.tu-chemnitz.de/pub/linux/dag/redhat/el6/en/x86_64/rpmforge/RPMS/axel-2.4-1.el6.rf.x86_64.rpm
rpm -ivh axel-2.4-1.el6.rf.x86_64.rpm
axel -n 20 https://cdn.mysql.com//Downloads/MySQL-5.7/mysql-5.7.20-1.el7.x86_64.rpm-bundle.tar
tar -xvf mysql-5.7.20-1.el7.x86_64.rpm-bundle.tar

rpm -ivh mysql-community-common-5.7.20-1.el7.x86_64.rpm
rpm -ivh mysql-community-libs-5.7.20-1.el7.x86_64.rpm
rpm -ivh mysql-community-client-5.7.20-1.el7.x86_64.rpm
yum install -y libaio
yum install -y libaio-devel
rpm -ivh mysql-community-server-5.7.20-1.el7.x86_64.rpm
systemctl start mysqld.service
systemctl enable mysqld.service
修改root管理员密码
获得临时秘密：
grep 'temporary password' /var/log/mysqld.log
mysql -uroot -p
mysql> SET PASSWORD FOR 'root'@'localhost' = PASSWORD('Ctdn@v2M');
[ ctdn-5:
mysql> SET PASSWORD FOR 'root'@'localhost' = PASSWORD('SaaS@v2M');
]
为hive oozie创建数据库：
mysql> CREATE DATABASE hive DEFAULT CHARSET utf8 COLLATE utf8_general_ci;
mysql> CREATE DATABASE oozie DEFAULT CHARSET utf8 COLLATE utf8_general_ci;
mysql> CREATE DATABASE hue DEFAULT CHARSET utf8 COLLATE utf8_general_ci;
mysql> CREATE DATABASE amon DEFAULT CHARSET utf8 COLLATE utf8_general_ci;
mysql> grant all privileges on *.* to 'cdh'@'%' identified by 'Ctdn@v2MD' with grant option;
mysql> flush privileges;

13.创建scm用户 all
useradd --system --home=/opt/cm-5.5.1/run/cloudera-scm-server/ --no-create-home --shell=/bin/false --comment "Cloudera SCM User" cloudera-scm

14.创建 ctdn-1
# rm -rf /user/hive/warehouse
# mkdir -p /user/hive/warehouse
# chown cloudera-scm:cloudera-scm /user/hive/warehouse
# rm -rf /var/lib/cloudera-host-monitor
# mkdir -p /var/lib/cloudera-host-monitor
# chown cloudera-scm:cloudera-scm /var/lib/cloudera-host-monitor
# rm -rf /var/lib/cloudera-service-monitor
# mkdir -p /var/lib/cloudera-service-monitor

# chown cloudera-scm:cloudera-scm /var/lib/cloudera-service-monitor

15.安装包 all
yum install -y psmisc libxlst libxslt-python

16.ctdn-1
下载cloudera-manager-centos7-cm5.8.0_x86_64.tar.gz
axel -n 50 http://archive.cloudera.com/cm5/cm/5/cloudera-manager-centos7-cm5.8.0_x86_64.tar.gz
下载CDH Percel包
axel -n 20 http://archive.cloudera.com/cdh5/parcels/5.8.0/CDH-5.8.0-1.cdh5.8.0.p0.42-el7.parcel
axel -n 10 http://archive.cloudera.com/cdh5/parcels/5.8.0/CDH-5.8.0-1.cdh5.8.0.p0.42-el7.parcel.sha1
wget http://archive.cloudera.com/cdh5/parcels/5.8.0/manifest.json
下载mysqljdbc驱动
wget https://cdn.mysql.com//Downloads/Connector-J/mysql-connector-java-5.1.44.tar.gz

17.安装
tar zxvf cloudera-manager-centos7-cm5.8.0_x86_64.tar.gz
tar zxvf mysql-connector-java-5.1.44.tar.gz
cd mysql-connector-java-5.1.44
cp mysql-connector-java-5.1.44-bin.jar /opt/cm-5.8.0/share/cmf/lib/
初始化Cloudera Manager数据库
cd /opt/cm-5.8.0/share/cmf/schema
./scm_prepare_database.sh mysql cm -hlocalhost -ucdh -p'Ctdn@v2MD' scm 'Scm@v2MD'
修改配置
cd /opt/cm-5.8.0/etc/cloudera-scm-agent
vi config.ini
+server_host=10.11.8.20
将cm-5.8.0目录同步到其他服务器：
scp -r cm-5.8.0 root@ctdn-2:/opt/
......
scp -r cm-5.8.0 root@ctdn-6:/opt/

18.parcel ctdn-1:
cd cloudera/parcel-repo/
cp /opt/CDH-5.8.0-1.cdh5.8.0.p0.42-el7.parcel .
cp /opt/CDH-5.8.0-1.cdh5.8.0.p0.42-el7.parcel.sha1 .
cp /opt/manifest.json .
mv CDH-5.8.0-1.cdh5.8.0.p0.42-el7.parcel.sha1 CDH-5.8.0-1.cdh5.8.0.p0.42-el7.parcel.sha

19.启动CM服务
ctdn-1：
/opt/cm-5.8.0/etc/init.d/cloudera-scm-server start
hostnamectl set-hostname ctdn-1
vim /etc/cloud/cloud.cfg
+# - set_hostname
+# - update_hostname
mkdir /opt/cm-5.8.0/run/cloudera-scm-agent
/opt/cm-5.8.0/etc/init.d/cloudera-scm-server restart
/opt/cm-5.8.0/etc/init.d/cloudera-scm-agent restart
ctdn-2~ctdn-6：
hostnamectl set-hostname ctdn-*
vim /etc/cloud/cloud.cfg
+# - set_hostname
+# - update_hostname
mkdir -p /opt/cm-5.8.0/run/cloudera-scm-agent
/opt/cm-5.8.0/etc/init.d/cloudera-scm-agent start

20.安装集群，登录
http://10.11.8.20:7180
用户名/密码：admin/Ctdnc01@2

21
正在安装选定 Parcel 步骤时无法分配，采取如下措施：
ALL 修改/etc/hosts文件,去掉如下所在行的#注释，如下：
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4

22.检查主机正确性，根据提示做如下修改：
ALL：
echo 'vm.swappiness=10'>> /etc/sysctl.conf
echo never > /sys/kernel/mm/transparent_hugepage/defrag

23群集设置
dfs.data.dir, dfs.datanode.data.dir:/data/dfs/dn
dfs.name.dir, dfs.namenode.name.dir:/data/dfs/nn
fs.checkpoint.dir, dfs.namenode.checkpoint.dir:/data/dfs/snn
Oozie 服务器数据目录:/var/lib/oozie/data
ZooKeeper Znode:/solr
HDFS 数据目录:/solr
NodeManager 本地目录 yarn.nodemanager.local-dirs:/data/yarn/nm

24.启动集群时遇到如下问题，修改时钟同步后，这样错误没有出现
Can't open /opt/cm-5.8.0/run/cloudera-scm-agent/process/46-hbase-MASTER/supervisor.conf: Permission denied.
ctdn-2
cd /opt/cm-5.8.0/run/cloudera-scm-agent/process/46-hbase-MASTER
发现：
-rw------- 1 root root 3406 Nov 21 01:47 supervisor.conf
操作：
chown -R hbase:hbase *
问题没有解决，重新生成新的48-hbase-MASTER，找到hbase.sh
/opt/cm-5.8.0/lib64/cmf/service/hbase/hbase.sh

补充：
cp mysql-connector-java-5.1.44-bin.jar /opt/cloudera/parcels/CDH/lib/hive/lib
cp mysql-connector-java-5.1.44-bin.jar /opt/cloudera/parcels/CDH/lib/hadoop
cp mysql-connector-java-5.1.44-bin.jar /var/lib/oozie

1.all
sudo timedatectl set-timezone 'Asia/Shanghai'
yum install ntp -y
ctdn-1
systemctl restart ntpd.service
vi /etc/ntp.conf
+
server 0.cn.pool.ntp.org
server 0.asia.pool.ntp.org
server 3.asia.pool.ntp.org

# allow update time by the upper server
# 允许上层时间服务器主动修改本机时间
restrict 0.cn.pool.ntp.org nomodify notrap noquery
restrict 0.asia.pool.ntp.org nomodify notrap noquery
restrict 3.asia.pool.ntp.org nomodify notrap noquery

# Undisciplined Local Clock. This is a fake driver intended for backup
# and when no outside source of synchronized time is available.
# 外部时间服务器不可用时，以本地时间作为时间服务
server 127.127.1.0 # local clock
fudge 127.127.1.0 stratum 10

systemctl restart ntpd.service
chkconfig --level 35 ntpd on
netstat -tlunp | grep ntp (检查123端口，且协议为udp，需要开启此协议)

ctdn-2~ctdn-6：
vi /etc/ntp.conf
+ server 10.51.120.12 prefer
chkconfig ntpd on
systemctl restart ntpd.service
ntpdate -u 10.51.120.12
hwclock --systohc #把系统时间同步到硬件BIO
2. datanode启动失败
查看stderr
Can't open /opt/cm-5.8.0/run/cloudera-scm-agent/process/345-hdfs-DATANODE/supervisor.conf: Permission denied.
一直以为访问权限有问题，但是无论chmod还是chown均不能解决问题，而且有的成功有的失败。
cd /var/log/hadoop-hdfs
tail -f -n 2000 hadoop-cmf-hdfs-DATANODE-ctdn-1.log.out
查看/var/log/hadoop-hdfs/hadoop-cmf-hdfs-NAMENODE-master1.log.out
WARN Failed to add storage directory [DISK]file:/data/dfs/dn/
java.io.IOException: Incompatible clusterIDs in /data/dfs/dn: namenode clusterID = cluster34; datanode clusterID = cluster21
FATAL Initialization failed for Block pool (Datanode Uuid 357950bd-2e5b-4e89-b731-f58694461c55) service to ctdn-2/10.11.8.28:8022. Exiting.
解决：
3. namenode
没有格式化
hadoop namenode -format
chown -R hdfs:hadoop /data/dfs/
4.NFS Gateway不能启动
错误：No portmap or rpcbind service is running on this host
all
yum install rpcbind -y

hdfs-site.xml

dfs.permissions
false

否则：
Permission denied: user=mapred, access=WRITE, inode="/":hdfs:supergroup:drwxr-xr-x
+++++++++++++++++++++++++++++++++++++++++++++++
pip3 install flask-appbuilder
+++++++++++++++++++++++++++++++++++++++++
ctdn01:
hadoop distcp hdfs://ctdn/code hdfs://10.11.8.31:8022/ success
hadoop distcp hdfs://ctdn/data hdfs://10.11.8.31:8022/ success
hadoop distcp hdfs://ctdn/hbase/data hdfs://10.11.8.31:8022/ doing
执行至：hadoop distcp hdfs://ctdn/hbase/data/default/sinacommentstotal hdfs://10.11.8.31:8022/hbase/data/default
全部迁移完成后，执行
sudo -u hbase hbase hbck -fixAssignments -fixMeta
hadoop distcp hdfs://ctdn/nash hdfs://10.11.8.31:8022/ success
hadoop distcp hdfs://ctdn/root hdfs://10.11.8.31:8022/ success
hadoop distcp hdfs://ctdn/test hdfs://10.11.8.31:8022/ success
hadoop distcp hdfs://ctdn/usr hdfs://10.11.8.28:8022/ quit
hadoop distcp hdfs://ctdn/var hdfs://10.11.8.28:8022/ quit
hadoop distcp hdfs://ctdn/key hdfs://10.11.8.31:8022/success
hadoop distcp hdfs://ctdn/tmp hdfs://10.11.8.28:8022/ quit
hadoop distcp hdfs://ctdn/user/hive/warehouse hdfs://10.11.8.31:8022/ failed,retry
hadoop distcp hdfs://ctdn/user/fanxing hdfs://10.11.8.31:8022/user/ success
hadoop distcp hdfs://ctdn/user/ctdn hdfs://10.11.8.31:8022/ success
drwxr-xr-x - hbase hadoop 0 2017-11-06 02:39 /hbase/archive
drwxr-xr-x - hbase hadoop 0 2017-04-01 14:39 /hbase/corrupt
drwxr-xr-x - hbase hadoop 0 2017-04-01 14:39 /hbase/data
hdfs haadmin -getServiceState namenode94
hdfs haadmin -getServiceState namenode131
hdfs haadmin -transitionToActive --forcemanual namenode131
ctdn01:
mysqldump -uxhhlhive -pH@D!X19 -h 10.10.0.144 -t hive > hive.sql
jrpH@D!X19i4n9g
mysqldump -urecomm -p -h 10.11.8.20 -t recomm --table project_inverst_bak > project_inverst.sql
ctdn-1：
mysql>source /opt/hive.sql
配置NameNode HA:
进入HDFS界面，在右上角的“操作”中，选择点击“启用High Availability”
输入NameService名称，这里设置为：ctdn，点击继续按钮。
设置另一个NameNode节点，这里设置为：cdh-node3.grc。设置JournalNode节点，这里设置为：cdh-node[2-4].grc，一共3个节点。注意：NournalNode必须设置>=3个节点。
设置JournalNode目录，cdh-node[2-4]上，这里全部设置为：/data/dfs/jn
启用HDFS的High Availability
如果发现有如下错误信息，NameNode格式化失败，可以忽略。
成功启用HA
更新Hive Metastore NameNodes
重启集群失败，报错：Journal Storage Directory /data/dfs/jn/ctdn not formatted，进入NameNode配置界面，在右上角操作中，选择点击“初始化共享编辑目录”
journalnode同步
hdfs namenode -bootstrapStand

Hue：
用户名/密码：ctdnadhoc/Aaddhmoi

配置hue支持DB查询
1. ctdn-5:
cd /etc/hue/conf
vi hue.ini
[librdbms]
[[databases]]
[[[mysql]]] （放开）
nice_name="My SQL DB"（放开）
name=ctdn （放开）
engine=mysql（放开）
host=10.9.130.142 （修改）
port=3306（放开）
user=root （修改）
password=IhNtPz6E2V34 （修改）
2.cloudera manager重启hue
3.报错：JournalError loading MySQLdb module: libmysqlclient.so.18: cannot open shared object file: No such file or directory
4.检查：ctdn-6上没有安装MySQL lib
axel -n 50 https://cdn.mysql.com/archives/mysql-5.7/mysql-5.7.12-1.el7.x86_64.rpm-bundle.tar
tar -xvf mysql-5.7.12-1.el7.x86_64.rpm-bundle.tar
rpm -qa|grep mariadb
rpm -e mariadb-libs-5.5.44-2.el7.centos.x86_64 --nodeps
wget ftp://mirror.switch.ch/pool/4/mirror/mysql/Downloads/MySQL-5.5/MySQL-shared-5.5.57-1.el7.x86_64.rpm
rpm -ivh MySQL-shared-5.5.57-1.el7.x86_64.rpm
[root@ctdn-6 lib64]# find / -name libmysqlclient.so.18
/usr/lib64/libmysqlclient.so.18
5.hue:rdbms没有配置
转到cloudera manager
hue->配置
范围->Hue Server
类别->高级
hue_safety_valve_server.ini 的 Hue Server 高级配置代码段（安全阀）：
[librdbms]
# The RDBMS app can have any number of databases configured in the databases
# section. A database is known by its section name
# (IE sqlite, mysql, psql, and oracle in the list below).
[[databases]]
# sqlite configuration.
## [[[sqlite]]]
# Name to show in the UI.
## nice_name=SQLite
# For SQLite, name defines the path to the database.
## name=/tmp/sqlite.db
# Database backend to use.
## engine=sqlite
# Database options to send to the server when connecting.
# https://docs.djangoproject.com/en/1.4/ref/databases/
## options={}
# mysql, oracle, or postgresql configuration.
[[[mysql]]]
# Name to show in the UI.
nice_name="My SQL DB"
# For MySQL and PostgreSQL, name is the name of the database.
# For Oracle, Name is instance of the Oracle server. For express edition
# this is 'xe' by default.
name=ctdn
# Database backend to use. This can be:
# 1. mysql
# 2. postgresql
# 3. oracle
engine=mysql
# IP or hostname of the database to connect to.
host=10.9.130.142
# Port the database server is listening to. Defaults are:
# 1. MySQL: 3306
# 2. PostgreSQL: 5432
# 3. Oracle Express Edition: 1521
port=3306
# Username to authenticate with when connecting to the database.
user=root
# Password matching the username to authenticate with when
# connecting to the database.
password=IhNtPz6E
# Database options to send to the server when connecting.
# https://docs.djangoproject.com/en/1.4/ref/databases/
## options={}
6.cloudera manager重启hue

hue支持spark
1.ctdn-5
cd /etc/yum.repos.d/
curl https://bintray.com/sbt/rpm/rpm > bintray-sbt-rpm.repo
yum -y install sbt
2.
cd /data/tools
git clone https://github.com/ooyala/spark-jobserver.git
cd spark-jobserver
sbt
第二方案
1. wget http://archive.cloudera.com/beta/livy/livy-server-0.2.0.zip
unzip livy-server-0.2.0.zip
2. vi /etc/profile
JAVA_HOME SPARK_HOME
3. su hdfs
cd /data/tools/livy-server-0.2.0
nohup bin/livy-server &
4. 退回到root用户
vi /etc/hue/conf/hue.ini
[spark]
# Host address of the Livy Server.
livy_server_host=ctdn-5
+++++++++++++++++++++++++++++++++++++++++++
Kafka·
服务器：ctdn-2~ctdn-6
1. 创建持久化目录
mkdir /data/kafkaLogs
2. ctdn-2:
cd /opt
wget http://mirrors.hust.edu.cn/apache/kafka/1.0.0/kafka_2.11-1.0.0.tgz
tar zxvf kafka_2.11-1.0.0.tgz
mv kafka_2.11-1.0.0 kafka
cd kafka/config
vi server.properties
确定(配置broker id) broker.id=0
打开监听端口（取消这一行注释）：listeners=PLAINTEXT://:9092
设置zookeeper.connect：zookeeper.connect=ctdn-3:2181,ctdn-4:2181,ctdn-5:2181
确定超时设置：zookeeper.connection.timeout.ms=6000
添加启用删除topic配置：delete.topic.enable=true
关闭自动创建topic：auto.create.topics.enable=false
修改 log 的目录：log.dirs=/data/kafkaLogs
一个topic默认1个分区数(确定)：num.partitions=1
num.recovery.threads.per.data.dir
3.同步到其他节点
scp -r kafka root@ctdn-3:/opt/
......
scp -r kafka root@ctdn-6:/opt/
4. ctdn-2~ctdn-6：
vi /etc/profile
+export KAFKA_HOME=/opt/kafka
+export PATH="$JAVA_HOME/bin:$KAFKA_HOME/bin:$PATH"
source /etc/profile
5.ctdn-3~ctdn-6：
cd /opt/kafka/config
vi server.properties
+broker.id=1(ctdn-3:1,...,ctdn-6:4)
6.启动Kafka（ctdn-2~ctdn-6）
cd /opt/kafka
kafka-server-start.sh server.properties &
（可选：JMX_PORT=9997 bin/kafka-server-start.sh -daemon config/server.properties &）
关闭
jps
kill -9 ****
7.测试集群
创建topic test(ctdn-2)
bin/kafka-topics.sh --create --zookeeper ctdn-3:2181,ctdn-4:2181,ctdn-5:2181 --replication-factor 1 --partitions 1 --topic test
查看所有topic
bin/kafka-topics.sh --list --zookeeper ctdn-3:2181,ctdn-4:2181,ctdn-5:2181
发送消息，生产者（ctdn-2）
bin/kafka-console-producer.sh --broker-list ctdn-2:9092 --topic test
启动消费者(ctdn-3、ctdn-4)
bin/kafka-console-consumer.sh --zookeeper ctdn-3:2181,ctdn-4:2181,ctdn-5:2181 --topic test --from-beginning
8.python支持
http://pykafka.readthedocs.io/en/latest/usage.html
pip3 install pykafka
------生产者pd.py-------
# -* coding:utf8 *-
from pykafka import KafkaClient
host = '10.11.8.16' #生产者服务器IP
client = KafkaClient(hosts="%s:9092" % host)
print(client.topics)
topicdocu = client.topics[b'test']
producer = topicdocu.get_producer()
for i in range(4):
print(i)
producer.produce('test message '.encode('utf-8') + str(i ** 2).encode('utf-8'))
producer.stop()
------消费者cm.py-------
# -* coding:utf8 *-
from pykafka import KafkaClient
host = '10.11.8.16' #消费者服务器IP
client = KafkaClient(hosts="%s:9092" % host)
print(client.topics)
topic = client.topics[b'test']
consumer = topic.get_simple_consumer(consumer_group=b'test', auto_commit_enable=True, consumer_id=b'test')
for message in consumer:
if message is not None:
print(message.offset, message.value)

python3 cm.py
python3 pd.py

9.KSQL
ctdn-5
https://github.com/confluentinc/ksql
http://geek.csdn.net/news/detail/235801
bin/kafka-topics.sh --create --zookeeper ctdn-3:2181,ctdn-4:2181,ctdn-5:2181 --replication-factor 1 --partitions 1 --topic pageviews
bin/kafka-topics.sh --create --zookeeper ctdn-3:2181,ctdn-4:2181,ctdn-5:2181 --replication-factor 1 --partitions 1 --topic users

1. git clone https://github.com/confluentinc/ksql.git
2. cd ksql
mvn clean compile install -DskipTests
3. 进入KSQL环境
单机模式Standalone，KSQL客户端和服务器端在同一台服务器上，共用同一JVM
./bin/ksql-cli local
./bin/ksql-cli local --bootstrap-server kafka-broker-1:9092 \
--properties-file path/to/ksql-cli.properties

CS模式Client-server，在远程服务器、VM或容器上启动KSQL池，CLI通过HTTP连接它们
启动服务器节点
./bin/ksql-server-start
./bin/ksql-server-start ksql-server.properties
ksql-server.properties内容如下：
# You must set at least the following two properties
bootstrap.servers=kafka-broker-1:9092
# Note: `application.id` is not really needed but you must set it
# because of a known issue in the KSQL Developer Preview
application.id=app-id-setting-is-ignored
# Optional settings below, only for illustration purposes
# The hostname/port on which the server node will listen for client connections
listeners=http://0.0.0.0:8090

启动客户端，指定KSQL服务器地址
./bin/ksql-cli remote http://my-ksql-server:8090
10. KSQL实验
生产数据
topics：pageviews、users
为pageviews生产数据
java -jar ksql-examples/target/ksql-examples-4.1.0-SNAPSHOT-standalone.jar quickstart=pageviews format=delimited topic=pageviews maxInterval=10000
为users生产数据
java -jar ksql-examples/target/ksql-examples-4.1.0-SNAPSHOT-standalone.jar quickstart=users format=json topic=users maxInterval=10000
命令行方式：
kafka-console-producer --broker-list localhost:9092 \
--topic t1 \
--property parse.key=true \
--property key.separator=:
建表
ksql>
CREATE STREAM pageviews_original (viewtime bigint, userid varchar, pageid varchar) WITH (kafka_topic='pageviews', value_format='DELIMITED');
DESCRIBE pageviews_original;
CREATE TABLE users_original (registertime bigint, gender varchar, regionid varchar, userid varchar) WITH (kafka_topic='users', value_format='JSON', key = 'userid');
DESCRIBE users_original;

SHOW STREAMS;
SHOW TABLES;

查询
ksql> SELECT pageid FROM pageviews_original LIMIT 3;
ksql> CREATE STREAM pageviews_female AS SELECT users_original.userid AS userid, pageid, regionid, gender FROM pageviews_original LEFT JOIN users_original ON pageviews_original.userid = users_original.userid WHERE gender = 'FEMALE';
ksql> DESCRIBE pageviews_female;
ksql> SELECT * FROM pageviews_female;
ksql> CREATE STREAM pageviews_female_like_89 WITH (kafka_topic='pageviews_enriched_r8_r9', value_format='DELIMITED') AS SELECT * FROM pageviews_female WHERE regionid LIKE '%_8' OR regionid LIKE '%_9';
ksql> CREATE TABLE pageviews_regions WITH (value_format='avro') AS SELECT gender, regionid , COUNT(*) AS numusers FROM pageviews_female WINDOW TUMBLING (size 30 second) GROUP BY gender, regionid HAVING COUNT(*) > 1;
ksql> DESCRIBE pageviews_regions;
ksql> SHOW QUERIES;
bin/ksql-cli local --exec "SELECT * FROM pageviews_original LIMIT 5;"
KSQL配置
SET 'auto.offset.reset'='earliest';
默认值latest(最新的),从当前的offset读取数据，可修改如上
SET 'commit.interval.ms'='5000';
默认值2000
++++++++++++++定时清理日志++++++++++++++++++++
ctdn-2~ctdn-6：
1.
cd /root/nash
vi clean_cloudslog.sh
+
#!/bin/bash
###Description:This script is used to clear kafka logs, not message file.
#####1.kafka
# log file dir.
logDir=/opt/kafka/logs
# Reserved 7 files.
COUNT=7
ls -t $logDir/server.log* | tail -n +$[$COUNT+1] | xargs rm -f
ls -t $logDir/controller.log* | tail -n +$[$COUNT+1] | xargs rm -f
ls -t $logDir/state-change.log* | tail -n +$[$COUNT+1] | xargs rm -f
ls -t $logDir/log-cleaner.log* | tail -n +$[$COUNT+1] | xargs rm –f
#####2.hbase
hbaseDir=/var/log/hbase
2.
crontab -e
+
0 0 * * 0 /root/nash/clean_cloudslog.sh
################kafka manager################################
安装sbt
cd /etc/yum.repos.d/
curl https://bintray.com/sbt/rpm/rpm | sudo tee /etc/yum.repos.d/bintray-sbt-rpm.repo
下载Yahoo kafka manager
cd /opt
git clone https://github.com/yahoo/kafka-manager.git
cd kafka-manager
sbt clean dist
看到：[info] Your package is ready in /opt/kafka-manager/target/universal/kafka-manager-1.3.3.14.zip
成功打包
cd /opt/kafka-manager/target/universal
cp kafka-manager-1.3.3.14.zip ~/
unzip -oq kafka-manager-1.3.3.14.zip
cd kafka-manager-1.3.3.14
vim conf/application.conf
+
#kafka-manager.zkhosts="kafka-manager-zookeeper:2181"
#kafka-manager.zkhosts=${?ZK_HOSTS}
kafka-manager.zkhosts="10.11.8.31:2181:10.11.8.16:2181:10.11.8.32:2181"
启动
bin/kafka-manager
This application is already running (Or delete /root/kafka-manager-1.3.3.14/RUNNING_PID file).
你也可以在启动时指定配置文件和监听端口：
# bin/kafka-manager -Dconfig.file=/root/kafka-manager-1.3.3.14/conf/application.conf -Dhttp.port=8088
+++++++++++++++++python ctdn-1~ctdn-6++++++++++++
开始时只在ctdn-6上部署Python，运行pyspark，报错：pyspark: ImportError: No module named numpy
经检查，不是本台服务器没有安装，而是其他节点没有部署Python环境。
https://www.python.org/ftp/python
yum -y install gcc-c++
yum -y install gcc
mkdir -p /usr/local/python3
cd /usr/local/python3
wget https://www.python.org/ftp/python/3.4.4/Python-3.4.4.tar.xz
tar xvf Python-3.4.4.tar
cd Python-3.4.4
./configure --prefix=/usr/local/python3/python344
make
make install
ln -s /usr/local/python3/python344/bin/python3 /usr/local/bin/python3
ln -s /usr/local/python3/python344/bin/pip3 /usr/local/bin/pip3
pip3 install numpy
不要做：pip3 install --upgrade pip
pip3 install pandas
pip3 install scipy-1.0.0-cp34-cp34m-manylinux1_x86_64.whl
pip3 install scikit_learn-0.19.1-cp34-cp34m-manylinux1_x86_64.whl
pip3 install matplotlib
cd /opt/cloudera/parcels/CDH-5.8.0-1.cdh5.8.0.p0.42/lib/spark/python
cp -r pyspark /usr/local/python3/python344/lib/python3.4/site-packages/
上述操作依旧没有解决问题，设置环境变量如下，解决：
vi /etc/profile
+
export PYTHONPATH=/usr/local/python3/python344/lib/python3.4
export PYSPARK_PYTHON=/usr/local/bin/python3
但是python不能使用，
在/etc/profile中删除PYTHONPATH也不管用，如下解决：
unset PYTHONPATH
+++++++++++++++CDH升级Spark2++++++++++++++++++++++++++++
1.所需软件
http://archive.cloudera.com/spark2/csd/
下载SPARK2_ON_YARN-2.1.0.cloudera1.jar
axel -n 20 http://archive.cloudera.com/spark2/csd/SPARK2_ON_YARN-2.1.0.cloudera1.jar
http://archive.cloudera.com/spark2/parcels/2.1.0.cloudera1/
下载SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el7.parcel
SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el7.parcel.sha1
manifest.json
axel -n 50 http://archive.cloudera.com/spark2/parcels/2.1.0.cloudera1/SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el7.parcel
wget http://archive.cloudera.com/spark2/parcels/2.1.0.cloudera1/SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el7.parcel.sha1
wget http://archive.cloudera.com/spark2/parcels/2.1.0.cloudera1/manifest.json
2.ctdn-1
cp SPARK2_ON_YARN-2.1.0.cloudera1.jar /data/cloudera/csd
cp SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el7.parcel /data/cloudera/parcel-repo
cp SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el7.parcel.sha1 /data/cloudera/parcel-repo
cd /data/cloudera/parcel-repo/
mv SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el7.parcel.sha1 SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el7.parcel.sha
mv manifest.json manifest.json.bak
cd /opt
cp manifest.json /opt/cloudera/parcel-repo/

ctdn-2~ctdn-6：
cd /opt/cloudera
mkdir csd
mkdir parcel-repo

ctdn-1：
scp SPARK2_ON_YARN-2.1.0.cloudera1.jar root@ctdn-2:/opt/cloudera/csd
......
scp SPARK2_ON_YARN-2.1.0.cloudera1.jar root@ctdn-6:/opt/cloudera/csd
scp SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el7.parcel root@ctdn-2:/opt/cloudera/parcel-repo/
......
scp SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el7.parcel root@ctdn-6:/opt/cloudera/parcel-repo/
scp SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el7.parcel.sha root@ctdn-2:/opt/cloudera/parcel-repo/
......
scp SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el7.parcel.sha root@ctdn-6:/opt/cloudera/parcel-repo/
修改文件的用户和组,我没有做，没有出问题，需要跟同目录下其他文件一样。

3.停掉CM和集群
然后重启cm

4.登录cm
主机->Parcel,左侧列表找到Spark2，点击，右上依次点击分配、激活

5.返回主页
集群->添加服务，添加spark2服务。
http://blog.csdn.net/u010936936/article/details/73650417
cd /opt/cloudera/parcels/SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904/etc/spark2/conf.dist/
cp /etc/spark/conf/spark-env.sh .
cp /etc/spark/conf/classpath.txt .

vi spark-env.sh
+
#export SPARK_HOME=/opt/cloudera/parcels/CDH-5.8.0-1.cdh5.8.0.p0.42/lib/spark
export SPARK_HOME=/opt/cloudera/parcels/SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904/lib/spark2
export PYSPARK_PYTHON=/usr/local/bin/python3
export PYSPARK_DRIVER_PYTHON=python3
补充：
spark_master: ctdn-4:7077修改为spark_master: yarn （基于yarn的设置为yarn, standonly(master-slave)的设置为masterIp:7077）
+++++++++++根目录满+++++++++
查看inode使用率: df -i
df -lh
cd /
du -h -x --max-depth=1
发现/opt 5G
cd /opt
du -h -x --max-depth=1
/var/lib/cloudera-service-monitor/ts
+++++++++++agent假死+++++++++
[root@ctdn-1 init.d]# /opt/cm-5.8.0/etc/init.d/cloudera-scm-agent stop
Usage: grep [OPTION]... PATTERN [FILE]... [FAILED]
Try 'grep --help' for more information.
[root@ctdn-1 init.d]# /opt/cm-5.8.0/etc/init.d/cloudera-scm-agent start
cloudera-scm-agent is already running
[root@ctdn-1 init.d]# /opt/cm-5.8.0/etc/init.d/cloudera-scm-agent status
cloudera-scm-agent dead but pid file exists
[root@ctdn-1 cloudera-scm-agent]# find / -name cloudera-scm-agent.pid
find: ‘/proc/28696’: No such file or directory
/opt/cm-5.8.0/run/cloudera-scm-agent/cloudera-scm-agent.pid
[root@ctdn-1 cloudera-scm-agent]# cd /opt/cm-5.8.0/run/cloudera-scm-agent/
[root@ctdn-1 cloudera-scm-agent]# ll
total 4
drwxr-x--x 2 root root 6 Nov 20 19:02 cgroups
-rw-r--r-- 1 root root 1 Dec 1 10:27 cloudera-scm-agent.pid
[root@ctdn-1 cloudera-scm-agent]# rm -f cloudera-scm-agent.pid
+++++++++++++++++++++++++HUE+++++++++++++++++++++++++
Could not start SASL: Error in sasl_client_start (-4) SASL(-4): no mechanism available: No worthy mechs found
解决方案
yum -y install cyrus-sasl-plain
++++++++++++++++++++++++percona+++++++++++++++++++++++++++++++++
yum install http://www.percona.com/downloads/percona-release/redhat/0.1-4/percona-release-0.1-4.noarch.rpm
yum install percona-toolkit -y

你可能感兴趣的:(hadoop/hive)

Linux 让PHP支持MSSQL hello_simon php linux
FreeTDS官方网站：http://www.freetds.org当前版本0.82wgethttp://mirrors.xmu.edu.cn/ubuntu/archive/pool/main/f/freetds/freetds_0.82.orig.tar.gz1.编译FreeTDS#tarzxvffreetds-0.82.tar.gz#cdfreetds-0.82//--with-tdsver=
YashanDB归档日志文件管理数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%95%B0%E6%8D%AE%...归档日志文件默认存放在$YASDB\_DATA/archive目录下。Note：本文以查询单机部署中的归档日志文档为例，不同部署形态查询方法相同但$YASDB\_DATA路径不同，具体请以实际为准。$cd/data/yasha
Kubernetes集群版本升级后端java
集群升级注意事项升级集群版本建议逐步升级，比如v1.20.1–>v1.21.1–>v1.22.1–>v1.23.1–>v1.24.1，不能跨度过大，否则会报错。升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane,maste
mac M1 安装flutter 小泥人（倪） macos flutter
M1安装Flutter1-官网下载flutterSDK盘符自己记好https://docs.flutter.dev/release/archive?tab=macos2-控制台配置环境变量open.zshrc/bash_profile//平常在哪配就打开哪个文件3-复制粘贴exportPATH="$PATH:/Users/xnr/Documents/flutter/bin:$PATH"//自己安装
Hive高级SQL技巧及实际应用场景小技工丨大数据随笔 sql hive 数据仓库大数据
Hive高级SQL技巧及实际应用场景引言ApacheHive是一个建立在Hadoop之上的数据仓库基础设施，它提供了一个用于查询和管理分布式存储中的大型数据集的机制。通过使用类似于SQL（称为HiveQL）的语言，Hive使得数据分析变得更加简单和高效。本文将详细探讨一些Hive高级SQL技巧，并结合实际的应用场景进行说明。HiveSQL的高级使用技巧1.窗口函数描述：窗口函数允许我们在不使用GR
Hive SQL 精进系列：字符串拼接的三种常用方式进一步有进一步的欢喜 hive sql hadoop
Hive字符串拼接：三种常用方式深度剖析目录Hive字符串拼接：三种常用方式深度剖析引言一、简洁直观的`||`操作符1.基础语法规则2.丰富多样的示例展示3.优势与局限分析二、规范通用的`CONCAT`函数1.全面的语法解析2.生动的示例说明3.优势与局限剖析三、灵活指定分隔符的`CONCAT_WS`函数1.清晰的语法介绍2.实用的示例演示3.优势与局限探讨四、总结与选择建议引言在Hive数据处理
HIVE SQL进阶 Q010910 hive sql hadoop 数据分析
1.lateralviewexplode：将array或map类型的列拆分成多行数据lateralview：把拆分的单个字段数据与原始表的数据关联上LATERALVIEWEXPLODE(col)table_tempAScol_nametable_temp是因为LATERALVIEWUDTF函数在执行时，会生成一个临时的虚拟表。同时生成的列也需要列名col_name。lateralview的位置在f
hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读 weixin_39756416 hive 数字转换字符串
1、Hive产生背景MapReduce编程的不便性HDFS上的文件缺少Schema(表名，名称，ID等，为数据库对象的集合)2、Hive是什么Hive的使用场景是什么？基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。Hive是SQL解析引擎，它将SQL语句转译成M/RJob然后在Hadoop执行。由Facebook开源，
Hive-基础入门数据牧马人 hive hadoop 数据仓库
目录第1章Hive基本概念第2章、安装步骤：1、上传jar包至/usr/local/soft2、解压并重命名3、配置环境变量4.配置HIVE文件第3章hive中数据库的操作1、hiveDDL操作2、HiveDML操作3、hive的本地模式4、hive表中数据加载方式5、hive中的流量统计6、hive数据导出第4章hive中的数据类型1.基本数据类型2.复杂数据类型第5章hive中的一个emp案例
在hadoop上运行python_hadoop上运行python程序廷哥带你小路超车
数据来源：http://www.nber.org/patents/acite75_99.zip首先上传测试数据到hdfs：[root@localhost:/usr/local/hadoop/hadoop-0.19.2]#bin/hadoopfs-ls/user/root/test-inFound5items-rw-r--r--1rootsupergroup1012010-10-2414:39/us
ranger集成starrock报错蘑菇丁大数据+机器学习+oracle 大数据
org.apache.ranger.plugin.client.HadoopException:initConnection:UnabletoconnecttoStarRocksinstance,pleaseprovidevalidvalueoffield:{jdbc.driverClassName}..com.mysql.cj.jdbc.Driver.可能的原因JDBC驱动缺失：运行环境中没有安
windows11 环境 paddleOCR 环境配置一醉千秋 python+银河麒麟 python 开发语言
一、系统环境：操作系统：Windows11专业版显卡：RTX4080CUDA：cuda_12.6.2_560.94_windows.exe、cudnn-windows-x86_64-8.9.7.29_cuda12-archivepython：3.12.8二、配置过程1.设置python国内源pipconfigsetglobal.index-urlhttps://pypi.tuna.tsinghua
深入大数据世界：Kontext.TECH的Hadoop之旅钱桦实Emery
深入大数据世界：Kontext.TECH的Hadoop之旅winutils项目地址:https://gitcode.com/gh_mirrors/winut/winutils在大数据的浩瀚宇宙中，Hadoop作为一颗璀璨的星辰，一直扮演着至关重要的角色。对于渴望探索这一领域的开发者和学习者而言，Kontext.TECH提供了一扇独特而便捷的大门，让你的学习之旅更加顺畅。项目介绍Kontext.Ha
【gopher的java学习笔记】如何通过jar命令解压JAR包 ThisIsClark gopher的java学习笔记 java 学习笔记
如何通过jar命令解压JAR包JAR（JavaARchive）文件是Java平台上用于打包和分发类文件、资源文件以及其他相关文件的压缩文件格式。有时候，我们可能需要解压一个JAR文件以查看或修改其中的内容。Java提供了一个内置的jar工具，可以方便地进行JAR文件的创建、查看和解压等操作。本文将详细介绍如何通过jar命令解压JAR包。一、准备工作确保Java环境已安装：jar命令是Java开发工
大数据学习（61）-Impala与Hive计算引擎 viperrrrrrr 学习 impala hive yarn hadoop
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、impala与yarn资源管理YARN是ApacheHadoop生态系统中的一个资源管理器，它采用了master/slave的架构，使得多个处理框架能够在同一集群上共享资源。Impala作为Hadoop生态系统中的一个组件，可以与YARN集成，以便更好地管理
大数据学习（62）- Hadoop-yarn viperrrrrrr 大数据 yarn
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、YARN概述1.YARN简介Hadoop-YARN是ApacheHadoop生态系统中的一个集群资源管理器。它作为Hadoop的第二代资源管理框架，负责管理和分配集群中的计算资源。YARN的设计目标是提供一个通用的资源管理框架，使得Hadoop集群可以同时运
腾讯云centos安装anaconda3并配置jupyter notebook环境星星都亮了
准备工作腾讯云centos系统配置好网络安装anaconda3从官网下载：wgethttps://repo.continuum.io/archive/Anaconda3-2019.07-Linux-x86_64.sh给下载的文件增加执行的权限(u代表用户，x代表执行，u+x即给用户增加执行的权限)：chmodu+xAnaconda3-2019.07-Linux-x86_64.sh接着运行脚本，安装
HBase2.6.1部署文档 CXH728 zookeeper hbase
1、HBase概述ApacheHBase是基于Hadoop分布式文件系统（HDFS）之上的分布式、列存储、NoSQL数据库。它适合处理结构化和半结构化数据，能够存储数十亿行和数百万列的数据，并支持实时读写操作。HBase通常应用于需要快速随机读写、低延迟访问以及高吞吐量的场景，例如大规模日志处理、社交网络数据存储等。HBase特性列存储模型：HBase的数据是按列族存储的，适合高稀疏数据。行键分区
Hive-4.0.1版本部署文档 CXH728 hive hadoop 数据仓库
1.前置要求操作系统：建议使用CentOS7或Ubuntu20.04（本试验使用的是CentOSLinuxrelease7.9.2009(Core)）Java环境：建议安装Java8或更高版本。Hadoop：Hive需要依赖Hadoop进行分布式存储，建议安装Hadoop3.x版本（本实验采用的是hadoop3.3.6）。数据库：HiveMetastore需要数据库支持，建议使用MySQL、Pos
hive-3.1.3部署文档 CXH728 hive hadoop 数据仓库
提前准备一个正常运行的hadoop集群java环境hive安装包下载地址：https://archive.apache.org/dist/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gzmysql安装包1、内嵌模式由于内嵌模式使用场景太少（基本不用），所以仅练习安装查看基础功能[root@master~]#tarxfapache-hive-3.1.3-bin
Hive实用小文件合并方案 500佰 Hive线上问题处理方案 hive hadoop 数据仓库大数据
#Hive常见故障#大数据#生产环境真实案例#Hive#离线数据库#整理#经验总结说明：此篇总结hive常见故障案例处理方案结合自身经历总结不易+关注+收藏欢迎留言Hive实用小文件合并方案请往下翻！！！更多Hive案例汇总方案(点击跳转)：Hive常见故障多案例维护宝典--项目总结(宝典一)Hive常见故障多案例维护宝典--项目总结(宝典二)目录内容如下：架构概述【1】参数及配置类常见故障执行s
大数据面试之路 (二) hive小文件合并优化方法愿与狸花过一生大数据大数据 hive hadoop
大量小文件容易在文件存储端造成瓶颈，影响处理效率。对此，您可以通过合并Map和Reduce的结果文件来处理。一、合并小文件的常见场景写入时产生小文件：Reduce任务过多或数据量过小，导致每个任务输出一个小文件。动态分区插入：分区字段基数高，每个分区生成少量数据，形成大量小文件。频繁追加数据：通过INSERTINTO多次追加数据，导致文件碎片化。二、合并小文件的核心方法方法1：调整Reduce任务
炸裂函数explode 阿强77 炸裂函数 sql
在ApacheHive中，"炸裂函数"通常指的是将复杂数据类型（如数组或映射）拆分成多行的函数。Hive提供了几个内置函数来实现这种操作，其中最常用的是explode函数。1.explode函数explode函数用于将数组或映射类型的列拆分成多行。每行包含数组或映射中的一个元素。示例1:炸裂数组假设有一个表my_table，其中有一列my_array是数组类型：SELECTexplode(my_a
hive mysql日期减一天_hive sql的常用日期处理函数总结空城大大叔 hive mysql日期减一天
1)date_format函数(根据格式整理日期)作用：把一个字符串日期格式化为指定的格式。selectdate_format('2017-01-01','yyyy-MM-ddHH:mm:ss');--日期字符串必须满足yyyy-MM-dd格式结果：2017-01-0100:00:002)date_add、date_sub函数(加减日期)作用：把一个字符串日期格式加一天、减一天。selectdat
自你离开后的第一篇关于MySQL和Hive开发生涯常见函数对比及SQL书写注意事项汇总二百四十九先森 MySQL
涉及到的任何SQL语句或知识点，未特别注明则表明MySQL和Hive通用。一、时间函数一、时间函数1、时间转换时间戳转指定格式的时间：selectfrom_unixtime(1234567890,格式);格式默认是年月日时分秒，如果不是则需要指定格式。Hive(yyyy-MM-ddHH:mm:ss)。MySQL（%Y-%m-%d%H:%m:%s）。时间字符串转时间戳：selectunix_time
mySQL和Hive的区别 iijik55 面试学习路线阿里巴巴 hive mysql 大数据 tomcat 面试
SQL和HQL的区别整体1、存储位置：Hive在Hadoop上；Mysql将数据存储在设备或本地系统中；2、数据更新：Hive不支持数据的改写和添加，是在加载的时候就已经确定好了；数据库可以CRUD；3、索引：Hive无索引，每次扫描所有数据，底层是MR，并行计算，适用于大数据量；MySQL有索引，适合在线查询数据；4、执行：Hive底层是MapReduce；MySQL底层是执行引擎；5、可扩展性
时间函数（Hive-Sql\Mysql\Presto）菜鸟教程*…* mysql hive sql mysql
特殊说明：1、时间函数有多种方法，比如本月第一天（T-1）：mon_firstday(sysdate(-1))或者concat(substr(sysdate(-1),1,8),‘01’)等。2、通常离线数据是T-1，故取数据时候，月至今的范围是1号至昨天，故本业会标注T-1，请知晓。3、看函数产生的效果：（1）Hive-Sql如果想看函数的效果，可以在集市输入select+函数。例如selects
MySQL和Hive SQL 时间处理常用函数汇总 Cachel wood sql语言 sql server +mysql mysql hive sql 机器学习数据库人工智能 sklearn
文章目录一、基础时间函数二、日期加减操作三、日期格式化与解析四、时间差计算五、时间类型转换六、时区处理示例获取当前时间并格式化日期增加3天计算两个日期的天数差注意事项：以下是SQL中常用的时间处理函数汇总，涵盖MySQL和Hive的差异：一、基础时间函数功能MySQLHive当前时间（日期+时间）NOW()/CURRENT_TIMESTAMP()current_timestamp()当前日期CUR
flink-cdc实时增量同步mysql数据到elasticsearch 大数据技术派 #Flink elasticsearch flink mysql
什么是CDC？CDC是（ChangeDataCapture变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。1.环境准备mysqlelasticsearchflinkonyarn说明：如果没有安装hadoop，那么可以不用yarn，直
Hive在大数据集群下的部署正在绘制中大数据大数据 hive
hive安装1）把apache-hive-3.1.3-bin.tar.gz上传到Linux的/opt/software目录下2）解压apache-hive-3.1.3-bin.tar.gz到/opt/module/目录下面tar-zxvf/opt/software/apache-hive-3.1.3-bin.tar.gz-C/opt/module/3）修改apache-hive-3.1.3-bin
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag