大数据陈浩

大数据PAZR集成ldap实操！what？

1.说明

p:presto a:allixop z:zeppelin r:rancher
分为三部分讲解
1.什么是presto+Alluxio，大数据presto+Alluxio集成详细部署说明
2.大数据zeppelin+rancher，docker的集成部署
3.presto+alluxio集成ldap实操测试，zeppelin+rancher集成ldap实操测试

1.1什么是presto

于内存的并行计算，Facebook推出的分布式SQL交互式查询引擎多个节点管道式执行
支持任意数据源数据规模GB~PB 是一种Massively parallel processing（mpp）(大规模并行处理)模型
数据规模PB 不是把PB数据放到内存，只是在计算中拿出一部分放在内存、计算、抛出、再拿

为什么要用&优点&特点
多数据源、支持SQL、扩展性（可以自己扩展新的connector）、混合计算（同一种数据源的不同库 or表；将多个数据源的数据进行合并）、高性能、流水线（pipeline）

1.2 presto架构

2.1什么是alluxio

Alluxio（前身Tachyon）是世界上第一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式，为上层计算框架和底层存储系统构建了桥梁。

2.2Alluxio架构

Alluxio是大数据和机器学习生态系统中的新数据访问层。Alluxio作为据访问层处于持久存储层（如Amazon S3，Microsoft Azure Object Store，Apache HDFS或OpenStack Swift）和计算框架层（如Apache Spark，Presto或Hadoop MapReduce）之间。

3.presto+Alluxio

Starbrust + Alluxio = 在一起更好
和Alluxio一起的Starbrust Presto是一个真正独立的数据栈，支持任何文件或对象存储进行交互式大数据分析。Starbrust Presto和Alluxio整合后能够共同帮助作业运行速度提高10倍，使重要数据本地化，并连接到各种存储系统和云。

用户现在可以将他们遗留的数据仓库构建方法改为来使用现代云数据栈，在Presto、Alluxio和任何文件或对象存储上构建真正不同的数据栈。

3.1 presto部署

3.1.1Presto安装

3.1.2角色分配

3.1.3测试环境：
1.CM6.3
2.Presto版本0.226
3.操作系统版本为Redhat7.3
4.采用root用户进行操作

3.1.4下载
下载最新版本
Presto服务的安装目录为/opt/cloudera/parcels/presto
https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.226/presto-server-0.226.tar.gz

3.1.5将下载好的presto-server-0.226.tar.gz上传至Presto集群的所有服务器上

mkdir -p /opt/cloudera/parcels/presto
scp -r -P53742 presto-server-0.226.* root@incubator-t3-dc-002:/opt/cloudera/parcels/presto/
presto-server-0.226.jar

3.1.6解压安装（presto集群所有机器）
将presto-server-0.205.tar.gz压缩包解压至/opt/cloudera/parcels目录
# tar -zxvf presto-server-0.226.tar.gz -C /opt/cloudera/parcels/
#cd /opt/cloudera/parcels/
mv presto presto-soft
mv presto-server-0.226/ presto

3.1.7Java环境变量设置
vim /opt/cloudera/parcels/presto/bin/launcher文件如下位置添加JAVA环境变量
JAVA_HOME=/usr/java/jdk1.8.0_181-cloudera
PATH=$JAVA_HOME/bin:$PATH

3.1.8准备Presto的配置文件
#mkdir -p /opt/cloudera/parcels/presto/etc
#presto配置文件
#mkdir -p /data/presto 
#数据盘
vim /opt/cloudera/parcels/presto/etc/node.properties
node.environment=presto
node.id=presto-cdh01
node.data-dir=/data/presto
配置说明：
node.environment：集群名称。所有在同一个集群中的Presto节点必须拥有相同的集群名称。
node.id：每个Presto节点的唯一标示。每个节点的node.id都必须是唯一的。在Presto进行重启或者升级过程中每个节点的node.id必须保持不变。如果在一个节点上安装多个Presto实例（例如：在同一台机器上安装多个Presto节点），那么每个Presto节点必须拥有唯一的node.id。
node.data-dir：数据存储目录的位置（操作系统上的路径）。Presto将会把日期和数据存储在这个目录下。

3.1.9Presto的jvm配置文件
配置Presto的JVM参数,创建jvm.config文件
vim /opt/cloudera/parcels/presto/etc/jvm.config
-server
-Xmx8G
-XX:+UseConcMarkSweepGC
-XX:+ExplicitGCInvokesConcurrent
-XX:+CMSClassUnloadingEnabled
-XX:+AggressiveOpts
-XX:+HeapDumpOnOutOfMemoryError
-XX:OnOutOfMemoryError=kill -9 %p
-XX:ReservedCodeCacheSize=150M
#配置文件的格式是：一系列的选项，每行配置一个单独的选项。由于这些选项不在shell命令中使用。因此即使将每个选项通过空格或者其他的分隔符分开，java程序也不会将这些选项分开，而是作为一个命令行选项处理。（就想下面例子中的OnOutOfMemoryError选项）。
由于OutOfMemoryError将会导致JVM处于不一致状态，所以遇到这种错误的时候我们一般的处理措施就是将dump headp中的信息（用于debugging），然后强制终止进程。
Presto会将查询编译成字节码文件，因此Presto会生成很多class，因此我们我们应该增大Perm区的大小（在Perm中主要存储class）并且要允许Jvm class unloading。

3.1.10创建config.properties文件
该配置文件包含了Presto Server的所有配置信息。每个Presto Server既是Coordinator也是一个Worker。在大型集群中，处于性能考虑，建议单独用一台服务器作为Coordinator。
coordinator节点的配置如下：
Presto会将查询编译成字节码文件，因此Presto会生成很多class，因此我们我们应该增大Perm区的大小（在Perm中主要存储class）并且要允许Jvm class unloading。
vim /opt/cloudera/parcels/presto/etc/coordinator-config.properties 
coordinator=true
node-scheduler.include-coordinator=false
http-server.http.port=6660
query.max-memory=4GB
query.max-memory-per-node=1GB
discovery-server.enabled=true
discovery.uri=http://incubator-t3-dc-001:6660
worker节点的配置如下：
vim /opt/cloudera/parcels/presto/etc/worker-config.properties 
coordinator=false
http-server.http.port=6660
query.max-memory=4GB
query.max-memory-per-node=1GB
discovery.uri=http://incubator-t3-dc-001:6660

配置项说明：
coordinator：指定是否运维Presto实例作为一个coordinator(接收来自客户端的查询情切管理每个查询的执行过程)。
node-scheduler.include-coordinator：是否允许在coordinator服务中进行调度工作。对于大型的集群，在一个节点上的Presto server即作为coordinator又作为worke将会降低查询性能。因为如果一个服务器作为worker使用，那么大部分的资源都不会被worker占用，那么就不会有足够的资源进行关键任务调度、管理和监控查询执行。
http-server.http.port：指定HTTP server的端口。Presto 使用 HTTP进行内部和外部的所有通讯。
discovery.uri：Discoveryserver的URI。由于启用了Prestocoordinator内嵌的Discovery 服务，因此这个uri就是Prestocoordinator的uri。修改example.net:80，根据你的实际环境设置该URI。注意：这个URI一定不能以“/“结尾。

3.1.11新建日志文件log.properties
vim /opt/cloudera/parcels/presto/etc/log.properties
com.facebook.presto=INFO

3.1.12重命名config文件
主节点
/opt/cloudera/parcels/presto/etc/
mv coordinator-config.properties config.properties
work节点
cd /opt/cloudera/parcels/presto/etc/
mv worker-config.properties config.properties

3.1.13Presto服务启停
/opt/cloudera/parcels/presto/bin/launcher start
#启动


/opt/cloudera/parcels/presto/bin/launcher stop
停止

3.1.14Presto-web
http://172.16.16.241/ui/

3.2 presto集成hive

1.在Presto集群的所有节点创建目录
mkdir -p /opt/cloudera/parcels/presto/etc/catalog
2.创建hive.properties，该文件与Hive服务集成使用

vim /opt/cloudera/parcels/presto/etc/catalog/hive.properties 
connector.name=hive-hadoop2
hive.metastore.uri=thrift://incubator-t3-dc-003:9083

3.修改presto的jvm.config,在配置文件中增加Presto访问HDFS的用户名

vim /opt/cloudera/parcels/presto/etc/jvm.config
添加-DHADOOP_USER_NAME=presto

4.上面的配置中指定了presto用户作为访问HDFS的用户，需要在集群所有节点添加presto用户
useradd presto

修改完后重启presto
/opt/cloudera/parcels/presto/bin/launcher restart(所有集群机器执行)

3.3 Presto集成hive测试

这里测试Presto与Hive的集成使用Presto提供的Presto CLI，该CLI是一个可执行的JAR文件，也意味着你可以想UNIX终端窗口一样来使用CLI。
1.下载Presto的presto-cli-0.226-executable.jar，并重命名为presto并赋予可以执行权限
https://repo1.maven.org/maven2/com/facebook/presto/presto-cli/0.226/presto-cli-0.226-executable.jar
2.复制客户端到所有主机上
scp -r -P53742 /home/t3cx/presto-cli-0.226-executable.jar root@incubator-t3-dc-005:/opt/cloudera/parcels/presto/etc/
3.复制客户端到所有主机上
cd /opt/cloudera/parcels/presto/etc/
mv presto-cli-0.226-executable.jar presto
chmod +x presto

3.集群启用了Sentry，这里我们使用presto用户访问Hive所以为presto用户授权default库的所有权限

4.Hive创建角色并授权
#beeline
#!connect jdbc:hive2://incubator-t3-dc-001:10000/;user=hive;password=****
create role presto;
grant role presto to group presto;
grant ALL on database default to role presto;
5.impala创建角色并授权
su hive
#impala-shell -i incubator-t3-dc-002
create role presto;
grant role presto to group presto;
grant ALL on database default to role presto;
执行查询语句
[root@incubator-t3-dc-001 etc]# ./presto --server localhost:6660 --catalog hive --schema=default

3.4 Presto集成kudu测试

添加kudu配置分发到所有节点上面
# vim /opt/cloudera/parcels/presto/etc/catalog/kudu.properties
connector.name=kudu
kudu.client.master-addresses=incubator-t3-dc-001:7051,incubator-t3-dc-002:7051,incubator-t3-dc-003:7051
#重启服务
/opt/cloudera/parcels/presto/bin/launcher restart
#验证kudu
select * from kudu.default."default.test_kudu_table"

3.5 Presto集成ldap

#apacheds安装ldaps

groupadd apacheds
#添加用户组
useradd -s /bin/sh -g apacheds apacheds
添加用户
wget http://mirrors.ocf.berkeley.edu/apache//directory/apacheds/dist/2.0.0.AM25/apacheds-2.0.0.AM25-64bit.bin
#下载授权
chmod +x apacheds-2.0.0.AM25-64bit.bin
./apacheds-2.0.0.AM25-64bit.bin
#启动
/etc/init.d/apacheds-2.0.0.AM25-default start
[root@incubator-t3-dc-002 presto_hue]# netstat -anplt |grep 10389
tcp        0      0 0.0.0.0:10389           0.0.0.0:*               LISTEN      24770/java

#配置用户名和密码，ip地址
设置用户名密码，默认：user：uid=admin,ou=system password：secret
#连接客户端
配置客户端远程登录，这里使用Apache Directory Studio，配置界面如下


打开配置-添加分区


Ctrl+S保存
重启服务

[root@incubator-t3-dc-002 presto_hue]# /etc/init.d/apacheds-2.0.0.AM25-default restart
Stopping ApacheDS - default...
Stopped ApacheDS - default.
Starting ApacheDS - default...
[root@incubator-t3-dc-002 presto_hue]#

添加组


添加


#添加用户

#启用ldaps
cd /var/lib/apacheds-2.0.0.AM25/default/conf/
密码：t3CDH123!
/opt/jdk1.8.0_181/bin/keytool  -genkeypair -alias apacheds -keyalg RSA -validity 7 -keystore ads.keystore
chown apacheds:apacheds ./ads.keystore
#配置apacheds.cer
/opt/jdk1.8.0_181/bin/keytool  -export -alias apacheds -keystore ads.keystore -rfc -file apacheds.cer
#默认口令
changeit
## 将证书导入系统证书库，实现自认证,这里的密钥库口令是默认的： /opt/jdk1.8.0_181/bin/keytool  -import -file apacheds.cer -alias apacheds -keystore /usr/java/jdk1.8.0_181-cloudera/jre/lib/security/cacerts

#配置证书
/var/lib/apacheds-2.0.0.AM25/default/conf/ads.keystore

/etc/init.d/apacheds-2.0.0.AM25-default restart
配置客户端

#测试presto-ldaps
cd /data/presto-server-0.228/etc
/opt/jdk1.8.0_181/bin/keytool -genkeypair -alias presto -keyalg RSA -keystore presto.jks
修改config.properties，添加
http-server.authentication.type=PASSWORD
http-server.https.enabled=true
http-server.https.port=8443
http-server.https.keystore.path=/data/presto-server-0.228/etc/presto.jks
http-server.https.keystore.key=t3CDH123!

# vi password-authenticator.properties
password-authenticator.name=ldap
ldap.url=ldaps://172.16.16.246:10636
ldap.user-bind-pattern=uid=${USER},ou=people,dc=t3,dc=hadoop
ldap.user-base-dn=dc=t3,dc=hadoop

3.6 Alluxio 内存存储系统部署安装

下载并解压
wget https://downloads.alluxio.io/downloads/files/2.0.1/alluxio-2.0.1-bin.tar.gz
cp conf/alluxio-site.properties.template conf/alluxio-site.properties

拷贝软件到所有节点

scp -r -P53742 /opt/cloudera/parcels/alluxio/ root@incubator-t3-dc-002:/opt/cloudera/parcels/

cd /opt/cloudera/parcels/alluxio/alluxio-2.0.1
cp conf/alluxio-site.properties.template conf/alluxio-site.properties

修改配置（集群所有机器）

vim alluxio-site.properties
alluxio.master.hostname=172.16.16.241

vim alluxio-site.properties
更新conf/alluxio-site.properties中的alluxio.master.hostname为你将运行Alluxio Master的机器的主机名。添加所有worker节点的IP地址到conf/workers文件
alluxio.home=/opt/cloudera/parcels/alluxio/alluxio-2.0.1
alluxio.work.dir=/opt/cloudera/parcels/alluxio/alluxio-2.0.1
alluxio.conf.dir=${alluxio.home}/conf
alluxio.logs.dir=${alluxio.home}/logs
alluxio.master.mount.table.root.ufs=hdfs://incubator-t3-dc-001:8020/alluxio
#hdfs挂载地址
alluxio.metrics.conf.file=${alluxio.conf.dir}/metrics.properties
alluxio.master.hostname=incubator-t3-dc-001
alluxio.underfs.address=hdfs://incubator-t3-dc-001:8020/alluxio
alluxio.underfs.hdfs.configuration=/etc/hadoop/conf/core-site.xml
alluxio.master.bind.host=172.16.16.241
alluxio.master.journal.folder=/opt/cloudera/parcels/alluxio/alluxio-2.0.1/journal
alluxio.master.web.bind.host=172.16.16.241
alluxio.master.web.hostname=incubator-t3-dc-001
alluxio.master.web.port=6661
alluxio.worker.bind.host=0.0.0.0
alluxio.worker.memory.size=2048MB
alluxio.worker.tieredstore.levels=1
alluxio.worker.tieredstore.level0.alias=MEM
alluxio.worker.tieredstore.level0.dirs.path=/mnt/ramdisk
JAVA_HOME=/usr/java/jdk1.8.0_181-cloudera
alluxio.user.network.netty.timeout.ms=600000
alluxio.master.security.impersonation.presto.users=*

#scp所有机器
scp -r -P53742 alluxio-site.properties root@incubator-t3-dc-002:/opt/cloudera/parcels/alluxio/alluxio-2.0.1/conf/
scp -r -P53742 alluxio-masters.sh alluxio-workers.sh alluxio-start.sh root@incubator-t3-dc-002:/opt/cloudera/parcels/alluxio/alluxio-2.0.1/bin

vim workers
172.16.16.246
172.16.16.250
172.16.16.242
172.16.16.249

cp -rf alluxio-env.sh.template alluxio-env.sh
vim alluxio-env.sh（所有机器）
#添加
export ALLUXIO_SSH_OPTS="-p 53742"
export JAVA_HOME=/usr/java/jdk1.8.0_181-cloudera

cd /opt/cloudera/parcels/alluxio/alluxio-2.0.1/bin
vim alluxio-masters.sh
添加-p 53742
cd /opt/cloudera/parcels/alluxio/alluxio-2.0.1/bin
vim alluxio-workers.sh
搜索ssh
添加-p 53742

[root@incubator-t3-dc-001 bin]# ln -s /opt/jdk1.8.0_181/bin/java /usr/bin/java
[root@incubator-t3-dc-001 bin]# /usr/bin/java -version
java version "1.8.0_181"
Java(TM) SE Runtime Environment (build 1.8.0_181-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.181-b13, mixed mode)
[root@incubator-t3-dc-001 bin]# 

./alluxio format
报错需要在所有节点
创建mkdir -p /mnt/ramdisk/alluxioworker
如果不创建会报如下错误。

初始化alluxio

cd /opt/cloudera/parcels/alluxio/alluxio-2.0.1/bin
[root@incubator-t3-dc-001 bin]# ./alluxio format
Executing the following command on all worker nodes and logging to /opt/cloudera/parcels/alluxio/alluxio-2.0.1/logs/task.log: /opt/cloudera/parcels/alluxio/alluxio-2.0.1/bin/alluxio formatWorker
Waiting for tasks to finish...
All tasks finished
Executing the following command on all master nodes and logging to /opt/cloudera/parcels/alluxio/alluxio-2.0.1/logs/task.log: /opt/cloudera/parcels/alluxio/alluxio-2.0.1/bin/alluxio formatJournal
Waiting for tasks to finish...
All tasks finished

启动alluxio

./alluxio-start.sh all NoMountalluxio-start.sh
./alluxio-start.sh all SudoMount
http://172.16.16.241:6661/overview

测试

[root@incubator-t3-dc-001 bin]# echo "1.txt">1.txt
[root@incubator-t3-dc-001 bin]# ll
total 68
-rw-r--r-- 1 root root      6 Oct 14 20:27 1.txt
-rwxrwxrwx 1  501 games 11808 Oct 12 14:35 alluxio
-rwxrwxrwx 1  501 games  2758 Oct 12 14:38 alluxio-masters.sh
-rwxrwxrwx 1  501 games  9668 Oct 14 20:06 alluxio-monitor.sh
-rwxrwxrwx 1  501 games  5591 Aug 23 12:52 alluxio-mount.sh
-rwxrwxrwx 1  501 games 18761 Oct 14 20:06 alluxio-start.sh
-rwxrwxrwx 1  501 games  3806 Aug 23 12:52 alluxio-stop.sh
-rwxrwxrwx 1  501 games  2128 Oct 14 19:48 alluxio-workers.sh
[root@incubator-t3-dc-001 bin]# chmod 777 1.txt 
[root@incubator-t3-dc-001 bin]# ./alluxio fs copyFromLocal 1.txt /
Copied file:///opt/cloudera/parcels/alluxio/alluxio-2.0.1/bin/1.txt to /
上传文件到alluxio
cd /opt/cloudera/parcels/alluxio/alluxio-2.0.1/bin
#alluxio文件固化到HDFS
./alluxio fs persist /1.txt
hadoop fs -ls /alluxio

3.7 Alluxio 集成presto

在hive-core-site.xml添加

在hive-core-site.xml添加
配置core-site.xml
你需要向你的hive.properties指向的core-site.xml中添加以下配置项：
  
fs.alluxio.impl  alluxio.hadoop.FileSystem

  
fs.AbstractFileSystem.alluxio.impl  alluxio.hadoop.AlluxioFileSystem  
The Alluxio AbstractFileSystem (Hadoop 2.x)

hive-site.xml 

alluxio.user.file.writetype.default  CACHE_THROUGH

修改jvm.properties
修改alluxio-site.properties
另外，你也可以将alluxio-site.properties的路径追加到Presto JVM配置中，该配置在Presto目录下的etc/jvm.config文件中。该方法的好处是只需在alluxio-site.properties配置文件中设置所有Alluxio属性。
-Xbootclasspath/p:/opt/cloudera/parcels/alluxio/alluxio-2.0.1/
#所有work节点必须添加
此外，我们建议提高alluxio.user.network.netty.timeout.ms的值（比如10分钟），来防止读异地大文件时的超时问题。

Create a Hive table on Alluxio
Create a Hive table on Alluxio
Here is an example to create an internal table in Hive backed by files in Alluxio. You can download a data file (e.g., ml-100k.zip) from http://grouplens.org/datasets/movielens/. Unzip this file and upload the file u.user into /ml-100k/ on Alluxio:

# ./bin/alluxio fs mkdir /ml-100k
Successfully created directory /ml-100k
# ./bin/alluxio fs copyFromLocal /opt/cloudera/parcels/alluxio/alluxio-2.0.1/ml-100k/u.user alluxio://incubator-t3-dc-001:19998/ml-100k
Copied file:///opt/cloudera/parcels/alluxio/alluxio-2.0.1/ml-100k/u.user to alluxio://incubator-t3-dc-001:19998/ml-100k

Hive create table
WARNING: Hive CLI is deprecated and migration to Beeline is recommended.
hive> CREATE TABLE u_user (
    > userid INT,
    > age INT,
    > gender CHAR(1),
    > occupation STRING,
    > zipcode STRING)
    > ROW FORMAT DELIMITED
    > FIELDS TERMINATED BY '|'
    > LOCATION 'alluxio://incubator-t3-dc-001:19998/ml-100k';
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:java.lang.RuntimeException: java.lang.ClassNotFoundException: Class alluxio.hadoop.FileSystem not found)

集成hive

#第一步环境变量
export HIVE_AUX_JARS_PATH=/opt/cloudera/parcels/alluxio/alluxio-2.0.1/client/alluxio-2.0.1-client.jar:${HIVE_AUX_JARS_PATH}
#拷贝java路径
cp -rf /opt/cloudera/parcels/alluxio/alluxio-2.0.1/client/alluxio-2.0.1-client.jar /opt/cloudera/parcels/CDH/lib/hive/lib
#权限
chmod 777 /opt/cloudera/parcels/CDH/lib/hive/lib/alluxio-2.0.1-client.jar
重启hive服务

集成hdfs
# cp -rf /opt/cloudera/parcels/alluxio/alluxio-2.0.1/client/alluxio-2.0.1-client.jar /opt/cloudera/parcels/CDH/lib/hadoop-hdfs/lib/
[root@incubator-t3-dc-001 lib]# chmod 777 /opt/cloudera/parcels/CDH/lib/hadoop-hdfs/lib/alluxio-2.0.1-client.jar
重启hdfs服务

测试hive集成

#切换hive用户
cubator-t3-dc-001:19998, Error: alluxio.exception.status.UnauthenticatedException: Plain authentication failed: Failed to authenticate client user="hive" connecting to Alluxio server and impersonating as impersonationUser="root" to access Alluxio file system. User "hive" is not configured to allow any impersonation. Please read the guide to configure impersonation at https://docs.alluxio.io/os/user/2.0/en/advanced/Security.html)
su hive
重新创建表
hive> CREATE TABLE u_user (
    > userid INT,
    > age INT,
    > gender CHAR(1),
    > occupation STRING,
    > zipcode STRING)
    > ROW FORMAT DELIMITED
    > FIELDS TERMINATED BY '|'
    > LOCATION 'alluxio://incubator-t3-dc-001:19998/ml-100k';

#创建表
create EXTERNAL table rating_alluxio(
userId INT,movieId INT,
rating FLOAT,
timestamps STRING)
row format delimited fields terminated by ','
LOCATION 'alluxio://incubator-t3-dc-001:19998/ml-100k';

使用presto查询表

需要关联java包，否则会报错
使用 Presto 查询表，关联java包，重启服务
cp -rf /opt/cloudera/parcels/alluxio/alluxio-2.0.1/client/alluxio-2.0.1-client.jar /opt/cloudera/parcels/presto/lib/
chmod 777 /opt/cloudera/parcels/presto/lib/alluxio-2.0.1-client.jar
#复制客户端到presto-hive里面
复制Alluxio client jar 
cp -rf /opt/cloudera/parcels/alluxio/alluxio-2.0.1/client/alluxio-2.0.1-client.jar /opt/cloudera/parcels/presto/plugin/hive-hadoop2/
重启presto
/opt/cloudera/parcels/presto/bin/launcher restart
#查询表
 ./presto --server localhost:6660 --execute "use default;select * from u_user limit 10;" --catalog hive --debug

text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=)
Failed to authenticate client user="root" connecting to Alluxio server and impersonating as impersonationUser="presto" to access Alluxio file system.
#master机器
vim alluxio/alluxio-2.0.1/conf/alluxio-site.properties
alluxio.master.security.impersonation.root.users=*
#添加用户到site里面然后重启alluxio服务
完全禁用客户端模拟机制。这就需要将客户端配置参数（不在服务器上）作如下设置：
alluxio.security.login.impersonation.username=NONE
正确显示

4.1Zeppelin

Apache Zeppelin 是一个让交互式数据分析变得可行的基于网页的开源框架。Zeppelin提供了数据分析、数据可视化等功能。
Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档，并且支持多种语言，包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell。

4.2 zeppelin部署

在机器上安装zeppelin

#zeppelin安装
cd /opt/cloudera/parcels/zeppelin
tar zxvf zeppelin-0.8.2-bin-all.tgz

#修改端口
vim /opt/cloudera/parcels/zeppelin/zeppelin-0.8.2-bin-all/conf/zeppelin-env.sh
export ZEPPELIN_PORT=80
export ZEPPELIN_ADDR=172.16.16.241
禁止匿名登陆
[root@incubator-t3-dc-001 conf]# cp -rf shiro.ini.template shiro.ini
[root@incubator-t3-dc-001 conf]# cp -rf zeppelin-site.xml.template zeppelin-site.xml
vim zeppelin-site.xml
#禁止匿名登录
修改zeppelin.anonymous.allowed属性为false

  zeppelin.anonymous.allowed
  false
  Anonymous user allowed by default

集成ldap

#配置ldap
vim shiro.ini
[main]
ldapRealm=org.apache.zeppelin.realm.LdapRealm
ldapRealm.contextFactory.authenticationMechanism=simple
ldapRealm.contextFactory.url=ldap://172.16.16.245:389
ldapRealm.userDnTemplate=uid={0},ou=People,dc=t3,dc=com
ldapRealm.pagingSize = 200
ldapRealm.authorizationEnabled=true
ldapRealm.searchBase= dc=t3,dc=com
ldapRealm.userSearchBase = ou=People,dc=t3,dc=comd
ldapRealm.groupSearchBase = ou=group,dc=t3,dc=com
ldapRealm.groupObjectClass= posixGroup
ldapRealm.userLowerCase = true
ldapRealm.userSearchScope = subtree;
ldapRealm.groupSearchScope = subtree;
ldapRealm.contextFactory.systemUsername= cn=Manager,dc=t3,dc=com
ldapRealm.contextFactory.systemPassword= CFXZ6EU3bCpIMFpFZX0LqjEq
ldapRealm.groupSearchEnableMatchingRuleInChain = true
ldapRealm.rolesByGroup = group: admin
#关联组合admin角色
sessionManager = org.apache.shiro.web.session.mgt.DefaultWebSessionManager
cookie = org.apache.shiro.web.servlet.SimpleCookie
cookie.name = JSESSIONID
cookie.httpOnly = true
sessionManager.sessionIdCookie = $cookie

securityManager.sessionManager = $sessionManager
securityManager.sessionManager.globalSessionTimeout = 86400000
shiro.loginUrl = /api/login

[roles]
role1 = *
role2 = *
role3 = *
admin = *

[urls]
/api/version = anon
/api/interpreter/setting/restart/** = authc
/api/interpreter/** = authc, roles[admin]
/api/configurations/** = authc, roles[admin]
/api/credential/** = authc, roles[admin]
#/** = anon
/** = authc

Ldap和用户认证只能二选一
#权限认证
其中的[users]部分，即登录时的账号。等号前是用户名，等号后是密码，逗号后是用户的角色。账号可以不定义角色，也可以定义多个角色。
比如用户名user1，对应密码password2，拥有角色role1和role2。

[users]
admin = t, admin
bi_wkx = bi_wkx, read, write
bi_ch = bi_ch, read, write
bi_fyc = bi_fyc read, write

[roles]配置用户的角色，[urls]部分配置不同web接口的认证方式和需要的角色，
/表示任意路径，验证时按照定义顺序匹配，所以/一般放在最后一行。
比如，下面的配置定义了4种角色。接口version验证方式anon，即不需要验证，不用登录就能访问。
接口interperter需要表格形式的验证，且用户具有admin角色才能访问。/** = authc表示其他接口只需要登录验证即可访问，
不需要用户有额外的角色。


[roles]
admin = *
read = *
write = *

[urls]
# anon means the access is anonymous.
# authcBasic means Basic Auth Security
# authc means Form based Auth Security
/api/version = anon
/api/interpreter/** = authc, roles[admin]
/api/credentail/** = authc, roles[admin]
/api/configurations/** = authc, roles[admin]
/** = authc
重启服务
sh ../bin/zeppelin-daemon.sh restart

集成zeppelin各插件

#zeppelin配置hive
配置文件vim zeppelin-env.sh：在文件末尾添加以下配置，根据自己的路径设置。
export JAVA_HOME=/usr/java/jdk1.8.0_181-cloudera
export MASTER=yarn-client
export HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoop
export SPARK_HOME=/opt/cloudera/parcels/CDH/lib/spark
export HIVE_HOME=/opt/cloudera/parcels/CDH/lib/hive
export IMPALA_HOME=/opt/cloudera/parcels/CDH/lib/impala
export HADOOP_CONF_DIR=/etc/hadoop/conf
export ZEPPELIN_LOG_DIR=/opt/cloudera/parcels/zeppelin/zeppelin-0.8.2-bin-all/log
export ZEPPELIN_PID_DIR=/opt/cloudera/parcels/zeppelin/zeppelin-0.8.2-bin-all/run/
export ZEPPELIN_WAR_TEMPDIR=/var/tmp/zeppelin

#配置zeppelin 页面
common.max_count    1000
hive.driver    org.apache.hive.jdbc.HiveDriver
hive.password    hive
hive.url    jdbc:hive2://incubator-t3-dc-003:10000
hive.user    hive
zeppelin.interpreter.localRepo    /opt/cloudera/parcels/zeppelin/zeppelin-0.8.2-bin-all/local-repo/helium-registry-cache
zeppelin.interpreter.output.limit    102400
zeppelin.jdbc.auth.type
zeppelin.jdbc.concurrent.max_connection    10
zeppelin.jdbc.concurrent.use    true
zeppelin.jdbc.keytab.location
zeppelin.jdbc.principal

Dependencies
 artifact exclude
 org.apache.hive:hive-jdbc:2.1.1  hive-jdbc-2.1.1-cdh6.3.0.jar
 org.apache.hadoop:hadoop-common:3.0.0  hadoop-common-3.0.0-cdh6.3.0.jar
 mysql:mysql-connector-java:5.1.47   mysql-connector-java-5.1.47.jar

新建一个作业进行测试

notebook --> Create new node填写名称，选择hive即可
输入查询语句，注意查询语句前需要有前缀(hive):
%hive
select * from test limit 10
语句末尾不能加分号，不然会有错误。

#python集成
%python
import sys
sys.version
语句末尾不能加分号，不然会有错误。

#impala

新建；jdbc_impala
default.driver = org.apache.hive.jdbc.HiveDriver
default.url = jdbc:hive2://incubator-t3-dc-003:21050/default;auth=noSasl(验证模式是NOSASL才能正常使用impala，但是这个会让impala查询数据时，跳过rander中设置的掩码规则）
default.user = zeppelin
url 的 NOSASL模式需要任意一个用户名（如Hive），不需要密码，不填写用户名会报错。
Dependencies
 artifact exclude
 org.apache.hive:hive-jdbc:2.1.1  hive-jdbc-2.1.1-cdh6.3.0.jar
 org.apache.hadoop:hadoop-common:3.0.0  hadoop-common-3.0.0-cdh6.3.0.jar
 mysql:mysql-connector-java:5.1.47   mysql-connector-java-5.1.47.jar
 #impala测试
 %impala
select * from nation limit 10

#spark

local[*] in local mode
yarn-client in Yarn client mode
yarn-cluster in Yarn cluster mode

#修改hdfs参数
dfs.permissions.superusergroup=supergroup,root

%sql
show databases

#presto

presto %jdbc (default)
%presto
select * from kudu.default."default.test_kudu_table" limit 10

Option Shared
Properties
name    value
default.driver  com.facebook.presto.jdbc.PrestoDriver
default.url     jdbc:presto://172.16.16.241:6660
default.user    root
default.passwd  密码
zeppelin.jdbc.concurrent.max_connection     10
zeppelin.jdbc.concurrent.use    true

Dependencies
artifact    exclude
com.facebook.presto:presto-jdbc:0.170

cd /opt/cloudera/parcels/zeppelin/zeppelin-0.8.2-bin-all/interpreter/jdbc
rz presto-jdbc-0.226.jar

5.1 rancher

Rancher是一个开源的企业级容器管理平台。通过Rancher，企业再也不必自己使用一系列的开源软件去从头搭建容器服务平台。Rancher提供了在生产环境中使用的管理Docker和Kubernetes的全栈化容器部署与管理平台。

为什么需要Rancher
在原来, 如果我们需要做一个分布式集群我们需要学习一全套的框架并编码实现如服务发现, 负载均衡等逻辑, 给开发者造成很大的负担, 不过好在现在有Docker以及他周边的一些技术能在上层解决这些问题, 而应用该怎么开发就怎么开发.

当你选择使用Docker技术栈的时候, 会发现在生产环境中不光光是 docker run就能解决的. 还需要考虑比如docker之间的组网, 缩扩容等问题, 于是你去学习kubernetes, 发现好像有点复杂啊, 有没有更傻瓜化一点的? 那就是rancher了.

5.2 rancher部署zeppelin

#安装docker
sudo yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo
sudo yum makecache fast
yum list docker-ce --showduplicates | sort -r 
sudo yum install docker-ce-17.12.0.ce-1.el7.centos
docker version
docker pull rancher/server
netstat -anplt | grep 8000

# Error starting daemon: error initializing graphdriver: devmapper: Base Device UUID and Filesystem veri（报错）
systemctl stop docker   （停止docker 服务）
dmsetup udevcomplete_all （释放未完成的磁盘操作）
sudo rm -rf  /var/lib/docker/* （清空docker 数据）
* reboot  （注：当有镜像或容器文件删除不了时，重启服务器）
systemctl start docker  （重启docker服务）

以下是创建数据库和数据库用户的SQL命令例子
#创建rancher数据库
CREATE DATABASE IF NOT EXISTS cattle COLLATE = 'utf8_general_ci' CHARACTER SET = 'utf8';
GRANT ALL ON cattle.* TO 'cattle'@'%' IDENTIFIED BY 'cattle';
GRANT ALL ON cattle.* TO 'cattle'@'localhost' IDENTIFIED BY 'cattle';
启动一个Rancher连接一个外部数据库，你需要在启动容器的命令中添加额外参数。

#启动rancher
docker run -d --restart=unless-stopped -p 80:8080 rancher/server \
--db-host incubator-t3-dc-001 --db-port 3306 --db-user cattle --db-pass cattle --db-name cattle

docker search nginx
docker pull docker.io/nginx
docker images

#启动rancher
docker run --name rancher -d -p 80:8080 rancher/server
docker start 9b04ff050ddd

为了安全可以给Rancher配置登录账号（选择 系统管理  --》访问控制  --》LOCAL）-添加本地账号
管理员 admin   admin

#安装zeppelin
docker pull apache/zeppelin:0.8.2
docker volume create zeppelin-logs
docker volume create zeppelin-notebook

3.启动zeppelin
docker run -d -p 80:8081 \
-v zeppelin-logs:/logs \
-v  zeppelin-notebook:/notebook \
--env HOST_IP=0.0.0.0 \
--env ZEPPELIN_LOG_DIR='/logs' \
--env ZEPPELIN_NOTEBOOK_DIR='/notebook' \
--volume /etc/localtime:/etc/localtime \
--restart=always \
--name zeppelin  apache/zeppelin:0.8.2

5.3 rancher集成ldap认证

http://172.16.16.241/admin/access/openldap
设置ldap用户

组：ou=Group,dc=t3,dc=com
用户：ou=People,dc=t3,dc=com
域：172.16.16.245
端口：389
#设置
常规
服务器: 172.16.16.245:389
TLS: No
服务账号: cn=Manager,dc=t3,dc=com
Connection Timeout: 1000毫秒
用户
搜索起点: ou=People,dc=t3,dc=com
对象分类: posixAccount
登录字段: uid
名称字段: givenName
搜索字段: uid
启用字段:

必须创建api

到此实战结束。

大数据运维更多技巧和技术

CDH+Ambari实战
带你搞定大数据运维
详情在《大数据安全运维实战》
大数据安全运维实战
扫码加入大数据运维大家庭共同学习进步。

学习专栏你能收获什么？

专栏以CDH和ambari二个大数据平台为主，内容全都是笔者多年的工作中提炼出来的，不仅包含了大数据的基本知识，最主要的是大数据安全维领域的常见案例和实战技巧，借以本专栏分享给大家，希望大家通过学习，能够解决在日常工作中所遇到的问题，提高自己的工作效率，收获满满。

最后的最后，希望每一个学习我专栏的小伙伴，能够转型成功，升职加薪！

你可能感兴趣的:(CDH运维,zeppline,presto,大数据)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
2020年最新程序员职业发展路线指南，超详细！编程流川枫 11 编程语言程序员互联网 IT 职业
【文章来源微信公众号：每天学编程】01、程序员的特性技术出身的职场人特性很明显，与做市场、业务出身的职场人区别尤其明显。IT行业中常见的一些职场角色：老板、项目经理、产品经理、需求分析师、设计师、开发工程师、运维工程师等。开发工程师具有如下特征：1、逻辑思维清晰、严谨和细腻；但是有时不容易转弯，有些程序员容易较劲、钻牛角尖。2、性格偏内向、不善于沟通、表达和交际；但是在网络聊天工具上，有些显为幽默
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
ruby和python哪个好学 hakesashou python基础知识 ruby python 开发语言
Ruby和python都挺好学的。建议学习Python，语法的话，Python相对更简洁。而且Python应用场合更广泛，运维、网站开发、数据处理、科学研究都可以。Ruby和Python十分相似，有很多共同点，但也有一些不同之外，以下是Python和Ruby的对比：1、Python和Ruby都是面向对象的语言，都是动态和灵活的。二者的主要区别在于他们解决问题的方式。Ruby提供了不同的方法，而Py
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
华为云分布式缓存服务DCS与开源服务差异对比 hcinfo_18 redis使用华为云 Redis5.0 分布式缓存服务 Redis客户端
分布式缓存服务DCS提供单机、主备、集群等丰富的实例类型，满足用户高读写性能及快速数据访问的业务诉求。支持丰富的实例管理操作，帮助用户省去运维烦恼。用户可以聚焦于业务逻辑本身，而无需过多考虑部署、监控、扩容、安全、故障恢复等方面的问题。DCS基于开源Redis、Memcached向用户提供一定程度定制化的缓存服务，因此，除了拥有开源服务缓存数据库的优秀特性，DCS提供更多实用功能。一、与开源Red
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
2024年Presto【基础 01】简介+架构+数据源+数据模型(2)，2024年最新一线互联网公司面经总结 2401_84264536 架构
学习路线：这个方向初期比较容易入门一些，掌握一些基本技术，拿起各种现成的工具就可以开黑了。不过，要想从脚本小子变成黑客大神，这个方向越往后，需要学习和掌握的东西就会越来越多以下是网络渗透需要学习的内容：网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以点击这里获取一个人可以走的很快，但一群人才能走的更远！不
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(