qwemicheal

Apach Zeppelin和Apach Livy搭配使用配置

一．准备

从官网下载官方编译好的0.7.1包．并从maven下载如下文件：

jackson-core-2.6.3.jar

jackson-databind-2.6.3.jar

jackson-annotations-2.6.3.jar

使用上面三个jackson 包替换$zeppelin-home/lib中的jackson

按照github　livy页面下载并编译livy:

mvn package -X -e -DskipTests -Dspark-2.0 package

二．部署

解压相关安装包，按如下步骤设置

１)ldap登录支持已经权限设置

在conf/shiro.ini中配置ldap验证服务器相关的设置

activeDirectoryRealm= org.apache.shiro.realm.activedirectory.ActiveDirectoryRealm
activeDirectoryRealm.systemUsername =
activeDirectoryRealm.systemPassword =
activeDirectoryRealm.searchBase =
activeDirectoryRealm.url=

同一文件中可以设置admin管理员权限，管理员权限可以实现去除特定interpreter,例如去除spark interpreter，强制用户使用livy 等等，只需在

[roles] 中配置，例如：

[roles]
admin=admin

２）代理用户，user impersonation支持

虽然按照官网文档0.7.1已经支持代理用户，但是会按照默认登录的用户来代理，但是登录之后的用户名是[email protected]，由于存在特殊字符＠，所以在zeppelin-env.sh中添加如下代码，将代理的用户名前缀切割下来

export ZEPPELIN_IMPERSONATE_CMD='echo ${ZEPPELIN_IMPERSONATE_USER} | cut -d \@ -f 1 |xargs -I {} sudo -H -u {} bash -c '

同时需要修改bin/interpreter.sh文件，使得上面的shell指令生效

修改第５０行：

ZEPPELIN_IMPERSONATE_RUN_CMD=$(eval "echo ${ZEPPELIN_IMPERSONATE_CMD} ")

为：

ZEPPELIN_IMPERSONATE_RUN_CMD=$ZEPPELIN_IMPERSONATE_CMD

修改的原因在于原本的echo叠加上指令中的echo,会导致指令被提前执行而报错，具体分析已经向官方jira提了．

除上面的修改外，由于登录后的用户不一定存在于zeppelin 服务器，需要在bin/interpreter.sh 文件中46行开始的部分添加下面的代码：

id $ZEPPELIN_IMPERSONATE_USER
if [ "$(echo $?)" != "0" ];then
sudo useradd -r -s /bin/nologin $ZEPPELIN_IMPERSONATE_USER
fi

(需要启动zeppelin服务器的用户具有sudo权限)

３）其他设置

conf/zeppelin-env.sh中可以配置spark interpreter的默认提交设置，例如

export SPARK_SUBMIT_OPTIONS="--driver-memory 4096M --num-executors 3 --executor-cores 1 --executor-memory 2G".

其他基础配置例如spark,hadoop，以及spark任务默认提交模式也需要设定，如下

export SPARK_HOME=/usr/local/spark-2.0.0-bin-hadoop2.6
export MASTER=yarn-client
export HADOOP_HOME=/usr/local/hadoop-2.7.2
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop/

livy提交任务时的相关默认设置可以在 livy.conf 中设置，livy.conf设置不了的设置也可以在￥SPARK_HOME/conf/spark_default.conf 中设置

４）修改权限

由于代理用户之后会以代理用户的身份向logs文件夹记日志,需要如下操作

cd $ZEPPELIN_HOME

mkdir logs

chmod -R 777 logs

5.livy log的设置

livy使用log4j记录log,默认只向console输出log,需要在conf/log4j.properties 中加入记录log到文件的设置。

6.在livy中使用hive和livy.sql 的使用设置

conf/livy.conf 中的livy.repl.enableHiveContext = true

复制hive-site.xml到livy/conf

升级spark 版本，使用高于2.01的版本。会遇到类似下面的错误：

java.io.FileNotFoundException: Added file file:/data/livy-hive/livy/conf/hive-site.xml does not exist.

原因在于spark cluster模式提交任务有bug.

三．常见问题

１．hive权限问题

由于conf/目录下的所有文件都会被zeppelin读取加载，所以当存在hive-site.xml时，hive-site.xml配置中的本地tmp目录也会被zeppelin初始化，如果没有相关权限，会导致zeppelin的spark interpreter执行代码时出现类似下面的错误

java.lang.RuntimeException: java.lang.RuntimeException: java.io.IOException: Permission denied
at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:522)
at org.apache.spark.sql.hive.client.HiveClientImpl.(HiveClientImpl.scala:171)
at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
at java.lang.reflect.Constructor.newInstance(Constructor.java:423)
at org.apache.spark.sql.hive.client.IsolatedClientLoader.createClient(IsolatedClientLoader.scala:258)
at org.apache.spark.sql.hive.HiveUtils$.newClientForMetadata(HiveUtils.scala:359)
at org.apache.spark.sql.hive.HiveUtils$.newClientForMetadata(HiveUtils.scala:263)
at org.apache.spark.sql.hive.HiveSharedState.metadataHive$lzycompute(HiveSharedState.scala:39)
at org.apache.spark.sql.hive.HiveSharedState.metadataHive(HiveSharedState.scala:38)
at org.apache.spark.sql.hive.HiveSharedState.externalCatalog$lzycompute(HiveSharedState.scala:46)
at org.apache.spark.sql.hive.HiveSharedState.externalCatalog(HiveSharedState.scala:45)
at org.apache.spark.sql.hive.HiveSessionState.catalog$lzycompute(HiveSessionState.scala:50)
at org.apache.spark.sql.hive.HiveSessionState.catalog(HiveSessionState.scala:48)
at org.apache.spark.sql.hive.HiveSessionState$$anon$1.(HiveSessionState.scala:63)
at org.apache.spark.sql.hive.HiveSessionState.analyzer$lzycompute(HiveSessionState.scala:63)
at org.apache.spark.sql.hive.HiveSessionState.analyzer(HiveSessionState.scala:62)
at org.apache.spark.sql.execution.QueryExecution.assertAnalyzed(QueryExecution.scala:49)
at org.apache.spark.sql.Dataset.(Dataset.scala:161)
at org.apache.spark.sql.Dataset.(Dataset.scala:167)
at org.apache.spark.sql.Dataset$.apply(Dataset.scala:59)
at org.apache.spark.sql.SparkSession.createDataset(SparkSession.scala:441)
at org.apache.spark.sql.SQLContext.createDataset(SQLContext.scala:395)
at org.apache.spark.sql.SQLImplicits.rddToDatasetHolder(SQLImplicits.scala:163)
... 46 elided
Caused by: java.lang.RuntimeException: java.io.IOException: Permission denied
at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:515)
... 70 more
Caused by: java.io.IOException: Permission denied
at java.io.UnixFileSystem.createFileExclusively(Native Method)
at java.io.File.createTempFile(File.java:2024)
at org.apache.hadoop.hive.ql.session.SessionState.createTempFile(SessionState.java:818)
at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:513)
... 70 more

原因在于hive.exec.scratchdir这一项设定的目录权限没有开放，设置成777之后就没有问题了．

这个问题在每次zeppelin　重启之后都会发生，需要手动修改权限．

2. zeppelin 实现--proxy-user 失败问题

由于生产集群目前的设置，除了superuser身份的hadoop之外别的用户并没有–proxy user的权限，所以zepplin 通过spark --proxy-user 的方式会导致类似下面的错误：

org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): User: heyang.wang is not allowed to impersonate heyang.wang

解决方案即在于删除bin/interpreter.sh中第２０５行中的--proxy-user　${ZEPPELIN_IMPERSONATE_USER} ，通过使用目标代理用户来提交spark任务一样可以实现代理用户．

３．livy 实现--proxy-user 失败问题

在livy的服务中，所有服务都是由同一个用户启动的，只有--proxy-user 这一种实现方式，解决方案就是单独给livy 服务器所在的机器开设proxy user 许可，在hadoop的core-site.xml设置中设置如下的配置：


     hadoop.proxyuser.super.hosts
     host1,host2


     hadoop.proxyuser.super.groups
     group1,group２

上面的配置中有如下效果：

hadoop.proxyuser.$superuser.hosts　所代表的$superuser用户super可以且仅可从host1和host2发送代理用户的请求，代理成

hadoop.proxyuser.super.groups中所包含的用户，也就是上面例子中group1,group2中所包含的用户．

经过测试，需要重启namenode和yarn才能使上面的设置生效．

需要更新的配置：


     hadoop.proxyuser.zeppelin-dummy.hosts
     10.204.11.182,10.204.11.183


     hadoop.proxyuser.super.groups
     *

如果上面的设置没有生效或者启动livy的用户并不具有hadoop user impersonation的权限，可能会出现类似下面的错误：

17/06/07 21:49:16 ERROR RSCClient: Failed to connect to context.
java.util.concurrent.TimeoutException: Timed out waiting for context to start.
at com.cloudera.livy.rsc.ContextLauncher.connectTimeout(ContextLauncher.java:133)
at com.cloudera.livy.rsc.ContextLauncher.access$300(ContextLauncher.java:62)
at com.cloudera.livy.rsc.ContextLauncher$2.run(ContextLauncher.java:121)
at io.netty.util.concurrent.PromiseTask$RunnableAdapter.call(PromiseTask.java:38)
at io.netty.util.concurrent.ScheduledFutureTask.run(ScheduledFutureTask.java:120)
at io.netty.util.concurrent.SingleThreadEventExecutor.runAllTasks(SingleThreadEventExecutor.java:357)
at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:357)
at io.netty.util.concurrent.SingleThreadEventExecutor$2.run(SingleThreadEventExecutor.java:111)
at java.lang.Thread.run(Thread.java:745)
17/06/07 21:49:16 INFO RSCClient: Failing pending job 24ab6625-bbf1-4f68-8301-4c7ef3c47857 due to shutdown.
Exception in thread "Thread-34" java.io.IOException: Stream closed
at java.io.BufferedInputStream.getBufIfOpen(BufferedInputStream.java:162)
at java.io.BufferedInputStream.read1(BufferedInputStream.java:272)
at java.io.BufferedInputStream.read(BufferedInputStream.java:334)
at sun.nio.cs.StreamDecoder.readBytes(StreamDecoder.java:283)
at sun.nio.cs.StreamDecoder.implRead(StreamDecoder.java:325)
at sun.nio.cs.StreamDecoder.read(StreamDecoder.java:177)
at java.io.InputStreamReader.read(InputStreamReader.java:184)
at java.io.BufferedReader.fill(BufferedReader.java:154)
at java.io.BufferedReader.readLine(BufferedReader.java:317)
at java.io.BufferedReader.readLine(BufferedReader.java:382)
at scala.io.BufferedSource$BufferedLineIterator.hasNext(BufferedSource.scala:67)
at scala.collection.Iterator$class.foreach(Iterator.scala:727)
at scala.collection.AbstractIterator.foreach(Iterator.scala:1157)
at com.cloudera.livy.util.LineBufferedStream$$anon$1.run(LineBufferedStream.scala:39)
17/06/07 21:49:16 DEBUG InteractiveSession: InteractiveSession 0 session state change from starting to error
17/06/07 21:49:16 INFO InteractiveSession: Stopping InteractiveSession 0...
17/06/07 21:49:16 DEBUG InteractiveSession: InteractiveSession 0 session state change from error to shutting_down
17/06/07 21:49:16 INFO InteractiveSession: Failed to ping RSC driver for session 0. Killing application.
17/06/07 21:50:16 WARN SparkYarnApp: Deleting a session while its YARN application is not found.
17/06/07 21:50:16 ERROR SparkYarnApp: Error whiling refreshing YARN state: java.lang.Exception: spark-submit exited with code 143}.

只提示spark 任务失败却并没有显示失败的原因。但是使用具有hadoop user impersonation权限的用户启动livy 可以解决这个问题。

4.在编辑zeppelin spark interpreter的时候出现设置不能保存，右上角出现不带任何内容的红色报警窗．

原因在于zeppelin 0.71使用java 8编译，当zeppelin-env.sh配置中使用的是java7，会出现兼容性错误．

解决方案就是换用java8.

但是在新版的zeppelin 0.72中，又换回了java7,所以使用新版zeppelin 可能可以规避此问题．

5.在启动spark interpreter出现

java.lang.NullPointerException，并且后台log中提示jackson version too old.

解决方案在于按照本文开头所述，使用新的jackson 包替换旧的．

6.Livy 设置spark资源时漏了内存单位

如果在zeppelin livy　interpreter中设置了spark 资源相关的设定时漏写了单位，会导致yarn application master 启动时出现如下错误：

Exception in thread "main" java.lang.OutOfMemoryError: GC overhead limit exceeded

at org.apache.xerces.dom.DeferredDocumentImpl.getNodeObject(Unknown Source)

at org.apache.xerces.dom.DeferredDocumentImpl.synchronizeChildren(Unknown Source)

at org.apache.xerces.dom.DeferredElementNSImpl.synchronizeChildren(Unknown Source)

at org.apache.xerces.dom.ParentNode.hasChildNodes(Unknown Source)

at org.apache.hadoop.conf.Configuration.loadResource(Configuration.java:2551)

at org.apache.hadoop.conf.Configuration.loadResources(Configuration.java:2444)

at org.apache.hadoop.conf.Configuration.getProps(Configuration.java:2361)

at org.apache.hadoop.conf.Configuration.get(Configuration.java:968)

at org.apache.hadoop.conf.Configuration.getTrimmed(Configuration.java:987)

at org.apache.hadoop.conf.Configuration.getBoolean(Configuration.java:1388)

at org.apache.hadoop.security.SecurityUtil.(SecurityUtil.java:70)

at org.apache.hadoop.security.UserGroupInformation.initialize(UserGroupInformation.java:272)

at org.apache.hadoop.security.UserGroupInformation.setConfiguration(UserGroupInformation.java:311)

at org.apache.spark.deploy.SparkHadoopUtil.(SparkHadoopUtil.scala:55)

at org.apache.spark.deploy.yarn.YarnSparkHadoopUtil.(YarnSparkHadoopUtil.scala:56)

at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)

at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)

at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)

at java.lang.reflect.Constructor.newInstance(Constructor.java:422)

at java.lang.Class.newInstance(Class.java:442)

at org.apache.spark.deploy.SparkHadoopUtil$.liftedTree1$1(SparkHadoopUtil.scala:414)

at org.apache.spark.deploy.SparkHadoopUtil$.yarn$lzycompute(SparkHadoopUtil.scala:412)

at org.apache.spark.deploy.SparkHadoopUtil$.yarn(SparkHadoopUtil.scala:412)

at org.apache.spark.deploy.SparkHadoopUtil$.get(SparkHadoopUtil.scala:437)

at org.apache.spark.deploy.yarn.ApplicationMaster$.main(ApplicationMaster.scala:747)

at org.apache.spark.deploy.yarn.ApplicationMaster.main(ApplicationMaster.scala)

错误的原因在于定义spark.executor.memory这样的内存选项时漏写了内存单位，只写数字，不带Ｇ或者Ｍ　会导致上面的错误．

7.livy返回log显示过短问题

在使用livy作为后台服务器时，程序运行出错的返回log往往只显示一行，例如

:113: error: overloaded method value createDataFrame with alternatives:

但是完整的报错log可能是这样的：

:56: error: overloaded method value createDataFrame with alternatives:
(data: java.util.List[_],beanClass: Class[_])org.apache.spark.sql.DataFrame
(rdd: org.apache.spark.api.java.JavaRDD[_],beanClass: Class[_])org.apache.spark.sql.DataFrame
(rdd: org.apache.spark.rdd.RDD[_],beanClass: Class[_])org.apache.spark.sql.DataFrame
(rows: java.util.List[org.apache.spark.sql.Row],schema: org.apache.spark.sql.types.StructType)org.apache.spark.sql.DataFrame
(rowRDD: org.apache.spark.api.java.JavaRDD[org.apache.spark.sql.Row],schema: org.apache.spark.sql.types.StructType)org.apache.spark.sql.DataFrame
(rowRDD: org.apache.spark.rdd.RDD[org.apache.spark.sql.Row],schema: org.apache.spark.sql.types.StructType)org.apache.spark.sql.DataFrame
cannot be applied to (org.apache.spark.rdd.RDD[String], org.apache.spark.sql.types.StructType)
val testDF = spark.createDataFrame(rdds, schema)

之所以只显示第一行是因为livy服务端在返回结果时，第一行作为evalue 字段返回，剩下的作为traceback字段返回，而zeppelin只显示了evalue字段。

在源码中可以发现traceback字段虽然定义了但却并没有被输出。

已经提了pr,下一次发布的livy不存在这个问题。

8.null pointer 获得spark context时的空指针错误

java.lang.IncompatibleClassChangeError: class org.objectweb.asm.tree.ClassNode has interface org.objectweb.asm.ClassVisitor as super class

at java.lang.ClassLoader.defineClass1(Native Method)

at java.lang.ClassLoader.defineClass(ClassLoader. java:763)

at java.security.SecureClassLoader.defineClass(SecureClassLoader. java:142)

at java.net.URLClassLoader.defineClass(URLClassLoader. java:467)

at java.net.URLClassLoader.access$100(URLClassLoader.java:73)

at java.net.URLClassLoader$1.run(URLClassLoader. java:368)

在使用zeppelin notebnook时出现类似上面的错误可能原因在于公司虚拟机内有默认设置的JAVA_OPTS,限制了jvm使用内存的大小的上限，导致zepplein在以client模式启动spark任务时向yarn申请的资源超出默认JAVA_OPTS限制而失败。解决方案在于在zeppelin-ens.sh中设置JAVA_OPTS为空。

9. %livy.spark 或者%livy.sql 中使用spark sql 查询hive 返回结果为空或者在对应session的yarn log中出现类似下面的错误：

java.lang.RuntimeException: Stream '/classes/org/apache/spark/sql/catalyst/expressions/Object.class' was not found.

原因在于livy 中hive相关设置没有设置好，详见上面配置6）

参考：

https://issues.apache.org/jira/browse/SPARK-18160

https://community.hortonworks.com/questions/82644/how-to-disable-spark-interpreter-in-zeppelin.html

https://github.com/cloudera/livy

https://issues.apache.org/jira/browse/ZEPPELIN-2405

https://zeppelin.apache.org/docs/0.7.1/manual/userimpersonation.html

https://zeppelin.apache.org/download.html

https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/Superusers.html#Configurations

5118优惠券优惠链接是多少？5118优惠码怎么用？白杨SEO营销百度
5118是一个大数据工具，可以提供多种功能，如关键词挖掘、行业词库、站群权重监控、关键词排名监控、指数词、流量词挖掘工具等，是做SEO排名工作人员和网站运营者的必备工具！5118优惠券优惠链接是多少？5118优惠券优惠链接是：https://www.5118.com?promote=baiyang你也可以在使用时填写5118优惠码【baiyang】,用上它，可以有10%左右的优惠！5118优惠码怎
大数据技术汇总转身成为了码农大数据 hadoop hive spark 数据仓库
HadoopHadoop入门概述Hadoop运行模式介绍HadoopHDFS的运行流程HadoopMapReduce的运行流程Hadoopyarn的运行流程Hadoop内HDFS、MapReduce和YARN交互过程HadoopHDFS常用命令HadoopYARN常用命令Hive大数据工具Hive介绍大数据工具Hive架构设计原理大数据之Hive常用命令大数据之Hive常用聚合函数大数据之Hive
一文读懂大数据工具Phoenix：让你的数据管理更高效！知识分享小能手学习心得体会大数据大数据数据库数据分析
介绍：Phoenix，最初由saleforce开发并开源，后成为Apache基金会的顶级项目。它是一个构建在HBase上的SQL层，可以使用标准的JDBCAPIs而不是HBase客户端APIs来创建表、插入数据和查询HBase中的数据。此外，Phoenix还完全使用Java编写，作为HBase内嵌的JDBC驱动，将SQL查询转换为一个或多个HBase扫描。Phoenix的主要特点包括：将SQL查询
湖仓架构的演进土豆马铃薯数据湖架构大数据
1.数据仓库架构的历史演进起初，业界数据处理首选方式是数仓架构。通常数据处理的流程是把一些业务数据库，通过ETL的方式加载到DataWarehouse中，再在前端接入一些报表或者BI的工具去展示。数据仓库概念是Inmon于1990年提出并给出了完整的建设方法。随着互联网时代来临，数据量暴增，开始使用大数据工具来替代经典数仓中的传统工具。此时仅仅是工具的取代，架构上并没有根本的区别，可以把这个架构叫
对比Pig、Hive和SQL，浅看大数据工具之间的差异 MayerBin
【编者按】在笔者看来，语言和工具之争从来都没有太大的意义，所谓存在既有道理，如何在场景下做出最合适的选择才至关重要。本文，DeZyre公司专家ManishaNandyMazumder对比了Pig、Hive和SQL的区别，并为读者浅谈了一些选择标准。以下为译文有人说对于大数据分析来说Hadoop才是炙手可热的新技术，SQL虽然久经考验但已经有些过时了。这话说得不错，但有非常多的项目都用Hadoop作
大数据大价值 X_dmword 数据分析大数据数据分析案例
大数据的大价值：大数据五大成功案例深度解析2017年09月24日17:44:18阅读数：2719大数据的热潮并未有消褪迹象，相反，包括航空、金融、电商、政府、电信、电力甚至F1赛车等各个行业的企业都在纷纷掘金大数据。可以看出，在推动大数据企业应用方面，真正看到大数据潜在商业价值的企业比大数据技术厂商还要着急。例如IT经理网曾经报道过沃尔玛大数据实验室直接参与到大数据工具的开发和开源工作中。但是在国
EXCEL竟靠这招碾压大数据，网友:以前不会用真是瞎了眼了喜欢下厨的数据分析师
曾几何时，EXCEL在数据界可谓是独树一帜，引领风骚，在职场中无人不知，无人不晓。但是随着大数据的出现，EXCEL便风光不再，江河日下，一度被其他大数据工具挤到了后面，逐渐被边缘化了。而我是一个EXCEL忠实用户，从最开始的EXCEL2003用到了最新的EXCEL2016，每一次更新换代都感觉EXCEL的功能一次比一次强大，也更加地人性化。但是面对大数据的来势汹汹，EXCEL毕竟只是轻量级的工具，
大数据技术4：Lambda和Kappa架构区别 Java架构何哥大数据治理 Lambda和Kappa区别 Lambda架构 Kappa架构
前言：在大数据处理领域，两种突出的数据架构已成为处理大量数据的流行选择：Lambda架构和Kappa架构。这些架构为实时处理和批处理提供了强大的技术解决方案，使组织能够从其数据中获得有价值的见解。随着互联网时代来临，数据量暴增，开始使用大数据工具来替代经典数仓中的传统工具。此时仅仅是工具的取代，架构上并没有根本的区别，可以把这个架构叫做离线大数据架构。后来随着业务实时性要求的不断提高，人们开始在离
同样都是打工人，为何别人会建模，而你只会用EXCEL? 喜欢下厨的数据分析师
小李是一家外企的数据分析师，平时处理的都是亿万行级别数据量的报表，为了可以胜任这份工作，小李早早地就学会了各种大数据工具，而且做出来的数据模型高度自动化，效率极高，为公司创造了非常大的价值。因为小李出色的表现，公司年底计划把他提升为公司的数据总监。而小王是一家电商公司的数据专员，除了EXCEL其他的数据工具均不会，如果遇到数据量大的表格，小王就要和同事们一起去加班完成了。因此小王的工作效率非常低，
如何优化 Elasticsearch 以获得更好的搜索性能 vvoennvv elasticsearch 大数据搜索引擎
当今世界，数据大量生成，为了利用数据进行生产，需要对提取的数据进行转换、存储、维护、管理和分析。这些过程只有通过大数据工具所基于的分布式架构和并行处理机制才能实现。Elasticsearch是最流行的开源数据存储之一，可以满足大多数用例。Elasticsearch是一个分布式数据存储和搜索引擎，具有容错和高可用性功能。为了充分利用Elasticsearch的搜索功能，需要正确配置。由于一个简单的配
大数据工具-kafkaUi-lite 人猿宇宙大数据-玩转数据-工具大数据
1、kafkaUI-litev1.0已经发布，此版本更新内容包括：可以实现kafak/zookooper/redis的界面化操作kafka:多环境管理、生产消息、消费消息、创建topic、删除topiczookeeper：多环境管理、查看节点、查看节点数据redis:多环境管理、查询数据2、kafkaUI-lite介绍史上最轻便好用的kafkaui界面工具，提供了对kafka的界面化操作可以在界面
Hadoop和大数据：60款顶级开源工具 yoku酱
说到处理大数据的工具，普通的开源解决方案（尤其是ApacheHadoop）堪称中流砥柱。弗雷斯特调研公司的分析师MikeGualtieri最近预测，在接下来几年，“100%的大公司”会采用Hadoop。MarketResearch的一份报告预测，到2011年，Hadoop市场会以58%的年复合增长率（CAGR）高速增长；到2020年，市场产值会超过10亿美元。IBM更是非常看好开源大数据工具，派出
大数据工具千千万，到底谁才是最强王者？丨程序之道丨
外面有成千上万的大数据工具。它们都承诺可以为你节省时间和资金，并帮助发掘之前从来见过的业务洞察力。虽然确实如此，可是面对那么多的选择，想理清这么多的工具谈何容易。哪一种工具适合你的技能组合?哪一种工具适合你的项目?为了替你节省一点时间，并帮助你首次选对工具，我们列出了我们青睐的几款数据工具，涉及数据提取、存储、清理、挖掘、可视化、分析和整合等领域。数据存储和管理如果你准备处理大数据，就要考虑该如何
Maxcompute批量分区删除 Wesin
ps:Maxcompute数据仓库建设的分享。Maxcompute大致介绍下Maxcompute,Maxcompute是阿里的一个大数据工具，基于Maxcompute阿里搭建了一个Datawork的数据平台。可以很“方便”的从各种数据源导入数据，做数据分析、机器学习等。“方便"之所以加个引号，是因为某些方面的确很方便，当然业务实在复杂了，很多时候也存在用的很难受的地方。更多介绍去阿里官网了解吧。回
HBase入门精要独行侠梦 hbase笔记 java hbase hadoop 大数据数据库
前言HBase，是基于GoogleBigtable实现的开源、分布式、可伸缩的列式存储数据库。诞生于Hadoop，也是Hadoop生态的重要一环，如今作为一个Apache顶级项目，早已经不能将其仅仅看作Hadoop的一部分，基于Storm，Spark等框架的数据处理方案中，都有它的身影，可以说它已经成为大数据工具箱中非常重要的一种数据存储工具，也因此必然会被很纳入很多人学习计划。对于任何一个新技术
100款大数据框架和工具汇总羋学僧
本文列举出全球100款大数据工具，包括数据存储、数据计算、资源调度以及可视化等软件，这里面肯定有你需要的。如果你有更好的大数据软件推荐，欢迎留言啊。1、TalendOpenStudio是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次，其开源软件提供了数据整合功能。其用户包括美国国际集团（A
如何使用固态硬盘+硬盘盒子+U盘创造移动双系统 JSU_曾是此间年少 ubuntu 笔记
本文背景这学期上了一节鸟水课《大数据实践》，老师要求扩展硬盘盒，以部署大数据工具进行机器挖掘等大数据领域工作参考视频链接：无需启动盘，用虚拟机将ubuntu安装到移动硬盘上_哔哩哔哩_bilibili项目使用设备1.绿联（urgeen）M.2移动硬盘盒子NVMe/SATA双协议Type-C3.2硬盘盒子2.梵想（FANXIANG）1TBSSD固态硬盘M.2接口PCIe4.0（新的比较好）3.64G
163 胡聪勇 23 调查报告（大数据）小年糕i
帆布鞋如何进行网络营销？大数据工具：百度指数我通过百度指数分析得出以下结论：地域分布1.人群主要分布在东南方，广东人最多。西北地区则比较少。所以我认为应把重点放在东南地区，物流仓库等也应聚集在这片区域。资讯指数2.帆布鞋的热度在春季较为突出。需求图谱3.帆布鞋相关词搜索最高的是帆布鞋品牌排行，其次为板鞋，品牌。所以说人们以帆布鞋的品牌来作为依据，应该多注重品牌方面。近半年整体趋势4.发现帆布鞋的整
excel中使用python代码 hqw921054 python 人工智能 r语言
这次我们会介绍如何使用xlwings将Python和Excel两大数据工具进行集成，更便捷地处理日常工作。说起Excel，那绝对是数据处理领域王者般的存在，尽管已经诞生三十多年了，现在全球仍有7.5亿忠实用户，而作为网红语言的Python，也仅仅只有700万的开发人员。Excel是全世界最流行的编程语言。对，你没看错，自从微软引入了LAMBDA定义函数后，Excel已经可以实现编程语言的算法，因此
如何在Excel中调用Python脚本，实现数据自动化处理 Wang_AI 编程语言 python 数据分析 eclipse 人工智能
这次我们会介绍如何使用xlwings将Python和Excel两大数据工具进行集成，更便捷地处理日常工作。说起Excel，那绝对是数据处理领域王者般的存在，尽管已经诞生三十多年了，现在全球仍有7.5亿忠实用户，而作为网红语言的Python，也仅仅只有700万的开发人员。Excel是全世界最流行的编程语言。对，你没看错，自从微软引入了LAMBDA定义函数后，Excel已经可以实现编程语言的算法，因此
大数据工具比较：R 语言和 Spark 谁更胜一筹？ weixin_34161083 大数据 r语言人工智能
本文有两重目的，一是在性能方面快速对比下R语言和Spark，二是想向大家介绍下Spark的机器学习库背景介绍由于R语言本身是单线程的，所以可能从性能方面对比Spark和R并不是很明智的做法。即使这种比较不是很理想，但是对于那些曾经遇到过这些问题的人，下文中的一些数字一定会让你很感兴趣。你是否曾把一个机器学习的问题丢到R里运行，然后等上好几个小时？而仅仅是因为没有可行的替代方式，你只能耐心地等。所以
学习大数据月薪过万的秘密金光闪闪耶
什么是大数据？大家对大数据的定义不尽相同，但作为学习者和使用者来说，如何使用大数据工具和技术从大数据中提取、分析出有价值的信息和数据，指导各个行业用户做出准确决策才是更值得关心的。大数据好就业吗？根据全球最顶尖管理咨询公司麦肯锡(McKinsey)出具的一份详细分析报告显示，预计到2018年，大数据或者数据工作者的岗位需求将达到150万!大数据学习扣裙：740041381大数据工资高吗？事实上，大
全球100款大数据工具汇总大数据架构师
1、TalendOpenStudio是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次，其开源软件提供了数据整合功能。其用户包括美国国际集团（AIG）、康卡斯特、电子港湾、通用电气、三星、Ticketmaster和韦里逊等企业组织。2、DYSON探码科技自主研发的DYSON智能分析系统，可以
【大数据工具】Zookeeper 分布式集群和伪分布式安装程序员胖五大数据工具安装 java-zookeeper zookeeper 分布式
Zookeeper安装zookeeper安装包下载地址：https://archive.apache.org/dist/zookeeper/1.伪分布式部署说明：伪分布即在一台服务器上通过不同端口模拟出分布式集群的效果，分布式一般3台起，一主两从。说明：伪分布安装在了Windows开辟的虚拟机上，主机名为bigdata1.将zookeeper安装包zookeeper-3.4.10.tar.gz导入
【大数据工具】HBase 集群搭建与基本使用程序员胖五大数据工具安装 hbase hadoop 大数据
HBase集群搭建HBase安装包下载地址：https://archive.apache.org/dist/hbase/安装HBase的前提：ZooKeeper集群OKHadoop集群OK1.HBase集群安装1.将HBase软件包上传至Hadoop0解压并重命名使用FileZilla将hbase-1.3.1-bin.tar.gz上传至Hadoop0的/software/目录下解压hbase-1.
【大数据工具】Hive 安装程序员胖五大数据工具安装 hive 大数据 mysql
Hive环境搭建与基本使用Hive安装包下载地址：https://dlcdn.apache.org/hive/注：安装Hive前要先安装好MySQL1.MySQL安装MySQL安装包下载地址：https://dev.mysql.com/downloads/mysql/archives/community/MySQL%20::%20Download%20MySQL%20Community%20Ser
【大数据工具】Flume、Sqoop、Azkaban 安装程序员胖五大数据工具安装大数据 flume sqoop azkaban
1.Flume1、上传解压重命名tar-zxvfapache-flume-1.9.0-bin.tar.gzmvapache-flume-1.9.0-binflume2、修改配置文件cdflume/conf/mvflume-env.sh.templateflume-env.sh#flume-env.sh配置JavaexportJAVA_HOME=/software/jdk2.Sqoop1、上传解压重
【大数据工具】Kafka伪分布式、分布式安装和Kafka-manager工具安装与使用程序员胖五大数据工具安装 kafka 大数据分布式 Kafka-manager
Kafka安装Kafka安装包下载地址：https://archive.apache.org/dist/kafka/1.Kafka伪分布式安装1.上传并解压Kafka安装包使用FileZilla或其他文件传输工具上传Kafka安装包：kafka_2.11-0.10.0.0.tgz解压安装包[root@bigdatasoftware]#tar-zxvfkafka_2.11-0.10.0.0.tgz2
【大数据工具】Spark 伪分布式、分布式集群搭建程序员胖五大数据工具安装 spark 大数据分布式
Spark集群搭建Spark安装包下载地址：https://archive.apache.org/dist/spark/1.Spark伪分布式安装安装前提：安装Spark前需要先安装好JDK1.上传并解压Spark安装包使用fileZilla或其他文件传输工具上传Spark安装包：spark-2.1.0-bin-hadoop2.7.tgz解压安装包[root@bigdatasoftware]#ta
【大数据工具】Flink集群搭建程序员胖五大数据工具安装大数据 flink scala
Flink集群安装1.单机版Flink安装与使用1、下载Flink安装包并上传至服务器下载flink-1.10.1-bin-scala_2.11.tgz并上传至Hadoop0/software下2、解压[root@hadoop0software]#tar-zxvfflink-1.10.1-bin-scala_2.11.tgz3、创建快捷方式[root@hadoop0software]#ln-sfl
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

Apach Zeppelin和Apach Livy搭配使用配置

你可能感兴趣的:(大数据工具)