Imflash

Hue安装及使用

Apache Hue

一、 Apache Hue介绍

1． Hue是什么

#后台启动hue和关闭hue
nohup build/env/bin/supervisor &

ps -ef | grep hue
kill -9 xxx(先杀死build/env/bin/supervisor的端口)
kill -9 xxx(再杀死runcherrypyserver的端口)

HUE=Hadoop User Experience

Hue是一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoop社区，它是基于Python Web框架Django实现的。

通过使用Hue，可以在浏览器端的Web控制台上与Hadoop集群进行交互，来分析处理数据，例如操作HDFS上的数据，运行MapReduce Job，执行Hive的SQL语句，浏览HBase数据库等等。

2． Hue能做什么

访问HDFS和文件浏览

通过web调试和开发hive以及数据结果展示

查询solr和结果展示，报表生成

通过web调试和开发impala交互式SQL Query

spark调试和开发

Pig开发和调试

oozie任务的开发，监控，和工作流协调调度

Hbase数据查询和修改，数据展示

Hive的元数据（metastore）查询

MapReduce任务进度查看，日志追踪

创建和提交MapReduce，Streaming，Java job任务

Sqoop2的开发和调试

Zookeeper的浏览和编辑

数据库（MySQL，PostGres，SQlite，Oracle）的查询和展示

3． Hue的架构

Hue是一个友好的界面集成框架，可以集成各种大量的大数据体系软件框架，通过一个界面就可以做到查看以及执行所有的框架。

Hue提供的这些功能相比Hadoop生态各组件提供的界面更加友好，但是一些需要debug的场景可能还是要使用原生系统才能更加深入的找到错误的原因。

二、 Hue的安装

1．上传解压安装包

Hue的安装支持多种方式，包括rpm包的方式进行安装、tar.gz包的方式进行安装以及cloudera manager的方式来进行安装等，我们这里使用tar.gz包的方式来进行安装。

Hue的压缩包的下载地址：

http://archive.cloudera.com/cdh5/cdh/5/

我们这里使用的是CDH5.14.0这个对应的版本，具体下载地址为

http://archive.cloudera.com/cdh5/cdh/5/hue-3.9.0-cdh5.14.0.tar.gz

cd /export/servers/

tar -zxvf hue-3.9.0-cdh5.14.0.tar.gz

2．编译初始化工作

2.1．联网安装各种必须的依赖包

yum install -y asciidoc cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain gcc gcc-c++ krb5-devel libffi-devel libxml2-devel libxslt-devel make openldap-devel python-devel sqlite-devel gmp-devel

2.2． Hue初始化配置

cd /export/servers/hue-3.9.0-cdh5.14.0/desktop/conf

vim  hue.ini

#通用配置
[desktop]
secret_key=jFE93j;2[290-eiw.KEiwN2s3['d;/.q[eIW^y#e=+Iei*@Mn
http_host=node-1
is_hue_4=true
time_zone=Asia/Shanghai
server_user=root
server_group=root
default_user=root
default_hdfs_superuser=root
#配置使用mysql作为hue的存储数据库,大概在hue.ini的587行左右
[[database]]
engine=mysql
host=node-1
port=3306
user=root
password=Hadoop
name=hue

2.3．创建mysql中Hue使用的DB

create database hue default character set utf8 default collate utf8_general_ci;

3．编译Hue

cd /export/servers/hue-3.9.0-cdh5.14.0

make apps

编译成功之后，会在hue数据库中创建许多初始化表。

4．启动Hue、 Web UI访问

cd /export/servers/hue-3.9.0-cdh5.14.0/
useradd hue;
build/env/bin/supervisor

页面访问路径：

http://node-1:8888

第一次访问的时候，需要设置超级管理员用户和密码。记住它。

若想关闭Hue ,直接在窗口ctrl+c即可。

三、 Hue与软件的集成

1． Hue 集成HDFS

注意修改完HDFS相关配置后，需要把配置scp给集群中每台机器，重启hdfs集群。

1.1．修改core-site.xml配置

<!—允许通过httpfs方式访问hdfs的主机名 -->
<property>
<name>hadoop.proxyuser.root.hostsname>
<value>*value>
property>
<!—允许通过httpfs方式访问hdfs的用户组 -->
<property>
<name>hadoop.proxyuser.root.groupsname>
<value>*value>
property>

1.2．修改hdfs-site.xml配置

<property>
	  <name>dfs.webhdfs.enabledname>
	  <value>truevalue>
property>

1.3．修改hue.ini

cd /export/servers/hue-3.9.0-cdh5.14.0/desktop/conf

vim hue.ini

[[hdfs_clusters]]
    [[[default]]]
fs_defaultfs=hdfs://node01:8020
webhdfs_url=http://node01:50070/webhdfs/v1
hadoop_hdfs_home= /export/servers/hadoop-2.7.5
hadoop_bin=/export/servers/hadoop-2.7.5/bin
hadoop_conf_dir=/export/servers/hadoop-2.7.5/etc/hadoop

1.4．重启HDFS、Hue

start-dfs.sh

 

cd /export/servers/hue-3.9.0-cdh5.14.0/

build/env/bin/supervisor

2． Hue集成YARN

2.1．修改hue.ini

[[yarn_clusters]]
    [[[default]]]
      resourcemanager_host=node-1
      resourcemanager_port=8032
      submit_to=True
      resourcemanager_api_url=http://node-1:8088
      history_server_api_url=http://node-1:19888

2.2．开启yarn日志聚集服务

MapReduce 是在各个机器上运行的，在运行过程中产生的日志存在于各个机器上，为了能够统一查看各个机器的运行日志，将日志集中存放在 HDFS 上，这个过程就是日志聚集。

<property>  ##是否启用日志聚集功能。
<name>yarn.log-aggregation-enablename>
<value>truevalue>
property>
<property>  ##设置日志保留时间，单位是秒。
<name>yarn.log-aggregation.retain-secondsname>
<value>106800value>
property>

2.3．重启 Yarn、 Hue

build/env/bin/supervisor

3． Hue集成Hive

如果需要配置hue与hive的集成，我们需要启动hive的metastore服务以及hiveserver2服务（impala需要hive的metastore服务，hue需要hvie的hiveserver2服务）。

3.1．修改Hue.ini

[beeswax]
  hive_server_host=node-1
  hive_server_port=10000
  hive_conf_dir=/export/servers/hive/conf
  server_conn_timeout=120
  auth_username=root
  auth_password=123456

[metastore]
  #允许使用hive创建数据库表等操作
  enable_new_create_table=true

3.2．启动Hive服务、重启hue

去node-1机器上启动hive的metastore以及hiveserver2服务

cd /export/servers/hive

nohup bin/hive --service metastore &

nohup bin/hive --service hiveserver2 &

重新启动hue。

cd /export/servers/hue-3.9.0-cdh5.14.0/

build/env/bin/supervisor

4． Hue集成Mysql

4.1．修改hue.ini

需要把mysql的注释给去掉。大概位于1546行

[[[mysql]]]
      nice_name="My SQL DB"
      engine=mysql
      host=node-1
      port=3306
      user=root
      password=hadoop

4.2．重启hue

cd /export/servers/hue-3.9.0-cdh5.14.0/

build/env/bin/supervisor

5． Hue集成Oozie

5.1．修改hue配置文件hue.ini

[liboozie]
  # The URL where the Oozie service runs on. This is required in order for
  # users to submit jobs. Empty value disables the config check.
  oozie_url=http://node-1:11000/oozie

  # Requires FQDN in oozie_url if enabled
  ## security_enabled=false

  # Location on HDFS where the workflows/coordinator are deployed when submitted.
  remote_deployement_dir=/user/root/oozie_works

[oozie]
  # Location on local FS where the examples are stored.
  # local_data_dir=/export/servers/oozie-4.1.0-cdh5.14.0/examples/apps

  # Location on local FS where the data for the examples is stored.
  # sample_data_dir=/export/servers/oozie-4.1.0-cdh5.14.0/examples/input-data

  # Location on HDFS where the oozie examples and workflows are stored.
  # Parameters are $TIME and $USER, e.g. /user/$USER/hue/workspaces/workflow-$TIME
  # remote_data_dir=/user/root/oozie_works/examples/apps

  # Maximum of Oozie workflows or coodinators to retrieve in one API call.
  oozie_jobs_count=100

  # Use Cron format for defining the frequency of a Coordinator instead of the old frequency number/unit.
  enable_cron_scheduling=true

  # Flag to enable the saved Editor queries to be dragged and dropped into a workflow.
  enable_document_action=true

  # Flag to enable Oozie backend filtering instead of doing it at the page level in Javascript. Requires Oozie 4.3+.
  enable_oozie_backend_filtering=true

  # Flag to enable the Impala action.
  enable_impala_action=true

[filebrowser]
  # Location on local filesystem where the uploaded archives are temporary stored.
  archive_upload_tempdir=/tmp

  # Show Download Button for HDFS file browser.
  show_download_button=true

  # Show Upload Button for HDFS file browser.
  show_upload_button=true

  # Flag to enable the extraction of a uploaded archive in HDFS.
  enable_extract_uploaded_archive=true

5.2．启动hue、oozie

启动hue进程


cd /export/servers/hue-3.9.0-cdh5.14.0
build/env/bin/supervisor

启动oozie进程

cd /export/servers/oozie-4.1.0-cdh5.14.0
bin/oozied.sh start

页面访问hue

http://node-1:8888/

5.3．使用hue配置oozie调度

hue提供了页面鼠标拖拽的方式配置oozie调度

5.4．利用hue调度shell脚本

在HDFS上创建一个shell脚本程序文件。

打开工作流调度页面。

5.5．利用hue调度hive脚本

在HDFS上创建一个hive sql脚本程序文件。

打开workflow页面，拖拽hive2图标到指定位置。

5.6．利用hue调度MapReduce程序

利用hue提交MapReduce程序

5.7．利用Hue配置定时调度任务

在hue中，也可以针对workflow配置定时调度任务，具体操作如下：

一定要注意时区的问题，否则调度就出错了。保存之后就可以提交定时任务。

点击进去，可以看到定时任务的详细信息。

6． Hue集成Hbase

6.1．修改hbase配置

在hbase-site.xml配置文件中的添加如下内容，开启hbase thrift服务。

修改完成之后scp给其他机器上hbase安装包。

<property>
  <name>hbase.thrift.support.proxyusername>
  <value>truevalue>
property>
<property>
  <name>hbase.regionserver.thrift.httpname>
  <value>truevalue>
property>

6.2．修改hadoop配置

在core-site.xml中确保 HBase被授权代理，添加下面内容。

把修改之后的配置文件scp给其他机器和hbase安装包conf目录下

<property>
<name>hadoop.proxyuser.hbase.hostsname>
<value>*value>
property>
<property>
<name>hadoop.proxyuser.hbase.groupsname>
<value>*value>
property>

6.3．修改Hue配置

[hbase]
  # Comma-separated list of HBase Thrift servers for clusters in the format of '(name|host:port)'.
  # Use full hostname with security.
  # If using Kerberos we assume GSSAPI SASL, not PLAIN.
  hbase_clusters=(Cluster|node-1:9090)

  # HBase configuration directory, where hbase-site.xml is located.
  hbase_conf_dir=/export/servers/hbase-1.2.1/conf

  # Hard limit of rows or columns per row fetched before truncating.
  ## truncate_limit = 500

  # 'buffered' is the default of the HBase Thrift Server and supports security.
  # 'framed' can be used to chunk up responses,
  # which is useful when used in conjunction with the nonblocking server in Thrift.
  thrift_transport=buffered

6.4．启动hbase(包括thrift服务)、hue

需要启动hdfs和hbase，然后再启动thrift

start-dfs.sh

start-hbase.sh

hbase-daemon.sh start thrift

重新启动hue。

cd /export/servers/hue-3.9.0-cdh5.14.0/

build/env/bin/supervisor

7． Hue集成Impala

7.1．修改Hue.ini

[impala]  server_host=node-3  server_port=21050  impala_conf_dir=/etc/impala/conf

7.2．重启Hue

cd /export/servers/hue-3.9.0-cdh5.14.0/

build/env/bin/supervisor

需要启动hdfs和hbase，然后再启动thrift

start-dfs.sh

start-hbase.sh

hbase-daemon.sh start thrift

重新启动hue。

cd /export/servers/hue-3.9.0-cdh5.14.0/

build/env/bin/supervisor

7． Hue集成Impala

7.1．修改Hue.ini

[impala]  server_host=node-3  server_port=21050  impala_conf_dir=/etc/impala/conf

7.2．重启Hue

cd /export/servers/hue-3.9.0-cdh5.14.0/

build/env/bin/supervisor

你可能感兴趣的:(大数据工具)

5118优惠券优惠链接是多少？5118优惠码怎么用？白杨SEO营销百度
5118是一个大数据工具，可以提供多种功能，如关键词挖掘、行业词库、站群权重监控、关键词排名监控、指数词、流量词挖掘工具等，是做SEO排名工作人员和网站运营者的必备工具！5118优惠券优惠链接是多少？5118优惠券优惠链接是：https://www.5118.com?promote=baiyang你也可以在使用时填写5118优惠码【baiyang】,用上它，可以有10%左右的优惠！5118优惠码怎
大数据技术汇总转身成为了码农大数据 hadoop hive spark 数据仓库
HadoopHadoop入门概述Hadoop运行模式介绍HadoopHDFS的运行流程HadoopMapReduce的运行流程Hadoopyarn的运行流程Hadoop内HDFS、MapReduce和YARN交互过程HadoopHDFS常用命令HadoopYARN常用命令Hive大数据工具Hive介绍大数据工具Hive架构设计原理大数据之Hive常用命令大数据之Hive常用聚合函数大数据之Hive
一文读懂大数据工具Phoenix：让你的数据管理更高效！知识分享小能手学习心得体会大数据大数据数据库数据分析
介绍：Phoenix，最初由saleforce开发并开源，后成为Apache基金会的顶级项目。它是一个构建在HBase上的SQL层，可以使用标准的JDBCAPIs而不是HBase客户端APIs来创建表、插入数据和查询HBase中的数据。此外，Phoenix还完全使用Java编写，作为HBase内嵌的JDBC驱动，将SQL查询转换为一个或多个HBase扫描。Phoenix的主要特点包括：将SQL查询
湖仓架构的演进土豆马铃薯数据湖架构大数据
1.数据仓库架构的历史演进起初，业界数据处理首选方式是数仓架构。通常数据处理的流程是把一些业务数据库，通过ETL的方式加载到DataWarehouse中，再在前端接入一些报表或者BI的工具去展示。数据仓库概念是Inmon于1990年提出并给出了完整的建设方法。随着互联网时代来临，数据量暴增，开始使用大数据工具来替代经典数仓中的传统工具。此时仅仅是工具的取代，架构上并没有根本的区别，可以把这个架构叫
对比Pig、Hive和SQL，浅看大数据工具之间的差异 MayerBin
【编者按】在笔者看来，语言和工具之争从来都没有太大的意义，所谓存在既有道理，如何在场景下做出最合适的选择才至关重要。本文，DeZyre公司专家ManishaNandyMazumder对比了Pig、Hive和SQL的区别，并为读者浅谈了一些选择标准。以下为译文有人说对于大数据分析来说Hadoop才是炙手可热的新技术，SQL虽然久经考验但已经有些过时了。这话说得不错，但有非常多的项目都用Hadoop作
大数据大价值 X_dmword 数据分析大数据数据分析案例
大数据的大价值：大数据五大成功案例深度解析2017年09月24日17:44:18阅读数：2719大数据的热潮并未有消褪迹象，相反，包括航空、金融、电商、政府、电信、电力甚至F1赛车等各个行业的企业都在纷纷掘金大数据。可以看出，在推动大数据企业应用方面，真正看到大数据潜在商业价值的企业比大数据技术厂商还要着急。例如IT经理网曾经报道过沃尔玛大数据实验室直接参与到大数据工具的开发和开源工作中。但是在国
EXCEL竟靠这招碾压大数据，网友:以前不会用真是瞎了眼了喜欢下厨的数据分析师
曾几何时，EXCEL在数据界可谓是独树一帜，引领风骚，在职场中无人不知，无人不晓。但是随着大数据的出现，EXCEL便风光不再，江河日下，一度被其他大数据工具挤到了后面，逐渐被边缘化了。而我是一个EXCEL忠实用户，从最开始的EXCEL2003用到了最新的EXCEL2016，每一次更新换代都感觉EXCEL的功能一次比一次强大，也更加地人性化。但是面对大数据的来势汹汹，EXCEL毕竟只是轻量级的工具，
大数据技术4：Lambda和Kappa架构区别 Java架构何哥大数据治理 Lambda和Kappa区别 Lambda架构 Kappa架构
前言：在大数据处理领域，两种突出的数据架构已成为处理大量数据的流行选择：Lambda架构和Kappa架构。这些架构为实时处理和批处理提供了强大的技术解决方案，使组织能够从其数据中获得有价值的见解。随着互联网时代来临，数据量暴增，开始使用大数据工具来替代经典数仓中的传统工具。此时仅仅是工具的取代，架构上并没有根本的区别，可以把这个架构叫做离线大数据架构。后来随着业务实时性要求的不断提高，人们开始在离
同样都是打工人，为何别人会建模，而你只会用EXCEL? 喜欢下厨的数据分析师
小李是一家外企的数据分析师，平时处理的都是亿万行级别数据量的报表，为了可以胜任这份工作，小李早早地就学会了各种大数据工具，而且做出来的数据模型高度自动化，效率极高，为公司创造了非常大的价值。因为小李出色的表现，公司年底计划把他提升为公司的数据总监。而小王是一家电商公司的数据专员，除了EXCEL其他的数据工具均不会，如果遇到数据量大的表格，小王就要和同事们一起去加班完成了。因此小王的工作效率非常低，
如何优化 Elasticsearch 以获得更好的搜索性能 vvoennvv elasticsearch 大数据搜索引擎
当今世界，数据大量生成，为了利用数据进行生产，需要对提取的数据进行转换、存储、维护、管理和分析。这些过程只有通过大数据工具所基于的分布式架构和并行处理机制才能实现。Elasticsearch是最流行的开源数据存储之一，可以满足大多数用例。Elasticsearch是一个分布式数据存储和搜索引擎，具有容错和高可用性功能。为了充分利用Elasticsearch的搜索功能，需要正确配置。由于一个简单的配
大数据工具-kafkaUi-lite 人猿宇宙大数据-玩转数据-工具大数据
1、kafkaUI-litev1.0已经发布，此版本更新内容包括：可以实现kafak/zookooper/redis的界面化操作kafka:多环境管理、生产消息、消费消息、创建topic、删除topiczookeeper：多环境管理、查看节点、查看节点数据redis:多环境管理、查询数据2、kafkaUI-lite介绍史上最轻便好用的kafkaui界面工具，提供了对kafka的界面化操作可以在界面
Hadoop和大数据：60款顶级开源工具 yoku酱
说到处理大数据的工具，普通的开源解决方案（尤其是ApacheHadoop）堪称中流砥柱。弗雷斯特调研公司的分析师MikeGualtieri最近预测，在接下来几年，“100%的大公司”会采用Hadoop。MarketResearch的一份报告预测，到2011年，Hadoop市场会以58%的年复合增长率（CAGR）高速增长；到2020年，市场产值会超过10亿美元。IBM更是非常看好开源大数据工具，派出
大数据工具千千万，到底谁才是最强王者？丨程序之道丨
外面有成千上万的大数据工具。它们都承诺可以为你节省时间和资金，并帮助发掘之前从来见过的业务洞察力。虽然确实如此，可是面对那么多的选择，想理清这么多的工具谈何容易。哪一种工具适合你的技能组合?哪一种工具适合你的项目?为了替你节省一点时间，并帮助你首次选对工具，我们列出了我们青睐的几款数据工具，涉及数据提取、存储、清理、挖掘、可视化、分析和整合等领域。数据存储和管理如果你准备处理大数据，就要考虑该如何
Maxcompute批量分区删除 Wesin
ps:Maxcompute数据仓库建设的分享。Maxcompute大致介绍下Maxcompute,Maxcompute是阿里的一个大数据工具，基于Maxcompute阿里搭建了一个Datawork的数据平台。可以很“方便”的从各种数据源导入数据，做数据分析、机器学习等。“方便"之所以加个引号，是因为某些方面的确很方便，当然业务实在复杂了，很多时候也存在用的很难受的地方。更多介绍去阿里官网了解吧。回
HBase入门精要独行侠梦 hbase笔记 java hbase hadoop 大数据数据库
前言HBase，是基于GoogleBigtable实现的开源、分布式、可伸缩的列式存储数据库。诞生于Hadoop，也是Hadoop生态的重要一环，如今作为一个Apache顶级项目，早已经不能将其仅仅看作Hadoop的一部分，基于Storm，Spark等框架的数据处理方案中，都有它的身影，可以说它已经成为大数据工具箱中非常重要的一种数据存储工具，也因此必然会被很纳入很多人学习计划。对于任何一个新技术
100款大数据框架和工具汇总羋学僧
本文列举出全球100款大数据工具，包括数据存储、数据计算、资源调度以及可视化等软件，这里面肯定有你需要的。如果你有更好的大数据软件推荐，欢迎留言啊。1、TalendOpenStudio是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次，其开源软件提供了数据整合功能。其用户包括美国国际集团（A
如何使用固态硬盘+硬盘盒子+U盘创造移动双系统 JSU_曾是此间年少 ubuntu 笔记
本文背景这学期上了一节鸟水课《大数据实践》，老师要求扩展硬盘盒，以部署大数据工具进行机器挖掘等大数据领域工作参考视频链接：无需启动盘，用虚拟机将ubuntu安装到移动硬盘上_哔哩哔哩_bilibili项目使用设备1.绿联（urgeen）M.2移动硬盘盒子NVMe/SATA双协议Type-C3.2硬盘盒子2.梵想（FANXIANG）1TBSSD固态硬盘M.2接口PCIe4.0（新的比较好）3.64G
163 胡聪勇 23 调查报告（大数据）小年糕i
帆布鞋如何进行网络营销？大数据工具：百度指数我通过百度指数分析得出以下结论：地域分布1.人群主要分布在东南方，广东人最多。西北地区则比较少。所以我认为应把重点放在东南地区，物流仓库等也应聚集在这片区域。资讯指数2.帆布鞋的热度在春季较为突出。需求图谱3.帆布鞋相关词搜索最高的是帆布鞋品牌排行，其次为板鞋，品牌。所以说人们以帆布鞋的品牌来作为依据，应该多注重品牌方面。近半年整体趋势4.发现帆布鞋的整
excel中使用python代码 hqw921054 python 人工智能 r语言
这次我们会介绍如何使用xlwings将Python和Excel两大数据工具进行集成，更便捷地处理日常工作。说起Excel，那绝对是数据处理领域王者般的存在，尽管已经诞生三十多年了，现在全球仍有7.5亿忠实用户，而作为网红语言的Python，也仅仅只有700万的开发人员。Excel是全世界最流行的编程语言。对，你没看错，自从微软引入了LAMBDA定义函数后，Excel已经可以实现编程语言的算法，因此
如何在Excel中调用Python脚本，实现数据自动化处理 Wang_AI 编程语言 python 数据分析 eclipse 人工智能
这次我们会介绍如何使用xlwings将Python和Excel两大数据工具进行集成，更便捷地处理日常工作。说起Excel，那绝对是数据处理领域王者般的存在，尽管已经诞生三十多年了，现在全球仍有7.5亿忠实用户，而作为网红语言的Python，也仅仅只有700万的开发人员。Excel是全世界最流行的编程语言。对，你没看错，自从微软引入了LAMBDA定义函数后，Excel已经可以实现编程语言的算法，因此
大数据工具比较：R 语言和 Spark 谁更胜一筹？ weixin_34161083 大数据 r语言人工智能
本文有两重目的，一是在性能方面快速对比下R语言和Spark，二是想向大家介绍下Spark的机器学习库背景介绍由于R语言本身是单线程的，所以可能从性能方面对比Spark和R并不是很明智的做法。即使这种比较不是很理想，但是对于那些曾经遇到过这些问题的人，下文中的一些数字一定会让你很感兴趣。你是否曾把一个机器学习的问题丢到R里运行，然后等上好几个小时？而仅仅是因为没有可行的替代方式，你只能耐心地等。所以
学习大数据月薪过万的秘密金光闪闪耶
什么是大数据？大家对大数据的定义不尽相同，但作为学习者和使用者来说，如何使用大数据工具和技术从大数据中提取、分析出有价值的信息和数据，指导各个行业用户做出准确决策才是更值得关心的。大数据好就业吗？根据全球最顶尖管理咨询公司麦肯锡(McKinsey)出具的一份详细分析报告显示，预计到2018年，大数据或者数据工作者的岗位需求将达到150万!大数据学习扣裙：740041381大数据工资高吗？事实上，大
全球100款大数据工具汇总大数据架构师
1、TalendOpenStudio是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次，其开源软件提供了数据整合功能。其用户包括美国国际集团（AIG）、康卡斯特、电子港湾、通用电气、三星、Ticketmaster和韦里逊等企业组织。2、DYSON探码科技自主研发的DYSON智能分析系统，可以
【大数据工具】Zookeeper 分布式集群和伪分布式安装程序员胖五大数据工具安装 java-zookeeper zookeeper 分布式
Zookeeper安装zookeeper安装包下载地址：https://archive.apache.org/dist/zookeeper/1.伪分布式部署说明：伪分布即在一台服务器上通过不同端口模拟出分布式集群的效果，分布式一般3台起，一主两从。说明：伪分布安装在了Windows开辟的虚拟机上，主机名为bigdata1.将zookeeper安装包zookeeper-3.4.10.tar.gz导入
【大数据工具】HBase 集群搭建与基本使用程序员胖五大数据工具安装 hbase hadoop 大数据
HBase集群搭建HBase安装包下载地址：https://archive.apache.org/dist/hbase/安装HBase的前提：ZooKeeper集群OKHadoop集群OK1.HBase集群安装1.将HBase软件包上传至Hadoop0解压并重命名使用FileZilla将hbase-1.3.1-bin.tar.gz上传至Hadoop0的/software/目录下解压hbase-1.
【大数据工具】Hive 安装程序员胖五大数据工具安装 hive 大数据 mysql
Hive环境搭建与基本使用Hive安装包下载地址：https://dlcdn.apache.org/hive/注：安装Hive前要先安装好MySQL1.MySQL安装MySQL安装包下载地址：https://dev.mysql.com/downloads/mysql/archives/community/MySQL%20::%20Download%20MySQL%20Community%20Ser
【大数据工具】Flume、Sqoop、Azkaban 安装程序员胖五大数据工具安装大数据 flume sqoop azkaban
1.Flume1、上传解压重命名tar-zxvfapache-flume-1.9.0-bin.tar.gzmvapache-flume-1.9.0-binflume2、修改配置文件cdflume/conf/mvflume-env.sh.templateflume-env.sh#flume-env.sh配置JavaexportJAVA_HOME=/software/jdk2.Sqoop1、上传解压重
【大数据工具】Kafka伪分布式、分布式安装和Kafka-manager工具安装与使用程序员胖五大数据工具安装 kafka 大数据分布式 Kafka-manager
Kafka安装Kafka安装包下载地址：https://archive.apache.org/dist/kafka/1.Kafka伪分布式安装1.上传并解压Kafka安装包使用FileZilla或其他文件传输工具上传Kafka安装包：kafka_2.11-0.10.0.0.tgz解压安装包[root@bigdatasoftware]#tar-zxvfkafka_2.11-0.10.0.0.tgz2
【大数据工具】Spark 伪分布式、分布式集群搭建程序员胖五大数据工具安装 spark 大数据分布式
Spark集群搭建Spark安装包下载地址：https://archive.apache.org/dist/spark/1.Spark伪分布式安装安装前提：安装Spark前需要先安装好JDK1.上传并解压Spark安装包使用fileZilla或其他文件传输工具上传Spark安装包：spark-2.1.0-bin-hadoop2.7.tgz解压安装包[root@bigdatasoftware]#ta
【大数据工具】Flink集群搭建程序员胖五大数据工具安装大数据 flink scala
Flink集群安装1.单机版Flink安装与使用1、下载Flink安装包并上传至服务器下载flink-1.10.1-bin-scala_2.11.tgz并上传至Hadoop0/software下2、解压[root@hadoop0software]#tar-zxvfflink-1.10.1-bin-scala_2.11.tgz3、创建快捷方式[root@hadoop0software]#ln-sfl
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他