gao634209276

hadoop2.7.2集群hive-1.2.1整合hbase-1.2.1

本文操作基于官方文档说明,以及其他相关资料,若有错误,希望大家指正

根据hive官方说明整合hbase链接如下https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration

文中指出hive0.9.0匹配的Hbase版本至少要0.92,比这更早的hive版本要匹配Hbase0.89或者0.90

自Hive1.x后,hive能够兼容Hbase0.98.x或者更低版本,而Hive2.x与HBase2.x或更高版本兼容.

然后看到关键部分

The storage handler is built as an independent module, hive-hbase-handler-xyzjar , which must be available on the Hive client auxpath, along with HBase, Guava and ZooKeeper jars.

hive-hbase-handler-xxx.jar作为一个独立的模块,这个jar一定要用Hive client auxpath使用,Hive client auxpath后面要接Hbase,Cuava,Zookeeper的jar包,(请忽视本人拙劣翻译)下面跟上几个简单的用法一个是Cli单节点,一个是有zookeeper管理Hbase的集群用法

看重点的(Note that the jar locations and names have changed in Hive 0.9.0, so for earlier releases, some changes are needed.)

The handler requires Hadoop 0.20 or higher, and has only been tested with dependency versions hadoop-0.20.x, hbase-0.92.0 and zookeeper-3.3.4.If you are not using hbase-0.92.0, you will need to rebuild the handler with the HBase jar matching your version, and change the --auxpath above accordingly.Failure to use matching versions will lead to misleading connection failures such as MasterNotRunningException since the HBase RPC protocol changes often.

该Handler程序需要Hadoop 0.20或者更高的版本,并且只在hadoop-0.20.x,hbase-0.92.0和zookeeper2.2.4上测试过,如果你不使用hbase0.92.0版本,你需要重建handler,使用匹配你使用的Hive版本的Hbase的jar,并且相应的更改--auxpath版本,

这里本人使用的是hadoop2.7.2,hive1.2.1,hbase1.2.1所以,要想整合必须重新编译handler.

下面进入正题....

1.hive_hbase-handler.jar在hive-1.2.1中,首先下载官网hive-1.2.1源码src:

http://www.apache.org/dyn/closer.cgi/hive/选择apache-hive-1.2.1-src.tar.gz点击下载

2. eclipse中建立编译工程,名称随便,普通java project

我这里以hive-hbase为名

3. 将hive源码中的hbase-hadler部分导入到编译项目中

选择src右击import-->General-->FileSytem,下一步

找到你下载解压的hive源码目录,找到hbase-hadler目录比如我的在/opt/src/hive-1.2.1-src

目录为hbase-handler/src/java,有java基础的都不会弄错的.确认后保证包名以org开头

4 .然后开始给eclipse项目下,创建一个lib目录,加入相关的jar包,确保顺利通过编译,根据hive的版本,导入的jar包也会有所差异,直到你的项目没有小红叉,就算完成了这里我分一下几个步骤来添加:

这里为了方便,我依次将hive,hbase,hadoop中的lib下的主要的jar包或者所有的jar包分别复制一份到桌面,以便向项目中添加使用同时不破坏集群的lib.

关于如何添加lib下的jar包看你自己,这里有两种方法,一个是根据报错信息逐个添加jar包,这个需要你对hive,hadoop以及hbase的api很清除才可以.还有一个方法是把所有的jar包一股脑全添加上,适合初级学者,不影响最终结果.

5 先来说一下第一种方法:首先把hive下的所有jar包,和hadoop的common包,mapreduce包,以及hbase/lib下所有jar包添加到项目的lib下,同时删除重复包名,版本不同的jar只保留一个,然后右键项目选择build path-->Config build path,在对话框中选择Libraies,然后Add JARs,选择这个项目下的lib目录,全选jar包,确定,应用,OK

第二种方法:编译这个handler需要的jar其实只有一下这些,分别在hive,hbase,hadoop的lib下找全下列jar包,添加到项目的lib目录下就可以了

6 . 编译打包

选择项目src目录,右击Export-->Java-->JAR file-->Next,选择项目下的src,并设置导出路径,名称可以直接写作hive-hbase-handler-1.2.1.jar其他默认,Finish后即可

然后把导出的hive-hbase-handler-1.2.1.jar包放入hive安装路径的lib下,覆盖原来的handler.

同时eclilpse编译hadler的项目下对应的lib目录中的必须的jar包也放入到hive/lib下如下,并删除多版本的jar包(这里只有zookeeper重复

hadoop@hadoop:src$ cd /home/hadoop/workspace/hive-hbase/lib/
hadoop@hadoop:lib$ ls
commons-io-2.4.jar                      hbase-server-1.2.1.jar
commons-logging-1.1.3.jar               hive-common-1.2.1.jar
hadoop-common-2.7.2.jar                 hive-exec-1.2.1.jar
hadoop-mapreduce-client-core-2.7.2.jar  hive-metastore-1.2.1.jar
hbase-client-1.2.1.jar                  jsr305-3.0.0.jar
hbase-common-1.2.1.jar                  metrics-core-2.2.0.jar
hbase-protocol-1.2.1.jar                zookeeper-3.4.8.jar
hadoop@hadoop:lib$ cp ./* /opt/modules/hive-1.2.1/lib/
hadoop@hadoop:conf$cd /opt/modules/hive-1.2.1/conf/
hadoop@hadoop:conf$ ls /opt/modules/hive-1.2.1/lib/zookeeper-3.4.*
/opt/modules/hive-1.2.1/lib/zookeeper-3.4.6.jar
/opt/modules/hive-1.2.1/lib/zookeeper-3.4.8.jar
hadoop@hadoop:conf$ rm -f /opt/modules/hive-1.2.1/lib/zookeeper-3.4.6.jar

这里的融合部分完成了

在官方文档中使用的是在hive后面跟随参数设置,这里为了简化使用,我们讲这些参数设置到hive的环境和配置文件当中

7. 更改hive中的环境变量以及添加配置

hive-env.sh

hadoop@hadoop:conf$ pwd
/opt/modules/hive-1.2.1/conf
hadoop@hadoop:conf$ ls
beeline-log4j.properties.template    hive-log4j.properties.template
hive-env.sh.template                 hive-site.xml
hive-exec-log4j.properties.template  ivysettings.xml
hadoop@hadoop:conf$ cp hive-env.sh.template hive-env.sh
hadoop@hadoop:conf$ vim hive-env.sh
##添加一下内容
 export HADOOP_HOME=/opt/modules/hadoop-2.7.2
export HIVE_CONF_DIR=/opt/modules/hive-1.2.1/conf
export JAVA_HOME=/usr/local/java/jdk1.7.0_80

hive-site.xml在之前的基础上添加以下内容

hadoop@hadoop:conf$ vim hive-site.xml 
        
        hive.aux.jars.path     
        file:///opt/modules/hive-1.2.1/lib/hive-hbase-handler-1.2.1.jar,file:///opt/modules/hive-1.2.1/lib/guava-14.0.1.jar,file:///opt/modules/hive-1.2.1/lib/hbase-common-1.2.1.jar,file:///opt/modules/hive-1.2.1/lib/zookeeper-3.4.8.jar    
        
    
        hbase.zookeeper.quorum
        hadoop:2181,hadoop1:2182,hadoop2:2183

如此开始进入测试

启动集群并检查启动情况

hadoop@hadoop:conf$ zkServer.sh start
ZooKeeper JMX enabled by default
Using config: /opt/modules/zookeeper-3.4.8/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
hadoop@hadoop:conf$ ssh hadoop1
Last login: Thu May 12 14:05:18 2016 from hadoop
[hadoop@hadoop1 ~]$ zkServer.sh start
ZooKeeper JMX enabled by default
Using config: /opt/modules/zookeeper-3.4.8/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
[hadoop@hadoop1 ~]$ ssh hadoop2
Last login: Thu May 12 14:05:26 2016 from hadoop1
[hadoop@hadoop2 ~]$ zkServer.sh start
ZooKeeper JMX enabled by default
Using config: /opt/modules/zookeeper-3.4.8/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
[hadoop@hadoop2 ~]$ jps
1728 Jps
1699 QuorumPeerMain
[hadoop@hadoop2 ~]$ zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /opt/modules/zookeeper-3.4.8/bin/../conf/zoo.cfg
Mode: follower
[hadoop@hadoop2 ~]$ exit
logout
Connection to hadoop2 closed.
[hadoop@hadoop1 ~]$ exit
logout
Connection to hadoop1 closed.
hadoop@hadoop:conf$ start-dfs.sh 
Starting namenodes on [hadoop]
hadoop: starting namenode, logging to /opt/modules/hadoop-2.7.2/logs/hadoop-hadoop-namenode-hadoop.out
hadoop1: starting datanode, logging to /opt/modules/hadoop-2.7.2/logs/hadoop-hadoop-datanode-hadoop1.out
hadoop2: starting datanode, logging to /opt/modules/hadoop-2.7.2/logs/hadoop-hadoop-datanode-hadoop2.out
Starting secondary namenodes [hadoop]
hadoop: starting secondarynamenode, logging to /opt/modules/hadoop-2.7.2/logs/hadoop-hadoop-secondarynamenode-hadoop.out
hadoop@hadoop:conf$ hdfs dfsadmin -report
Safe mode is ON
Configured Capacity: 32977600512 (30.71 GB)
Present Capacity: 25174839296 (23.45 GB)
DFS Remaining: 25174265856 (23.45 GB)
DFS Used: 573440 (560 KB)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
Missing blocks (with replication factor 1): 1

-------------------------------------------------
Live datanodes (2):

Name: 192.168.2.11:50010 (hadoop2)
Hostname: hadoop2
Decommission Status : Normal
Configured Capacity: 16488800256 (15.36 GB)
DFS Used: 290816 (284 KB)
Non DFS Used: 3901227008 (3.63 GB)
DFS Remaining: 12587282432 (11.72 GB)
DFS Used%: 0.00%
DFS Remaining%: 76.34%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Thu May 12 18:10:50 CST 2016


Name: 192.168.2.10:50010 (hadoop1)
Hostname: hadoop1
Decommission Status : Normal
Configured Capacity: 16488800256 (15.36 GB)
DFS Used: 282624 (276 KB)
Non DFS Used: 3901534208 (3.63 GB)
DFS Remaining: 12586983424 (11.72 GB)
DFS Used%: 0.00%
DFS Remaining%: 76.34%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Thu May 12 18:10:50 CST 2016
hadoop@hadoop:conf$ start-yarn.sh 
starting yarn daemons
starting resourcemanager, logging to /opt/modules/hadoop-2.7.2/logs/yarn-hadoop-resourcemanager-hadoop.out
hadoop2: starting nodemanager, logging to /opt/modules/hadoop-2.7.2/logs/yarn-hadoop-nodemanager-hadoop2.out
hadoop1: starting nodemanager, logging to /opt/modules/hadoop-2.7.2/logs/yarn-hadoop-nodemanager-hadoop1.out
hadoop@hadoop:conf$ jps
7769 SecondaryNameNode
7328 QuorumPeerMain
7531 NameNode
8002 ResourceManager
8269 Jps
hadoop@hadoop:conf$ start-hbase.sh 
starting master, logging to /opt/modules/hbase-1.2.1/logs/hbase-hadoop-master-hadoop.out
hadoop1: starting regionserver, logging to /opt/modules/hbase-1.2.1/bin/../logs/hbase-hadoop-regionserver-hadoop1.out
hadoop2: starting regionserver, logging to /opt/modules/hbase-1.2.1/bin/../logs/hbase-hadoop-regionserver-hadoop2.out
hadoop@hadoop:conf$ jps
7769 SecondaryNameNode
8551 Jps
8428 HMaster
7328 QuorumPeerMain
7531 NameNode
8002 ResourceManager

这里发现我的hfds安全模式激活了,可能是由于上电脑非分正常关机导致的,过一会儿复制副本够数就自动关闭了.或者手动关闭,没多大事

启动进入hive,由于我的hive元数据使用的是mysql存储,先启动mysql服务,然后创建hbase识别的表

hadoop@hadoop:conf$ sudo service mysqld start
Starting MySQL
.. * 
hadoop@hadoop:conf$ hive

Logging initialized using configuration in jar:file:/opt/modules/hive/lib/hive-common-1.2.1.jar!/hive-log4j.properties
hive> create table hbase_table_1(key int,value string)
    > stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
    > with serdeproperties("hbase.columns.mapping"=":key,cf1:val")
    > tblproperties("hbase.table.name"="xyz");
OK
Time taken: 2.001 seconds
hive>

在开一个终端,创建一个hive使用的数据文件

hadoop@hadoop:~$ cat test.data 
1	zhangsan
2	lisi
3	wangwu

在hive中创建符合此结构的表,并load此文件的数据,检查一遍,这样算是完成了初步的准备工作

hive> create table test1(id int,name string)
    > row format delimited
    > fields terminated by '\t'
    > stored as textfile;
OK
Time taken: 0.214 seconds
hive> load data local inpath '/home/hadoop/test.data' into table test1;
Loading data to table default.test1
Table default.test1 stats: [numFiles=1, totalSize=27]
OK
Time taken: 0.714 seconds
hive> select * from hbase_table_1;
OK

测试数据存储:

讲hive中的表数据导入到hbase_table_1中,查看表内容

hive> insert overwrite table hbase_table_1 select * from test1;
Query ID = hadoop_20160512194326_ec2c3ec0-0fdc-4265-8478-668ab5df4b5c
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_1463047967051_0001, Tracking URL = http://hadoop:8088/proxy/application_1463047967051_0001/
Kill Command = /opt/modules/hadoop-2.7.2/bin/hadoop job  -kill job_1463047967051_0001
Hadoop job information for Stage-0: number of mappers: 1; number of reducers: 0
2016-05-12 19:43:46,127 Stage-0 map = 0%,  reduce = 0%
2016-05-12 19:43:55,629 Stage-0 map = 100%,  reduce = 0%, Cumulative CPU 2.26 sec
MapReduce Total cumulative CPU time: 2 seconds 260 msec
Ended Job = job_1463047967051_0001
MapReduce Jobs Launched: 
Stage-Stage-0: Map: 1   Cumulative CPU: 2.26 sec   HDFS Read: 3410 HDFS Write: 0 SUCCESS
Total MapReduce CPU Time Spent: 2 seconds 260 msec
OK
Time taken: 29.829 seconds
hive> select * from hbase_table_1;
OK
1	zhangsan
2	lisi
3	wangwu
Time taken: 0.178 seconds, Fetched: 3 row(s)

如此之后,另开一个终端,打开hbases后list查看表是否存在xyz,并scan内容

hadoop@hadoop:~$ hbase shell
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/opt/modules/hbase-1.2.1/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/opt/modules/hadoop-2.7.2/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
HBase Shell; enter 'help' for list of supported commands.
Type "exit" to leave the HBase Shell
Version 1.2.1, r8d8a7107dc4ccbf36a92f64675dc60392f85c015, Wed Mar 30 11:19:21 CDT 2016

hbase(main):001:0> list
TABLE                                                                                 
scores                                                                                
xyz                                                                                   
2 row(s) in 0.1950 seconds

=> ["scores", "xyz"]
hbase(main):002:0> scan 'xyz'
ROW                    COLUMN+CELL                                                    
0 row(s) in 0.1220 seconds

hbase(main):003:0> scan 'xyz'
ROW                                                  COLUMN+CELL                                                                                                                                               
 1                                                   column=cf1:val, timestamp=1463053413954, value=zhangsan                                                                                                   
 2                                                   column=cf1:val, timestamp=1463053413954, value=lisi                                                                                                       
 3                                                   column=cf1:val, timestamp=1463053413954, value=wangwu                                                                                                     
3 row(s) in 0.0550 seconds

hbase(main):004:0>

如此以来,已经hive和hbase的整合完成

数据库和数据仓库区别 hhhecker Hadoop学习数据仓库数据库 hive
HIve与Mysql对比HiveMysql数据存储位置HDFS本地磁盘数据格式用户定义系统决定数据更新不支持（不支持修改和删除）支持（支持增删改查）索引有，但较弱，一般很少用有，经常使用的执行MapReduceExecutor执行延迟高低可扩展性高低数据规模大小数据库与数据仓库对比数据库：传统的关系型数据库主要应用在基本的事务处理，例如银行交易之类的场景数据库支持增删改查这些常见的操作。数据仓库：
HBase监控也想洒脱 JanusGraph hbase
Prometheus+Grafana搭建HBase监控参考https://blog.csdn.net/devcloud/article/details/115069449
HBase 监控 | HBase Metrics 初探（一）禅克
前言：对于任意一个系统而言，做好监控都是非常重要的，HBase也不例外。经常，我们会从JMX中获取相关指标来做展示、对HBase进行监控，那这些指标是怎么生成的呢？如果你想自定义自己的监控指标又该怎么做呢？基于好奇之心和学习的目的，最近打算学习一下HBase监控相关原理及实现，今天先简单捋一捋思路。1.如何下手？我一向比较喜欢先看项目所依赖的pom文件，打开HBase源码，有两个非常相关的模块：h
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
required archivelog files for a guaranteed restore point 查找GRP需要的归档文件 jnrjian oracle sql
Appliesto:OracleDatabase-EnterpriseEdition-Version11.2.0.2andlaterInformationinthisdocumentappliestoanyplatform.GoalHowcanyoudeterminetherequiredarchivelogfilesneededforaguaranteedrestorepointbeforeru
Python 应用无监督学习（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/6b15c463e64a9f03f0d968a77b424918译者：飞龙协议：CCBY-NC-SA4.0前言关于本节简要介绍了作者、本书的内容覆盖范围、开始时你需要的技术技能，以及完成所有活动和练习所需的硬件和软件要求。本书简介无监督学习是一种在没有标签数据的情况下非常有用且实用的解决方案。Python应用无监督学习引导你使用无监督学习技术与Py
datasophon下dolphinscheduler执行脚本出错无级程序员大数据 hive 硬件架构 hadoop
执行hive脚本出错：错误消息：FAILED:RuntimeExceptionErrorloadinghooks(hive.exec.post.hooks):java.lang.ClassNotFoundException:org.apache.atlas.hive.hook.HiveHookatjava.net.URLClassLoader.findClass(URLClassLoader.ja
hive 分区表select全部数据_hive分区表 Xenophon Tony hive 分区表select全部数据
内部表和外部表内部表：createtable，copy数据到warehouse,删除表时数据也会删除外部表：createexternaltable，不copy数据到warehouse,删除表时数据不会删除表的分区分区的好处：如果不建立分区的话，则会全表扫描数据通过目录划分分区，分区字段是特殊字段目录结构：/pub/{dt}/{customer_id}/添加分区：ALTERTABLEfsADDPAT
hive底层原理 sql执行过程_Hive原理总结（完整版）
目录课程大纲(HIVE增强)31.Hive基本概念41.1Hive简介41.1.1什么是Hive41.1.2为什么使用Hive41.1.3Hive的特点41.2Hive架构51.2.1架构图51.2.2基本组成51.2.3各组件的基本功能51.3Hive与Hadoop的关系61.4Hive与传统数据库对比61.5Hive的数据存储62.Hive基本操作72.1DDL操作72.1.1创建表72.1.
hive的sql优化思路-明白底层运行逻辑 ycllycll hive sql hadoop
一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的，因为hive的性能瓶颈基本在内存，具体参考以下他人优秀文章：1.HiveSQL底层执行过程详细剖析2.HiveJOIN性能调优二是要明白hive对应的sql它底层的mapreduce的过程中sql字段的执行顺序，来理解map的key、value会填充什么值，才能深刻理解怎么一步一步的
python连接数据库的方法,Python 连接数据库的多种方法 AI MIU python连接数据库的方法
JZGKCHINAPython是一种计算机程序设计语言，它是一种动态的、面向对象的脚本语言。它是一种跨平台的，可以运行在Windows，Mac和Linux/Unix系统上。在日常使用中需要对大量数据进行数据分析，那么就必然用到数据库，我们常用的数据库有SQLServer,MySQL,Oracle,DB2,SQLite，Hive，PostgreSQL,MongoDB还有其他常用的MicrosoftA
Hbase - 表导出CSV数据 kikiki1
新鲜文章，昨天刚经过线上验证过的，使用它导出了3亿的用户数据出来，花了半个小时，性能还是稳稳的，好了不吹牛皮了，直接上代码吧。MR考查了Hbase的各种MR，没有发现哪一个是能实现的，如果有请通知我，我给他发红包。所以我们只能自己来写一个MR了，编写一个Hbase的MR，官方文档上也有相应的例子。我们用来加以化妆就得到我们想要的了。导出的CSV格式为admin,22,北京admin,23,天津依赖
Linux教程（4）----[hive数据仓库工具] .房东的猫 Linux教程（完善中~~）linux
Hive基本概念Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高
flink sql读hive catalog数据，将string类型的时间戳数据排序后写入kafka，如何保障写入kafka的数据是有序的 fzip Flink flink sql hive
在FlinkSQL中，要确保从Hive读取的STRING类型时间戳数据排序后有序写入Kafka，需要结合批处理模式、时间类型转换、单分区写入和Kafka生产者配置。以下是完整解决方案：一、核心解决方案1.批处理模式+全局排序将作业设置为批处理模式，并对字符串时间戳进行类型转换后排序：--设置为批处理模式（关键！）SET'execution.runtime-mode'='batch';--从Hive
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
flink sql如何对hive string类型的时间戳进行排序
在FlinkSQL中对Hive表的STRING类型时间戳进行排序，需要先将字符串转换为时间类型，再基于时间类型排序。以下是具体方法和示例：一、核心解决方案1.字符串转TIMESTAMP后排序若Hive中的时间戳格式为'yyyy-MM-ddHH:mm:ss'（如'2024-01-0112:00:00'），可直接转为TIMESTAMP排序：SELECT*FROMhive_tableORDERBYTO_
Python 生物信息学秘籍第三版（四）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/9694cf42f7d741c69225ff1cf52b0efe译者：飞龙协议：CCBY-NC-SA4.0第十一章：生物信息学中的机器学习机器学习在许多不同的领域中都有应用，计算生物学也不例外。机器学习在该领域有着无数的应用，最古老且最为人熟知的应用之一就是使用主成分分析（PCA）通过基因组学研究种群结构。随着该领域的蓬勃发展，还有许多其他潜在的应
cdh6.3.2的hive使用apache paimon格式只能创建不能写报错的问题明天,今天,此时 hive paimon
前言根据官网paimon安装教程，看上去简单，实则报错阻碍使用的信心。解决方法原带的jars下的zstd开头的包旧了，重新下载zstd较新的包单独放到每个节点的hive/lib下; 然后将hdfsyarn用户下的mr-framework.tar.gz中的zstdjar包替换成新的版本。重启就可以了总结国外软件问题，尽量使用英文搜索，特别是google.。方法来源：http
ROS1/Linux——linux虚拟机主ip地址：网络信息不可用 eagle_Annie 网络 linux tcp/ip
ROS1/Linux——linux虚拟机主ip地址：网络信息不可用文章目录ROS1/Linux——linux虚拟机主ip地址：网络信息不可用参考亿点链接问题描述最终解决方案参考亿点链接Unabletofetchsomearchives,mayberunapt-getupdateortrywith–fix-missinglinux虚拟机主ip地址：网络信息不可用（没IP）【问题解决】VMWare虚拟
React-Python项目安装与使用指南
React-Python项目安装与使用指南一、项目目录结构及介绍通常情况下，在克隆了https://github.com/facebookarchive/react-python.git仓库之后，你会看到以下的目录结构：├──README.md#项目的说明文档├──src#源码目录│├──components#React组件存放位置│├──App.py#应用主入口文件│└──index.js#引入
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
AWS 管理秘籍（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/cf1c4e1db999839ba88fc56df4011156译者：飞龙协议：CCBY-NC-SA4.0序言AWS平台的增长速度非常快，正在被各行各业广泛采用。正如俗话所说，朋友不会让朋友建立数据中心。不管从哪个角度看，按需计算、网络和存储的模式将持续存在。尤其是当你看到AWS平台在功能和增强方面的更新速度时，很难再去反对站在巨人的肩膀上，尤其是
AWS Terraform 架构指南（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/8b2d222956a050c7632b9eee086dadcf译者：飞龙协议：CCBY-NC-SA4.0第七章：7在项目中实现Terraform您准备好开始使用Terraform开发您的AWS基础设施了吗？在本章中，您将学习Terraform的基础知识，并了解如何在AWS中部署您的第一个模板。我们将介绍选择合适的AWS提供商和选择满足您项目需求的
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
精益敏捷之道（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0b2addbef6e2afb0ce49d44d7300959a译者：飞龙协议：CCBY-NC-SA4.0前言“精益敏捷之道：通过价值流管理释放企业潜力”一书源于首席作者塞西尔·‘加里’·鲁普与尊敬的同事理查德·克纳斯特、史蒂夫·佩雷拉和艾尔·沙洛韦的合作努力。他们的目标是为IT专家、商业专业人士以及各行业和组织的领域专家提供一本关于现代精益敏捷和
Python DevOps 实用指南（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0228db3442938136abc9262d5596d201译者：飞龙协议：CCBY-NC-SA4.0序言欢迎阅读本书！让我们来谈谈本书的内容以及你将从中学到的东西。本书涉及两件事：DevOps和Python。它讲述了这两者是如何相互作用的——无论你称它们为实体、哲学、框架，或者其他任何名称。本书将帮助你在技术层面上理解Python，同时也在概
Python 取证学习指南第二版（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0前言在编写《学习Python取证》一书时，我们有一个目标：以一种方式教授Python在取证中的应用，使得没有编程经验的读者可以立即跟随并开发出可以用于案件工作中的实用代码。但这并不意味着本书仅适合Python新手；在整个过程中，我们会逐步让读者
Python 取证学习指南第二版（三）
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0第七章：模糊哈希哈希是DFIR中最常见的处理过程之一。这个过程允许我们总结文件内容，并分配一个代表文件内容的独特且可重复的签名。我们通常使用MD5、SHA1和SHA256等算法对文件和内容进行哈希。这些哈希算法非常有价值，因为我们可以用它们进行
低版本hive(1.2.1)UDF实现清除历史分区数据 ༺水墨石༻ hive hive UDF hive hadoop 数据仓库
目标：通过UDF实现对表历史数据清除入参：表名、保留天数N一、pom文件4.0.0com.examplehive-udf-example1.0-SNAPSHOTjarhive-udf-exampleHiveUDFfordeletingpartitionsbydateUTF-81.81.8org.apache.hivehive-exec1.2.1org.apache.hivehive-metasto
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

hadoop2.7.2集群hive-1.2.1整合hbase-1.2.1

你可能感兴趣的:(hadoop2.x,hive,hbase)