nuc2015

sqoop将mysql数据导入hdfs和hive学习笔记

#安装好以后将mysql驱动mysql-connector-java-5.1.21-bin.jar放到sqoop安装目录的lib下面

一、将mysql数据导入hdfs，命令如下：

[root@master bin]# /apps/sqoop-1.4.7/bin/sqoop import \
--connect jdbc:mysql://localhost:3306/sqoop \
--username root \
--password xxxxxx \
--table t_user \
--target-dir /sqoop/localhost/sqoop/t_user \
--delete-target-dir \
--num-mappers 1 \
--compress \
--compression-codec org.apache.hadoop.io.compress.SnappyCodec \
--fields-terminated-by '|'

导入成功：

–append				将数据追加到hdfs中已经存在的dataset中。使用该参数，sqoop将把数据先导入到一个临时目录中，
				然后重新给文件命名到一个正式的目录中，以避免和该目录中已存在的文件重名。

–as-avrodatafile		将数据导入到一个Avro数据文件中

–as-sequencefile		将数据导入到一个sequence文件中

–as-textfile			将数据导入到一个普通文本文件中，生成该文本文件后，可以在hive中通过sql语句查询出结果。

–boundary-query 	边界查询，也就是在导入前先通过SQL查询得到一个结果集，然后导入的数据就是该结果集内的数据，
				格式如：–boundary-query ‘select id,creationdate from person where id = 3’，表示导入的数据为id=3的记录，
				或者select min(), max() from ，注意查询的字段中不能有数据类型为字符串的字段，
				否则会报错：java.sql.SQLException: Invalid value for getLong()目前问题原因还未知

–columns		指定要导入的字段值，格式如：–columns id,username

–direct				直接导入模式，使用的是关系数据库自带的导入导出工具。官网上是说这样导入会更快

–direct-split-size		在使用上面direct直接导入的基础上，对导入的流按字节数分块，特别是使用直连模式从PostgreSQL导入数据的时候，
				可以将一个到达设定大小的文件分为几个独立的文件。

–inline-lob-limit		设定大对象数据类型的最大值

-m,–num-mappers			启动N个map来并行导入数据，默认是4个，最好不要将数字设置为高于集群的节点数

–query，-e		从查询结果中导入数据，该参数使用时必须指定–target-dir、–hive-table，在查询语句中一定要有where条件且在where条件中需要包含$CONDITIONS，
				示例：–query ‘select * from person where $CONDITIONS ‘ –target-dir /user/hive/warehouse/person –hive-table person

–split-by		表的列名，用来切分工作单元，一般后面跟主键ID

–table 		关系数据库表名，数据从该表中获取

–target-dir 		指定hdfs路径

–warehouse-dir 		与–target-dir不能同时使用，指定数据导入的存放目录，适用于hdfs导入，不适合导入hive目录

–where				从关系数据库导入数据时的查询条件，示例：–where ‘id = 2′

-z,–compress			压缩参数，默认情况下数据是没被压缩的，通过该参数可以使用gzip压缩算法对数据进行压缩，适用于SequenceFile, text文本文件, 和Avro文件

–compression-codec		Hadoop压缩编码，默认是gzip

–null-string 	可选参数，如果没有指定，则字符串null将被使用

–null-non-string	可选参数，如果没有指定，则字符串null将被使用 
  二、将mysql数据导入hive，命令如下： 
  /apps/sqoop-1.4.7/bin/sqoop import \
-Dorg.apache.sqoop.splitter.allow_text_splitter=true \
--connect jdbc:mysql://localhost:3306/sqoop \
--username root \
--password xxxxxx \
--table sx_hospital \
--target-dir /sqoop/localhost/sqoop/sx_hospital \
--delete-target-dir \
--num-mappers 1 \
--hive-import \
--hive-database hadoop_dw \
--hive-table sx_hospital \
--hive-drop-import-delims \
--create-hive-table \
--hive-overwrite \
--fields-terminated-by '|' 
  导入过程中可能遇到的错误及解决办法： 
  执行报错：
19/03/05 17:48:25 ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly.
19/03/05 17:48:25 ERROR tool.ImportTool: Import failed: java.io.IOException: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf
	at org.apache.sqoop.hive.HiveConfig.getHiveConf(HiveConfig.java:50)
	at org.apache.sqoop.hive.HiveImport.getHiveArgs(HiveImport.java:392)
	at org.apache.sqoop.hive.HiveImport.executeExternalHiveScript(HiveImport.java:379)
	at org.apache.sqoop.hive.HiveImport.executeScript(HiveImport.java:337)
	at org.apache.sqoop.hive.HiveImport.importTable(HiveImport.java:241)
	at org.apache.sqoop.tool.ImportTool.importTable(ImportTool.java:537)
	at org.apache.sqoop.tool.ImportTool.run(ImportTool.java:628)
	at org.apache.sqoop.Sqoop.run(Sqoop.java:147)
	at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:76)
	at org.apache.sqoop.Sqoop.runSqoop(Sqoop.java:183)
	at org.apache.sqoop.Sqoop.runTool(Sqoop.java:234)
	at org.apache.sqoop.Sqoop.runTool(Sqoop.java:243)
	at org.apache.sqoop.Sqoop.main(Sqoop.java:252)
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf
	at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
	at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
	at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:349)
	at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
	at java.lang.Class.forName0(Native Method)
	at java.lang.Class.forName(Class.java:264)
	at org.apache.sqoop.hive.HiveConfig.getHiveConf(HiveConfig.java:44)
	... 12 more
解决办法：
1、将sqoop安装目录下的conf目录中的sqoop-env-template.sh复制为sqoop-env.sh
并且指定

#Set path to where bin/hadoop is available
export HADOOP_COMMON_HOME=/apps/hadoop-2.8.0

#Set path to where hadoop-*-core.jar is available
export HADOOP_MAPRED_HOME=/apps/hadoop-2.8.0

#set the path to where bin/hbase is available
export HBASE_HOME=/apps/hbase-1.2.6

#Set the path to where bin/hive is available
export HIVE_HOME=/apps/hive-1.2.1

#Set the path for where zookeper config dir is
export ZOOCFGDIR=/apps/zookeeper-3.4.10

2、解决办法
在/etc/profile中添加：
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HIVE_HOME/lib/*:$HIVE_CONF_DIR
记得source /etc/profile

在~/.bash_profile中添加：
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HIVE_HOME/lib/*:$HIVE_CONF_DIR
记得source ~/.bash_profile 
  mysql数据样例： 
  /*
 Navicat Premium Data Transfer

 Source Server         : localhost-mysql
 Source Server Type    : MySQL
 Source Server Version : 50722
 Source Host           : localhost:3306
 Source Schema         : hadoop_dw

 Target Server Type    : MySQL
 Target Server Version : 50722
 File Encoding         : 65001

 Date: 04/03/2019 09:24:33
*/

SET NAMES utf8mb4;
SET FOREIGN_KEY_CHECKS = 0;

-- ----------------------------
-- Table structure for sx_hospital
-- ----------------------------
DROP TABLE IF EXISTS `sx_hospital`;
CREATE TABLE `sx_hospital`  (
  `name` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NULL,
  `latlng` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,
  `province` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NULL,
  `city` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NULL,
  `area` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NULL,
  `address` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NULL,
  PRIMARY KEY (`latlng`) USING BTREE
) ENGINE = InnoDB CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;

-- ----------------------------
-- Records of sx_hospital
-- ----------------------------
INSERT INTO `sx_hospital` VALUES ('济民医院', '110.31956,34.646432', '山西省', '运城市', '芮城县', '风陵渡镇');
INSERT INTO `sx_hospital` VALUES ('蒲州医院', '110.335746,34.837638', '山西省', '运城市', '永济市', '山西省运城市永济市张风线蒲州镇中心卫生院');
INSERT INTO `sx_hospital` VALUES ('健民医院', '110.435347,34.886854', '山西省', '运城市', '永济市', '涑水西街283号');
INSERT INTO `sx_hospital` VALUES ('永济黄河中医院', '110.449017,34.896502', '山西省', '运城市', '永济市', '舜都大道');
INSERT INTO `sx_hospital` VALUES ('永济市忠愍医院', '110.450128,34.894908', '山西省', '运城市', '永济市', '山西省运城市永济市舜都大道');
INSERT INTO `sx_hospital` VALUES ('康宁医院', '110.455258,34.89246', '山西省', '运城市', '永济市', '828县道附近');
INSERT INTO `sx_hospital` VALUES ('永济市人民医院', '110.458271,34.868693', '山西省', '运城市', '永济市', '山西省运城市永济市银杏东街9号');
INSERT INTO `sx_hospital` VALUES ('万荣县第二人民医院', '110.554863,35.362433', '山西省', '运城市', '万荣县', '荣河镇');
INSERT INTO `sx_hospital` VALUES ('临猗县第二人民医院', '110.560605,35.10071', '山西省', '运城市', '临猗县', '临晋镇西街26号');
INSERT INTO `sx_hospital` VALUES ('山西省芮城县大王医院', '110.564027,34.693207', '山西省', '运城市', '芮城县', '山西省运城市芮城县新兴曹风线大王镇中心卫生院');
INSERT INTO `sx_hospital` VALUES ('万荣福祯医院', '110.566621,35.360069', '山西省', '运城市', '万荣县', '福祯创伤骨科医院附近');

SET FOREIGN_KEY_CHECKS = 1; 
   
   如果该表没有主键运行一个map执行导入Hive的命令（如果Hive中没有存在对应的hive表，则会依据mysql 的表来创建对应的表，字段属性也跟mysql的一致） 
   
  导入成功： 
   
  

                            
                        
                    
                    
                    
                    
                    
                    
                
                
                    
                        
                        
                             
                        
                        
                        
                            
                        
                        
                        
                            
                        
                    
                
            
        
    
    
        你可能感兴趣的:(大数据学习笔记)
        
            
                
                    【大数据学习笔记】最全Python连接各种数据库及对应的CRUD操作
                        伊达
大数据Pythonpythonmysqldatabasesql
                        本文将详细探讨如何在Python中连接全种类数据库以及实现相应的CRUD（创建，读取，更新，删除）操作。我们将逐一解析连接MySQL，SQLServer，Oracle，PostgreSQL，MongoDB，SQLite，DB2，Redis，Cassandra，MicrosoftAccess，ElasticSearch，Neo4j，InfluxDB，Snowflake，AmazonDynamoDB，
                    
                    【大数据学习笔记】新手学习路线图
                        伊达
大数据大数据学习笔记
                        第1阶段-数据仓库基1.MysQL关系型数据库（MySQL介绍、MySQL安装、MySQL基础语法、MySQL高级语法、MySQL系统架构、MySQL存储引擎、MySQL索引、MySQL备份恢复、MySQL主从、主主复制、MySQL存储过程、MySQL分库分表、MySQL综合案例、MySQL性能优化）2.Python编程技术（Python基础语法、Python循环、Python集合、Python函
                    
                    大数据学习笔记——数据仓库hive重要的总结
                        新宿一次狼
大数据大数据
                        1、外部表和内部表Hive表分为两类，即内部表和外部表。所谓内部表，即Hive管理的表，Hive内部表的管理既包含逻辑以及语法上的，也包含实际物理意义上的，即创建Hive内部表时，数据将真实存在于表所在的目录内，删除内部表时，物理数据和文件也一并删除。外部表（externaltable）则不然，其管理仅仅是在逻辑和语法意义上的，即新建表仅仅是指向一个外部目录而已。同样，删除时也并不物理删除外部目录
                    
                    hadoop大数据学习笔记
                        驰宇爱吃鱼
学习笔记大数据hadoop学习
                        一、Hadoop的作用本质来说hadoop的作用是在多计算机集群环境中营造一个统一而稳定的存储和计算环境，并能为其他分布式应用服务提供平台支持。或者说将多台计算机组织成了一台计算机，让他们做同一件事，在这其中HDFS就相当于这台计算机的硬盘，而MapReduce就是这台计算机的CPU控制器。二、Hadoop环境部署按着正常来说我们想要部署Hadoop集群需要把相同的软件部署到众多计算机上，实际学习
                    
                    大数据学习笔记-MapReduce（一） 入门基础理论
                        天码村
大数据mapreduce大数据学习
                        1、HadoopMapReduce介绍mapreduce的思想：分而治之，先分再和，分而治之，把复杂的问题分解，然后逐个解决，分别计算出结果。拆分求解合并拆分求解合并原问题子问题子问题的解结果子问题子问题的解模拟实现分布式计算：分布式计算和集中式计算相对，有些应用需要非常巨大的算力才能完成，如果采用集中式计算，需要耗费比较长的时间，分布式计算应该将该应用分解成许多小的部分，分配给多台计算机进行处理
                    
                    大数据学习笔记
                        Try harder100
Hadoop大数据尚硅谷笔记总结
                        大数据技术之大数据概论第1章大数据概念大数据（BigData）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。按顺序给出数据存储单位：bit、Byte、KB、MB、GB、**TB、PB、EB、**ZB、YB、BB、NB、DB。1Byte=8bit1K=1024Byte1MB=10
                    
                    【大数据学习笔记-1】大数据hadoop平台基本组件
                        工匠小能手
相关概念和应用场景大数据
                        Hadoop是一个由Apache基金会所开发的分布式计算和存储架构。说人话的通俗描述：你在爱奇艺网站看过一次科幻片后，下次再登录爱奇艺，首页会把最新科幻动作片推送给你，目的是要向你多收点会员费。这背后的技术就是叫大数据的技术来自动判断你好什么口味的电影。行业描述：开源的分布式存储和计算框架，广泛用户海量数据的存储和处理，比如淘宝网的商品推送，爱奇艺视频的首页电影推送。Hadoop的主要组件：htt
                    
                    大数据学习笔记-HDFS（一）
                        天码村
大数据数据库hadoophdfs
                        目录1、企业存储系统1.1认识硬盘、RAID1.2存储架构1.3文件系统1.4文件系统的分类（按照位置）1.5海量数据存储面临的问题2、场景案例：如何实现分布式文件存储2.1如何解决海量数据存的下的问题2.2如何解决海量数据文件查询边界问题2.3如何解决大文件传输效率慢的问题2.4如何解决硬件故障导致的数据丢失问题2.5如何解决用户查询视角统一规整问题3、分布式文件系统HDFS入门3.1简介3.2
                    
                    【基础篇】大数据学习笔记（4）相关名词解释
                        风也醉

                        RAID：RedundantArraysofIndependentDrives独立冗余磁盘阵列，独立磁盘构成的具有冗余功能的阵列。GFS：GoogleFileSystemGoogle文件系统HDFS：HadoopDsitributedFileSystemHadoop分布式文件系统Zookeeper：分布式应用程序协调服务，是Hadoop和Hbase的重要组件Hadoop：Apache基金会所开发的
                    
                    2021年 全网最细大数据学习笔记（二）：Hadoop 伪分布式安装
                        Amo Xiang
大数据开发hadoop大数据linux
                        文章目录一、Linux操作系统的安装二、在Ubuntu20.04.2.0中进行Hadoop伪分布式安装1、Ubuntu20.04.2.0安装jdk2、配置SSH无密码登录3、Hadoop的下载与安装4、Hadoop环境配置5、启动与关闭Hadoop6、查看Hadoop的基本信息6.1、查看HDFSWeb界面6.2、查看YARNWeb界面三、在Centos7中进行Hadoop伪分布式安装一、Linu
                    
                    华为云hadoop伪分布式安装学习笔记（一）
                        我是夜阑的狗
大数据学习笔记hadoopjavaeclipse
                        所属专栏：【大数据学习笔记（华为云）】作  者：我是夜阑的狗个人简介：一个正在努力学技术的码仔，专注基础和实战分享，欢迎咨询！欢迎大家：这里是CSDN，我总结知识的地方，喜欢的话请三连，有问题请私信文章目录前言1.购买云ECS主机2.开发环境step1创建hadoop用户step2更新aptstep3安装最新版本的Javastep4配置SSH无密码登陆节点3.安装Hadoopstep1下载step
                    
                    大数据学习笔记-MapReduce（二） 深度
                        天码村
mapreduce大数据学习
                        深度了解MapReduce运行流程，通过案例全面了解MR运行过程、涉及的组件、设计的思想。对MapReducePartition、MapreduceCombiner、MapReduce编程技巧掌握，对自定义对象、序列化、排序、分区、分组的实现熟练掌握，掌握MapReduce并行度机制、工作流程和shuffle的机制。1、MapreducePartition、Combiner输出结果文件只有一个。默
                    
                    大数据学习笔记，学习清单
                        平凡天下
大数据学习笔记
                        大数据目前技术组件有很多，比如有hdfs,hive,spark,flink,kafka,clickhouse,cdh,nifi,streamset等等技术，主流的开发语言有Java，Scala，Python等等开发语言，大数据SQL必须要会，MySQL和hive，clickhouse等等SQL语言都要会，SQL语言必须要会而且要能随时写百行以上的SQL语言下面是我整理的学习笔记和大数据学习的基本路
                    
                    阿里云大学Apache Flink大数据学习笔记
                        Jmayday
Flink大数据flink学习
                        之前有看过一些基础的大数据课程，现在又回来发现这里的课程更新还是蛮快的，讲的内容干货也很多，继续学习一下，下面是一些主要内容说明。地址:https://developer.aliyun.com/learning/course/58?spm=a2c6h.17661847.0.0.3b266fb2aXVsbc第一节Flink中文社区发起人开课寄语内容介绍：1.大数据趋势2.ApacheFlink的介绍
                    
                    大数据学习笔记之flink----流式数据处理引擎
                        WRichards
大数据大数据flink
                        很多人可能都是在2015年才听到Flink这个词，其实早在2008年，Flink的前身已经是柏林理工大学一个研究性项目，在2014被Apache孵化器所接受，然后迅速地成为了ASF（ApacheSoftwareFoundation）的顶级项目之一。Flink的最新版本目前已经更新到了0.10.0了，在很多人感慨Spark的快速发展的同时，或许我们也该为Flink的发展速度点个赞。Flink是一个针
                    
                    大数据学习笔记1.3 Linux目录操作
                        zl202111
Linux大数据linux学习运维
                        Linux目录操作一、常用权限操作(一)、常用权限操作（1）chgrp命令（2）chown命令（3）chmod命令(二)、权限操作1、创建文件，设置其用户组2、修改文件的所有者3、修改文件所有者与用户组4、修改文件操作权限二、常用目录操作(一)、常用目录操作2、目录操作实战1、获取命令帮助信息2、查看当前目录3、显示目录（文件）4、创建目录创建多级目录方法一：采用参数-p直接创建方法二、逐层创建每
                    
                    北风网大数据学习笔记--java语言基础--初识JAVA--JAVA历史发展(1)
                        lrwliu

                        1.使用文本编辑器开发JAVA程序。建议刚开始学用文本编辑器，而不用IDE，IDE有补全功能方便很多。2.使用MyEclipse开发JAVA程序,真正用于企业写编程的软件。SUN公司，目前稳定的版本是java7JAVA平台的体系结构基础核心：JAVASEJAVAEEJAVAME-移动端应用–不在有人使用，因为安卓、IOS流行。JavaSE=JavaStandardEditionJavaEE=Jav
                    
                    大数据学习笔记2：现代数据湖之Iceberg
                        泊浮目

                        本文首发于泊浮目的：https://www.jianshu.com/u/204b8aaab8ba版本日期备注1.02021.6.20文章首发最近Iceberg有点小火，在这里也是根据自己看到的资料做个笔记输出一下。数据湖的定义就不说了，不了解的小伙伴可以看我之前做的笔记大数据学习笔记1：数仓、数据湖、数据中台。1.数据湖发展现状从广义上来说数据湖系统主要包括数据湖村处和数据湖分析现有数据湖技术主要
                    
                    大数据学习笔记-HDFS（三）——集群管理运维
                        天码村
大数据大数据hdfs学习
                        1、HDFS数据迁移解决方案1.1迁移方案——数据迁移的使用场景和考量因素场景冷热集群数据同步、分类存储使用频率较高的数据随着时间发展频率变低而迁移集群数据整体搬迁：原A机房搬迁到B机房数据的准实时同步：数据双备份使用考量因素带宽：带宽使用多了影像正常业务，带宽低了迁移慢性能：采用单机程序，还是多线程的分布式程序增量同步：TB\PB级别的数据如何只迁移增量数据数据迁移的同步性：数据迁移的过程需要保
                    
                    大数据学习笔记：Hadoop之HDFS（上）
                        值得一看的喵

                        HDFS（HadoopDistributedFileSystem）Hadoop分布式文件系统。是根据google发表的论文翻版的。分布式文件系统（DistributedFileSystem）是指文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。[优点]支持超大文件:超大文件在这里指的是几百M，几百GB，甚至几TB大小的文
                    
                    黑马大数据学习笔记5-案例
                        蓝净云
大数据大数据学习笔记
                        目录需求分析背景介绍目标需求数据内容DBeaver连接到Hive建库建表加载数据ETL数据清洗数据问题需求实现查看结果扩展指标计算需求需求指标统计可视化展示BIFineBI的介绍及安装FineBI配置数据源及数据准备可视化展示P73~77https://www.bilibili.com/video/BV1WY4y197g7?p=73需求分析背景介绍聊天平台每天都会有大量的用户在线，会出现大量的聊天
                    
                    黑马大数据学习笔记4-Hive部署和基本操作
                        蓝净云
大数据大数据学习笔记
                        目录思考规划安装MySQL数据库修改root用户密码配置Hadoop下载解压Hive提供MySQLDriver包配置Hive初始化元数据库启动Hive（使用Hadoop用户）Hive体验HiveServer2HiveServer2服务启动Beelinep48、51、52https://www.bilibili.com/video/BV1WY4y197g7/?p=48思考Hive是分布式运行的框架还
                    
                    大数据学习笔记
                        smilinggg
大数据flinksparkhadoop
                        大数据学习笔记一.概念1.传统数据处理架构2.有状态的流处理二.批处理与流处理1.批处理2.流处理三.大数据软件生态1.Hadoop2.Spark3.Flink一.概念大数据（BigData）指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。四个主要特征：Volume（数据量）数据量
                    
                    大数据学习笔记（一）
                        加油牛牛
bigdata学习大数据
                        一、大数据的概念无法再一定时间范围内用软件工具进行管理与处理的数据集合称之为大数据。大数据技术主要解决存储和分析计算问题.1.4V特征-A.Valume 大量 (KB->MB->GB->TB->PB->EB->ZB)-B.Velocity 高速 分布式技术(N台计算机同时运算.)-C.Variety  多样 (存储结构化数据与非结构化数据和半结构化数据)-D.Value   低价值密度2.结构化、
                    
                    大数据学习笔记-Yarn（二）
                        天码村
大数据大数据学习hadoop
                        YarnWebUI服务1.1yarnwenUI服务，http://RMHOST:8088打开页面，以列表的形式展示处于各种状态的各种程序以下参数指定UI地址UI页面的参数介绍（图片来源黑马程序员教程）1.2JobHistoryServer服务仅存储已经完成的Mapredyce应用程序的作业历史信息，当启用JHS服务时，建议开启日志聚合功能。配置mapreduce.jobhistory.addres
                    
                    大数据学习笔记-Yarn（一）
                        天码村
大数据大数据学习hadoopyarn
                        1、yarn产生和发展历史背景：数据、程序、运算资源三者组合在一起，才能完成数据的处理，单机不存在问题，但是分布式环境如何协调是一个问题。Hadoop早期用户使用Hadoop与众多主机上运行的桌面程序类似：在少了几个节点上建立一个集群、将数据载入HDFS、运行mapreduceHadoop演进阶段：Adhoc集群以单用户的方式建立，随着私人集群的使用实现了HDFS集群的共享，不同于HDFS，共享m
                    
                    黑马大数据学习笔记3-MapReduce配置和YARN部署以及基本命令
                        蓝净云
大数据大数据学习笔记
                        目录部署说明MapReduce配置文件YARN配置文件分发配置文件集群启动命令开始启动YARN集群查看YARN的WEBUI页面保存快照YARN集群的启停命令一键启动脚本单进程启停提交MapReduce任务到YARN执行提交wordcount示例程序查看运行日志提交求圆周率示例程序p41~43https://www.bilibili.com/video/BV1WY4y197g7/?p=41部署说明H
                    
                    黑马大数据学习笔记2-HDFS基本操作
                        蓝净云
大数据大数据学习笔记
                        目录进程启停管理一键启停脚本单进程启停文件系统操作命令HDFS文件系统基本信息介绍创建文件夹查看指定目录下内容上传文件到HDFS指定目录查看HDFS文件内容下载HDFS文件拷贝HDFS文件追加数据到HDFS文件HDFS数据移动HDFS数据删除其他命令HDFSWEB浏览HDFS权限修改权限https://www.bilibili.com/video/BV1WY4y197g7?p=26切换到hadoo
                    
                    黑马大数据学习笔记0-环境配置
                        蓝净云
大数据学习笔记
                        目录设置VMware网络CentOS操作系统三台虚拟机系统配置：主机名、固定IP、SSH免密登录配置主机名映射配置SSH免密登录创建hadoop用户并配置免密登录JDK1.8环境部署防火墙、SELinux、时间同步设置快照视频p3-p5https://www.bilibili.com/video/BV1WY4y197g7?p=3设置VMware网络网段设置为192.168.88.0网关设置为192
                    
                    黑马大数据学习笔记2-HDFS环境部署
                        蓝净云
大数据学习笔记
                        目录环境部署hadoop-3.3.4.tar.gz构建软链接配置workers文件夹配置hadoop-env.sh文件配置core-site.xml文件配置hdfs-site.xml文件准备数据目录分发Hadoop文件夹将Hadoop的一些脚本、程序配置到PATH中授权为hadoop用户格式化整个文件系统查看HDFSWEBUI保存快照https://www.bilibili.com/video/B
                    
                                LeetCode[位运算] - #137 Single Number II
                                    Cwind
javaAlgorithmLeetCode题解位运算
                                    原题链接：#137 Single Number II  
要求： 
给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素 
注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间 
  
难度：中等 
  
分析： 
与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
                                
                                《JavaScript语言精粹》笔记
                                    aijuans
JavaScript
                                    0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 
1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 
2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
                                
                                你应该更新的Java知识之常用程序库
                                    Kai_Ge
java
                                    在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 
Guava 
Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 
guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
                                
                                HttpClient
                                    120153216
httpclient
                                    /**
 * 可以传对象的请求转发，对象已流形式放入HTTP中
 */
public static Object doPost(Map<String,Object> parmMap,String url)
	{
		Object object = null;
		HttpClient hc = new HttpClient();
		
		String fullURL 
                                
                                Django model字段类型清单
                                    2002wmj
django
                                    Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段)  BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。  Cha
                                
                                在SQLSERVER中查找消耗CPU最多的SQL
                                    357029540
SQL Server
                                    返回消耗CPU数目最多的10条语句 
 
SELECT TOP 10 
   total_worker_time/execution_count AS avg_cpu_cost, plan_handle, 
   execution_count, 
   (SELECT SUBSTRING(text, statement_start_of
                                
                                Myeclipse项目无法部署，Undefined exploded archive location
                                    7454103
eclipseMyEclipse
                                    做个备忘！ 
 
错误信息为： 
      Undefined exploded archive location 
 
 
原因： 
          在工程转移过程中，导致工程的配置文件出错； 
 
 
解决方法： 
   
                                
                                GMT时间格式转换
                                    adminjun
GMT时间转换
                                    普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 
1、可以使用 
SimpleDateFormat SimpleDateFormat    
EEE-三位星期 
d-天 
MMM-月 
yyyy-四位年 

                                
                                Oracle数据库新装连接串问题
                                    aijuans
oracle数据库
                                    割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： 
Fatal NI connect error 12170. 
  VERSION INFORMATION:         TNS for Linux: Version 10.2.0.4.0 - Product
                                
                                回顾java数组复制
                                    ayaoxinchao
java数组
                                    在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
                                
                                java web会话监听并使用spring注入
                                    bewithme
Java Web
                                      
      在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 
       
import java.util.ArrayList;
import java.ut
                                
                                NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用)
                                    bijian1013
redis数据库NoSQL
                                    一 .Redis常用命令 
        Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 
        a.键值相关命令 
        b.服务器相关命令 
1.键值相关命令 
      &
                                
                                java枚举序列化问题
                                    bingyingao
java枚举序列化
                                    对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 
 
 
1.加一个枚举值 
新机器代码读分布式缓存中老对象，没有问题，不会抛异常。 
 
老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 
 
 
 
  2.删一个枚举值 
新机器代码读分布式缓存中老对象，反序列
                                
                                【Spark七十八】Spark Kyro序列化
                                    bit1129
spark
                                    当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 
 
 Spark
                                
                                Hybridizing OO and Functional Design
                                    bookjovi
erlanghaskell
                                      推荐博文：
Tell Above, and Ask Below - Hybridizing OO and Functional Design  
文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
                                
                                Java-Collections Framework学习与总结-HashMap
                                    BrokenDreams
Collections
                                            开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 
 &nb
                                
                                读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility
                                    bylijinnan
java设计模式
                                    声明： 本文只为方便我个人查阅和理解，详细的分析以及源代码请移步 原作者的博客http://chjavach.iteye.com/ 
 
 
 
 




/**
 * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请
 * bylijinnan
 */
abstract class Handler {
	/* 
                                
                                Android中启动外部程序
                                    cherishLC
android
                                    1、启动外部程序 
引用自： 
http://blog.csdn.net/linxcool/article/details/7692374 
 
//方法一
Intent intent=new Intent();
//包名 包名+类名（全路径）
intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
                                
                                summary_keep_rate
                                    coollyj
SUM
                                    
BEGIN  
      /*DECLARE  minDate varchar(20) ;
      DECLARE  maxDate varchar(20) ;*/
      DECLARE  stkDate varchar(20) ;

      DECLARE done int default -1; 
			/* 游标中 注册服务器地址 */  
      DE
                                
                                hadoop hdfs 添加数据目录出错
                                    daizj
hadoophdfs扩容
                                    由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 
 
2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
                                
                                grep 目录级联查找
                                    dongwei_6688
grep
                                           在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： 
grep -n -r "GET" . 
  
上面的命令将会找出当前目录“.”及当前目录中所有下级目录
                                
                                yii 修改模块使用的布局文件
                                    dcj3sjt126com
yiilayouts
                                    方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如:  'theme'=>'mythm',   那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；   如果未配置主题，那么 yii的模块就使用  protected/views/layouts 下的布局文件， 总之默认不是使用自身目录 pr
                                
                                设计模式之单例模式
                                    come_for_dream
设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
                                                    今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 
  
*********************************
                                
                                8、数组
                                    豆豆咖啡
二维数组数组一维数组
                                      
一、概念 
  
    数组是同一种类型数据的集合。其实数组就是一个容器。 
  
二、好处 
  
    可以自动给数组中的元素从0开始编号，方便操作这些元素 
  
三、格式 
  
//一维数组
1,元素类型[] 变量名 = new 元素类型[元素的个数]
int[] arr =
                                
                                Decode Ways
                                    hcx2013
decode
                                    A message containing letters from A-Z is being encoded to numbers using the following mapping: 
'A' -> 1
'B' -> 2
...
'Z' -> 26
 
Given an encoded message containing digits, det
                                
                                Spring4.1新特性——异步调度和事件机制的异常处理
                                    jinnianshilongnian
spring 4.1
                                    目录 
Spring4.1新特性——综述 
Spring4.1新特性——Spring核心部分及其他 
Spring4.1新特性——Spring缓存框架增强 
Spring4.1新特性——异步调用和事件机制的异常处理 
Spring4.1新特性——数据库集成测试脚本初始化 
Spring4.1新特性——Spring MVC增强 
Spring4.1新特性——页面自动化测试框架Spring MVC T
                                
                                squid3(高命中率)缓存服务器配置
                                    liyonghui160com

                                      
  
系统:centos 5.x 
  需要的软件:squid-3.0.STABLE25.tar.gz 
1.下载squid 
wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz 
tar zxf squid-3.0.STABLE25.tar.gz &&
                                
                                避免Java应用中NullPointerException的技巧和最佳实践
                                    pda158
java
                                    1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。   　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 
Object unk
                                
                                如何在Swift语言中创建http请求
                                    shoothao
httpswift
                                      
 概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。  
   
如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。 
在这里,我将作出一些建议来回答上述问题。常见的
                                
                                Spring事务的传播方式
                                    uule
spring事务
                                    传播方式：  
      新建事务 
      required 
      required_new   - 挂起当前 
  
      非事务方式运行 
      supports 
  &nbs
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.