章鱼哥TuNan&Z

Hadoop技术

一、Hadoop介绍

Hadoop是Apache旗下的一个用java语言实现开源软件的框架，是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。

狭义上说，Hadoop指Apache这款开源框架，它的核心组件有：

HDFS(分布式文件系统)：解决海量数据存储 MAPREDUCE(分布式运算编程框架)：解决海量数据计算 YARN(作业调度和集群资源管理的框架)：解决资源任务调度

广义上来说，Hadoop通常是指一个更广泛的概念-----Hadoop生态圈。

当下的Hadoop已经成长为一个庞大的体系，随着生态系统的成长，新出现的项目越来越多，其中不乏一些非Apache主管的项目，这些项目对HADOOP是很好的补充或者更高层的抽象。比如：

框架	用途
HDFS	分布式文件系统
MapReduce	分布式运算程序开发框架
ZooKeeper	分布式协调服务基础组件
HIVE	基于HADOOP的分布式数据仓库，提供基于SQL的查询数据操作
FLUME	日志数据采集框架
oozie	工作流调度框架
Sqoop	数据导入导出工具（比如用于mysql和HDFS之间）
Impala	基于hive的实时sql查询分析
Mahout	基于mapreduce/spark/flink等分布式运算框架的机器学习算法库

二、Hadoop发展简史

Hadoop是Apache Lucene创始人 Doug Cutting创建的。最早起源于Nutch，它是Lucene的子项目。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但是随着抓取网页数量的增加，遇到了严重的可扩展性问题：如何解决数十亿网页的存储和索引问题。

2003年Google发表了一篇论文为该问题提供了可行的解决方案。论文中描述的是谷歌的产品框架，该框架称为：谷歌分布式文件系统（GFS）,可以解决他们在网页爬取和索引过程中产生的超大文件的存储需求。

2004年 Google发表论文向全世界介绍了谷歌版的MapReduce系统。

同时期，以谷歌的论文为基础，Nutch的开发人员完成了响应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月，hadoop成为apache顶级项目，迎来了它的快速发展期。

2006年Google发表了论文是关于BigTable的，这促使了后来的Hbase的发展。

因此，Hadoop及其生态圈的发展离不开Google的贡献。

三、Hadoop特性优点

扩容能力（Scalable）：Hadoop是在可用的计算机集群间分配数据并完成计算任务的，这些集群可用方便的扩展到数以千计的节点中。

成本低（Economical）：Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据，以至于成本很低。

高效率（Efficient）：通过并发数据，Hadoop可以在节点之间动态并行的移动数据，使得速度非常快。

可靠性（Rellable）：能自动维护数据的多份复制，并且在任务失败后能自动地重新部署（redeploy）计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

四、Hadoop国内外应用

4.1Hadoop在国外应用的部分企业

1.Yahoo

Yahoo是Hadoop的最大支持者，Yahoo的Hadoop机器总节点数目已经超过42000个，有超过10万的核心CPU在运行Hadoop。最大的一个单Master节点集群有4500个节点（每个节点双路4核心CPUboxesw，4×1TB磁盘，16GBRAM）。总的集群存储容量大于350PB，每月提交的作业数目超过1000万个。

Yahoo的Hadoop应用主要包括以下几个方面：

支持广告系统
用户行为分析
支持web搜索
反垃圾邮件系统
个性化推荐

2．Facebook

主要用于存储内部日志的拷贝，作为一个源用于处理数据挖掘和日志统计。主要使用了2个集群：一个有1100台节点组成的集群，包括8800核CPU（即每台机器8核）,和12000TB的原始存储(即每台机器12T硬盘) 一个有300台节点组成的集群，包括2400核CPU（即每台机器8核），和3000TB的原始存储(即每台机器12T硬盘) 由此基础上开发了基于SQL语法的项目：HIVE 。

Facebook使用Hadoop集群的机器节点超过1400台，共计11200个核心CPU,超过15PB原始存储容量，每个商用机器节点配置了8核CPU,，12TB数据存储，主要使用StreamingAPI和JavaAPI编程接口。Facebook同时Hadoop基础上建立了一个名为Hive的高级数据仓库框架，Hive已经正式成为基于Hadoop的Apache一级项目。

3、IBM

IBM蓝云也利用Hadoop来构建云基础设施。IBM蓝云使用的技术包括：Xen和PowerVM虚拟化的Linux操作系统映像及Hadoop并行工作量调度，并发布了自己的Hadoop发行版及大数据解决方案。

4.2Hadoop在国内应用的部分企业

1.百度

Hadoop集群规模达到近十个，单集群超过2800台机器节点，Hadoop机器总数有上万台机器，总的存储容量超过100PB，已经使用的超过74PB，每天提交的作业数目有数千个之多，每天的输入数据量已经超过7500TB，输出超过1700TB。

百度的Hadoop集群为整个公司的数据团队、大搜索团队、社区产品团队、广告团队、以及LBS团体提供统一的计算和存储服务，主要应用包括：

数据挖掘与分析
日志分析平台
数据仓库系统
推荐引擎系统
用户行为分析系统

2.阿里巴巴

阿里巴巴的Hadoop集群大约有3200台服务器，大约30000物理CPU核心，总内存100TB，总的存储容量超过60PB，每天的作业数目超过150000个，每天hive的query查询大于6000个，每天扫描数据量约为7.5PB，每天扫描文件数约为4亿，存储利用率大约为80%，CPU利用率平均为65%，峰值可以达到80%。

Hadoop集群拥有150个用户组、4500个集群用户，为电子商务网络平台提供低层的基础计算和存储服务，主要应用包括：

数据平台系统
搜索支撑
电子商务数据
推荐引擎系统
搜索排行榜

3. 华为

华为对Hadoop做出贡献的公司之一，排在Google和Cisco的前面，华为对Hadoop的HA方案，以及HBase领域有深入研究，并已经向业界推出了自己的基于Hadoop的大数据解决方案。

4. 腾讯

TDW（Tencent distributed Data Warehouse，腾讯分布式数据仓库）基于开源软件Hadoop和Hive进行构建，打破了传统数据仓库不能线性扩展、可控性差的局限，并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。

TDW服务覆盖了腾讯绝大部分业务产品，单集群规模达到4400台，CPU总核数达到10万左右，存储容量达到100PB；每日作业数100多万，每日计算量4PB，作业并发数2000左右；实际存储数据量80PB，文件数和块数达到6亿多；存储利用率83%左右，CPU利用率85%左右。经过四年多的持续投入和建设，TDW已经成为腾讯最大的离线数据处理平台。TDW的功能模块主要包括：Hive、MapReduce、HDFS、TDBank、Lhotse等

五. Hadoop的历史版本和发行版公司

5.1Hadoop历史版本

1.x版本系列：hadoop版本当中的第二代开源版本，主要修复0.x版本的一些bug等，该版本已被淘汰

2.x版本系列：架构产生重大变化，引入了yarn平台等许多新特性，是现在使用的主流版本。

3.x版本系列：加入多namenode新特性，该版本是最新版本，但是还不太稳定。

5.2Hadoop发行版公司

Hadoop发行版本分为开源社区版和商业版。

社区版是指有Apache软件基金会维护的版本，是官方维护的版本体系。

商业版Hadoop是指由第三方商业公司在社区版Hadoop基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的版本，比较著名的有cloudera的CDH，mapR、hortonWorks等。

免费开源版本Apache:

http://hadoop.apache.org/

优点：拥有全世界的开源贡献者，代码更新迭代版本比较快。

缺点：版本的升级，版本的维护，版本的兼容性，版本的补丁都可能考虑不太周到，

apache所有软件的下载地址（包括各种历史版本）：

http://archive.apache.org/dist/

免费开源版本HortonWorks：

http://hadoop.apache.org/

hortonworks主要是雅虎主导Hadoop开发的副总裁，带领二十几个核心成员成立Hortonworks，核心产品软件HDP（ambari），HDF免费开源，并且提供一整套的web管理界面，供我们可以通过web界面管理我们的集群状态，web管理界面软件HDF网址（http://ambari.apache.org/），2018年，大数据领域的两大巨头公司Cloudera和Hortonworks宣布平等合并，Cloudera以股票方式收购Hortonworks，Cloudera股东最终获得合并公司60%的股份

软件收费版本Cloudera: CDH

https://www.cloudera.com/

cloudera主要是美国一家大数据公司在apache开源hadoop的版本上，通过自己公司内部的各种补丁，实现版本之间的稳定运行，大数据生态圈的各个版本的软件都提供了对应的版本，解决了版本的升级困难，版本兼容性等各种问题

本体系用的是Apache版的Hadoop，版本号为2.7.5

六. Hadoop架构

6.1.1.x的版本架构模型介绍

文件系统核心模块：

NameNode：集群当中的主节点，管理元数据（文本的大小，文件的位置，文本的权限），主要用于管理集群当中的各种数据。

SecondaryNameNode：主要能用于hadoop当中元数据信息的辅助管理。

DataNode：集群当中的从节点，主要用于存储集群当中的各种数据。

6.1. 2.x的版本架构模型介绍

第一种：NameNode与ResourceManager单节点架构模型

文件系统核心模块：

NameNode：集群当中的主节点，主要用于管理集群当中的各种数据

secondaryNameNode：主要能用于hadoop当中元数据信息的辅助管理

DataNode：集群当中的从节点，主要用于存储集群当中的各种数据

数据计算核心模块：

ResourceManager：接收用户的计算请求任务，并负责集群的资源分配

NodeManager:负责执行主节点APPmaster分配的任务

第二种：NameNode高可用与ResourceManager单节点架构模型

文件系统核心模块：

NameNode：集群当中的主节点，主要用于管理集群当中的各种数据，其中NameNode可以有两个，形成高可用状态。

DataNode:集群当中的从节点，主要用于存储集群当中的各种数据

JournalNode：文件系统元数据信息管理

数据计算核心模块：

ResourceManager：接收用户的计算请求任务，并负责集群的资源分配，以及计算任务的划分

NodeManager：负责执行主节点ResourceManager分配的任务

第三种：NameNode单节点与ResourceManager高可用架构模型

文

文件系统核心模块：

NameNode：集群当中的主节点，主要用于管理集群当中的各种数据

secondaryNameNode：主要能用于hadoop当中元数据信息的辅助管理（秘书）

DataNode：集群当中的从节点，主要用于存储集群当中的各种数据

数据计算核心模式：

ResourceManager：接收用户的计算请求任务，并负责集群的资源分配，以及计算任务的划分，通过zookeeper实现ResourceManager的高可用

NodeManager：负责执行主节点ResourceManager分配的任务

第四种：NameNode与ResourceManager高可用架构模型

文件系统核心模式：

NameNode：集群当中的主节点，主要用于管理集群当中的各种数据，一般都是两个，实现HA高可用

JournalNode：元数据信息管理进程，一般都是奇数个

DataNode：从节点，用于数据的存储

数据计算核心模块：

ResourceManager：Yarn平台的主节点，主要用于接收各种任务，通常两个，构建成高可用

NodeManager：Yarn平台的从节点，主要用于处理ResourceManager分配的任务

6.1.3.x的版本架构模型介绍

Hadoop3.x的基础框架和Hadoop2.x类似，但是Hadoop3.x加入很多新特性：如支持多NameNode，同时对HDFS和MapReduce也进行了优化。

七.hadoop集群搭建

7.1集群简介

HADOOP集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起。

HDFS集群负责海量数据的存储，集群中的角色主要有：

NameNode、DataNode、SecondaryNameNode

YARN集群负责海量数据运算时的资源调度，集群中的角色主要有：

ResourceManager、NodeManager

那mapreduce是什么呢？它其实是一个分布式运算编程框架，是应用程序开发包，由用户按照编程规范进行程序开发，后打包运行在HDFS集群上，并且受到YARN集群的资源调度管理。

7.2集群部署方式

Hadoop部署方式分为三种：

1.Standalone mode（独立模式）

独立模式又称为单机模式，仅1个机器运行1个java进程，主要用于调试。

2、Pseudo-Distributed mode（伪分布式模式）

伪分布模式也是在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager，但分别启动单独的java进程，主要用于调试。

3、Cluster mode（群集模式）

集群模式主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下，主节点和从节点会分开部署在不同的机器上。

搭建的是集群模式，以三台主机为例，以下是集群规划:

主机组件	node1 (192.168.88.161)	node2 (192.168.88.162)	node3 (192.168.88.163)
NameNode	是	否	否
Secondary Namenode	否	是	否
DataNode	是	是	是
ResourceManager	是	否	否
NodeManager	是	是	是

7.3. 集群环境准备

集群模式主要用于生产环境部署，需要多台主机，并且这些主机之间可以相互访问，我们在之前搭建好基础环境的三台虚拟机上进行Hadoop的搭建。

7.4. hadoop重新编译

7.4.1. 为什么要编译hadoop

由于appache给出的hadoop的安装包没有提供C程序访问的接口，所以我们在使用本地库（本地库可以用来做压缩，以及支持C程序等等）的时候就会出现问题，需要对Hadoop源码包进行重新编译，请注意，资料中已经提供好了编译过的Hadoop安装包，所以这一部分的操作，了解即可。

7.4.2Hadoop编译实现

Hadoop的编译步骤可以参考:1_Hadoop编译文档.docx文档

7.5. Hadoop安装

7.5.1Hadoop安装包目录结构

解压hadoop-2.7.5.tar.gz，目录结构如下：

bin：Hadoop最基本的管理脚本和使用脚本的目录，这些脚本是sbin目录下管理脚本的基础实现，用户可以直接使用这些脚本管理和使用Hadoop。

etc：Hadoop配置文件所在的目录，包括core-site,xml、hdfs-site.xml、mapred-site.xml等从Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。

include：对外提供的编程库头文件（具体动态库和静态库在lib目录中），这些头文件均是用C++定义的，通常用于C++程序访问HDFS或者编写MapReduce程序。

lib：该目录包含了Hadoop对外提供的编程动态库和静态库，与include目录中的头文件结合使用。

libexec：各个服务对用的shell配置文件所在的目录，可用于配置日志输出、启动参数（比如JVM参数）等基本信息。

sbin：Hadoop管理脚本所在的目录，主要包含HDFS和YARN中各类服务的启动/关闭脚本。

share：Hadoop各个模块编译后的jar包所在的目录，官方自带示例。

7.5.2Hadoop配置文件修改

Hadoop安装主要就是配置文件的修改，一般在主节点进行修改，完毕后scp下发给其他各个从节点机器。

注意,以下所有操作都在node1主机进行。

7.5.2.1. hadoop-env.sh

1、介绍

文件中设置的是Hadoop运行时需要的环境变量。JAVA_HOME是必须设置的，即使我们当前的系统中设置了JAVA_HOME，它也是不认识的，因为Hadoop即使是在本机上执行，它也是把当前的执行环境当成远程服务器。

2、配置

 cd  /export/server/hadoop-2.7.5/etc/hadoop
 vim  hadoop-env.sh

添加以下内容：

 export JAVA_HOME=/export/server/jdk1.8.0_241

7.5.2.2. core-site.xml

1、介绍

hadoop的核心配置文件，有默认的配置项core-default.xml。

core-default.xml与core-site.xml的功能是一样的，如果在core-site.xml里没有配置的属性，则会自动会获取core-default.xml里的相同属性的值。

2、配置

在该文件中的标签中添加以下配置,

在这里添加配置

 cd  /export/server/hadoop-2.7.5/etc/hadoop
 vim  core-site.xml

配置内容如下:

 
      
             fs.defaultFS
             hdfs://node1:8020
      
 
  
            hadoop.tmp.dir
            /export/server/hadoop-2.7.5/hadoopDatas/tempDatas
     
 
      
            io.file.buffer.size
            4096
      
 
      
            fs.trash.interval
            10080

7.5.2.3.hdfs-site.xml

1、介绍

HDFS的核心配置文件，主要配置HDFS相关参数，有默认的配置项hdfs-default.xml。

hdfs-default.xml与hdfs-site.xml的功能是一样的，如果在hdfs-site.xml里没有配置的属性，则会自动会获取hdfs-default.xml里的相同属性的值。

2、配置

在该文件中的标签中添加以下配置,

在这里添加配置

 cd  /export/server/hadoop-2.7.5/etc/hadoop
 vim  hdfs-site.xml

配置一下内容

 
 
         dfs.namenode.secondary.http-address
         node2:50090
 
 
 
     dfs.namenode.http-address
     node1:50070
 
 
 
     dfs.namenode.name.dir
     file:///export/server/hadoop-2.7.5/hadoopDatas/namenodeDatas
 
 
 
     dfs.datanode.data.dir
     file:///export/server/hadoop-2.7.5/hadoopDatas/datanodeDatas
  
 
 
     dfs.namenode.edits.dir
     file:///export/server/hadoop-2.7.5/hadoopDatas/nn/edits
 
 
 
 
     dfs.namenode.checkpoint.dir
     file:///export/server/hadoop-2.7.5/hadoopDatas/snn/name
 
 
 
     dfs.namenode.checkpoint.edits.dir
     file:///export/server/hadoop-2.7.5/hadoopDatas/dfs/snn/edits
 
 
 
     dfs.replication
     3
 
 
 
 
     dfs.permissions
     false
 
 
 
     dfs.blocksize
     134217728
 
 
 
           dfs.hosts 
          /export/server/hadoop-2.7.5/etc/hadoop/slaves

7.5.2.4. mapred-site.xml

1、介绍

MapReduce的核心配置文件，Hadoop默认只有个模板文件mapred-site.xml.template,需要使用该文件复制出来一份mapred-site.xml文件

2、配置

 cd  /export/server/hadoop-2.7.5/etc/hadoop
 cp mapred-site.xml.template mapred-site.xml

在mapred-site.xml文件中的标签中添加以下配置,

在这里添加配置

 vim  mapred-site.xml

配置一下内容:

     
     
             mapreduce.framework.name
             yarn
     
 
     
     
         mapreduce.job.ubertask.enable
         true
     
     
     
     
         mapreduce.jobhistory.address
         node1:10020
     
 
     
     
         mapreduce.jobhistory.webapp.address
         node1:19888

7.5.2.5. mapred-env.sh

在该文件中需要指定JAVA_HOME,将原文件的JAVA_HOME配置前边的注释去掉，然后按照以下

方式修改:

 cd  /export/server/hadoop-2.7.5/etc/hadoop
 vim  mapred-env.sh
 export JAVA_HOME=/export/server/jdk1.8.0_241

7.5.2.6. yarn-site.xml

YARN的核心配置文件,在该文件中的标签中添加以下配置,

在这里添加配置

 cd  /export/server/hadoop-2.7.5/etc/hadoop
 vim  yarn-site.xml

添加以下配置：

 
     
         yarn.resourcemanager.hostname
         node1
     
 
     
         yarn.nodemanager.aux-services
         mapreduce_shuffle
     
     
     
     
         yarn.log-aggregation-enable
         true
     
     
     
         yarn.log-aggregation.retain-seconds
         604800
     
     
     
         yarn.nodemanager.resource.memory-mb    
         2048
     
       
              yarn.scheduler.minimum-allocation-mb
             2048
     
     
         yarn.nodemanager.vmem-pmem-ratio
         2.1

7.5.2.7. slaves

1、介绍

slaves文件里面记录的是集群主机名。一般有以下两种作用：

一是：配合一键启动脚本如start-dfs.sh、stop-yarn.sh用来进行集群启动。这时候slaves文件里面的主机标记的就是从节点角色所在的机器。

二是：可以配合hdfs-site.xml里面dfs.hosts属性形成一种白名单机制。

dfs.hosts指定一个文件，其中包含允许连接到NameNode的主机列表。必须指定文件的完整路径名,那么所有在slaves中的主机才可以加入的集群中。如果值为空，则允许所有主机。

1、配置

 cd  /export/server/hadoop-2.7.5/etc/hadoop
 vim  slaves

删除slaves中的localhost，然后添加以下内容:

 node1
 node2
 node3

7.5.3 数据目录创建和文件分发

注意,以下所有操作都在node1主机进行。

1、目录创建

创建Hadoop所需目录

 mkdir -p /export/server/hadoop-2.7.5/hadoopDatas/tempDatas
 mkdir -p /export/server/hadoop-2.7.5/hadoopDatas/namenodeDatas
 mkdir -p /export/server/hadoop-2.7.5/hadoopDatas/datanodeDatas
 mkdir -p /export/server/hadoop-2.7.5/hadoopDatas/nn/edits
 mkdir -p /export/server/hadoop-2.7.5/hadoopDatas/snn/name
 mkdir -p /export/server/hadoop-2.7.5/hadoopDatas/dfs/snn/edits

2、文件分发

将配置好的Hadoop目录分发到node2和node3主机。

  scp -r /export/server/hadoop-2.7.5/ node2:/export/server/
  scp -r /export/server/hadoop-2.7.5/ node3:/export/server/

7.5.4配置Hadoop的环境变量

注意，三台机器都需要执行以下命令

 vim  /etc/profile

添加以下内容:

 export HADOOP_HOME=/export/server/hadoop-2.7.5
 export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

配置完成之后生效

 source /etc/profile

7.5.5 启动集群

7.5.5.1. 启动方式

要启动Hadoop集群，需要启动HDFS和YARN两个集群。

注意：首次启动HDFS时，必须对其进行格式化操作。本质上是一些清理和准备工作，因为此时的HDFS在物理上还是不存在的。

在node1上执行格式化指令

 hadoop namenode -format

7.5.5.2. 单节点逐个启动

在node1主机上使用以下命令启动HDFS NameNode：

 hadoop-daemon.sh start namenode

在node1、node2、node3三台主机上，分别使用以下命令启动HDFS DataNode：

 hadoop-daemon.sh start datanode

在node1主机上使用以下命令启动YARN ResourceManager：

 yarn-daemon.sh  start resourcemanager

在node1、node2、node3三台主机上使用以下命令启动YARN nodemanager：

 yarn-daemon.sh start nodemanager

以上脚本位于/export/server/hadoop-2.7.5/sbin目录下。如果想要停止某个节点上某个角色，只需要把命令中的start改为stop即可。

7.5.5.3. 脚本一键启动

启动HDFS

 start-dfs.sh

启动Yarn

 start-yarn.sh

启动历史任务服务进程

 mr-jobhistory-daemon.sh start historyserver

启动之后，使用jps命令查看相关服务是否启动，jps是显示Java相关的进程命令。

node1：

node2：

node3

停止集群：stop-dfs.sh、stop-yarn.sh、mr-jobhistory-daemon.sh stophistoryserver

注意:如果在启动之后，有些服务没有启动成功，则需要查看启动日志，Hadoop的启动日志在每台主机的/export/server/hadoop-2.7.5/logs/目录，需要根据哪台主机的哪个服务启动情况去对应的主机上查看相应的日志，以下是node1主机的日志目录.

7.5.6. 集群的页面访问

7.5.6.1. IP访问

一旦Hadoop集群启动并运行，可以通过web-ui进行集群查看，如下所述：

查看NameNode页面地址:

http://192.168.88.161:50070/

查看Yarn集群页面地址:

http://192.168.88.161:8088/cluster

查看MapReduce历史任务页面地址:

http://192.168.88.161:19888/jobhistory

7.5.6.2. 主机名访问

请注意，以上的访问地址只能使用IP地址，如果想要使用主机名，则对Windows进行配置。

配置方式:

1、打开Windows的C:\Windows\System32\drivers\etc目录下hosts文件

2、在hosts文件中添加以下域名映射

 192.168.88.161  node1  node1.itcast.cn
 192.168.88.162  node2  node2.itcast.cn
 192.168.88.163  node3  node3.itcast.cn

配置完之后，可以将以上地址中的IP替换为主机名即可访问，如果还不能访问，则需要重启Windows电脑，比如访问NameNode，可以使用http://node1:50070/ 。

7.5.7. Hadoop初体验

7.5.7.1. HDFS使用

1、从Linux本地上传一个文本文件到hdfs的/目录下

 #在/export/data/目录中创建a.txt文件，并写入数据
 cd /export/data/
 touch a.txt
 echo "hello" > a.txt 
 
 #将a.txt上传到HDFS的根目录
 hadoop fs -put a.txt  /

1、通过页面查看

通过NameNode页面.进入HDFS：http://node1:50070/

查看文件是否创建成功.

http://node3:8088/

7.5.7.2. 运行mapreduce程序

在Hadoop安装包的share/hadoop/mapreduce下有官方自带的mapreduce程序。我们可以使用如下的命令进行运行测试。

示例程序jar:

hadoop-mapreduce-examples-2.7.5.jar

计算圆周率

 hadoop jar /export/server/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar pi 2 10

关于圆周率的估算，感兴趣的可以查询资料蒙特卡洛方法来计算Pi值，计算命令中2表示计算的线程数，50表示投点数，该值越大，则计算的pi值越准确。

你可能感兴趣的:(#,hadoop,mapreduce,hadoop,hdfs)

hbase无法建表：org.apache.hadoop.hbase.PleaseHoldException: Master is initializing magicchu CDH HBASE 大数据
1.环境：cdh6.2.12.现象：hbaseshell进去后，list命令执行正常，执行建表语句后报错：ERROR:org.apache.hadoop.hbase.PleaseHoldException:Masterisinitializing提示master正在初始化中，查看master日志：WARNorg.apache.hadoop.hbase.master.HMaster:hbase:na
java.io.FileNotFoundException: /tmp/log/flume-ng/flume.log (Permission denied) 海洋之心 Flume问题解决 Hadoop问题解决 java flume 开发语言 zookeeper 大数据
文章目录问题描述：原因分析：解决方案：问题描述：使用Flume将本地文件监控上传到HDFS上时出现log4j:ERRORsetFile(null,true)callfailed.java.io.FileNotFoundException:/tmp/log/flume-ng/flume.log(Permissiondenied)log4j:ERRORsetFile(null,true)callfai
HDFS分布式文件系统3-2 shell定期采集数据到HDFS 诺特兰德 hdfs hadoop 大数据
1、准备工作创建目录：/export/data/logs/log/export/data/logs/toupload2、在/export/data/logs目录下创建upload2HDFS.sh内容如下：#!/bin/bashexportJAVA_HOME=/export/servers/jdkexportJRE_HOME=$JAVA_HOME/jreexportCLASSPATH=.:JAVA_
Hive 整合 Spark 全教程（Hive on Spark）字节全栈_rJF hive spark hadoop
hadoop.proxyuser.luanhao.groups*hadoop.proxyuser.luanhao.groups*2）HDFS配置文件配置hdfs-site.xmldfs.namenode.http-addressBigdata00:9870dfs.namenode.secondary.http-addressBigdata00:9868dfs.replication13）YARN配
spark和python的区别_Spark入门(Python) weixin_39934257 spark和python的区别
Spark是第一个脱胎于该转变的快速、通用分布式计算范式，并且很快流行起来。Spark使用函数式编程范式扩展了MapReduce模型以支持更多计算类型，可以涵盖广泛的工作流，这些工作流之前被实现为Hadoop之上的特殊系统。Spark使用内存缓存来提升性能，因此进行交互式分析也足够快速(就如同使用Python解释器，与集群进行交互一样)。缓存同时提升了迭代算法的性能，这使得Spark非常适合数据理
spark python入门_python pyspark入门篇 weixin_39686634 spark python入门
一.环境介绍：1.安装jdk7以上2.python2.7.113.IDEpycharm4.package:spark-1.6.0-bin-hadoop2.6.tar.gz二.Setup1.解压spark-1.6.0-bin-hadoop2.6.tar.gz到目录D:\spark-1.6.0-bin-hadoop2.62.配置环境变量Path，添加D:\spark-1.6.0-bin-hadoop2
HBase Shell基本操作 wanglingli95 大数据开发 hbase 数据库大数据
一、进入HbaseShell客户端先在LinuxShell命令行终端执行start-dfs.sh脚本启动HDFS，再执行start-hbase.sh脚本启动HBase。如果Linux系统已配置HBase环境变量，可直接在任意目录下执行hbaseshell脚本命令，就可进入HBaseShell的命令行终端环境，exit可以退出HBaseShell（我安装的是伪分布式的HBase）。（1）help帮助
安装HBase-2.4.12 (hadoop3.3.1) 不饿同学大数据 hbase big data hadoop
1.下载https://www.apache.org/dyn/closer.lua/hbase/2.4.12/hbase-2.4.12-bin.tar.gz节点角色配置节点MasterZooKeeperRegionServernode001yesyesyesnode002backupyesyesnode003noyesyes2.解压下载的文件，并切换到新创建的目录。(base)[root@node
Hadoop--HA架构详解娘子，出来看上帝 Hadoop Hadoop 大数据 HA
一、HA架构工作背景HDFS集群中的nameNode存在单点故障因素。对于只有一个nameNode工作的集群来说，一旦nameNode出现意外情况，会导致整个集群无法工作，直到nameNode重新启动。为了解决上述问题，Hadoop给出了高容错，高可用的HA方案：一个HDFS集群至少存在两个nameNode，一个nameNode处在active（主）状态，其他nameNode处在standby（备
Hadoop HA 架构 weixin_30569033 shell 大数据
为什么要用集群?企业里面,多台机器伪分布式每一个角色都是一个进程HDFS:NNSNNDNYARN:RMNM大数据所有组件,都是主从架构master-slaveHDFS读写请求都是先到NN节点,但是,HBase读写请求不是经过master,建表和删除表是需要经过masterNN节点挂了,就不能提供对外服务(-put,-get)需要配置两个NN节点(实时的,任何时刻只有一台active对外,另外一台是
hive表指定分区字段搜索_Hive学习-Hive基本操作（建库、建表、分区表、写数据）... weixin_39710660 hive表指定分区字段搜索
hive简单认识Hive是建立在HDFS之上的数据仓库，所以Hive的数据全部存储在HDFS上。Hive的数据分为两部分，一部分是存在HDFS上的具体数据，一部分是描述这些具体数据的元数据信息，一般Hive的元数据存在MySQL上。Hive是类SQL语法的数据查询、计算、分析工具，执行引擎默认的是MapReduce，可以设置为Spark、Tez。Hive分内部表和外部表，外部表在建表的同时指定一个
【hadoop学习之路】Hive HQL 语句实现查询新世纪debug战士 hadoop学习之路 hive
目录表数据表1students_data.txt表2course.txt实验步骤结论表数据表1students_data.txt21434,Sara,F,21,20,73,classC41443,Mary,M,19,30,90,classA43333,Dery,F,20,40,85,classB45454,Mary,F,22,10,91,classA14634,Henry,M,18,50,56,c
HDFS总结 ChenJieYaYa Hadoop hdfs hadoop big data
基于前面的学习与配置，相信对于HDFS有了一定的了解HDFS概述1.什么是HDFSHadoopDistributedFileSystem：分步式文件系统HDFS是Hadoop体系中数据存储管理的基础HDFS是基于流数据模式访问和处理超大文件的需求而开发的1.流式数据：将数据序列化为字节流来存储，这样不会破坏文件的结构和内容，而且字节流直接存储在磁盘上，可以分片或分块2.当超大规模的文件本身就已经超
11 Spark面试真题 TTXS123456789ABC #Spark spark 面试大数据
11Spark大厂面试真题1.通常来说，Spark与MapReduce相比，Spark运行效率更高。请说明效率更高来源于Spark内置的哪些机制？2.hadoop和spark使用场景？3.spark如何保证宕机迅速恢复?4.hadoop和spark的相同点和不同点？5.RDD持久化原理？6.checkpoint检查点机制？7.checkpoint和持久化机制的区别？8.RDD机制理解吗？9.Spa
【详细讲解】hive优化 songqq27 大数据 hive
1、开启本地模式大多数的HadoopJob是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过，有时Hive的输入数据量是非常小的。在这种情况下，为查询触发执行任务消耗的时间可能会比实际job的执行时间要多的多。对于大多数这种情况，Hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集，执行时间可以明显被缩短。用户可以通过设置hive.exec.mode.local.auto的值
大数据毕业设计hadoop+spark+hive豆瓣图书数据分析可视化大屏豆瓣图书爬虫图书推荐系统 qq_79856539 javaweb java 大数据 hadoop 课程设计
系统总体目标基于Spark的个性化书籍推荐系统是一种基于大数据技术的智能推荐系统，它可以根据用户的历史行为和偏好，为用户提供个性化的书籍推荐。该系统采用Spark技术，可以实现大数据的实时处理，从而提高推荐系统的准确性和可靠性。此外，该系统还可以根据用户的习惯和偏好，提供更加个性化的书籍推荐，从而满足用户的需求。系统的使用者包含普通用户和管理员两类，普通用户是系统的主要服务对象，主流人群是经常查看
HDFS读写流程金州饿霸 Hadoop Big Data hdfs hadoop 大数据
因为namenode维护管理了文件系统的元数据信息，这就造成了不管是读还是写数据都是基于NameNode开始的，也就是说NameNode成为了HDFS访问的唯一入口。入口地址是：http://nn_host:8020。一、写数据流程1.1Pipeline管道、ACK应答响应Pipeline，中文翻译为管道。这是HDFS在上传文件写数据过程中采用的一种数据传输方式。客户端将数据块写入第一个数据节点，
HDFS读写流程（全面深入理解） AnAn-66. hadoop hdfs 面试 hadoop
1、HDFS写流程（1）客户端通过对FileSystem.create()对象创建建文件，DistributedFileSystem会创建输出流FSDataOutputStream。（2）DistributedFileSystem通过RPC远程调用名称节点，在文件系统的命名空间中创建一个新的文件，此时该文件中还没有相应的数据块。（3）名称节会执行一些检查，比如文件是否已经存在、客户端是
HDFS的读写流程熊與猫v 大数据 hadoop big data
一，HDFS的读写流程1.hdfs的写入流程文上传流程如下：创建文件：①HDFSclient向HDFS写入数据，先调用DistributedFileSystem.create()②RPC调用namenode的create()，会在HDFS目录树中指定的路径，添加新文件；并将操作记录在edits.log中namenode.create()方法执行完后，返回一个FSDataOutputStream，它
HDFS的读写流程步骤（附图文解析） m0_67265464 面试学习路线阿里巴巴 hdfs hadoop 大数据面试 intellij-idea
1、HDFS的写入流程：详细步骤：client发起文件上传请求，通过RPC与NameNode建立通讯，NameNode检查目标文件是否已存在，父目录是否存在，返回是否可以上传；client请求第一个block该传输到哪些DataNode服务器上；NameNode根据配置文件中指定的备份数量及副本放置策略进行文件分配，返回可用的DataNode的地址，如：A，B，C；client请求3台DataNo
hdfs的读写流程披星戴月的蝈蝈 hadoop面试题 hdfs hadoop 大数据
1.hdfs写数据面试回答方式1、客户端向NameNode发起上传请求2、NameNode进行权限检查，如果没有问题，返回可以上传通知3、客户端将文件切分多个block，并上传第一个block，NameNode返回主机列表4、客户端开始和对应的主机建立关联，开始上传第一个block及它的副本5、上传完第一个之后，接着上传剩余的block及副本，上传完成之后，由NameNode更新元数据2.hdfs
HDFS安全模式哒啵Q297 hdfs hadoop 大数据
当hdfs集群启动的时候，由于要做很多的事情，这期间集群进入了安全模式离开安全模式的条件：NameNode启动后会进入一个称为安全模式的特殊状态。处于安全模式的NameNode对于客户端来说是只读的。NameNode从所有的DataNode接收心跳信号和块状态报告（blockreport）每个数据块都有一个指定的最小副本数（dfs.replication.min），当NameNode检测确认某个数
python 分布式集群_Python搭建Spark分布式集群环境小国阁下 python 分布式集群
前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark最大的特点就是快，可比HadoopMapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群，同样适用于搭建Spark1.6.2
Hadoop错误: put: Lease mismatch on ... by DFSClient_NONMAPREDUCE_-499992815_1.... 学习总结星月情缘02 ETL技术 Hadoop hdfs租约 hadoop错误
错误总结分享:使用了hadoop挺长时间了，多数人应该很熟悉它的特点了吧，但是今天突然遇到个错误，从来没见过，一时自己也想不到是什么原因，就在网上查了一些资料，得到了解决的办法，再次分享一下。过程:使用kettle数据清洗工具在进行同步任务的过程中，最后数据是被加载到hdfs的，这里用shell脚本实现，hdfsdfs-put-r/hdfs的目录。结果程序执行到这一步的时候报错了。错误描述就是文章
一图看懂 HBase 架构（全面详细） BigData_Hubert 大数据 hbase hadoop hbase 组件架构大数据
HBase一图看懂HBase架构HBase最常用的shell操作HBase工作机制及读写流程HBase架构HBase前言HBase简介什么是HBaseHBase特点NoSQL与RDBMS对比HBase生态圈技术HBase架构Client客户端ZooKeeper集群协调一致性服务HMaster节点HRegionServer节点HDFSHBase组件整体物理结构RegionWALStoreFile（H
Hadoop3.3.4伪分布式环境搭建凡许真分布式 hadoop 伪分布式 hadoop3.3.4
文章目录前言一、准备1.下载Hadoop2.配置环境变量3.配置免密二、Hadoop配置1.hadoop-env.sh2.hdfs-site.xml3.core-site.xml4.mapred-site.xml5.yarn-site.xml三、格式化四、启动五、访问web页面前言hadoop学习——伪分布式环境——普通用户搭建一、准备1.下载Hadoop2.配置环境变量vi~/.bash_pro
Hadoop HA 格式化NameNode 顺序凡许真 hadoop 大数据分布式 HA
文章目录前言一、启动JournalNode二、格式化NameNode1.执行格式化命令2.启动namenode3.执行格式化命令4.启动namenode其他前言记录搭建HadoopHA架构时格式化namenode问题一、启动JournalNode分别启动JournalNode，命令如下hadoop-daemon.shstartjournalnode二、格式化NameNode1.执行格式化命令找其中
Hive存储系统全面测试报告蚂蚁质量软件测试测试用例功能测试
引言在大数据时代，数据存储和处理技术的重要性日益凸显。ApacheHive作为一个基于Hadoop的数据仓库工具，因其能够提供类SQL查询功能（HiveQL）而广受欢迎。Hive的设计初衷是为了简化大数据集的查询和管理，它允许用户通过简单的SQL语句来操作存储在Hadoop分布式文件系统（HDFS）上的大规模数据集。然而，随着数据量的激增和业务需求的多样化，Hive存储系统的功能、性能和安全性面临
window10下编译hadoop报错：Failed to execute goal org.apache.maven.plugins:maven-antrun-plugin:1.7: huangxgc hadoop hadoop windows
Windows10下buildhadoop2.7.3报错：Failedtoexecutegoalorg.apache.maven.plugins:maven-antrun-plugin:1.7:[ERROR]Failedtoexecutegoalorg.apache.maven.plugins:maven-antrun-plugin:1.7:run(dist)onprojecthadoop-hdf
图文详解 MapReduce on YARN Shockang 大数据技术体系大数据 mapreduce yarn
前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文权威版本——《Hadoop权威指南第3版》1.作业提交MRrunJob从RM获取新的作业ID作业客户端检査作业的输出说明，计算输入分片并将作业资源(包括作业JAR、配置和分片信息)复制到HDFS。通过调用R
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S