luckymelina

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

1 软件环境：

VMware8.0

Ubuntu-12.10-desktop-i386

jdk-7u40-linux-i586.tar.gz

hadoop-1.2.1.tar.gz

eclipse-dsl-juno-SR1-linux-gtk.tar.gz

hadoop-eclipse-plugin-1.2.1.jar

apache-maven-2.2.1-bin.tar.gz

hbase-0.94.11.tar.gz

hive-0.10.0.tar.gz

mahout-distribution-0.8.tar.gz

apache-tomcat-7.0.42.tar.gz

apache-nutch-1.2-bin.tar.gz

solr-4.4.0.tgz

2 角色配置：

master节点：master

slave节点：slave01

3 Hadoop完全分布式集群配置

3.1 下载安装JDK

3.1.1 下载jdk-7u40-linux-i586.tar.gz

3.1.2 在/usr/下新建文件夹java

$cd /usr

$sudo mkdir java

3.1.3 解压jdk-7u40-linux-i586.tar.gz在java文件夹下

3.1.4 配置环境变量

$sudo gedit /etc/profile //在最后加入

export JAVA_HOME=/usr/java/jdk1.7.0_40

export JRE_HOME=/usr/java/jdk1.7.0_40/jre

exportPATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

exportCLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JRE_HOME/lib

source /etc/profile //使环境变量生效

3.1.5 修改系统默认的jdk

$sudo update-alternatives --install/usr/bin/java java /usr/java/jdk1.7.0_40/bin/java 300

$sudo update-alternatives --install/usr/bin/javac javac /usr/java/jdk1.7.0_40/bin/javac 300

$sudoupdate-alternatives --config java

$sudoupdate-alternatives --config javac

3.1.6 检查安装是否成功

$java-version

3.2 SSH安装及设置

通过ssh安全协议master与slaves之间进行通信，实现hadoop完全分布式部署。

3.2.1 ifconfig 查看主机ip：

这里：

master：10.10.20.103

slave01：10.10.20.101

3.2.2在hosts文件中加上集群中所有机器的IP地址及其对应的主机名

在namenode（这里为master）上：$ sudo gedit /etc/hosts

127.0.0.1 localhost

10.10.20.103 master

10.10.20.101 slave01

3.2.3 ping测试

每台机器互ping ip地址和主机名，看是否可以ping通。

3.2.4 安装设置ssh（说明:每台电脑上都要安装ssh）

3.2.4.1在namenode（master）上：

$ sudo apt-get install ssh //安装ssh（这步在每台电脑上都要执行！）

$ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa//生成密钥(这里密码为空）文件如：id_dsa id_dsa.pub

$cat ~/.ssh/id_dsa.pub >>~/.ssh/authorized_keys //加入受信列表

$ ssh localhost 或者 ssh master　　//第一次需输入"yes"，成功就能无密码访问这个是进行的本地测试

3.2.4.2把master上的id_dsa.pub 文件追加到slave01的authorized_keys 内：

拷贝master的id_dsa.pub文件到slave01：

$ scp id_dsa.pub hadoop@slave01:/home/hadoop/Desktop

//如果拷贝到其它目录下，可能会出现permission denied错误，如拷贝到home下，这是因为其它用户没有写权限

3.2.4.3在datanode（这里为slave01）上：

进入/home/hadoop/Desktop目录执行：

$ cat id_dsa.pub >> .ssh/authorized_keys

//可以在master上不输入密码直接访问slave01

说明：1、若要实现datanode无密码访问namenode，只需按照上面的步骤将datanode的*.pub文件复制到namenode上，并追加到authorized_keys中

3.3安装hadoop

注意：由于Hadoop要求所有机器上hadoop的部署目录结构要相同，并且都有一个相同的用户名的帐户。

我的为：/usr/hadoop/

3.3.1在namenode上

cd /usr/hadoop

tar -xzvf hadoop-1.2.1.tar.gz //将压缩包解压到/usr/hadoop/hadoop-1.2.1

配置hadoop-1.2.1/conf 下的 hadoop-env.sh文件将 # exportJAVA_HOME=/usr/lib/j2sdk1.5-sun 改为：exportJAVA_HOME=/usr/java/jdk1.7.0_40

配置hadoop-1.2.1/conf下的slaves文件，一行一个DataNode,格式为：用户名@hostip slave01@slave01 //必须这样写

修改masters文件内容为: master //也可以是namenode的ip，由于在/etc/hosts中设置了matraxa与ip的对应，可以写为master

配置hadoop-1.2.1/conf下的三个xml文件

修改 core-site.xml

<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>

修改 mapred-site.xml

<property>
<name>mapred.job.tracker</name>
<value>master:9001</value>
</property>

修改hdfs-site.xml

<property>
<name>dfs.replication</name>
<value>1</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop/hadoop_tmp_dir/</value>
</property>

<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

g）进入/usr/hadoop/hadoop-1.2.1

bin/hadoop namenode -format //必需初始化只需要初始化namenode

h）bin/start-all.sh //启动namdnode

3.3.2在datanode（这里为slave01）上:

注意：由于Hadoop要求所有机器上hadoop的部署目录结构要相同，并且都有一个相同的用户名的帐户。

我的为：/usr/hadoop/

a) 在slave01机器上建立了一个录：/usr/hadoop。

将master机器上/usr/hadoop /hadoop-1.2.1文件夹拷贝到slave机器上的/usr/hadoop/ 命令为：scp -r /usr/hadoop /hadoop-1.2.1 [email protected]:/usr/hadoop/

/etc/hosts和namenode的一样 //参照3.1.2

3.3.3、启动Hadoop

a) 格式化namenode:启动之前要先格式化namenode，进入/usr/hadoop /hadoop-1.2.1目录，执行下面的命令：bin/hadoop namenode –format

启动namenode：执行命令bin/start-all.sh

停止Hadoop:执行如下命令：bin/stop-all.sh

注意：如果datanode无法启动，先检查conf/masters，conf/slaves，然后尝试删除所有节点的hadoop.tmp.dir

3.4安装eclipse

a) 下载eclipse-dsl-juno-SR1-linux-gtk.tar.gz

解压到 /usr/ 目录

进入/ usr/eclipse

命令行输入./eclipse 即可打开eclipse

3.5安装hadoop的eclipse插件

利用eclipse开发，需安装hadoop-eclipse插件。

a) 下载hadoop-eclipse-plugin-1.2.1.jar,将其复制到eclipse安装目录下的plugins目录中。

重启eclipse，配置hadoop installation directory。如果安装插件成功，打开Window-->Preferens，会发现Hadoop Map/Reduce选项，在这个选项里你需要配置Hadoop installationdirectory。配置完成后退出。

在Map/Reduce Locations（Eclipse界面的正下方）中新建一个Hadoop Location。在这个View中，点击鼠标右键-->New Hadoop Location。在弹出的对话框中你需要配置Location name，可任意填，如Hadoop，以及Map/Reduce Master和DFS Master。这里面的Host、Port分别为你在mapred-site.xml、core-site.xml中配置的地址及端口。我的这两个文件中配置如下：

设置完成后，点击Finish就应用了该设置。然后，在最左边的Project Explorer中就能看到DFS的目录，如下图所示：

4安装maven

a) 下载apache-maven-2.2.1-bin.tar.gz

解压在/usr/ 目录下

sudo gedit/etc/profile加入环境变量

export MAVEN_HOME=/usr/apache-maven-2.2.1

export PATH=$PATH:MAVEN_HOME/bin

mvn –version

出现如下信息即成功

5安装hbase

a) 解压hbase-0.94.11.tar.gz到/usr/hadoop 解压命令：$tar zxvf hbase-0.94.11.tar.gz

b) 配置/usr/hadoop/hbase-0.94.11/conf下文件hbase-env.sh 用gedit打开hbase-env.sh修改

文件未尾加：

# Tell HBasewhether it should manage it's own instance of Zookeeper or not.

exportHBASE_MANAGES_ZK=true

export JAVA_HOME=/usr/java/jdk1.6.0_20

配置/usr/hadoop/hbase-0.94.11/conf下文件hbase-site.xml

<?xmlversion="1.0"?>

<?xml-stylesheettype="text/xsl" href="configuration.xsl"?>

<name>hbase.rootdir</name>

<value>hdfs://master:9000/hbase</value>

</property>

<name>hbase.cluster.distributed</name>

</property>

<name>hbase.master.port</name>

</property>

<name>hbase.zookeeper.quorum</name>

<value>master,slave01</value>

</property>

</configuration>

u hbase.rootdir设置hbase在hdfs上的目录，主机名为hdfs的namenode节点所在的主机

u hbase.cluster.distributed设置为true，表明是完全分布式的hbase集群

u hbase.master设置hbase的master主机名和端口

u hbase.zookeeper.quorum设置zookeeper的主机，官方推荐设置为3，5，7比较好，奇数。

d) 配置/usr/hadoop/hbase-0.94.11/conf下文件regionservers

slave01

e) 设置环境变量，用gedit打开/etc/profile文件在文件未尾添加：

export HBASE_HOME=/usr/hadoop/hbase-0.94.11

exportPATH=$PATH:$HBASE_HOME/bin

f) 在完成以上修改之后，把master上的hbase-0.94.11原样复制到slave01上，保证目录结构一致，可使用如下命令：

scp –r /usr/hadoop/hbase-0.94.11 slave01@slave01: /usr/hadoop/hbase-0.94.11

c) 启动Hbase(首先要启动hadoop)

bin/start-hbase.sh

bin/stop-hbase.sh

登陆http://master:60010，出现如下图，说明hbase分布式搭建成功。

u permission denied的解决方法

如果想让bin下的所有文件都可执行

则 chmod a+x bin/*

6 安装hive

Hive只需要在master主机上安装

a) 解压hive-0.10.1.gar.gz到/usr/hadoop下

b) 用gedit打开/etc/profile配置环境变量

exportHIVE_HOME=/usr/hadoop/hive-0.10.0

exportHIVE_CONF_DIR=/usr/hadoop/hive-0.10.0/conf

export PATH=$PATH:$HIVE_HOME/bin

c) 进入HIVE_HOME运行bin/hive 出现hive shell 命令行说明安装成功。

支持多用户会话，需要一个独立的元数据库，常用的是使用MySQL作为元数据库。

a) sudoapt-get install mysql-server mysql-client安装mysql

完成后通过netstat –tap |grep mysql 来车看是否已经有了mysql服务，如下图即成功。

b) 为hive建立相应的mysql账号：

进入mysql： mysql –u root –p

mysql> create user 'hive'@’localhost’identified by '123';

Query OK, 0 rows affected (0.00 sec)

mysql> GRANT ALL PRIVILEGES ON *.* TO 'hive'@'localhost'IDENTIFIED BY '123' WITH GRANT OPTION;

Query OK, 0 rows affected (0.00 sec)

mysql> flush privileges;

Query OK, 0rows affected (0.00 sec)

mysql> exit

Bye

如果出现新建用户denied的情况，是因为user表里面已经存在该用户。之后删除用户再并且可以附加flush privileges之后再新建。用新用户登录不进去可以尝试删除mysql的匿名用户。注意host的是localhost或者是127.0.0.1或者不填。

c) 从客户端用hive账号登陆mysql

mysql –u hive -p

d) 建立hive的元数据库

mysql>create database hive;

e) mysql中保存了hive的元数据信息，包括表的属性、桶信息和分区信息等，以hive帐号登陆hive查看元数据信息

f) 配置Hive

在Hive安装目录的conf目录下，将hive-default.xml.template复制一份命名为：hive-site.xml

　　修改以下内容，配置上mysql数据连接、驱动、用户名和密码

<name>hive.metastore.local</name>

<value>false</value>

</property>

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>

</property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

</property>

<name>javax.jdo.option.ConnectionUserName</name>

</property>

<name>javax.jdo.option.ConnectionPassword</name>

</property>

g) 把mysql的驱动包mysql-connector-java-5.1.15拷贝到Hive安装路径下的lib目录

h) 进入Hive，没报错说明安装成功

7 hive与hbase的整合（用hive读取hbase的数据）

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信，相互通信主要是依靠hive_hbase-handler.jar工具类，大致意思如图所示：

3.8.1整合hive与hbase的过程如下：

a) 将文件/usr/hadoop/hive-0.10.0/hbase-0.94.11.jar 与/usr/hadoop/hive-0.10.0/lib/zookeeper-3.4.5.jar拷贝到/usr/hadoop/hive-0.10.0/lib文件夹下面

注意：如果hive/lib下已经存在这两个文件的其他版本（例如zookeeper-3.3.1.jar），建议删除后使用hbase下的相关版本

b) 修改hive/conf下hive-site.xml文件，在底部添加如下内容：

<name>hive.querylog.location</name>

<value>/usr/hadoop/hive-0.10.0/logs</value>

</property>

<value>file:///usr/hadoop/hive-0.10.0/lib/hive-hbase-handler-0.10.0.jar,file:///usr/hadoop/hive-0.10.0/lib/hbase-0.94.11.jar,file:///usr/hadoop/hive-0.10.0/lib/zookeeper-3.4.5.jar</value>

</property>

注意：如果hive-site.xml不存在则自行创建，或者把hive-default.xml.template文件改名后使用。

c) 拷贝hbase-0.94.11.jar到所有hadoop节点(包括master)的usr/hadoop/hadoop-1.2.1/lib下。

d) 拷贝usr/hadoop/hbase-0.94.11/conf下的hbase-site.xml文件到所有hadoop节点(包括master)的usr/hadoop/hadoop-1.2.1/conf下。

注意，如果3,4两步跳过的话，运行hive时很可能出现如下错误：org.apache.hadoop.hbase.ZooKeeperConnectionException:HBase is able to connect to ZooKeeper but the connection closes immediately.
This could be a sign that the server has too many connections (30 is thedefault). Consider inspecting your ZK server logs for that error and
then make sure you are reusing HBaseConfiguration as often as you can. SeeHTable's javadoc for more information. at org.apache.hadoop.
hbase.zookeeper.ZooKeeperWatcher.

e) 启动hive
单节点启动
bin/hive -hiveconf hbase.master=master:60000

f) 集群启动
bin/hive

注意：如果hive-site.xml文件中没有配置hive.aux.jars.path，则可以按照如下方式启动。hive --auxpath /opt/mapr/hive/hive-0.7.1/lib/hive-hbase-handler-0.7.1.jar,/opt/mapr/hive/hive-0.7.1/lib/hbase-0.90.4.jar,/opt/mapr/hive/hive-0.7.1/lib/zookeeper-3.3.2.jar-hiveconf hbase.master=localhost:60000

3.8.2启动后进行测试

a) 创建hbase识别的表
CREATE TABLE hbase_table_1(key int, value string) STORED BY'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES("hbase.columns.mapping" = ":key,cf1:val")TBLPROPERTIES ("hbase.table.name" = "xyz");

b) 新建hive的数据表

create tablepokes(foo int,bar string)row format delimited fields terminated by ',';

c) 批量导入数据

load data localinpath '/home/hadoop/Desktop//1.txt' overwrite into table pokes;

1.txt文件的内容为
1,hello
2,pear
3,world

d) 使用sql导入hbase_table_1

insert overwrite table hbase_table_1 select * frompokes;

e) 查看数据

hive>select * from hbase_table_1;
OK
1 hello
2 pear
3 world

8安装mahout

a) 解压mahout-distribution-0.8.tar.gz到/usr/hadoop/下

b) sudo/etc/profile配置环境变量

exportMAHOUT_HOME=/usr/hadoop/mahout-distribution-0.8

export HADOOP_HOME=/usr/hadoop/hadoop-1.2.1

export HADOOP_CONF_DIR=/usr/hadoop/hadoop-1.2.1/conf

export PATH=$HADOOP_HOME/bin

exportCLASSPATH=$CLASSPATH:$MAHOUT_HOME/lib:HADOOP_CONF_DIR

c) 启动hadoop

d) bin/mahout--help //检查Mahout是否安装完好，看是否列出了一些算法

9 Tomcat安装配置

9.1下载apache-tomcat-7.0.42.tar.gz

9.2 在/usr/下新建文件夹tomcat

$cd /usr

$sudo mkdir tomcat

9.3 解压apache-tomcat-7.0.42.tar.gz在tomcat文件夹下

$cd /usr/tomcat

$sudo tar –zxvf apache-tomcat-7.0.42.tar.gz

解压之后tomcat文件夹下会生成一个叫做apache-tomcat-7.0.42的文件夹

9.4 配置环境变量

$sudo gedit /etc/profile，加入以下红色部分

export JAVA_HOME=/usr/java/jdk1.7.0_40

export HADOOP_HOME=/usr/hadoop/hadoop-1.2.1

exportHADOOP_CONF_DIR=/usr/hadoop/hadoop-1.2.1/conf

exportMAHOUT_HOME=/usr/hadoop/mahout-distribution-0.8

exportMAVEN_HOME=/usr/maven/apache-maven-2.2.1

exportCATALINA_HOME=/usr/tomcat/apache-tomcat-7.0.42

export HIVE_HOME=/usr/hadoop/hive-0.10.0

export HBASE_HOME=/usr/hadoop/hbase-0.94.11

exportPATH=$JAVA_HOME/bin:$MAHOUT_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/conf:$MAVEN_HOME/bin:$CATALINA_HOME/bin:$HIVE_HOME/bin:$HBASE_HOME/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$MAHOUT_HOME/lib:$HADOOP_HOME/lib:$HADOOP_CONF_DIR:$MAVEN_HOME/lib:$CATALINA_HOME/lib:$HIVE_HOME/lib:$HBASE_HOME/lib:$JAVA_HOME/lib/tools.jar

$source etc/profile //使环境变量生效

9.5检查安装是否成功

$cd /usr/tomcat/apache-tomcat-7.0.42

$bin/startup.sh

打开firefox，输入http://localhost:8080,如果正常访问，则表示成功。

10Nutch安装及设置

10.1 下载apache-nutch-1.2-bin.tar.gz

10.2 解压apache-nutch-1.2-bin.tar.gz在/usr/hadoop文件夹下

$cd /usr/hadoop

$sudo tar –zxvf apache-nutch-1.2-bin.tar.gz

解压之后hadoop文件夹下会生成一个叫做nutch-1.2的文件夹

10.3 修改nutch-site.xml文件

在根目录conf文件夹找到nutch-site.xml，打开在configuration标签里面添加：

<name>http.agent.name</name>

<value>openlab</value>

</property>

10.4添加nutch命令到/usr/bin

$cd /usr/bin

$ln -s {nutch根目录}/bin/nutch ./nutch

在任意目录输入nutch命令，有选项提示，则配置成功.

11Solr安装及设置

11.1 下载solr-4.4.0.tgz

11.2 解压solr-4.4.0.tgz在/usr/hadoop文件夹下

$cd /usr/hadoop

$sudo tar –zxvf solr-4.4.0.tgz

解压之后hadoop文件夹下会生成一个叫做solr-4.4.0的文件夹

11.3将solr-4.4.0下面dist/solr-4.4.0.war拷到tomcat的webapps文件夹下面，修改为solr.war

启动一次tomcat，在解压出的war包文件夹里面找到WEB-INF/lib，然后把mmseg4j-all-1.8.5.jar包拷进去。

如solr.war，tomcat启动之后会产生solr目录。

11.4将solr-4.4.0\example\ 下的 solr 目录拷贝到任意位置，

我是放在：~/solr_home

11.5 在tomcat目录下的conf\Catalina\localhost\solr.xml文件，添加如下内容：

若目录下没有该solr.xml文件，则新建一个，注意还要在文件开头添加xml头：

<?xml version="1.0"encoding="UTF-8"?>

11.6 修改solr工作目录conf文件夹下的配置文件solrconfig.xml

<dataDir>${solr.data.dir:/home/hadoop/solr_home/data}</dataDir>

11.7 检查是否配置正确

首先启动tomcat

运行localhost:8080/solr

如果成功进入，则部署成功。

你可能感兴趣的:(hadoop,Mahout,hbase,Solr,Nutch)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase（一）——HBase介绍 weixin_30595035 大数据数据库数据结构与算法
HBase介绍1、关系型数据库与非关系型数据库（1）关系型数据库关系型数据库最典型的数据机构是表，由二维表及其之间的联系所组成的一个数据组织优点：1、易于维护：都是使用表结构，格式一致2、使用方便：SQL语言通用，可用于复杂查询3、复杂操作：支持SQL，可用于一个表以及多个表之间非常复杂的查询缺点：1、读写性能比较差，尤其是海量数据的高效率读写2、固定的表结构，灵活度稍欠3、高并发读写需求，传统关
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Hbase - 迁移数据[导出,导入] kikiki5
>有没有这样一样情况，把一个集群中的某个表导到另一个群集中，或者hbase的表结构发生了更改，但是数据还要，比如预分区没做，导致某台RegionServer很吃紧，Hbase的导出导出都可以很快的完成这些操作。![](https://upload-images.jianshu.io/upload_images/9028759-4fb9aa8ca3777969.png?imageMogr2/auto
通过DBeaver连接Phoenix操作hbase 不想做咸鱼的王富贵
通过DBeaver连接Phoenix操作hbase前言本文介绍常用一种通用数据库工具Dbeaver，DBeaver可通过JDBC连接到数据库，可以支持几乎所有的数据库产品，包括：MySQL、PostgreSQL、MariaDB、SQLite、Oracle、Db2、SQLServer、Sybase、MSAccess、Teradata、Firebird、Derby等等。商业版本更是可以支持各种NoSQ
Hbase - kerberos认证异常 kikiki2
之前怎么认证都认证不上，问题找了好了，发现它的异常跟实际操作根本就对不上，死马当活马医，当时也是瞎改才好的，给大家伙记录记录。KrbException:ServernotfoundinKerberosdatabase(7)-LOOKING_UP_SERVER>>>KdcAccessibility:removestorm1.starsriver.cnatsun.security.krb5.KrbTg
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
kvm 虚拟机命令行虚拟机操作、制作快照和恢复快照以及工作常用总结西京刀客云原生(Cloud Native)云计算虚拟化 Linux C/C++服务器 linux kvm
文章目录kvm虚拟机命令行虚拟机操作、制作快照和恢复快照一、kvm虚拟机命令行虚拟机操作(创建和删除)查看虚拟机virt-install创建一个虚拟机关闭虚拟机重启虚拟机销毁虚拟机二、kvm制作快照和恢复快照**创建快照**工作常见问题创建快照报错：：internalsnapshotsofaVMwithpflashbasedfirmwarearenotsupported检查虚拟机是否包含pflas
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
Hadoop Common 之序列化机制小解猫君之上 #Apache Hadoop
1.JavaSerializable序列化该序列化通过ObjectInputStream的readObject实现序列化，ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强，但是因为存储过多的信息，但是传输效率比较低，所以hadoop弃用它。（序列化信息包括这个对象的类，类签名，类的所有静态，费静态成员的值，以及他们父类都要被写入）publ
深入理解hadoop(一)----Common的实现----Configuration maoxiao_jsd 深入理解----hadoop
属本人个人原创，转载请注明,希望对大家有帮助！！一,hadoop的配置管理a,hadoop通过独有的Configuration处理配置信息Configurationconf=newConfiguration();conf.addResource("core-default.xml");conf.addResource("core-site.xml");后者会覆盖前者中未final标记的相同配置项b
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo