apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

1 软件环境：

VMware8.0

Ubuntu-12.10-desktop-i386

jdk-7u40-linux-i586.tar.gz

hadoop-1.2.1.tar.gz

eclipse-dsl-juno-SR1-linux-gtk.tar.gz

hadoop-eclipse-plugin-1.2.1.jar

apache-maven-2.2.1-bin.tar.gz

hbase-0.94.11.tar.gz

hive-0.10.0.tar.gz

mahout-distribution-0.8.tar.gz

apache-tomcat-7.0.42.tar.gz

apache-nutch-1.2-bin.tar.gz

solr-4.4.0.tgz

2 角色配置：

master节点：master

slave节点：slave01

3 Hadoop完全分布式集群配置

3.1 下载安装JDK

3.1.1 下载jdk-7u40-linux-i586.tar.gz

3.1.2 在/usr/下新建文件夹java

$cd /usr

$sudo mkdir java

3.1.3 解压jdk-7u40-linux-i586.tar.gz在java文件夹下

3.1.4 配置环境变量

$sudo gedit /etc/profile //在最后加入

export JAVA_HOME=/usr/java/jdk1.7.0_40

export JRE_HOME=/usr/java/jdk1.7.0_40/jre

exportPATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

exportCLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JRE_HOME/lib

source /etc/profile //使环境变量生效

3.1.5 修改系统默认的jdk

$sudo update-alternatives --install/usr/bin/java java /usr/java/jdk1.7.0_40/bin/java 300

$sudo update-alternatives --install/usr/bin/javac javac /usr/java/jdk1.7.0_40/bin/javac 300

$sudoupdate-alternatives --config java

$sudoupdate-alternatives --config javac

3.1.6 检查安装是否成功

$java-version

3.2 SSH安装及设置

通过ssh安全协议master与slaves之间进行通信，实现hadoop完全分布式部署。

3.2.1 ifconfig 查看主机ip：

这里：

master：10.10.20.103

slave01：10.10.20.101

3.2.2在hosts文件中加上集群中所有机器的IP地址及其对应的主机名

在namenode（这里为master）上：$ sudo gedit /etc/hosts

127.0.0.1 localhost

10.10.20.103 master

10.10.20.101 slave01

3.2.3 ping测试

每台机器互ping ip地址和主机名，看是否可以ping通。

3.2.4 安装设置ssh（说明:每台电脑上都要安装ssh）

3.2.4.1在namenode（master）上：

$ sudo apt-get install ssh //安装ssh（这步在每台电脑上都要执行！）

$ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa//生成密钥(这里密码为空）文件如：id_dsa id_dsa.pub

$cat ~/.ssh/id_dsa.pub >>~/.ssh/authorized_keys //加入受信列表

$ ssh localhost 或者 ssh master　　//第一次需输入"yes"，成功就能无密码访问这个是进行的本地测试

3.2.4.2把master上的id_dsa.pub 文件追加到slave01的authorized_keys 内：

拷贝master的id_dsa.pub文件到slave01：

$ scp id_dsa.pub hadoop@slave01:/home/hadoop/Desktop

//如果拷贝到其它目录下，可能会出现permission denied错误，如拷贝到home下，这是因为其它用户没有写权限

3.2.4.3在datanode（这里为slave01）上：

进入/home/hadoop/Desktop目录执行：

$ cat id_dsa.pub >> .ssh/authorized_keys

//可以在master上不输入密码直接访问slave01

说明：1、若要实现datanode无密码访问namenode，只需按照上面的步骤将datanode的*.pub文件复制到namenode上，并追加到authorized_keys中

3.3安装hadoop

注意：由于Hadoop要求所有机器上hadoop的部署目录结构要相同，并且都有一个相同的用户名的帐户。

我的为：/usr/hadoop/

3.3.1在namenode上

cd /usr/hadoop

tar -xzvf hadoop-1.2.1.tar.gz //将压缩包解压到/usr/hadoop/hadoop-1.2.1

配置hadoop-1.2.1/conf 下的 hadoop-env.sh文件将 # exportJAVA_HOME=/usr/lib/j2sdk1.5-sun 改为：exportJAVA_HOME=/usr/java/jdk1.7.0_40

配置hadoop-1.2.1/conf下的slaves文件，一行一个DataNode,格式为：用户名@hostip slave01@slave01 //必须这样写

修改masters文件内容为: master //也可以是namenode的ip，由于在/etc/hosts中设置了matraxa与ip的对应，可以写为master

配置hadoop-1.2.1/conf下的三个xml文件

修改 core-site.xml

<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>

修改 mapred-site.xml

<property>
<name>mapred.job.tracker</name>
<value>master:9001</value>
</property>

修改hdfs-site.xml

<property>
<name>dfs.replication</name>
<value>1</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop/hadoop_tmp_dir/</value>
</property>

<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

g）进入/usr/hadoop/hadoop-1.2.1

bin/hadoop namenode -format //必需初始化只需要初始化namenode

h）bin/start-all.sh //启动namdnode

3.3.2在datanode（这里为slave01）上:

注意：由于Hadoop要求所有机器上hadoop的部署目录结构要相同，并且都有一个相同的用户名的帐户。

我的为：/usr/hadoop/

a) 在slave01机器上建立了一个录：/usr/hadoop。

将master机器上/usr/hadoop /hadoop-1.2.1文件夹拷贝到slave机器上的/usr/hadoop/ 命令为：scp -r /usr/hadoop /hadoop-1.2.1 [email protected]:/usr/hadoop/

/etc/hosts和namenode的一样 //参照3.1.2

3.3.3、启动Hadoop

a) 格式化namenode:启动之前要先格式化namenode，进入/usr/hadoop /hadoop-1.2.1目录，执行下面的命令：bin/hadoop namenode –format

启动namenode：执行命令bin/start-all.sh

停止Hadoop:执行如下命令：bin/stop-all.sh

注意：如果datanode无法启动，先检查conf/masters，conf/slaves，然后尝试删除所有节点的hadoop.tmp.dir

3.4安装eclipse

a) 下载eclipse-dsl-juno-SR1-linux-gtk.tar.gz

解压到 /usr/ 目录

进入/ usr/eclipse

命令行输入./eclipse 即可打开eclipse

3.5安装hadoop的eclipse插件

利用eclipse开发，需安装hadoop-eclipse插件。

a) 下载hadoop-eclipse-plugin-1.2.1.jar,将其复制到eclipse安装目录下的plugins目录中。

重启eclipse，配置hadoop installation directory。如果安装插件成功，打开Window-->Preferens，会发现Hadoop Map/Reduce选项，在这个选项里你需要配置Hadoop installationdirectory。配置完成后退出。

在Map/Reduce Locations（Eclipse界面的正下方）中新建一个Hadoop Location。在这个View中，点击鼠标右键-->New Hadoop Location。在弹出的对话框中你需要配置Location name，可任意填，如Hadoop，以及Map/Reduce Master和DFS Master。这里面的Host、Port分别为你在mapred-site.xml、core-site.xml中配置的地址及端口。我的这两个文件中配置如下：

设置完成后，点击Finish就应用了该设置。然后，在最左边的Project Explorer中就能看到DFS的目录，如下图所示：

4安装maven

a) 下载apache-maven-2.2.1-bin.tar.gz

解压在/usr/ 目录下

sudo gedit/etc/profile加入环境变量

export MAVEN_HOME=/usr/apache-maven-2.2.1

export PATH=$PATH:MAVEN_HOME/bin

mvn –version

出现如下信息即成功

5安装hbase

a) 解压hbase-0.94.11.tar.gz到/usr/hadoop 解压命令：$tar zxvf hbase-0.94.11.tar.gz

b) 配置/usr/hadoop/hbase-0.94.11/conf下文件hbase-env.sh 用gedit打开hbase-env.sh修改

文件未尾加：

# Tell HBasewhether it should manage it's own instance of Zookeeper or not.

exportHBASE_MANAGES_ZK=true

export JAVA_HOME=/usr/java/jdk1.6.0_20

配置/usr/hadoop/hbase-0.94.11/conf下文件hbase-site.xml

<?xmlversion="1.0"?>

<?xml-stylesheettype="text/xsl" href="configuration.xsl"?>

<name>hbase.rootdir</name>

<value>hdfs://master:9000/hbase</value>

</property>

<name>hbase.cluster.distributed</name>

</property>

<name>hbase.master.port</name>

</property>

<name>hbase.zookeeper.quorum</name>

<value>master,slave01</value>

</property>

</configuration>

u hbase.rootdir设置hbase在hdfs上的目录，主机名为hdfs的namenode节点所在的主机

u hbase.cluster.distributed设置为true，表明是完全分布式的hbase集群

u hbase.master设置hbase的master主机名和端口

u hbase.zookeeper.quorum设置zookeeper的主机，官方推荐设置为3，5，7比较好，奇数。

d) 配置/usr/hadoop/hbase-0.94.11/conf下文件regionservers

slave01

e) 设置环境变量，用gedit打开/etc/profile文件在文件未尾添加：

export HBASE_HOME=/usr/hadoop/hbase-0.94.11

exportPATH=$PATH:$HBASE_HOME/bin

f) 在完成以上修改之后，把master上的hbase-0.94.11原样复制到slave01上，保证目录结构一致，可使用如下命令：

scp –r /usr/hadoop/hbase-0.94.11 slave01@slave01: /usr/hadoop/hbase-0.94.11

c) 启动Hbase(首先要启动hadoop)

bin/start-hbase.sh

bin/stop-hbase.sh

登陆http://master:60010，出现如下图，说明hbase分布式搭建成功。

u permission denied的解决方法

如果想让bin下的所有文件都可执行

则 chmod a+x bin/*

6 安装hive

Hive只需要在master主机上安装

a) 解压hive-0.10.1.gar.gz到/usr/hadoop下

b) 用gedit打开/etc/profile配置环境变量

exportHIVE_HOME=/usr/hadoop/hive-0.10.0

exportHIVE_CONF_DIR=/usr/hadoop/hive-0.10.0/conf

export PATH=$PATH:$HIVE_HOME/bin

c) 进入HIVE_HOME运行bin/hive 出现hive shell 命令行说明安装成功。

支持多用户会话，需要一个独立的元数据库，常用的是使用MySQL作为元数据库。

a) sudoapt-get install mysql-server mysql-client安装mysql

完成后通过netstat –tap |grep mysql 来车看是否已经有了mysql服务，如下图即成功。

b) 为hive建立相应的mysql账号：

进入mysql： mysql –u root –p

mysql> create user 'hive'@’localhost’identified by '123';

Query OK, 0 rows affected (0.00 sec)

mysql> GRANT ALL PRIVILEGES ON *.* TO 'hive'@'localhost'IDENTIFIED BY '123' WITH GRANT OPTION;

Query OK, 0 rows affected (0.00 sec)

mysql> flush privileges;

Query OK, 0rows affected (0.00 sec)

mysql> exit

Bye

如果出现新建用户denied的情况，是因为user表里面已经存在该用户。之后删除用户再并且可以附加flush privileges之后再新建。用新用户登录不进去可以尝试删除mysql的匿名用户。注意host的是localhost或者是127.0.0.1或者不填。

c) 从客户端用hive账号登陆mysql

mysql –u hive -p

d) 建立hive的元数据库

mysql>create database hive;

e) mysql中保存了hive的元数据信息，包括表的属性、桶信息和分区信息等，以hive帐号登陆hive查看元数据信息

f) 配置Hive

在Hive安装目录的conf目录下，将hive-default.xml.template复制一份命名为：hive-site.xml

　　修改以下内容，配置上mysql数据连接、驱动、用户名和密码

<name>hive.metastore.local</name>

<value>false</value>

</property>

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>

</property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

</property>

<name>javax.jdo.option.ConnectionUserName</name>

</property>

<name>javax.jdo.option.ConnectionPassword</name>

</property>

g) 把mysql的驱动包mysql-connector-java-5.1.15拷贝到Hive安装路径下的lib目录

h) 进入Hive，没报错说明安装成功

7 hive与hbase的整合（用hive读取hbase的数据）

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信，相互通信主要是依靠hive_hbase-handler.jar工具类，大致意思如图所示：

3.8.1整合hive与hbase的过程如下：

a) 将文件/usr/hadoop/hive-0.10.0/hbase-0.94.11.jar 与/usr/hadoop/hive-0.10.0/lib/zookeeper-3.4.5.jar拷贝到/usr/hadoop/hive-0.10.0/lib文件夹下面

注意：如果hive/lib下已经存在这两个文件的其他版本（例如zookeeper-3.3.1.jar），建议删除后使用hbase下的相关版本

b) 修改hive/conf下hive-site.xml文件，在底部添加如下内容：

<name>hive.querylog.location</name>

<value>/usr/hadoop/hive-0.10.0/logs</value>

</property>

<value>file:///usr/hadoop/hive-0.10.0/lib/hive-hbase-handler-0.10.0.jar,file:///usr/hadoop/hive-0.10.0/lib/hbase-0.94.11.jar,file:///usr/hadoop/hive-0.10.0/lib/zookeeper-3.4.5.jar</value>

</property>

注意：如果hive-site.xml不存在则自行创建，或者把hive-default.xml.template文件改名后使用。

c) 拷贝hbase-0.94.11.jar到所有hadoop节点(包括master)的usr/hadoop/hadoop-1.2.1/lib下。

d) 拷贝usr/hadoop/hbase-0.94.11/conf下的hbase-site.xml文件到所有hadoop节点(包括master)的usr/hadoop/hadoop-1.2.1/conf下。

注意，如果3,4两步跳过的话，运行hive时很可能出现如下错误：org.apache.hadoop.hbase.ZooKeeperConnectionException:HBase is able to connect to ZooKeeper but the connection closes immediately.
This could be a sign that the server has too many connections (30 is thedefault). Consider inspecting your ZK server logs for that error and
then make sure you are reusing HBaseConfiguration as often as you can. SeeHTable's javadoc for more information. at org.apache.hadoop.
hbase.zookeeper.ZooKeeperWatcher.

e) 启动hive
单节点启动
bin/hive -hiveconf hbase.master=master:60000

f) 集群启动
bin/hive

注意：如果hive-site.xml文件中没有配置hive.aux.jars.path，则可以按照如下方式启动。hive --auxpath /opt/mapr/hive/hive-0.7.1/lib/hive-hbase-handler-0.7.1.jar,/opt/mapr/hive/hive-0.7.1/lib/hbase-0.90.4.jar,/opt/mapr/hive/hive-0.7.1/lib/zookeeper-3.3.2.jar-hiveconf hbase.master=localhost:60000

3.8.2启动后进行测试

a) 创建hbase识别的表
CREATE TABLE hbase_table_1(key int, value string) STORED BY'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES("hbase.columns.mapping" = ":key,cf1:val")TBLPROPERTIES ("hbase.table.name" = "xyz");

b) 新建hive的数据表

create tablepokes(foo int,bar string)row format delimited fields terminated by ',';

c) 批量导入数据

load data localinpath '/home/hadoop/Desktop//1.txt' overwrite into table pokes;

1.txt文件的内容为
1,hello
2,pear
3,world

d) 使用sql导入hbase_table_1

insert overwrite table hbase_table_1 select * frompokes;

e) 查看数据

hive>select * from hbase_table_1;
OK
1 hello
2 pear
3 world

8安装mahout

a) 解压mahout-distribution-0.8.tar.gz到/usr/hadoop/下

b) sudo/etc/profile配置环境变量

exportMAHOUT_HOME=/usr/hadoop/mahout-distribution-0.8

export HADOOP_HOME=/usr/hadoop/hadoop-1.2.1

export HADOOP_CONF_DIR=/usr/hadoop/hadoop-1.2.1/conf

export PATH=$HADOOP_HOME/bin

exportCLASSPATH=$CLASSPATH:$MAHOUT_HOME/lib:HADOOP_CONF_DIR

c) 启动hadoop

d) bin/mahout--help //检查Mahout是否安装完好，看是否列出了一些算法

9 Tomcat安装配置

9.1下载apache-tomcat-7.0.42.tar.gz

9.2 在/usr/下新建文件夹tomcat

$cd /usr

$sudo mkdir tomcat

9.3 解压apache-tomcat-7.0.42.tar.gz在tomcat文件夹下

$cd /usr/tomcat

$sudo tar –zxvf apache-tomcat-7.0.42.tar.gz

解压之后tomcat文件夹下会生成一个叫做apache-tomcat-7.0.42的文件夹

9.4 配置环境变量

$sudo gedit /etc/profile，加入以下红色部分

export JAVA_HOME=/usr/java/jdk1.7.0_40

export HADOOP_HOME=/usr/hadoop/hadoop-1.2.1

exportHADOOP_CONF_DIR=/usr/hadoop/hadoop-1.2.1/conf

exportMAHOUT_HOME=/usr/hadoop/mahout-distribution-0.8

exportMAVEN_HOME=/usr/maven/apache-maven-2.2.1

exportCATALINA_HOME=/usr/tomcat/apache-tomcat-7.0.42

export HIVE_HOME=/usr/hadoop/hive-0.10.0

export HBASE_HOME=/usr/hadoop/hbase-0.94.11

exportPATH=$JAVA_HOME/bin:$MAHOUT_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/conf:$MAVEN_HOME/bin:$CATALINA_HOME/bin:$HIVE_HOME/bin:$HBASE_HOME/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$MAHOUT_HOME/lib:$HADOOP_HOME/lib:$HADOOP_CONF_DIR:$MAVEN_HOME/lib:$CATALINA_HOME/lib:$HIVE_HOME/lib:$HBASE_HOME/lib:$JAVA_HOME/lib/tools.jar

$source etc/profile //使环境变量生效

9.5检查安装是否成功

$cd /usr/tomcat/apache-tomcat-7.0.42

$bin/startup.sh

打开firefox，输入http://localhost:8080,如果正常访问，则表示成功。

10Nutch安装及设置

10.1 下载 apache-nutch-1.2-bin.tar.gz

10.2 解压apache-nutch-1.2-bin.tar.gz在/usr/hadoop文件夹下

$cd /usr/hadoop

$sudo tar –zxvf apache-nutch-1.2-bin.tar.gz

解压之后hadoop文件夹下会生成一个叫做nutch-1.2的文件夹

10.3 修改nutch-site.xml文件

在根目录conf文件夹找到nutch-site.xml，打开在configuration标签里面添加：

<name>http.agent.name</name>

<value>openlab</value>

</property>

10.4添加nutch命令到/usr/bin

$cd /usr/bin

$ln -s {nutch根目录}/bin/nutch ./nutch

在任意目录输入nutch命令，有选项提示，则配置成功.

11Solr安装及设置

11.1 下载solr-4.4.0.tgz

11.2 解压solr-4.4.0.tgz在/usr/hadoop文件夹下

$cd /usr/hadoop

$sudo tar –zxvf solr-4.4.0.tgz

解压之后hadoop文件夹下会生成一个叫做solr-4.4.0的文件夹

11.3将solr-4.4.0下面dist/solr-4.4.0.war拷到tomcat的webapps文件夹下面，修改为solr.war

启动一次tomcat，在解压出的war包文件夹里面找到WEB-INF/lib，然后把mmseg4j-all-1.8.5.jar包拷进去。

如solr.war，tomcat启动之后会产生solr目录。

11.4将solr-4.4.0\example\ 下的 solr 目录拷贝到任意位置，

我是放在：~/solr_home

11.5 在tomcat目录下的conf\Catalina\localhost\solr.xml文件，添加如下内容：

若目录下没有该solr.xml文件，则新建一个，注意还要在文件开头添加xml头：

<?xml version="1.0"encoding="UTF-8"?>

11.6 修改solr工作目录conf文件夹下的配置文件solrconfig.xml

<dataDir>${solr.data.dir:/home/hadoop/solr_home/data}</dataDir>

11.7 检查是否配置正确

首先启动tomcat

运行localhost:8080/solr

如果成功进入，则部署成功。

你可能感兴趣的:(apache)

Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
maven-assembly-plugin 打包实例带着二娃去遛弯
1.先在pom.xml文件中添加assembly打包插件org.apache.maven.pluginsmaven-assembly-plugin2.6assembly/assembly.xmlmake-assemblypackagesingle说明:1.需要修改的可能就是descriptors标签下面的打包配置文件目录,指定assembly.xml的路径.2.可以添加多个打包配置文件,进行多种形
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
java 技术架构相关文档圣心 java 架构开发语言
在Java中，有许多不同的技术和架构，这里我将列举一些常见的Java技术和架构，并提供一些相关的文档资源。SpringFrameworkSpring是一个开源的Java/JavaEE全功能框架，以Apache许可证形式发布，提供了一种实现企业级应用的方法。官方文档：SpringFrameworkSpringBootSpringBoot是Spring的一个子项目，旨在简化创建生产级的Spring应用
Apache Shiro安全框架(2)-用户认证 heyrian Java shiro
身份认证在shiro中用户需要提供用户的principals（身份）和credentials（证明）来证明该用户属于当前系统用户。常见的认证方式即用户名/密码。在解释身份认证之前，我们先来看看shiro中的Subject和Realm,这是身份认证的两个关键的概念。Subjectsubject代表当前用户，内部主要维护当前用户信息。shiro中所有的subject都交给SecurityManager
Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
Superset二次开发之源码DependencyList.tsx 分析 aimmon Superset二次开发 Superset BI 二次开发 typescript 前端
功能点路径superset-frontend\src\dashboard\components\nativeFilters\FiltersConfigModal\FiltersConfigForm\DependencyList.tsx/***LicensedtotheApacheSoftwareFoundation(ASF)underone*ormorecontributorlicenseagre
史上最全的maven的pom.xml文件详解 Meta999 Maven
注：详解文件中，用红色进行标注的是平常项目中常用的配置节点。要详细学习！转载的，太经典了、、、、欢迎收藏xxxxxxxxxxxx4.0.0xxxxxxjar1.0-SNAPSHOTxxx-mavenhttp://maven.apache.orgAmavenprojecttostudymaven.jirahttp://jira.baidu.com/[email protected]
利用apache-pdfbox库修改pdf文件模板，进行信息替换区块链攻城狮 pdf 合同模板 pdf生成合同生成
publicStringcreateSignFile(Longid)throwsIOException{//1.验证企业信息CompanyDOcompany=validateCompanyExists(id);//2.验证签约状态if(company.getSignStatus()!=0){throwexception(COMPANY_SIGN_STATUS_NOT_ZERO);}//3.获取合同
Apache DataFusion Python 绑定教程柏赢安Simona
ApacheDataFusionPython绑定教程datafusion-pythonApacheDataFusionPythonBindings项目地址:https://gitcode.com/gh_mirrors/data/datafusion-python项目介绍ApacheDataFusion是一个基于ApacheArrow的内存查询引擎，提供了高性能的查询处理能力。DataFusion的
压测服务器并使用 Grafana 进行可视化豆瑞瑞 grafana
简介仓库代码GitCode-全球开发者的开源社区,开源代码托管平台参考Welcome!-TheApacheHTTPServerProjectGrafana|查询、可视化、警报观测平台https://prometheus.io/docs/introduction/overview/
2.Jmeter安装配置，核心目录详情，组件和作用域 XXX-17 Jmeter jmeter 软件测试接口测试
一、Jmeter安装配置以及核心目录详情Jmeter基于java语言来开发，java需要jdk环境。1.安装jdk并且配置jdk的环境变量。2.jmeter只需要解压就可以使用了。3.在D:\apache-jmeter-5.5\bin目录下双击jmeter.bat文件就可以启动使用了backups：自动备份的目录bin：启动文件、配置文件（jmeter.bat是启动问题，jmeter.propti
BindingException: Invalid bound statement (not found) 小卡车555 MyBatis mybatis java mysql
Mybatis出现绑定异常问题的解决org.apache.ibatis.binding.BindingException:Invalidboundstatement(notfound)一般的原因是Mapperinterface和xml文件的定义对应不上，需要检查包名，namespace，函数名称等能否对应上，需要比较细致的对比，我经常就是写错了一两个字母搞的很长时间找不到错误按以下步骤一一执行：1
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
NoClassDefFoundError: org.apache.poi.POIXMLDocument问题排查解决 qinmingjun718 apache
java.lang.NoClassDefFoundError:org/apache/poi/POIXMLDocumentPart这错很明显就是没找到这个类POIXMLDocumentPart就是找不到类问题原因是大概是因为poi从3.1.X低版本版本升级到pio4.1.2高版本的后与org.apache.poi.xwpf.converter.core-1.0.6.jar不兼容问题，导致这个情况的主
使用poi替换XWPFTableCell内容，并设置行间距 RR369_yyh javaUtil java poi
使用poi读取word文档（docx类型），进行数据替换。另外，为了记录poi设置行间距的api，真是找了好几十分钟才找到啊啊啊啊！！！importorg.apache.poi.xwpf.usermodel.*;importorg.springframework.util.StringUtils;importjava.io.File;importjava.io.FileInputStream;im
揭秘OozieBundle：架构组件与核心概念光剑书架上的书计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
揭秘OozieBundle：架构、组件与核心概念1.背景介绍在大数据领域，数据处理工作流程通常由多个复杂的作业组成,这些作业之间存在着依赖关系。ApacheOozie作为一个工作流调度系统,可以有效管理这些复杂的工作流程。OozieBundle是Oozie提供的一种特殊的工作流程,用于协调和控制多个相关的工作流程。OozieBundle的主要目的是将多个相关的工作流程组织在一起,并根据它们之间的依
Apache POI用法 JH3073 apache
一、ApachePOI是什么ApachePOI是用Java编写的免费开源的跨平台的JavaAPI，ApachePOI提供API给Java程序对MicrosoftOffice格式档案读和写的功能，其中使用最多的就是使用POI操作Excel文件。二、POI结构HSSF－提供读写MicrosoftExcelXLS格式档案的功能XSSF－提供读写MicrosoftExcelOOXMLXLSX格式档案的功能
【LINUX】在ubuntu中安装tomcat 缘起性本空 linux 运维服务器
#instaljdkaptinstallopenjdk-8-jdk-y#enterinstallpathcd/home/a/#copytomcatpackagecp/mnt/hgfs/Share/apache-tomcat-9.0.93.tar.gz.#unpresstomcatpackagetar-xfapache-tomcat-9.0.93.tar.gz#enterbinpathcdapach
最好用的e2e框架，使用 Cypress 让产品持续稳定交付 Node全栈 java python 编程语言软件测试 html
以前我们经常使用nightwatch，现在都已经切换到cypress了，可以说cypress目前最好用的e2e框架。具体原因和对比，就是本文要讲的内容。背景ApacheAPISIXDashboard的设计是为了让用户通过前端界面尽可能方便地操作ApacheAPISIX。从项目初始化到现在，已经有552commits、发布了10个版本。在如此之快的产品迭代过程中，确保开源产品质量显的尤为重要。为此，
Linux下apache的安装轴儿
1.获取软件：http://httpd.apache.org/httpd-2.4.25.tar.gz并上传至服务器。运行以上命令时，可能会出现“APRnotfound.”的错误。此时需要下载依赖包。2.下载安装依赖包：创建文件夹：mkdir/usr/httpd-refercd/usr/httpd-refer/下载依赖包：wgethttp://p5osdejt4.bkt.clouddn.com/ap
使用 Apache Cassandra 实现 LLM 缓存：提升 AI 应用性能的实用指南 afTFODguAKBF apache 缓存人工智能 python
使用ApacheCassandra实现LLM缓存：提升AI应用性能的实用指南引言在当今的AI驱动的应用程序中，大语言模型（LLM）扮演着越来越重要的角色。然而，频繁调用LLMAPI不仅会增加延迟，还会导致高昂的成本。为了解决这个问题，实现有效的缓存策略变得至关重要。本文将介绍如何使用ApacheCassandra®或AstraDB来实现LLM缓存，从而显著提升您的AI应用性能和成本效率。为什么选择
CentOS下php安装mcrypt扩展天咋哭了
（以下步骤均为本人实际操作，可能与你的安装方法有所区别，但我会尽量排除疑惑）大致步骤（1）安装mcrypt，（2）安装php对mcrypt的扩展，（3）重启apache（1）、确认你的linux没有安装mcrypt库，如果已安装，跳过安装步骤[root@test-206~]#yumlistinstalled|grepmcryptlibmcrypt.x86_642.5.8-4.el5.centosi
javaweb基于ssm框架学生信息管理(成绩)系统设计与实现 ancen_73bd
开发平台、开发工具、应用服务器的介绍开发平台：Windows开发工具：idea+mySql应用服务器：ApacheTomcat8.0学生成绩管理系统主要用于学校学生成绩信息管理，能实现学生、老师、院系、班级、课程的增删改查操作，同时学生能进行选课和退课操作，老师能对学生的成绩录入和修改操作。系统流程图功能结构图部分截图免费源码获得：扫码关注微信公众号：ancenok，然后回复：013
ASP.NET Core 入门教学二十八 linux打包部署充值内卷 asp.net linux 后端
在Linux上打包和部署ASP.NETCore应用程序涉及几个步骤。以下是一个详细的指南，帮助你在Linux系统上完成这一过程。1.准备工作确保你的Linux系统已经安装了以下软件：.NETSDK（用于构建应用程序）.NETRuntime（用于运行应用程序）Apache或Nginx（作为反向代理服务器）你可以使用以下命令安装.NETSDK和Runtime：sudoaptupdatesudoapti
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

1 软件环境：

2 角色配置：

3 Hadoop完全分布式集群配置

3.1 下载安装JDK

3.1.1 下载jdk-7u40-linux-i586.tar.gz

3.1.2 在/usr/下新建文件夹java

3.1.3 解压jdk-7u40-linux-i586.tar.gz在java文件夹下

3.1.4 配置环境变量

3.1.5 修改系统默认的jdk

3.1.6 检查安装是否成功

3.2 SSH安装及设置

3.2.1 ifconfig 查看主机ip：

3.2.2在hosts文件中加上集群中所有机器的IP地址及其对应的主机名

3.2.3 ping测试

3.2.4 安装设置ssh（说明:每台电脑上都要安装ssh）

3.2.4.1在namenode（master）上：

3.2.4.2把master上的id_dsa.pub 文件追加到slave01的authorized_keys 内：

3.2.4.3在datanode（这里为slave01）上：

3.3安装hadoop

3.3.1在namenode上

3.3.2在datanode（这里为slave01）上:

3.3.3、启动Hadoop

3.4安装eclipse

3.5安装hadoop的eclipse插件

4安装maven

5安装hbase

6 安装hive

7 hive与hbase的整合（用hive读取hbase的数据）

3.8.1整合hive与hbase的过程如下：

3.8.2启动后进行测试

8安装mahout

9 Tomcat安装配置

9.1下载apache-tomcat-7.0.42.tar.gz

9.2 在/usr/下新建文件夹tomcat

9.3 解压apache-tomcat-7.0.42.tar.gz在tomcat文件夹下

9.4 配置环境变量

9.5检查安装是否成功

10Nutch安装及设置

10.1 下载apache-nutch-1.2-bin.tar.gz

10.2 解压apache-nutch-1.2-bin.tar.gz在/usr/hadoop文件夹下

10.3 修改nutch-site.xml文件

10.4添加nutch命令到/usr/bin

11Solr安装及设置

11.1 下载solr-4.4.0.tgz

11.2 解压solr-4.4.0.tgz在/usr/hadoop文件夹下

11.3将solr-4.4.0下面dist/solr-4.4.0.war拷到tomcat的webapps文件夹下面，修改为solr.war

11.4将solr-4.4.0\example\ 下的 solr 目录拷贝到任意位置，

11.5 在tomcat目录下的conf\Catalina\localhost\solr.xml文件，添加如下内容：

11.6 修改solr工作目录conf文件夹下的配置文件solrconfig.xml

11.7 检查是否配置正确

你可能感兴趣的:(apache)

10.1 下载 apache-nutch-1.2-bin.tar.gz