defungo

Nutch相关框架安装使用最佳指南

转:http://user.qzone.qq.com/281032878/blog/1342675154#!app=2&via=QZ.HashRefresh&pos=1362131478

Chinese installing and using instruction - The best guidance in installing and using Nutch in China

土豆在线观看地址： http://www.tudou.com/home/item_u106249539s0p1.html
超清原版下载地址： http://pan.baidu.com/share/home?uk=3157595467
超清压缩下载地址： http://pan.baidu.com/share/home?uk=1913680455%20

一、nutch1.2
二、nutch1.5.1
三、nutch2.0
四、配置SSH
五、安装Hadoop Cluster（伪分布式运行模式）并运行Nutch
六、安装Hadoop Cluster（分布式运行模式）并运行Nutch
七、配置Ganglia监控Hadoop集群和HBase集群
八、Hadoop配置Snappy压缩
九、Hadoop配置Lzo压缩
十、配置zookeeper集群以运行hbase
十一、配置Hbase集群以运行nutch-2.1(Region Servers会因为内存的问题宕机)
十二、配置Accumulo集群以运行nutch-2.1(gora存在BUG)
十三、配置Cassandra 集群以运行nutch-2.1（Cassandra 采用去中心化结构）
十四、配置MySQL 单机服务器以运行nutch-2.1
十五、nutch2.1 使用DataFileAvroStore作为数据源
十六、nutch2.1 使用AvroStore作为数据源
十七、配置SOLR
十八、Nagios监控
十九、配置Splunk
二十、配置Pig
二十一、配置Hive
二十二、配置Hadoop2.x集群

一、nutch1.2
步骤和二大同小异，在步骤 5、配置构建路径中需要多两个操作：在左部Package Explorer的 nutch1.2文件夹上单击右键 > Build Path > Configure Build Path... > 选中Source选项 > Default output folder:修改nutch1.2/bin为nutch1.2/_bin，在左部Package Explorer的 nutch1.2文件夹下的bin文件夹上单击右键 > Team > 还原
二中黄色背景部分是版本号的差异，红色部分是1.2版本没有的，绿色部分是不一样的地方，如下：
1、Add JARs... > nutch1.2 > lib ，选中所有的.jar文件 > OK
2、crawl-urlfilter.txt
3、将crawl -urlfilter.txt.template改名为crawl -urlfilter.txt
4、修改crawl-urlfilter.txt，将
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

# skip everything else
-.
5、cd /home/ysc/workspace/nutch1.2
nutch1.2是一个完整的搜索引擎，nutch1.5.1只是一个爬虫。nutch1.2可以把索引提交给SOLR，也可以直接生成LUCENE索引，nutch1.5.1则只能把索引提交给SOLR：
1、cd /home/ysc
2、wget http://mirrors.tuna.tsinghua.edu.cn/apache/tomcat/tomcat-7/v7.0.29/bin/apache-tomcat-7.0.29.tar.gz
3、tar -xvf apache-tomcat-7.0.29.tar.gz
4、在左部Package Explorer的 nutch1.2文件夹下的build.xml文件上单击右键 > Run As > Ant Build... > 选中war target > Run
5、cd /home/ysc/workspace/nutch1.2/build
6、unzip nutch-1.2.war -d nutch-1.2
7、cp -r nutch-1.2 /home/ysc/apache-tomcat-7.0.29/webapps
8、vi /home/ysc/apache-tomcat-7.0.29/webapps/nutch-1.2/WEB-INF/classes/nutch-site.xml
加入以下配置：
<property>
<name>searcher.dir</name>
<value>/home/ysc/workspace/nutch1.2/data</value>
<description>
Path to root of crawl. This directory is searched (in
order) for either the file search-servers.txt, containing a list of
distributed search servers, or the directory "index" containing
merged indexes, or the directory "segments" containing segment
indexes.
</description>
</property>
9、vi /home/ysc/apache-tomcat-7.0.29/conf/server.xml
将
<Connector port="8080" protocol="HTTP/1.1"
               connectionTimeout="20000"
               redirectPort="8443"/>
改为
<Connector port="8080" protocol="HTTP/1.1"
               connectionTimeout="20000"
               redirectPort="8443" URIEncoding="utf-8"/>

10、cd /home/ysc/apache-tomcat-7.0.29/bin
11、./startup.sh
12、访问： http://localhost:8080/nutch-1.2/

关于nutch1.2更多的BUG修复及资料，请参看我在CSDN发布的资源： http://download.csdn.net/user/yangshangchuan

二、nutch1.5.1
1、下载并解压eclipse（集成开发环境）
下载地址： http://www.eclipse.org/downloads/，下载Eclipse IDE for Java EE Developers
2、安装Subclipse插件（SVN客户端）
插件地址： http://subclipse.tigris.org/update_1.8.x，
3、安装IvyDE插件（下载依赖Jar）
插件地址： http://www.apache.org/dist/ant/ivyde/updatesite/
4、签出代码
File > New > Project > SVN > 从SVN 检出项目
创建新的资源库位置 > URL： https://svn.apache.org/repos/asf/nutch/tags/release-1.5.1/ > 选中URL > Finish
弹出New Project向导，选择Java Project > Next，输入Project name：nutch1.5.1 > Finish
5、配置构建路径
在左部Package Explorer的 nutch1.5.1文件夹上单击右键 > Build Path > Configure Build Path...
> 选中Source选项 > 选择src > Remove > Add Folder... > 选择src/bin, src/java, src/test 和 src/testresources（对于插件，需要选中src/plugin目录下的每一个插件目录下的src/java ， src/test文件夹） > OK
切换到Libraries选项 >
Add Class Folder... > 选中nutch1.5.1/conf > OK
Add JARs... > 需要选中src/plugin目录下的每一个插件目录下的lib目录下的jar文件 > OK
Add Library... > IvyDE Managed Dependencies > Next > Main > Ivy File > Browse > ivy/ivy.xml > Finish
切换到Order and Export选项>
选中conf > Top
6、执行ANT
在左部Package Explorer的 nutch1.5.1文件夹下的build.xml文件上单击右键 > Run As > Ant Build
在左部Package Explorer的 nutch1.5.1文件夹上单击右键 > Refresh
在左部Package Explorer的 nutch1.5.1文件夹上单击右键 > Build Path > Configure Build Path... > 选中Libraries选项 > Add Class Folder... > 选中build > OK
7、修改配置文件nutch-site.xml 和regex-urlfilter.txt
将nutch-site.xml.template改名为nutch-site.xml
将regex-urlfilter.txt.template改名为regex-urlfilter.txt
在左部Package Explorer的 nutch1.5.1文件夹上单击右键 > Refresh
将如下配置项加入文件nutch-site.xml：
<property>
<name>http.agent.name</name>
<value>nutch</value>
</property>
<property>
<name>http.content.limit</name>
<value>-1</value>
</property>
修改regex-urlfilter.txt，将
# accept anything else
+.
替换为：
+^http://([a-z0-9]*\.)*news.163.com/
-.
8、开发调试
在左部Package Explorer的 nutch1.5.1文件夹上单击右键 > New > Folder > Folder name: urls
在刚新建的urls目录下新建一个文本文件url，文本内容为： http://news.163.com
打开src/java下的org.apache.nutch.crawl.Crawl.java类，单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入: urls -dir data -depth 3 > Run
在需要调试的地方打上断点Debug As > Java Applicaton
9、查看结果
查看segments目录：
打开src/java下的org.apache.nutch.segment.SegmentReader.java类
单击右键Run As > Java Applicaton，控制台会输出该命令的使用方法
单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入: -dump data/segments/* data/segments/dump
用文本编辑器打开文件data/segments/dump/dump查看segments中存储的信息

查看crawldb目录：
打开src/java下的org.apache.nutch.crawl.CrawlDbReader.java类
单击右键Run As > Java Applicaton，控制台会输出该命令的使用方法
单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入: data/crawldb -stats
控制台会输出 crawldb统计信息

查看linkdb目录：
打开src/java下的org.apache.nutch.crawl.LinkDbReader.java类
单击右键Run As > Java Applicaton，控制台会输出该命令的使用方法
单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入: data/linkdb -dump data/linkdb_dump
用文本编辑器打开文件data/linkdb_dump/part-00000查看linkdb中存储的信息
10、全网分步骤抓取
在左部Package Explorer的 nutch1.5.1文件夹下的build.xml文件上单击右键 > Run As > Ant Build
cd /home/ysc/workspace/nutch1.5.1/runtime/local
#准备URL列表
wget http://rdf.dmoz.org/rdf/content.rdf.u8.gz
gunzip content.rdf.u8.gz
mkdir dmoz
bin/nutch org.apache.nutch.tools.DmozParser content.rdf.u8 -subset 5000 > dmoz/url
#注入URL
bin/nutch inject crawl/crawldb dmoz
#生成抓取列表
bin/nutch generate crawl/crawldb crawl/segments
#第一次抓取
s1=`ls -d crawl/segments/2* | tail -1`
echo $s1
#抓取网页
bin/nutch fetch $s1
#解析网页
bin/nutch parse $s1
#更新URL状态
bin/nutch updatedb crawl/crawldb $s1
#第二次抓取
bin/nutch generate crawl/crawldb crawl/segments -topN 1000
s2=`ls -d crawl/segments/2* | tail -1`
echo $s2
bin/nutch fetch $s2
bin/nutch parse $s2
bin/nutch updatedb crawl/crawldb $s2
#第三次抓取
bin/nutch generate crawl/crawldb crawl/segments -topN 1000
s3=`ls -d crawl/segments/2* | tail -1`
echo $s3
bin/nutch fetch $s3
bin/nutch parse $s3
bin/nutch updatedb crawl/crawldb $s3
#生成反向链接库
bin/nutch invertlinks crawl/linkdb -dir crawl/segments

11、索引和搜索
cd /home/ysc/
wget http://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.1/apache-solr-3.6.1.tgz
tar -xvf apache-solr-3.6.1.tgz
cd apache-solr-3.6.1 /example

NUTCH_RUNTIME_HOME=/home/ysc/workspace/nutch1.5.1/runtime/local
APACHE_SOLR_HOME=/home/ysc/apache-solr-3.6.1

cp ${NUTCH_RUNTIME_HOME}/conf/schema.xml ${APACHE_SOLR_HOME}/example/solr/conf/
如果需要把网页内容存储到索引中，则修改 schema.xml文件中的
<field name="content" type="text" stored="false" indexed="true"/>
为
<field name="content" type="text" stored="true" indexed="true"/>

修改${APACHE_SOLR_HOME}/example/solr/conf/solrconfig.xml,将里面的<str name="df">text</str>都替换为<str name="df">content</str>

把${APACHE_SOLR_HOME}/example /solr/conf/schema.xml中的 <schema name="nutch" version="1.5.1">修改为<schema name="nutch" version="1.5">
#启动SOLR服务器
java -jar start.jar

http://127.0.0.1:8983/solr/admin/
http://127.0.0.1:8983/solr/admin/stats.jsp

cd /home/ysc/workspace/nutch1.5.1/runtime/local
#提交索引
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

执行完整crawl:
bin/nutch crawl urls -dir data -depth 2 -topN 100 -solr http://127.0.0.1:8983/solr/

使用以下命令分页查看所有索引的文档：
http://127.0.0.1:8983/solr/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on
标题包含“网易”的文档：
http://127.0.0.1:8983/solr/select/?q=title%3A%E7%BD%91%E6%98%93&version=2.2&start=0&rows=10&indent=on

12、查看索引信息
cd /home/ysc/
wget http://luke.googlecode.com/files/lukeall-3.5.0.jar
java -jar lukeall-3.5.0.jar
Path: /home/ysc/apache-solr-3.6.1/example/solr/data

13、配置SOLR的中文分词
cd /home/ysc/
wget http://mmseg4j.googlecode.com/files/mmseg4j-1.8.5.zip
unzip mmseg4j-1.8.5.zip -d mmseg4j-1.8.5

APACHE_SOLR_HOME=/home/ysc/apache-solr-3.6.1
mkdir $APACHE_SOLR_HOME/example/solr/lib
mkdir $APACHE_SOLR_HOME/example/solr/dic
cp mmseg4j-1.8.5/mmseg4j-all-1.8.5.jar $APACHE_SOLR_HOME/example/solr/lib
cp mmseg4j-1.8.5/data/*.dic $APACHE_SOLR_HOME/example/solr/dic

将${APACHE_SOLR_HOME}/example/solr/conf/schema.xml文件中的
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
和
<tokenizer class="solr.StandardTokenizerFactory"/>
替换为
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/home/ysc/apache-solr-3.6.1/example/solr/dic"/>

#重新启动SOLR服务器
java -jar start.jar

#重建索引，演示在开发环境中如何操作
打开src/java下的org.apache.nutch.indexer.solr.SolrIndexer.java类
单击右键Run As > Java Applicaton，控制台会输出该命令的使用方法
单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入: http://127.0.0.1:8983/solr/ ; data/crawldb -linkdb data/linkdb data/segments/*
使用luke重新打开索引就会发现分词起作用了

三、nutch2.0
nutch2.0和二中的nutch1.5.1的步骤相同，但在8、开发调试之前需要做以下配置：
在左部Package Explorer的 nutch2.0文件夹上单击右键 > New > Folder > Folder name: data并指定数据存储方式，选如下之一：
1、使用mysql作为数据存储
  1）、在nutch2.0/conf/nutch-site.xml中加入如下配置：
<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.sql.store.SqlStore</value>
</property>
  2）、将nutch2.0/conf/gora.properties文件中的
  gora.sqlstore.jdbc.driver=org.hsqldb.jdbc.JDBCDriver
gora.sqlstore.jdbc.url=jdbc:hsqldb:hsql://localhost/nutchtest
gora.sqlstore.jdbc.user=sa
gora.sqlstore.jdbc.password=
  修改为
  gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver
gora.sqlstore.jdbc.url=jdbc:mysql://127.0.0.1:3306/nutch2
gora.sqlstore.jdbc.user=root
gora.sqlstore.jdbc.password=ROOT
  3）、打开nutch2.0/ivy/ivy.xml中的mysql-connector-java依赖
  4）、sudo apt-get install mysql-server
2、使用hbase作为数据存储
  1）、在nutch2.0/conf/nutch-site.xml中加入如下配置：
<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.hbase.store.HBaseStore</value>
</property>
  2）、打开nutch2.0/ivy/ivy.xml中的gora-hbase依赖
  3）、cd /home/ysc
  4）、wget http://mirror.bit.edu.cn/apache/hbase/hbase-0.90.5/hbase-0.90.5.tar.gz
  5）、tar -xvf hbase-0.90.5.tar.gz
  6）、vi hbase-0.90.5/conf/hbase-site.xml
   加入以下配置：
<property>
    <name>hbase.rootdir</name>
    <value> file:///home/ysc/hbase-0.90.5-database</value>
</property>
7)、hbase-0.90.5/bin/start-hbase.sh
8)、将/home/ysc/hbase-0.90.5/hbase-0.90.5.jar加入开发环境eclipse的build path

四、配置SSH
三台机器 devcluster01， devcluster02， devcluster03，分别在每一台机器上面执行如下操作：
1、sudo vi /etc/hosts
加入以下配置：
192.168.1.1 devcluster01
192.168.1.2 devcluster02
192.168.1.3 devcluster03
2、安装SSH服务：
  sudo apt-get install openssh-server
3、(有提示的时候回车键确认）
  ssh-keygen -t rsa
  该命令会在用户主目录下创建 .ssh 目录，并在其中创建两个文件：id_rsa 私钥文件。是基于 RSA 算法创建。该私钥文件要妥善保管，不要泄漏。id_rsa.pub 公钥文件。和 id_rsa 文件是一对儿，该文件作为公钥文件，可以公开。
4、cp .ssh/id_rsa.pub .ssh/authorized_keys
把三台机器 devcluster01， devcluster02， devcluster03 的文件/home/ysc/.ssh/authorized_keys的内容复制出来合并成一个文件并替换每一台机器上的/home/ysc/.ssh /authorized_keys文件
在devcluster01上面执行时，以下两条命令的主机为02和03
在devcluster02上面执行时，以下两条命令的主机为01和03
在devcluster03上面执行时，以下两条命令的主机为01和02
5、ssh-copy-id -i .ssh/id_rsa.pub ysc@ devcluster02
6、ssh-copy-id -i .ssh/id_rsa.pub ysc@ devcluster03
以上两条命令实际上是将 .ssh/id_rsa.pub 公钥文件追加到远程主机 server 的 user 主目录下的 .ssh/authorized_keys 文件中。

五、安装Hadoop Cluster（伪分布式运行模式）并运行Nutch
步骤和四大同小异，只需要1台机器 devcluster01，所以黄色背景部分全部设置为devcluster01，不需要第11步

六、安装Hadoop Cluster（分布式运行模式）并运行Nutch
三台机器 devcluster01， devcluster02， devcluster03(vi /etc/hostname)
使用用户ysc登陆 devcluster01：
1、cd /home/ysc
2、wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-1.1.1/hadoop-1.1.1-bin.tar.gz
3、tar -xvf hadoop-1.1.1-bin.tar.gz
4、cd hadoop-1.1.1
5、vi conf/masters
  替换内容为：
  devcluster01
6、vi conf/slaves
  替换内容为：
  devcluster02
  devcluster03
7、vi conf/core-site.xml
  加入配置：
<property>
    <name>fs.default.name</name>
    <value>hdfs://devcluster01:9000</value>
    <description>
       Where to find the Hadoop Filesystem through the network.
       Note 9000 is not the default port.
       (This is slightly changed from previous versions which didnt have "hdfs")
    </description>
</property>
    <property>
     <name>hadoop.security.authorization</name>
      <value>true</value>
    </property>
编辑conf/hadoop-policy.xml
8、vi conf/hdfs-site.xml
  加入配置：
<property>
<name>dfs.name.dir</name>
<value>/home/ysc/dfs/filesystem/name</value>
</property>

<property>
<name>dfs.data.dir</name>
<value>/home/ysc/dfs/filesystem/data</value>
</property>

<property>
<name>dfs.replication</name>
<value>1</value>
</property>

<property>
<name>dfs.block.size</name>
<value>671088640</value>
<description>The default block size for new files.</description>
</property>
9、vi conf/mapred-site.xml
  加入配置：
<property>
<name>mapred.job.tracker</name>
<value>devcluster01:9001</value>
<description>
    The host and port that the MapReduce job tracker runs at. If
    "local", then jobs are run in-process as a single map and
    reduce task.
    Note 9001 is not the default port.
</description>
</property>

<property>
<name>mapred.reduce.tasks.speculative.execution</name>
<value>false</value>
<description>If true, then multiple instances of some reduce tasks
may be executed in parallel.</description>
</property>

<property>
<name>mapred.map.tasks.speculative.execution</name>
<value>false</value>
<description>If true, then multiple instances of some map tasks
may be executed in parallel.</description>
</property>

<property>
<name>mapred.child.java.opts</name>
<value>-Xmx2000m</value>
</property>

<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>4</value>
<description>
the core number of host
</description>
</property>

<property>
<name>mapred.map.tasks</name>
<value>4</value>
</property>

<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>4</value>
    <description>
    define mapred.map tasks to be number of slave hosts.the best number is the number of slave hosts plus the core numbers of per host
    </description>
</property>

<property>
<name>mapred.reduce.tasks</name>
<value>4</value>
<description>
define mapred.reduce tasks to be number of slave hosts.the best number is the number of slave hosts plus the core numbers of per host
</description>
</property>

<property>
<name>mapred.output.compression.type</name>
<value>BLOCK</value>
<description>If the job outputs are to compressed as SequenceFiles, how should they be compressed? Should be one of NONE, RECORD or BLOCK.
</description>
</property>

<property>
<name>mapred.output.compress</name>
<value>true</value>
<description>Should the job outputs be compressed?
</description>
</property>

<property>
<name>mapred.compress.map.output</name>
<value>true</value>
<description>Should the outputs of the maps be compressed before being sent across the network. Uses SequenceFile compression.
</description>
</property>

<property>
<name>mapred.system.dir</name>
<value>/home/ysc/mapreduce/system</value>
</property>

<property>
<name>mapred.local.dir</name>
<value>/home/ysc/mapreduce/local</value>
</property>
10、vi conf/hadoop-env.sh
  追加：
export JAVA_HOME=/home/ysc/jdk1.7.0_05
  export HADOOP_HEAPSIZE=2000
  #替换掉默认的垃圾回收器，因为默认的垃圾回收器在多线程环境下会有更多的wait等待
  export HADOOP_OPTS="-server -Xmn256m -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70"
11、复制HADOOP文件
  scp -r /home/ysc/hadoop-1.1.1 ysc@devcluster02:/home/ysc/hadoop-1.1.1
  scp -r /home/ysc/hadoop-1.1.1 ysc@devcluster03:/home/ysc/hadoop-1.1.1
12、sudo vi /etc/profile
  追加并重启系统：
  export PATH=/home/ysc/hadoop-1.1.1/bin:$PATH
13、格式化名称节点并启动集群
  hadoop namenode -format
  start-all.sh
14、cd /home/ysc/workspace/nutch1.5.1/runtime/deploy
  mkdir urls
  echo http://news.163.com > urls/url
  hadoop dfs -put urls urls
  bin/nutch crawl urls -dir data -depth 2 -topN 100
15、访问 http://localhost:50030 可以查看 JobTracker 的运行状态。访问 http://localhost:50060 可以查看 TaskTracker 的运行状态。访问 http://localhost:50070 可以查看 NameNode 以及整个分布式文件系统的状态，浏览分布式文件系统中的文件以及 log 等
16、通过stop-all.sh停止集群
17、如果NameNode和SecondaryNameNode不在同一台机器上，则在SecondaryNameNode的conf/hdfs-site.xml文件中加入配置：
   <property>
     <name>dfs.http.address</name>
     <value>namenode:50070</value>
   </property>

七、配置Ganglia监控Hadoop集群和HBase集群
1、服务器端（安装到master devcluster01上）
  1）、ssh devcluster01
  2）、addgroup ganglia
           adduser --ingroup ganglia ganglia
  3）、sudo apt-get install ganglia-monitor ganglia-webfront gmetad
   //补充：在Ubuntu10.04上，ganglia-webfront这个package名字叫ganglia-webfrontend
   //如果install出错，则运行sudo apt-get update，如果update出错，则删除出错路径
  4）、vi /etc/ganglia/gmond.conf
   先找到setuid = yes,改成setuid =no;
   在找到cluster块中的name，改成name =”hadoop-cluster”;
  5）、sudo apt-get install rrdtool
  6)、vi /etc/ganglia/gmetad.conf
   在这个配置文件中增加一些datasource，即其他2个被监控的节点，增加以下内容：
   data_source “hadoop-cluster” devcluster01:8649 devcluster02:8649 devcluster03:8649
   gridname "Hadoop"
2、数据源端（安装到所有slaves上）
  1)、ssh devcluster02
   addgroup ganglia
   adduser --ingroup ganglia ganglia
   sudo apt-get install ganglia-monitor

  2)、ssh devcluster03
   addgroup ganglia
   adduser --ingroup ganglia ganglia
   sudo apt-get install ganglia-monitor

  3）、ssh devcluster01
   scp /etc/ganglia/gmond.conf devcluster02:/etc/ganglia/gmond.conf
   scp /etc/ganglia/gmond.conf devcluster03:/etc/ganglia/gmond.conf
3、配置WEB
  1）、ssh devcluster01
  2）、sudo ln -s /usr/share/ganglia-webfrontend /var/www/ganglia
  3）、vi /etc/apache2/apache2.conf
   添加：
   ServerName devcluster01
4、重启服务
  1）、ssh devcluster02
   sudo /etc/init.d/ganglia-monitor restart
   ssh devcluster03
   sudo /etc/init.d/ganglia-monitor restart
  2）、ssh devcluster01
   sudo /etc/init.d/ganglia-monitor restart
   sudo /etc/init.d/gmetad restart
   sudo /etc/init.d/apache2 restart
5、访问页面
  http:// devcluster01/ganglia
6、集成hadoop
  1）、ssh devcluster01
  2）、cd /home/ysc/hadoop-1.1.1
  3）、vi conf/hadoop-metrics2.properties
  # 大于0.20以后的版本用ganglia31  *.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink31
  *.sink.ganglia.period=10
  # default for supportsparse is false
  *.sink.ganglia.supportsparse=true
*.sink.ganglia.slope=jvm.metrics.gcCount=zero,jvm.metrics.memHeapUsedM=both
*.sink.ganglia.dmax=jvm.metrics.threadsBlocked=70,jvm.metrics.memHeapUsedM=40
  #广播IP地址，这是缺省的，统一设该值(只能用组播地址239.2.11.71)
  namenode.sink.ganglia.servers=239.2.11.71:8649
  datanode.sink.ganglia.servers=239.2.11.71:8649
  jobtracker.sink.ganglia.servers=239.2.11.71:8649
  tasktracker.sink.ganglia.servers=239.2.11.71:8649
  maptask.sink.ganglia.servers=239.2.11.71:8649
  reducetask.sink.ganglia.servers=239.2.11.71:8649
  dfs.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
  dfs.period=10
  dfs.servers=239.2.11.71:8649
  mapred.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
  mapred.period=10
  mapred.servers=239.2.11.71:8649
  jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
  jvm.period=10
  jvm.servers=239.2.11.71:8649
  4）、scp conf/hadoop-metrics2.properties root@devcluster02:/home/ysc/hadoop-1.1.1/conf/hadoop-metrics2.properties
  5）、scp conf/hadoop-metrics2.properties root@devcluster03:/home/ysc/hadoop-1.1.1/conf/hadoop-metrics2.properties
  6）、stop-all.sh
  7）、start-all.sh
7、集成hbase
  1）、ssh devcluster01
  2）、cd /home/ysc/hbase-0.92.2
  3）、vi conf/hadoop-metrics.properties(只能用组播地址239.2.11.71)
   hbase.extendedperiod = 3600
   hbase.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
   hbase.period=10
   hbase.servers=239.2.11.71:8649
   jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
   jvm.period=10
   jvm.servers=239.2.11.71:8649
   rpc.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
   rpc.period=10
   rpc.servers=239.2.11.71:8649
  4）、scp conf/hadoop-metrics.properties root@devcluster02:/home/ysc/ hbase-0.92.2/conf/hadoop-metrics.properties
  5）、scp conf/hadoop-metrics.properties root@devcluster03:/home/ysc/ hbase-0.92.2/conf/hadoop-metrics.properties
  6）、stop-hbase.sh
  7）、start-hbase.sh

八、Hadoop配置Snappy压缩
1、wget http://snappy.googlecode.com/files/snappy-1.0.5.tar.gz
2、tar -xzvf snappy-1.0.5.tar.gz
3、cd snappy-1.0.5
4、./configure
5、make
6、make install
7、scp /usr/local/lib/libsnappy* devcluster01:/home/ysc/hadoop-1.1.1/lib/native/Linux-amd64-64/
scp /usr/local/lib/libsnappy* devcluster02:/home/ysc/hadoop-1.1.1/lib/native/Linux-amd64-64/
scp /usr/local/lib/libsnappy* devcluster03:/home/ysc/hadoop-1.1.1/lib/native/Linux-amd64-64/
8、vi /etc/profile
  追加：
  export LD_LIBRARY_PATH=/home/ysc/hadoop-1.1.1/lib/native/Linux-amd64-64
9、修改mapred-site.xml
  <property>
    <name>mapred.output.compression.type</name>
    <value>BLOCK</value>
    <description>If the job outputs are to compressed as SequenceFiles, how should
        they be compressed? Should be one of NONE, RECORD or BLOCK.
    </description>
  </property>

  <property>
    <name>mapred.output.compress</name>
    <value>true</value>
    <description>Should the job outputs be compressed?
    </description>
  </property>

  <property>
    <name>mapred.compress.map.output</name>
    <value>true</value>
    <description>Should the outputs of the maps be compressed before being
        sent across the network. Uses SequenceFile compression.
    </description>
  </property>

  <property>
    <name>mapred.map.output.compression.codec</name>
    <value>org.apache.hadoop.io.compress.SnappyCodec</value>
    <description>If the map outputs are compressed, how should they be
        compressed?
    </description>
  </property>

九、Hadoop配置Lzo压缩
1、wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz
2、tar -zxvf lzo-2.06.tar.gz
3、cd lzo-2.06
4、./configure --enable-shared
5、make
6、make install
7、scp /usr/local/lib/liblzo2.* devcluster01:/lib/x86_64-linux-gnu
scp /usr/local/lib/liblzo2.* devcluster02:/lib/x86_64-linux-gnu
scp /usr/local/lib/liblzo2.* devcluster03:/lib/x86_64-linux-gnu
8、wget http://hadoop-gpl-compression.apache-extras.org.codespot.com/files/hadoop-gpl-compression-0.1.0-rc0.tar.gz
9、tar -xzvf hadoop-gpl-compression-0.1.0-rc0.tar.gz
10、cd hadoop-gpl-compression-0.1.0
11、cp lib/native/Linux-amd64-64/* /home/ysc/hadoop-1.1.1/lib/native/Linux-amd64-64/
12、cp hadoop-gpl-compression-0.1.0.jar /home/ysc/hadoop-1.1.1/lib/(这里hadoop集群的版本要和compression使用的版本一致)
13、scp -r /home/ysc/hadoop-1.1.1/lib devcluster02:/home/ysc/hadoop-1.1.1/
scp -r /home/ysc/hadoop-1.1.1/lib devcluster03:/home/ysc/hadoop-1.1.1/
14、vi /etc/profile
  追加：
  export LD_LIBRARY_PATH=/home/ysc/hadoop-1.1.1/lib/native/Linux-amd64-64
15、修改core-site.xml
  <property>
    <name>io.compression.codecs</name>
    <value>com.hadoop.compression.lzo.LzoCodec,org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.SnappyCodec</value>
    <description>A list of the compression codec classes that can be used
        for compression/decompression.</description>
  </property>

  <property>
    <name>io.compression.codec.lzo.class</name>
    <value>com.hadoop.compression.lzo.LzoCodec</value>
  </property>

  <property>
    <name>fs.trash.interval</name>
    <value>1440</value>
    <description>Number of minutes between trash checkpoints.
    If zero, the trash feature is disabled.
    </description>
  </property>
16、修改mapred-site.xml
  <property>
    <name>mapred.output.compression.type</name>
    <value>BLOCK</value>
    <description>If the job outputs are to compressed as SequenceFiles, how should
        they be compressed? Should be one of NONE, RECORD or BLOCK.
    </description>
  </property>

  <property>
    <name>mapred.output.compress</name>
    <value>true</value>
    <description>Should the job outputs be compressed?
    </description>
  </property>

  <property>
    <name>mapred.compress.map.output</name>
    <value>true</value>
    <description>Should the outputs of the maps be compressed before being
        sent across the network. Uses SequenceFile compression.
    </description>
  </property>

  <property>
    <name>mapred.map.output.compression.codec</name>
    <value>com.hadoop.compression.lzo.LzoCodec</value>
    <description>If the map outputs are compressed, how should they be
        compressed?
    </description>
  </property>

  <property>
    <name>mapred.output.compression.codec</name>
    <value>com.hadoop.compression.lzo.LzoCodec</value>
    <description>If the job outputs are compressed, how should they be compressed?
    </description>
  </property>

十、配置zookeeper集群以运行hbase
1、ssh devcluster01
2、cd /home/ysc
3、wget http://mirror.bjtu.edu.cn/apache/zookeeper/stable/zookeeper-3.4.5.tar.gz
4、tar -zxvf zookeeper-3.4.5.tar.gz
5、cd zookeeper-3.4.5
6、cp conf/zoo_sample.cfg conf/zoo.cfg
7、vi conf/zoo.cfg
  修改：dataDir=/home/ysc/zookeeper
  添加：
   server.1=devcluster01:2888:3888
   server.2=devcluster02:2888:3888
   server.3=devcluster03:2888:3888
   maxClientCnxns=100
8、scp -r zookeeper-3.4.5 devcluster01:/home/ysc
scp -r zookeeper-3.4.5 devcluster02:/home/ysc
scp -r zookeeper-3.4.5 devcluster03:/home/ysc
9、分别在三台机器上面执行：
  ssh devcluster01
  mkdir /home/ysc/zookeeper（注：dataDir是zookeeper的数据目录，需要手动创建）
  echo 1 > /home/ysc/zookeeper/myid
  ssh devcluster02
  mkdir /home/ysc/zookeeper
  echo 2 > /home/ysc/zookeeper/myid
  ssh devcluster03
  mkdir /home/ysc/zookeeper
  echo 3 > /home/ysc/zookeeper/myid
10、分别在三台机器上面执行：
  cd /home/ysc/zookeeper-3.4.5
  bin/zkServer.sh start
  bin/zkCli.sh -server devcluster01:2181
  bin/zkServer.sh status

十一、配置Hbase集群以运行nutch-2.1(Region Servers会因为内存的问题宕机)
1、 nutch-2.1使用gora-0.2.1， gora-0.2.1使用hbase-0.90.4，hbase-0.90.4和hadoop-1.1.1不兼容，hbase-0.94.4和gora- 0.2.1不兼容，hbase-0.92.2没问题。hbase存在系统时间同步的问题，并且误差要再30s以内。
sudo apt-get install ntp
sudo ntpdate -u 210.72.145.44
2、HBase是数据库，会在同一时间使用很多的文件句柄。大多数linux系统使用的默认值1024是不能满足的。还需要修改 hbase 用户的 nproc，在压力下，如果过低会造成 OutOfMemoryError异常。
vi /etc/security/limits.conf
添加：
   ysc soft nproc 32000
   ysc hard nproc 32000
   ysc soft nofile 32768
   ysc hard nofile 32768
vi /etc/pam.d/common-session
添加：
   session required pam_limits.so
3、登陆master，下载并解压hbase
  ssh devcluster01
  cd /home/ysc
  wget http://apache.etoak.com/hbase/hbase-0.92.2/hbase-0.92.2.tar.gz
  tar -zxvf hbase-0.92.2.tar.gz
  cd hbase-0.92.2
4、修改配置文件hbase-env.sh
  vi conf/hbase-env.sh
  追加：
  export JAVA_HOME=/home/ysc/jdk1.7.0_05
  export HBASE_MANAGES_ZK=false
  export HBASE_HEAPSIZE=10000
  #替换掉默认的垃圾回收器，因为默认的垃圾回收器在多线程环境下会有更多的wait等待
  export HBASE_OPTS="-server -Xmn256m -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70"
5、修改配置文件hbase-site.xml
  vi conf/hbase-site.xml
  <property>
   <name>hbase.rootdir</name>
   <value>hdfs://devcluster01:9000/hbase</value>
  </property>
  <property>
   <name>hbase.cluster.distributed</name>
   <value>true</value>
  </property>
  <property>
   <name>hbase.zookeeper.quorum</name>
   <value>devcluster01,devcluster02,devcluster03</value>
  </property>
  <property>
   <name>hfile.block.cache.size</name>
   <value>0.25</value>
   <description>
    Percentage of maximum heap (-Xmx setting) to allocate to block cache
    used by HFile/StoreFile. Default of 0.25 means allocate 25%.
    Set to 0 to disable but it's not recommended.
   </description>
  </property>
  <property>
   <name>hbase.regionserver.global.memstore.upperLimit</name>
   <value>0.4</value>
   <description>Maximum size of all memstores in a region server before new
     updates are blocked and flushes are forced. Defaults to 40% of heap
   </description>
  </property>
    <property>
   <name>hbase.regionserver.global.memstore.lowerLimit</name>
   <value>0.35</value>
   <description>When memstores are being forced to flush to make room in
    memory, keep flushing until we hit this mark. Defaults to 35% of heap.
    This value equal to hbase.regionserver.global.memstore.upperLimit causes
    the minimum possible flushing to occur when updates are blocked due to
    memstore limiting.
   </description>
    </property>
  <property>
   <name>hbase.hregion.majorcompaction</name>
   <value>0</value>
   <description>The time (in miliseconds) between 'major' compactions of all
    HStoreFiles in a region. Default: 1 day.
    Set to 0 to disable automated major compactions.
   </description>
  </property>
6、修改配置文件regionservers
  vi conf/regionservers
  devcluster01
  devcluster02
  devcluster03
7、因为HBase建立在Hadoop之上，Hadoop使用的hadoop*.jar和HBase使用的必须一致。所以要将 HBase lib 目录下的hadoop*.jar替换成Hadoop里面的那个，防止版本冲突。
  cp /home/ysc/hadoop-1.1.1/hadoop-core-1.1.1.jar /home/ysc/hbase-0.92.2/lib
  rm /home/ysc/hbase-0.92.2/lib/hadoop-core-1.0.3.jar
8、复制文件到regionservers
  scp -r /home/ysc/hbase-0.92.2 devcluster01:/home/ysc
  scp -r /home/ysc/hbase-0.92.2 devcluster02:/home/ysc
  scp -r /home/ysc/hbase-0.92.2 devcluster03:/home/ysc
9、启动hadoop并创建目录
  hadoop fs -mkdir /hbase
10、管理HBase集群:
  启动初始 HBase 集群：
   bin/start-hbase.sh
  停止HBase 集群：
   bin/stop-hbase.sh
  启动额外备份主服务器，可以启动到 9 个备份服务器 (总数10 个)：
   bin/local-master-backup.sh start 1
   bin/local-master-backup.sh start 2 3
  启动更多 regionservers, 支持到 99 个额外regionservers (总100个)：
   bin/local-regionservers.sh start 1
   bin/local-regionservers.sh start 2 3 4 5
  停止备份主服务器:
   cat /tmp/hbase-ysc-1-master.pid |xargs kill -9
  停止单独 regionserver：
   bin/local-regionservers.sh stop 1
  使用HBase命令行模式:
   bin/hbase shell
11、web界面
   http://devcluster01:60010
   http://devcluster01:60030
12、如运行nutch2.1则方法一：
  cp conf/hbase-site.xml /home/ysc/nutch-2.1/conf
  cd /home/ysc/nutch-2.1
  ant
  cd runtime/deploy
  unzip -d apache-nutch-2.1 apache-nutch-2.1.job
  rm apache-nutch-2.1.job
  cd apache-nutch-2.1
  rm lib/hbase-0.90.4.jar
  cp /home/ysc/hbase-0.92.2/hbase-0.92.2.jar lib
  zip -r ../apache-nutch-2.1.job ./*
  cd ..
  rm -r apache-nutch-2.1
13、如运行nutch2.1则方法二：
  cp conf/hbase-site.xml /home/ysc/nutch-2.1/conf
  cd /home/ysc/nutch-2.1
  cp /home/ysc/hbase-0.92.2/hbase-0.92.2.jar lib
  ant
  cd runtime/deploy
  zip -d apache-nutch-2.1.job lib/hbase-0.90.4.jar

启用snappy压缩：
1、vi conf/gora-hbase-mapping.xml
  在family上面添加属性：compression="SNAPPY"
2、mkdir /home/ysc/hbase-0.92.2/lib/native/Linux-amd64-64
3、cp /home/ysc/hadoop-1.1.1/lib/native/Linux-amd64-64/* /home/ysc/hbase-0.92.2/lib/native/Linux-amd64-64
4、vi /home/ysc/hbase-0.92.2/conf/hbase-site.xml
  增加：
                <property>
                        <name>hbase.regionserver.codecs</name>
                        <value>snappy</value>
                </property>

十二、配置Accumulo集群以运行nutch-2.1(gora存在BUG)
1、wget http://apache.etoak.com/accumulo/1.4.2/accumulo-1.4.2-dist.tar.gz
2、tar -xzvf accumulo-1.4.2-dist.tar.gz
3、cd accumulo-1.4.2
4、cp conf/examples/3GB/standalone/* conf
5、vi conf/accumulo-env.sh
  export HADOOP_HOME=/home/ysc/cluster3
  export ZOOKEEPER_HOME=/home/ysc/zookeeper-3.4.5
  export JAVA_HOME=/home/jdk1.7.0_01
  export ACCUMULO_HOME=/home/ysc/accumulo-1.4.2
6、vi conf/slaves
  devcluster01
  devcluster02
  devcluster03
7、vi conf/masters
  devcluster01
8、vi conf/accumulo-site.xml
  <property>
    <name>instance.zookeeper.host</name>
    <value>host6:2181,host8:2181</value>
    <description>comma separated list of zookeeper servers</description>
  </property>

  <property>
    <name>logger.dir.walog</name>
    <value>walogs</value>
    <description>The directory used to store write-ahead logs on the local filesystem. It is possible to specify a comma-separated list of directories.</description>
  </property>

  <property>
    <name>instance.secret</name>
    <value>ysc</value>
    <description>A secret unique to a given instance that all servers must know in order to communicate with one another.
        Change it before initialization. To change it later use ./bin/accumulo org.apache.accumulo.server.util.ChangeSecret [oldpasswd] [newpasswd],
        and then update this file.
    </description>
  </property>

  <property>
    <name>tserver.memory.maps.max</name>
    <value>3G</value>
  </property>

  <property>
    <name>tserver.cache.data.size</name>
    <value>50M</value>
  </property>

  <property>
    <name>tserver.cache.index.size</name>
    <value>512M</value>
  </property>

<property>
    <name>trace.password</name>
    
    <value>ysc</value>
  </property>

  <property>
    <name>trace.user</name>
    <value>root</value>
  </property>
9、bin/accumulo init
10、bin/start-all.sh
11、bin/stop-all.sh
12、web访问： http://devcluster01:50095/

修改nutch2.1：
1、cd /home/ysc/nutch-2.1
2、vi conf/gora.properties
  增加：
  gora.datastore.default=org.apache.gora.accumulo.store.AccumuloStore
  gora.datastore.accumulo.mock=false
  gora.datastore.accumulo.instance=accumulo
  gora.datastore.accumulo.zookeepers=host6,host8
  gora.datastore.accumulo.user=root
  gora.datastore.accumulo.password=ysc
3、vi conf/nutch-site.xml
  增加：
  <property>
    <name>storage.data.store.class</name>
    <value>org.apache.gora.accumulo.store.AccumuloStore</value>
  </property>
4、vi ivy/ivy.xml
  增加：
  <dependency org="org.apache.gora" name="gora-accumulo" rev="0.2.1" conf="*->default" />
5、升级accumulo
  cp /home/ysc/accumulo-1.4.2/lib/accumulo-core-1.4.2.jar /home/ysc/nutch-2.1/lib
  cp /home/ysc/accumulo-1.4.2/lib/accumulo-start-1.4.2.jar /home/ysc/nutch-2.1/lib
  cp /home/ysc/accumulo-1.4.2/lib/cloudtrace-1.4.2.jar /home/ysc/nutch-2.1/lib
6、ant
7、cd runtime/deploy
8、删除旧jar
  zip -d apache-nutch-2.1.job lib/accumulo-core-1.4.0.jar
  zip -d apache-nutch-2.1.job lib/accumulo-start-1.4.0.jar
  zip -d apache-nutch-2.1.job lib/cloudtrace-1.4.2.jar

十三、配置Cassandra 集群以运行nutch-2.1（Cassandra 采用去中心化结构）
1、vi /etc/hosts（注意：需要登录到每一台机器上面，将localhost解析到实际地址）
  192.168.1.1       localhost
2、wget http://labs.mop.com/apache-mirror/cassandra/1.2.0/apache-cassandra-1.2.0-bin.tar.gz
3、tar -xzvf apache-cassandra-1.2.0-bin.tar.gz
4、cd apache-cassandra-1.2.0
5、vi conf/cassandra-env.sh
  增加：
  MAX_HEAP_SIZE="4G"
  HEAP_NEWSIZE="800M"
6、vi conf/log4j-server.properties
  修改：
  log4j.appender.R.File=/home/ysc/cassandra/system.log
7、vi conf/cassandra.yaml
  修改：
  cluster_name: 'Cassandra Cluster'
  data_file_directories:
      - /home/ysc/cassandra/data
  commitlog_directory: /home/ysc/cassandra/commitlog
  saved_caches_directory: /home/ysc/cassandra/saved_caches

  - seeds: "192.168.1.1"
  listen_address: 192.168.1.1
  rpc_address: 192.168.1.1

  thrift_framed_transport_size_in_mb: 1023
  thrift_max_message_length_in_mb: 1024
8、vi bin/stop-server
  增加：
  user=`whoami`
  pgrep -u $user -f cassandra | xargs kill -9
9、复制cassandra到其他节点：
  cd ..
  scp -r apache-cassandra-1.2.0 devcluster02:/home/ysc
  scp -r apache-cassandra-1.2.0 devcluster03:/home/ysc
  分别在devcluster02和devcluster03上面修改：
  vi conf/cassandra.yaml
   listen_address: 192.168.1.2
   rpc_address: 192.168.1.2
  vi conf/cassandra.yaml
   listen_address: 192.168.1.3
   rpc_address: 192.168.1.3
10、分别在3个节点上面运行
  bin/cassandra
  bin/cassandra -f   参数 -f 的作用是让 Cassandra 以前端程序方式运行，这样有利于调试和观察日志信息，而在实际生产环境中这个参数是不需要的（即 Cassandra 会以 daemon 方式运行）
11、bin/nodetool -host devcluster01 ring
        bin/nodetool -host devcluster01 info
12、bin/stop-server
13、bin/cassandra-cli

修改nutch2.1：
1、cd /home/ysc/nutch-2.1
2、vi conf/gora.properties
  增加：
  gora.cassandrastore.servers=host2:9160,host6:9160,host8:9160
3、vi conf/nutch-site.xml
  增加：
  <property>
    <name>storage.data.store.class</name>
    <value>org.apache.gora.cassandra.store.CassandraStore</value>
  </property>
4、vi ivy/ivy.xml
  增加：
  <dependency org="org.apache.gora" name="gora-cassandra" rev="0.2.1" conf="*->default" />
5、升级cassandra
  cp /home/ysc/apache-cassandra-1.2.0/lib/apache-cassandra-1.2.0.jar /home/ysc/nutch-2.1/lib
  cp /home/ysc/apache-cassandra-1.2.0/lib/apache-cassandra-thrift-1.2.0.jar /home/ysc/nutch-2.1/lib
  cp /home/ysc/apache-cassandra-1.2.0/lib/jline-1.0.jar /home/ysc/nutch-2.1/lib
6、ant
7、cd runtime/deploy
8、删除旧jar
  zip -d apache-nutch-2.1.job lib/cassandra-thrift-1.1.2.jar
  zip -d apache-nutch-2.1.job lib/jline-0.9.1.jar

十四、配置MySQL 单机服务器以运行nutch-2.1
1、apt-get install mysql-server mysql-client
2、vi /etc/mysql/my.cnf
  修改：
  bind-address            = 221.194.43.2
  在[client]下增加：
  default-character-set=utf8
  在[mysqld]下增加：
  default-character-set=utf8
3、mysql –uroot –pysc
  SHOW VARIABLES LIKE '%character%';
4、service mysql restart
5、mysql –uroot –pysc
  GRANT ALL PRIVILEGES ON *.* TO root@"%" IDENTIFIED BY "ysc";
6、vi conf/gora-sql-mapping.xml
  修改字段的长度
  <primarykey column="id" length="333"/>
  <field name="content" column="content" />
  <field name="text" column="text" length="19892"/>
7、启动nutch之后登陆mysql
   ALTER TABLE webpage MODIFY COLUMN content MEDIUMBLOB;
   ALTER TABLE webpage MODIFY COLUMN text MEDIUMTEXT;
   ALTER TABLE webpage MODIFY COLUMN title MEDIUMTEXT;
   ALTER TABLE webpage MODIFY COLUMN reprUrl MEDIUMTEXT;
   ALTER TABLE webpage MODIFY COLUMN baseUrl MEDIUMTEXT;
   ALTER TABLE webpage MODIFY COLUMN typ MEDIUMTEXT;
   ALTER TABLE webpage MODIFY COLUMN inlinks MEDIUMBLOB;
   ALTER TABLE webpage MODIFY COLUMN outlinks MEDIUMBLOB;

修改nutch2.1：
1、cd /home/ysc/nutch-2.1
2、vi conf/gora.properties
  增加：
   gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver
gora.sqlstore.jdbc.url=jdbc:mysql://host2:3306/nutch?createDatabaseIfNotExist=true&useUnicode=true&characterEncoding=utf8
  gora.sqlstore.jdbc.user=root
  gora.sqlstore.jdbc.password=ysc
3、vi conf/nutch-site.xml
  增加：
  <property>
    <name>storage.data.store.class</name>
    <value>org.apache.gora.sql.store.SqlStore </value>
  </property>

  <property>
    <name>encodingdetector.charset.min.confidence</name>
    <value>1</value>
    <description>A integer between 0-100 indicating minimum confidence value
    for charset auto-detection. Any negative value disables auto-detection.
    </description>
  </property>
4、vi ivy/ivy.xml
  增加：
  <dependency org="mysql" name="mysql-connector-java" rev="5.1.18" conf="*->default"/>

十五、nutch2.1 使用DataFileAvroStore作为数据源
1、cd /home/ysc/nutch-2.1
2、vi conf/gora.properties
  增加：
  gora.datafileavrostore.output.path=datafileavrostore
  gora.datafileavrostore.input.path=datafileavrostore
3、vi conf/nutch-site.xml
  增加：
  <property>
    <name>storage.data.store.class</name>
    <value>org.apache.gora.avro.store.DataFileAvroStore</value>
  </property>

十六、nutch2.1 使用AvroStore作为数据源
1、cd /home/ysc/nutch-2.1
2、vi conf/gora.properties
  增加：
  gora.avrostore.codec.type=BINARY
  gora.avrostore.input.path=avrostore
  gora.avrostore.output.path=avrostore
3、vi conf/nutch-site.xml
  增加：
  <property>
    <name>storage.data.store.class</name>
    <value>org.apache.gora.avro.store.AvroStore</value>
  </property>

十七、配置SOLR
配置tomcat：
1、wget http://www.fayea.com/apache-mirror/tomcat/tomcat-7/v7.0.35/bin/apache-tomcat-7.0.35.tar.gz
2、tar -xzvf apache-tomcat-7.0.35.tar.gz
3、cd apache-tomcat-7.0.35
4、vi conf/server.xml
增加URIEncoding="UTF-8"：
  <Connector port="8080" protocol="HTTP/1.1"
       connectionTimeout="20000"
       redirectPort="8443" URIEncoding="UTF-8"/>
5、mkdir conf/Catalina
6、mkdir conf/Catalina/localhost
7、vi conf/Catalina/localhost/solr.xml
增加：
  <Context path="/solr">
   <Environment name="solr/home" type="java.lang.String" value="/home/ysc/solr/configuration/" override="false"/>
  </Context>
8、cd ..

下载SOLR:
1、wget http://mirrors.tuna.tsinghua.edu.cn/apache/lucene/solr/4.1.0/solr-4.1.0.tgz
2、tar -xzvf solr-4.1.0.tgz

复制资源：
1、mkdir /home/ysc/solr
2、cp -r solr-4.1.0/example/solr /home/ysc/solr/configuration
3、unzip solr-4.1.0/example/webapps/solr.war -d /home/ysc/apache-tomcat-7.0.35/webapps/solr

配置nutch：
1、复制schema：
  cp /home/ysc/nutch-1.6/conf/schema-solr4.xml /home/ysc/solr/configuration/collection1/conf/schema.xml
2、vi /home/ysc/solr/configuration/collection1/conf/schema.xml
  在<fields>下增加：
  <field name="_version_" type="long" indexed="true" stored="true"/>

配置中文分词：
1、wget http://mmseg4j.googlecode.com/files/mmseg4j-1.9.1.v20130120-SNAPSHOT.zip
2、unzip mmseg4j-1.9.1.v20130120-SNAPSHOT.zip
3、cp mmseg4j-1.9.1-SNAPSHOT/dist/* /home/ysc/apache-tomcat-7.0.35/webapps/solr/WEB-INF/lib
4、unzip mmseg4j-1.9.1-SNAPSHOT/dist/mmseg4j-core-1.9.1-SNAPSHOT.jar -d mmseg4j-1.9.1-SNAPSHOT/dist/mmseg4j-core-1.9.1-SNAPSHOT
5、mkdir /home/ysc/dic
6、cp   mmseg4j-1.9.1-SNAPSHOT/dist/mmseg4j-core-1.9.1-SNAPSHOT/data/* /home/ysc/dic
7、vi /home/ysc/solr/configuration/collection1/conf/schema.xml
  将文件中的
  <tokenizer class="solr.WhitespaceTokenizerFactory"/>
  和
  <tokenizer class="solr.StandardTokenizerFactory"/>
  替换为
  <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/home/ysc/dic"/>

配置tomcat本地库：
1、wget http://apache.spd.co.il/apr/apr-1.4.6.tar.gz
2、tar -xzvf apr-1.4.6.tar.gz
3、cd apr-1.4.6
4、./configure
5、make
6、make install

1、wget http://mirror.bjtu.edu.cn/apache/apr/apr-util-1.5.1.tar.gz
2、tar -xzvf apr-util-1.5.1.tar.gz
3、cd apr-util-1.5.1
4、./configure --with-apr=/usr/local/apr
5、make
6、make install

1、wget http://mirror.bjtu.edu.cn/apache//tomcat/tomcat-connectors/native/1.1.24/source/tomcat-native-1.1.24-src.tar.gz
2、tar -zxvf tomcat-native-1.1.24-src.tar.gz
3、cd tomcat-native-1.1.24-src/jni/native
4、./configure --with-apr=/usr/local/apr \
                --with-java-home=/home/ysc/jdk1.7.0_01 \
                --with-ssl=no \
                --prefix=/home/ysc/apache-tomcat-7.0.35
5、make
6、make install
7、vi /etc/profile
增加：
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/ysc/apache-tomcat-7.0.35/lib:/usr/local/apr/lib
8、source /etc/profile

启动tomcat：
cd apache-tomcat-7.0.35
bin/catalina.sh start
http://devcluster01:8080/solr/

十八、Nagios监控
服务端：
1、apt-get install apache2 nagios3 nagios-nrpe-plugin
  输入密码：nagiosadmin
2、apt-get install nagios3-doc
3、vi /etc/nagios3/conf.d/hostgroups_nagios2.cfg
   define hostgroup {
     hostgroup_name nagios-servers
     alias           nagios servers
     members         devcluster01,devcluster02,devcluster03
   }
4、cp /etc/nagios3/conf.d/localhost_nagios2.cfg /etc/nagios3/conf.d/devcluster01_nagios2.cfg
  vi /etc/nagios3/conf.d/devcluster01_nagios2.cfg
  替换：
   g/localhost/s//devcluster01/g
   g/127.0.0.1/s//192.168.1.1/g
5、cp /etc/nagios3/conf.d/localhost_nagios2.cfg /etc/nagios3/conf.d/devcluster02_nagios2.cfg
  vi /etc/nagios3/conf.d/devcluster02_nagios2.cfg
  替换：
   g/localhost/s//devcluster02/g
   g/127.0.0.1/s//192.168.1.2/g
6、cp /etc/nagios3/conf.d/localhost_nagios2.cfg /etc/nagios3/conf.d/devcluster03_nagios2.cfg
  vi /etc/nagios3/conf.d/devcluster03_nagios2.cfg
  替换：
   g/localhost/s//devcluster03/g
   g/127.0.0.1/s//192.168.1.3/g

7、vi /etc/nagios3/conf.d/services_nagios2.cfg
  将hostgroup_name改为nagios-servers
  增加：
   # check that web services are running
   define service {
     hostgroup_name                  nagios-servers
     service_description             HTTP
     check_command                   check_http
     use                             generic-service
     notification_interval           0 ; set > 0 if you want to be renotified
   }

   # check that ssh services are running
   define service {
     hostgroup_name                  nagios-servers
     service_description             SSH
     check_command                   check_ssh
     use                             generic-service
     notification_interval           0 ; set > 0 if you want to be renotified
   }
8、vi /etc/nagios3/conf.d/extinfo_nagios2.cfg
  将hostgroup_name改为nagios-servers
  增加：
   define hostextinfo{
     hostgroup_name   nagios-servers
     notes            nagios-servers
   #       notes_url        http://webserver.localhost.localdomain/hostinfo.pl?host=netware1
     icon_image       base/debian.png
     icon_image_alt   Debian GNU/Linux
     vrml_image       debian.png
     statusmap_image base/debian.gd2
     }
9、sudo /etc/init.d/nagios3 restart
10、访问 http://devcluster01/nagios3/
  用户名：nagiosadmin密码：nagiosadmin

监控端：
1、apt-get install nagios-nrpe-server
2、vi /etc/nagios/nrpe.cfg
替换：
g/127.0.0.1/s//192.168.1.1/g
3、sudo /etc/init.d/nagios-nrpe-server restart

十九、配置Splunk
1、wget http://download.splunk.com/releases/5.0.2/splunk/linux/splunk-5.0.2-149561-Linux-x86_64.tgz
2、tar -zxvf splunk-5.0.2-149561-Linux-x86_64.tgz
3、cd splunk
4、bin/splunk start --answer-yes --no-prompt --accept-license
5、访问 http://devcluster01:8000
  用户名：admin 密码：changeme
6、添加数据 -> 从 UDP 端口 -> UDP 端口 *: 1688 -> 来源类型从列表 log4j -> 保存
7、配置hadoop
  vi /home/ysc/hadoop-1.1.1/conf/log4j.properties
  修改：
   log4j.rootLogger=${hadoop.root.logger}, EventCounter, SYSLOG
  增加：
   log4j.appender.SYSLOG=org.apache.log4j.net.SyslogAppender
   log4j.appender.SYSLOG.facility=local1
   log4j.appender.SYSLOG.layout=org.apache.log4j.PatternLayout
   log4j.appender.SYSLOG.layout.ConversionPattern=%p %c{2}: %m%n
   log4j.appender.SYSLOG.SyslogHost=host6:1688
   log4j.appender.SYSLOG.threshold=INFO
   log4j.appender.SYSLOG.Header=true
   log4j.appender.SYSLOG.FacilityPrinting=true
8、配置hbase
  vi /home/ysc/hbase-0.92.2/conf/log4j.properties
  修改：
   log4j.rootLogger=${hbase.root.logger},SYSLOG
  增加：
   log4j.appender.SYSLOG=org.apache.log4j.net.SyslogAppender
   log4j.appender.SYSLOG.facility=local1
   log4j.appender.SYSLOG.layout=org.apache.log4j.PatternLayout
   log4j.appender.SYSLOG.layout.ConversionPattern=%p %c{2}: %m%n
   log4j.appender.SYSLOG.SyslogHost=host6:1688
   log4j.appender.SYSLOG.threshold=INFO
   log4j.appender.SYSLOG.Header=true
   log4j.appender.SYSLOG.FacilityPrinting=true
9、配置nutch
  vi /home/lanke/ysc/nutch-2.1-hbase/conf/log4j.properties
  修改：
   log4j.rootLogger=INFO,DRFA,SYSLOG
  增加：
   log4j.appender.SYSLOG=org.apache.log4j.net.SyslogAppender
   log4j.appender.SYSLOG.facility=local1
   log4j.appender.SYSLOG.layout=org.apache.log4j.PatternLayout
   log4j.appender.SYSLOG.layout.ConversionPattern=%p %c{2}: %m%n
   log4j.appender.SYSLOG.SyslogHost=host6:1688
   log4j.appender.SYSLOG.threshold=INFO
   log4j.appender.SYSLOG.Header=true
   log4j.appender.SYSLOG.FacilityPrinting=true
10、启动hadoop和hbase
  start-all.sh
  start-hbase.sh

二十、配置Pig
1、wget http://labs.mop.com/apache-mirror/pig/pig-0.11.0/pig-0.11.0.tar.gz
2、tar -xzvf pig-0.11.0.tar.gz
3、cd pig-0.11.0
4、vi /etc/profile
  增加：
  export PIG_HOME=/home/ysc/pig-0.11.0
  export PATH=$PIG_HOME/bin:$PATH
5、source /etc/profile
6、cp conf/log4j.properties.template conf/log4j.properties
7、vi conf/log4j.properties
8、pig

二十一、配置Hive
1、wget http://mirrors.cnnic.cn/apache/hive/hive-0.10.0/hive-0.10.0.tar.gz
2、tar -xzvf hive-0.10.0.tar.gz
3、cd hive-0.10.0
4、vi /etc/profile
  增加：
  export HIVE_HOME=/home/ysc/hive-0.10.0
  export PATH=$HIVE_HOME/bin:$PATH
5、source /etc/profile
6、cp conf/hive-log4j.properties.template conf/hive-log4j.properties
7、vi conf/hive-log4j.properties
  替换：
  log4j.appender.EventCounter=org.apache.hadoop.metrics.jvm.EventCounter
  为：
  log4j.appender.EventCounter=org.apache.hadoop.log.metrics.EventCounter

二十二、配置Hadoop2.x集群
1、wget http://labs.mop.com/apache-mirror/hadoop/common/hadoop-2.0.2-alpha/hadoop-2.0.2-alpha.tar.gz
2、tar -xzvf hadoop-2.0.2-alpha.tar.gz
3、cd hadoop-2.0.2-alpha
4、vi etc/hadoop/hadoop-env.sh
  追加：
export JAVA_HOME=/home/ysc/jdk1.7.0_05
  export HADOOP_HEAPSIZE=2000
5、vi etc/hadoop/core-site.xml
  <property>
   <name>fs.defaultFS</name>
   <value>hdfs://devcluster01:9000</value>
   <description>
      Where to find the Hadoop Filesystem through the network.
      Note 9000 is not the default port.
      (This is slightly changed from previous versions which didnt have "hdfs")
   </description>
   </property>
   <property>
    <name>io.file.buffer.size</name>
    <value>131072</value>
    <description>The size of buffer for use in sequence files.
    The size of this buffer should probably be a multiple of hardware
    page size (4096 on Intel x86), and it determines how much data is
    buffered during read and write operations.</description>
  </property>
6、vi etc/hadoop/mapred-site.xml
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>

  <property>
    <name>mapred.job.reduce.input.buffer.percent</name>
    <value>1</value>
    <description>The percentage of memory- relative to the maximum heap size- to
    retain map outputs during the reduce. When the shuffle is concluded, any
    remaining map outputs in memory must consume less than this threshold before
    the reduce can begin.
    </description>
  </property>

  <property>
    <name>mapred.job.shuffle.input.buffer.percent</name>
    <value>1</value>
    <description>The percentage of memory to be allocated from the maximum heap
    size to storing map outputs during the shuffle.
    </description>
  </property>

  <property>
    <name>mapred.inmem.merge.threshold</name>
    <value>0</value>
    <description>The threshold, in terms of the number of files
    for the in-memory merge process. When we accumulate threshold number of files
    we initiate the in-memory merge and spill to disk. A value of 0 or less than
    0 indicates we want to DON'T have any threshold and instead depend only on
    the ramfs's memory consumption to trigger the merge.
    </description>
  </property>

  <property>
    <name>io.sort.factor</name>
    <value>100</value>
    <description>The number of streams to merge at once while sorting
    files. This determines the number of open file handles.</description>
  </property>

  <property>
    <name>io.sort.mb</name>
    <value>240</value>
    <description>The total amount of buffer memory to use while sorting
    files, in megabytes. By default, gives each merge stream 1MB, which
    should minimize seeks.</description>
  </property>
    <property>
      <name>mapred.map.output.compression.codec</name>
      <value>org.apache.hadoop.io.compress.SnappyCodec</value>
      <description>If the map outputs are compressed, how should they be
          compressed?
      </description>
    </property>

    <property>
      <name>mapred.output.compression.codec</name>
      <value>org.apache.hadoop.io.compress.SnappyCodec</value>
      <description>If the job outputs are compressed, how should they be compressed?
      </description>
    </property>
  <property>
    <name>mapred.output.compression.type</name>
    <value>BLOCK</value>
    <description>If the job outputs are to compressed as SequenceFiles, how should
        they be compressed? Should be one of NONE, RECORD or BLOCK.
    </description>
  </property>
  <property>
    <name>mapred.child.java.opts</name>
    <value>-Xmx2000m</value>
  </property>

  <property>
    <name>mapred.output.compress</name>
    <value>true</value>
    <description>Should the job outputs be compressed?
    </description>
  </property>

  <property>
    <name>mapred.compress.map.output</name>
    <value>true</value>
    <description>Should the outputs of the maps be compressed before being
        sent across the network. Uses SequenceFile compression.
    </description>
  </property>

  <property>
    <name>mapred.tasktracker.map.tasks.maximum</name>
    <value>5</value>
  </property>

  <property>
    <name>mapred.map.tasks</name>
    <value>15</value>
  </property>

  <property>
    <name>mapred.tasktracker.reduce.tasks.maximum</name>
    <value>5</value>
   <description>
   define mapred.map tasks to be number of slave hosts.the best number is the number of slave hosts plus the core numbers of per host
   </description>
  </property>

  <property>
    <name>mapred.reduce.tasks</name>
    <value>15</value>
    <description>
   define mapred.reduce tasks to be number of slave hosts.the best number is the number of slave hosts plus the core numbers of per host
    </description>
  </property>
  <property>
    <name>mapred.system.dir</name>
    <value>/home/ysc/mapreduce/system</value>
  </property>

  <property>
    <name>mapred.local.dir</name>
    <value>/home/ysc/mapreduce/local</value>
  </property>

  <property>
    <name>mapreduce.job.counters.max</name>
    <value>12000</value>
    <description>Limit on the number of counters allowed per job.
    </description>
  </property>
7、vi etc/hadoop/yarn-site.xml
  <property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>devcluster01:8031</value>
   </property>
   <property>
    <name>yarn.resourcemanager.address</name>
    <value>devcluster01:8032</value>
   </property>
   <property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>devcluster01:8030</value>
   </property>
   <property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>devcluster01:8033</value>
   </property>
   <property>
    <name>yarn.resourcemanager.webapp.address</name>
    <value>devcluster01:8088</value>
   </property>
   <property>
    <description>Classpath for typical applications.</description>
    <name>yarn.application.classpath</name>
    <value>
    $HADOOP_CONF_DIR,
    $HADOOP_COMMON_HOME/*,$HADOOP_COMMON_HOME/lib/*,
    $HADOOP_HDFS_HOME/*,$HADOOP_HDFS_HOME/lib/*,
    $HADOOP_MAPRED_HOME/*,$HADOOP_MAPRED_HOME/lib/*,
    $YARN_HOME/*,$YARN_HOME/lib/*
    </value>
   </property>
   <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce.shuffle</value>
   </property>
   <property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
   </property>
   <property>
    <name>yarn.nodemanager.local-dirs</name>     <value>/home/ysc/h2/data/1/yarn/local,/home/ysc/h2/data/2/yarn/local,/home/ysc/h2/data/3/yarn/local</value>
   </property>
   <property>
    <name>yarn.nodemanager.log-dirs</name>     <value>/home/ysc/h2/data/1/yarn/logs,/home/ysc/h2/data/2/yarn/logs,/home/ysc/h2/data/3/yarn/logs</value>
   </property>
   <property>
    <description>Where to aggregate logs</description>
    <name>yarn.nodemanager.remote-app-log-dir</name>
    <value>/home/ysc/h2/var/log/hadoop-yarn/apps</value>
   </property>
   <property>
    <name>mapreduce.jobhistory.address</name>
    <value>devcluster01:10020</value>
   </property>
   <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>devcluster01:19888</value>
   </property>
8、vi etc/hadoop/hdfs-site.xml
  <property>
   <name>dfs.permissions.superusergroup</name>
   <value>root</value>
  </property>
  <property>
    <name>dfs.name.dir</name>
    <value>/home/ysc/dfs/filesystem/name</value>
  </property>
  <property>
    <name>dfs.data.dir</name>
    <value>/home/ysc/dfs/filesystem/data</value>
  </property>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.block.size</name>
    <value>6710886400</value>
    <description>The default block size for new files.</description>
  </property>
9、启动hadoop
  bin/hdfs namenode -format
  sbin/start-dfs.sh
  sbin/start-yarn.sh
10、访问管理页面
   http://devcluster01:8088
   http://devcluster01:50070

你可能感兴趣的:(Nutch)

Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
深入浅出hdfs-hadoop基本介绍大数据之家 hdfs hadoop 大数据
一、Hadoop基本介绍hadoop最开始是起源于ApacheNutch项目，这个是由DougCutting开发的开源网络搜索引擎，这个项目刚开始的目标是为了更好的做搜索引擎，后来Google发表了三篇未来持续影响大数据领域的三架马车论文：GoogleFileSystem、BigTable、Mapreduce开始掀起来了大数据的浪潮，paper原文可以参考我的这篇文章CSDN。这三篇论文介绍了如何
Hadoop简介：开启大数据处理之门乌龙饼干 hadoop 大数据分布式
随着信息技术的飞速发展，数据呈现爆炸式增长，传统的数据处理方式已无法满足日益增长的数据需求。在此背景下，Hadoop作为一种分布式系统基础架构，应运而生，为大数据处理打开了新的大门。一、Hadoop的起源与概念Hadoop最初由DougCutting创建，作为ApacheLucene的子项目Nutch的一部分。随着项目的不断发展，Hadoop逐渐独立出来，成为Apache软件基金会下的一个开源项目
专为初学者设计：Nutch库Java下载器入门指南亿牛云爬虫专家 java 代理IP 爬虫代理 java 开发语言 Nutch 下载器爬虫代理代理IP 多线程
概述:Nutch是一款开源的Java爬虫框架，用于抓取、解析、提取和存储网页数据。基于Hadoop的分布式系统，Nutch支持大规模网络爬取，并提供各种插件，包括链接分析、语言检测和内容过滤等功能。本文旨在介绍如何使用Nutch库编写简单的Java下载器，即能从指定URL下载网页内容的程序。目标是帮助初学者了解Nutch库的基本用法，并展示如何通过代理IP技术和多线程技术提升下载效率。假设读者已安
在CentOS7上安装Hadoop分布式系统栗子艾李子 hadoop linux hdfs 分布式
项目背景：Hadoop原来是ApacheLucene下的一个子项目，它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop由分布式存储HDFS和分布式计算MapReduce两部分组成。HDFS是一个master/slave的结构，就通常的部署来说，在master上只运行一个Namenode
大数据技术之Hadoop入门一在远方的你等我
1.从Hadoop框架讨论大数据生态名字起源该项目的创建者，DougCutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的项目起源Hadoop由ApacheSoftwareFoundation公司于2005年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由GoogleLab开发的Map/Reduce和GoogleFileSystem(GFS)的启发
openpyxl3.0官方文档（14）—— 甜甜圈图 Sinchard
甜甜圈图表与饼图类似，只是它们使用了一个环而不是一个圆，还可以绘制出若干系列的数据作为中心环。fromopenpyxlimportWorkbookfromopenpyxl.chartimport(DoughnutChart,Reference,Series,)fromopenpyxl.chart.seriesimportDataPointdata=[['Pie',2014,2015],['Plai
kafka入门：简介、使用场景、设计原理、主要配置及集群搭建（转） weixin_34185320 运维操作系统系统架构
李克华云计算高级群:292870151195907286交流：Hadoop、NoSQL、分布式、lucene、solr、nutchkafka入门：简介、使用场景、设计原理、主要配置及集群搭建（转）问题导读：1.zookeeper在kafka的作用是什么？2.kafka中几乎不允许对消息进行“随机读写”的原因是什么？3.kafka集群consumer和producer状态信息是如何保存的？4.par
大数据之 Hadoop 小裕哥略帅大数据 hadoop java
hadoop主要解决：海量数据的存储和海量数据的分析计算hadoop发展历史Google是hadoop的思想之源（Google在大数据方面的三篇论文）2006年3月，Map-reduce和NutchDistributedFileSystem(NDFS)分别被纳入到Hadoop项目，Hadoop正式诞生。MapReduce对海量数据处理map函数进行数据的提取、排序，实现mapper，四个形参（输入
自己动手写搜索引擎系列【目录】 luyee2010 自己动手写搜索引擎自己动手写搜索引擎
第1章遍历搜索引擎技术11.130分钟实现的搜索引擎11.1.1准备工作环境（10分钟）11.1.2编写代码（15分钟）31.1.3发布运行（5分钟）51.2Google神话91.3体验搜索引擎91.4搜索语法101.5你也可以做搜索引擎131.6搜索引擎基本技术141.6.1网络蜘蛛141.6.2全文索引结构141.6.3Lucene全文检索引擎151.6.4Nutch网络搜索软件161.6.5
ElasticSearch（ES）——概述/API 平平无奇小码农笔记大数据 elasticsearch 数据库搜索引擎
文章目录一、ElasticSearch基础1.1简介1.2使用场景1.3ES与其他数据存储进行比较1.4ES的特点1.5Lucene、Nutch、ElasticSearch关系二、基本概念ES概念和MySQL关系对比三、安装ES3.1解压、改名3.2修改配置文件3.3教学环境启动优化分发3.4修改hadoop163、hadoop164的节点名3.5单台启动测试，解决问题四、安装kibana4.1解
asp html5 ajax,ASP.NET AJAX Chart (HTML5) - RadControls for Web Forms | Telerik UI for ASP.NET AJAX weixin_39942191 asp html5 ajax
AnyEssentialChartTypeQuicklyaddmeaningtodatawiththemostcommonlyusedASP.NETchartingtypes:PieorDonutcharttovisualizeeachpieceofdataaspartofawholeLineorAreatomonitortrendsBar,ColumnorRadartocomparesevera
安装关系型数据库MySQL和大数据处理框架Hadoop weixin_30621919 数据库嵌入式大数据
这个作业的要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161。1.简述Hadoop平台的起源、发展历史与应用现状。列举发展过程中重要的事件、主要版本、主要厂商；国内外Hadoop应用的典型案例。（1）Hadoop的介绍：Hadoop最早起源于Nutch，Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、
ChatGPT4 完成数据分析结构分析，动态饼图可视化阿里数据专家 ChatGPT实战案例 ChatGPT 数据分析信息可视化数据挖掘 excel 人工智能 AIGC chatgpt
对于数据分析中的结构占比分析，以下几种图表类型是比较常见和合适的：1.**饼图（PieChart）**：饼图是一种表现部分与整体关系的图表，各部分占整体的比例在图中以圆形的切片形式体现。它适用于表示不同类别之间的比较，以及每个类别占总数的百分比。2.**环图（DoughnutChart）**：环图是饼图的变种，有一个空心中心。它也是显示类别之间占比关系的一种有效的方式。3.**堆叠柱状图/堆叠条形
hadoop yuanjianqiang_0925 hadoop spark
hadoop主要解决：海量数据的存储和海量数据的分析计算hadoop发展历史Google是hadoop的思想之源（Google在大数据方面的三篇论文）2006年3月，Map-reduce和NutchDistributedFileSystem(NDFS)分别被纳入到Hadoop项目，Hadoop正式诞生。MapReduce对海量数据处理map函数进行数据的提取、排序，实现mapper，四个形参（
Ubuntu环境下Hadoop1.2.1, HBase0.94.25, nutch2.2.1各个配置文件一览 weixin_30491641 大数据 java runtime
/×××××××××××××××××××××××××××××××××××××××××/Author：xxx0624HomePage：http://www.cnblogs.com/xxx0624//×××××××××××××××××××××××××××××××××××××××××/Hadoop伪分布式配置过程：Hadoop：1.2.1Hbase：0.94.25nutch：2.2.1Java：1.8.
ElasticSearch详细教程-基础加实战工藤-新二实时数仓大数据实时项目 elasticsearch 实时大数据 spark
文章目录第1章ElasticSearch基础1.1简介1.2使用场景1.3ES与其他数据存储进行比较1.4ElasticSearch的特点1.4.1天然分片，天然集群1.4.2天然索引1.5Lucene、Nutch、ElasticSearch关系第2章ElasticSearch的安装2.1上传安装包2.2将ES解压到/opt/module目录下2.3在/opt/module目录下对ES重命名2.4
jvm命令和可视化工具调优 weixin_30834783 java 操作系统开发工具
李克华云计算高级群:292870151195907286交流：Hadoop、NoSQL、分布式、lucene、solr、nutch虚拟机：系统虚拟机程序虚拟机系统虚拟机有：VMWarevisureBox程序虚拟机：JVMJVM：1.类加载子系统（类加载器）2.方法区3.java堆4.直接内存5.java栈6.本地方法栈7.垃圾回收系统8.PC寄存器9.执行引擎堆：存储问题栈：程序运行方法去：辅助堆
linux服务器忘记ssh密码_【Linux】配置linux服务器之间ssh不用密码访问 weixin_40008033 linux服务器忘记ssh密码
如果想在A这太机器上可以不需要密码就ssh到B、C两台机器上，可以采用如下的方法：(1)在A机器上：ssh-keygen-trsaGeneratingpublic/privatersakeypair.Enterfileinwhichtosavethekey(/nutch/home/.ssh/id_rsa):不输入任何东西，直接回车Enterpassphrase(emptyfornopassphra
Hadoop分布式文件系统杀神lwz hadoop 大数据分布式
一、HadoopHadoop之父DougCuttingHadoop的发音[hædu:p]，Cutting儿子对玩具小象的昵称1、Hadoop发展简史2002年10月，DougCutting和MikeCafarella创建了开源网页爬虫项目Nutch。2003年10月，Google发表GoogleFileSystem论文。2004年7月，DougCutting和MikeCafarella在Nutch
java 爬虫框架nutch_网络爬虫（2）-- Java爬虫框架鲍鱼王 java 爬虫框架nutch
NutchNutch属于分布式爬虫，爬虫使用分布式，主要是解决两个问题：1)海量URL管理；2)网速。如果要做搜索引擎，Nutch1.x是一个非常好的选择。Nutch1.x和solr或者es配合，就可以构成一套非常强大的搜索引擎，否则尽量不要选择Nutch作为爬虫。用Nutch进行爬虫的二次开发，爬虫的编写和调试所需的时间，往往是单机爬虫所需的十倍时间不止。HeritrixHeritrix是个“A
nutch爬取网站数据详细步骤 Echoooo_o
环境：hadoop2.7.7+hbase0.98+nutch2.3+solr4.9大致步骤思想：hadoop提供底层数据存储hbase在其之上建立非关系型数据库nutch将爬的数据存到hbase上并建立索引到solr展示首先采用简单命令：#$1$2...$n表示命令后跟的第n个参数#存放待注入种子的路径SEEDDIR="$1"#存放爬取数据（URL状态信息、爬取数据、解析数据）文件夹的路径CRAW
nutch，hbase记录 feihuadao
hbase表操作优化http://blog.pureisle.net/archives/1930.htmlHow-to:UseHBaseBulkLoading,andWhyhttp://blog.cloudera.com/blog/2013/09/how-to-use-hbase-bulk-loading-and-why/nutch2.2分析http://blog.csdn.net/itufo/a
Hadoop 凤舞飘伶 Go hadoop
Hadoop是Google的集群系统的开源实现，Google集群系统:GFS(GoogleFileSystem)、MapReduce、BigTable。Hadoop主要由HDFS(HadoopDistributedFileSystemHadoop分布式文件系统)、MapReduce和HBase组成Hadoop的初衷是为解决Nutch的海量数据爬取和存储的需要。Hadoop于2005年秋天作为Luc
Hadoop之父：Doug Cutting Mr_Elliot
hadoop生活中，可能所有人都间接用过他的作品，他是Lucene、Nutch、Hadoop等项目的发起人。是他，把高深莫测的搜索技术形成产品，贡献给普罗大众；还是他，打造了目前在云计算和大数据领域里如日中天的Hadoop。他是某种意义上的盗火者，他就是DougCutting。DougCutting从实习生做起1985年，Cutting毕业于美国斯坦福大学。他并不是一开始就决心投身IT行业的，在大
Hadoop-2.6.5完整安装配置过程 syp_net 系统开发 hadoop mapreduce 搜索引擎
记录Hadoop-2.6.5完整安装配置过程一、Hadoop是什么？二、Hadoop-2.6.5安装配置1.修改主机名2.下载并解压JDK3.配置环境变量4.修改Hadoop中5个主要配置文件5.启动Hadoop6.HadoopWeb端口测试三、总结一、Hadoop是什么？Hadoop系统最初的源头来自于ApacheLucene项目下的搜索引擎子项目Nutch，该项目的负责人是DougCuttin
Hadoop之HDFS简介数新网络 hadoop 大数据 hdfs
前言Hadoop是由Apache基金会开发的分布式系统基础框架，主要解决海量数据存储和海量数据分析问题。Hadoop起源于ApacheNutch项目，起始于2002年，在2006年被正式命名为Hadoop。Hadoop有3大核心组件，分别是HDFS、MapReduce和YARN，本次我们重点介绍HDFS。一、HDFS简介HDFS全称HadoopDistributedFileSystem，是一个分布
hadoop原理和细节 truezqx
一、Hadoop概述Hadoop是Google的集群系统开源实现Google的集群系统：GFS、MapReduce、BigTableHadoop的集群系统：HDFS、MapReduce、HBaseHadoop设计的初衷是为了解决Nutch的海量数据存储和处理的需求，可以解决大数据场景下的数据存储和处理的问题。传统数据：GB、TB级别的数据、数据增长不快、主要为结构化的数据、统计和报表大数据：TB、
听阿里P7工程师只分七步讲解HDFS搭建 Python大数据工程师
前言HADOOP产生背景（1）HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。（2）2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。——分布式文件系统（GFS），可用于处理海量网页的存储——分布式计算框架MAPREDUC
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin