Nutch安装指南

http://user.qzone.qq.com/281032878/blog/1362131478#!app=2&via=QZ.HashRefresh&pos=1362131478 转自：

Nutch相关框架安装使用最佳指南（原创）

一、nutch1.2
步骤和二大同小异，在步骤 5、配置构建路径中需要多两个操作：在左部Package Explorer的 nutch1.2文件夹上单击右键 > Build Path > Configure Build Path... > 选中Source选项 > Default output folder:修改nutch1.2/bin为nutch1.2/_bin，在左部Package Explorer的 nutch1.2文件夹下的bin文件夹上单击右键 > Team > 还原
二中黄色背景部分是版本号的差异，红色部分是1.2版本没有的，绿色部分是不一样的地方，如下：
1、Add JARs... > nutch1.2 > lib ，选中所有的.jar文件 > OK
2、crawl-urlfilter.txt
3、将crawl -urlfilter.txt.template改名为crawl -urlfilter.txt
4、修改crawl-urlfilter.txt，将
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

# skip everything else
-.
5、cd /home/ysc/workspace/nutch1.2
nutch1.2是一个完整的搜索引擎，nutch1.5.1只是一个爬虫。nutch1.2可以把索引提交给SOLR，也可以直接生成LUCENE索引，nutch1.5.1则只能把索引提交给SOLR：
1、cd /home/ysc
2、wget http://mirrors.tuna.tsinghua.edu.cn/apache/tomcat/tomcat-7/v7.0.29/bin/apache-tomcat-7.0.29.tar.gz
3、tar -xvf apache-tomcat-7.0.29.tar.gz
4、在左部Package Explorer的 nutch1.2文件夹下的build.xml文件上单击右键 > Run As > Ant Build... > 选中war target > Run
5、cd /home/ysc/workspace/nutch1.2/build
6、unzip nutch-1.2.war -d nutch-1.2
7、cp -r nutch-1.2 /home/ysc/apache-tomcat-7.0.29/webapps
8、vi /home/ysc/apache-tomcat-7.0.29/webapps/nutch-1.2/WEB-INF/classes/nutch-site.xml
加入以下配置：
<property>
<name>searcher.dir</name>
<value>/home/ysc/workspace/nutch1.2/data</value>
<description>
Path to root of crawl. This directory is searched (in
order) for either the file search-servers.txt, containing a list of
distributed search servers, or the directory "index" containing
merged indexes, or the directory "segments" containing segment
indexes.
</description>
</property>
9、vi /home/ysc/apache-tomcat-7.0.29/conf/server.xml
将
<Connector port="8080" protocol="HTTP/1.1"
               connectionTimeout="20000"
               redirectPort="8443"/>
改为
<Connector port="8080" protocol="HTTP/1.1"
               connectionTimeout="20000"
               redirectPort="8443" URIEncoding="utf-8"/>

10、cd /home/ysc/apache-tomcat-7.0.29/bin
11、./startup.sh
12、访问： http://localhost:8080/nutch-1.2/

关于nutch1.2更多的BUG修复及资料，请参看我在CSDN发布的资源： http://download.csdn.net/user/yangshangchuan

二、nutch1.5.1
1、下载并解压eclipse（集成开发环境）
下载地址： http://www.eclipse.org/downloads/，下载Eclipse IDE for Java EE Developers
2、安装Subclipse插件（SVN客户端）
插件地址： http://subclipse.tigris.org/update_1.8.x，
3、安装IvyDE插件（下载依赖Jar）
插件地址： http://www.apache.org/dist/ant/ivyde/updatesite/
4、签出代码
File > New > Project > SVN > 从SVN 检出项目
创建新的资源库位置 > URL： https://svn.apache.org/repos/asf/nutch/tags/release-1.5.1/ > 选中URL > Finish
弹出New Project向导，选择Java Project > Next，输入Project name：nutch1.5.1 > Finish
5、配置构建路径
在左部Package Explorer的 nutch1.5.1文件夹上单击右键 > Build Path > Configure Build Path...
> 选中Source选项 > 选择src > Remove > Add Folder... > 选择src/bin, src/java, src/test 和 src/testresources（对于插件，需要选中src/plugin目录下的每一个插件目录下的src/java ， src/test文件夹） > OK
切换到Libraries选项 >
Add Class Folder... > 选中nutch1.5.1/conf > OK
Add JARs... > 需要选中src/plugin目录下的每一个插件目录下的lib目录下的jar文件 > OK
Add Library... > IvyDE Managed Dependencies > Next > Main > Ivy File > Browse > ivy/ivy.xml > Finish
切换到Order and Export选项>
选中conf > Top
6、执行ANT
在左部Package Explorer的 nutch1.5.1文件夹下的build.xml文件上单击右键 > Run As > Ant Build
在左部Package Explorer的 nutch1.5.1文件夹上单击右键 > Refresh
在左部Package Explorer的 nutch1.5.1文件夹上单击右键 > Build Path > Configure Build Path... > 选中Libraries选项 > Add Class Folder... > 选中build > OK
7、修改配置文件nutch-site.xml 和regex-urlfilter.txt
将nutch-site.xml.template改名为nutch-site.xml
将regex-urlfilter.txt.template改名为regex-urlfilter.txt
在左部Package Explorer的 nutch1.5.1文件夹上单击右键 > Refresh
将如下配置项加入文件nutch-site.xml：
<property>
<name>http.agent.name</name>
<value>nutch</value>
</property>
<property>
<name>http.content.limit</name>
<value>-1</value>
</property>
修改regex-urlfilter.txt，将
# accept anything else
+.
替换为：
+^http://([a-z0-9]*\.)*news.163.com/
-.
8、开发调试
在左部Package Explorer的 nutch1.5.1文件夹上单击右键 > New > Folder > Folder name: urls
在刚新建的urls目录下新建一个文本文件url，文本内容为： http://news.163.com
打开src/java下的org.apache.nutch.crawl.Crawl.java类，单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入: urls -dir data -depth 3 > Run
在需要调试的地方打上断点Debug As > Java Applicaton
9、查看结果
查看segments目录：
打开src/java下的org.apache.nutch.segment.SegmentReader.java类
单击右键Run As > Java Applicaton，控制台会输出该命令的使用方法
单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入: -dump data/segments/* data/segments/dump
用文本编辑器打开文件data/segments/dump/dump查看segments中存储的信息

查看crawldb目录：
打开src/java下的org.apache.nutch.crawl.CrawlDbReader.java类
单击右键Run As > Java Applicaton，控制台会输出该命令的使用方法
单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入: data/crawldb -stats
控制台会输出 crawldb统计信息

查看linkdb目录：
打开src/java下的org.apache.nutch.crawl.LinkDbReader.java类
单击右键Run As > Java Applicaton，控制台会输出该命令的使用方法
单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入: data/linkdb -dump data/linkdb_dump
用文本编辑器打开文件data/linkdb_dump/part-00000查看linkdb中存储的信息
10、全网分步骤抓取
在左部Package Explorer的 nutch1.5.1文件夹下的build.xml文件上单击右键 > Run As > Ant Build
cd /home/ysc/workspace/nutch1.5.1/runtime/local
#准备URL列表
wget http://rdf.dmoz.org/rdf/content.rdf.u8.gz
gunzip content.rdf.u8.gz
mkdir dmoz
bin/nutch org.apache.nutch.tools.DmozParser content.rdf.u8 -subset 5000 > dmoz/url
#注入URL
bin/nutch inject crawl/crawldb dmoz
#生成抓取列表
bin/nutch generate crawl/crawldb crawl/segments
#第一次抓取
s1=`ls -d crawl/segments/2* | tail -1`
echo $s1
#抓取网页
bin/nutch fetch $s1
#解析网页
bin/nutch parse $s1
#更新URL状态
bin/nutch updatedb crawl/crawldb $s1
#第二次抓取
bin/nutch generate crawl/crawldb crawl/segments -topN 1000
s2=`ls -d crawl/segments/2* | tail -1`
echo $s2
bin/nutch fetch $s2
bin/nutch parse $s2
bin/nutch updatedb crawl/crawldb $s2
#第三次抓取
bin/nutch generate crawl/crawldb crawl/segments -topN 1000
s3=`ls -d crawl/segments/2* | tail -1`
echo $s3
bin/nutch fetch $s3
bin/nutch parse $s3
bin/nutch updatedb crawl/crawldb $s3
#生成反向链接库
bin/nutch invertlinks crawl/linkdb -dir crawl/segments

11、索引和搜索
cd /home/ysc/
wget http://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.1/apache-solr-3.6.1.tgz
tar -xvf apache-solr-3.6.1.tgz
cd apache-solr-3.6.1 /example

NUTCH_RUNTIME_HOME=/home/ysc/workspace/nutch1.5.1/runtime/local
APACHE_SOLR_HOME=/home/ysc/apache-solr-3.6.1

cp ${NUTCH_RUNTIME_HOME}/conf/schema.xml ${APACHE_SOLR_HOME}/example/solr/conf/
如果需要把网页内容存储到索引中，则修改 schema.xml文件中的
<field name="content" type="text" stored="false" indexed="true"/>
为
<field name="content" type="text" stored="true" indexed="true"/>

修改${APACHE_SOLR_HOME}/example/solr/conf/solrconfig.xml,将里面的<str name="df">text</str>都替换为<str name="df">content</str>

把${APACHE_SOLR_HOME}/example/solr/conf/schema.xml中的 <schema name="nutch" version="1.5.1">修改为<schema name="nutch" version="1.5">
#启动SOLR服务器
java -jar start.jar

http://127.0.0.1:8983/solr/admin/
http://127.0.0.1:8983/solr/admin/stats.jsp

cd /home/ysc/workspace/nutch1.5.1/runtime/local
#提交索引
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

执行完整crawl:
bin/nutch crawl urls -dir data -depth 2 -topN 100 -solr http://127.0.0.1:8983/solr/

使用以下命令分页查看所有索引的文档：
http://127.0.0.1:8983/solr/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on
标题包含“网易”的文档：
http://127.0.0.1:8983/solr/select/?q=title%3A%E7%BD%91%E6%98%93&version=2.2&start=0&rows=10&indent=on

12、查看索引信息
cd /home/ysc/
wget http://luke.googlecode.com/files/lukeall-3.5.0.jar
java -jar lukeall-3.5.0.jar
Path: /home/ysc/apache-solr-3.6.1/example/solr/data

13、配置SOLR的中文分词
cd /home/ysc/
wget http://mmseg4j.googlecode.com/files/mmseg4j-1.8.5.zip
unzip mmseg4j-1.8.5.zip -d mmseg4j-1.8.5

APACHE_SOLR_HOME=/home/ysc/apache-solr-3.6.1
mkdir $APACHE_SOLR_HOME/example/solr/lib
mkdir $APACHE_SOLR_HOME/example/solr/dic
cp mmseg4j-1.8.5/mmseg4j-all-1.8.5.jar $APACHE_SOLR_HOME/example/solr/lib
cp mmseg4j-1.8.5/data/*.dic $APACHE_SOLR_HOME/example/solr/dic

将${APACHE_SOLR_HOME}/example/solr/conf/schema.xml文件中的
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
和
<tokenizer class="solr.StandardTokenizerFactory"/>
替换为
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/home/ysc/apache-solr-3.6.1/example/solr/dic"/>

#重新启动SOLR服务器
java -jar start.jar

#重建索引，演示在开发环境中如何操作
打开src/java下的org.apache.nutch.indexer.solr.SolrIndexer.java类
单击右键Run As > Java Applicaton，控制台会输出该命令的使用方法
单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入: http://127.0.0.1:8983/solr/ ; data/crawldb -linkdb data/linkdb data/segments/*
使用luke重新打开索引就会发现分词起作用了

三、nutch2.0
nutch2.0和二中的nutch1.5.1的步骤相同，但在8、开发调试之前需要做以下配置：
在左部Package Explorer的 nutch2.0文件夹上单击右键 > New > Folder > Folder name: data并指定数据存储方式，选如下之一：
1、使用mysql作为数据存储
  1）、在nutch2.0/conf/nutch-site.xml中加入如下配置：
<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.sql.store.SqlStore</value>
</property>
  2）、将nutch2.0/conf/gora.properties文件中的
  gora.sqlstore.jdbc.driver=org.hsqldb.jdbc.JDBCDriver
gora.sqlstore.jdbc.url=jdbc:hsqldb:hsql://localhost/nutchtest
gora.sqlstore.jdbc.user=sa
gora.sqlstore.jdbc.password=
  修改为
  gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver
gora.sqlstore.jdbc.url=jdbc:mysql://127.0.0.1:3306/nutch2
gora.sqlstore.jdbc.user=root
gora.sqlstore.jdbc.password=ROOT
  3）、打开nutch2.0/ivy/ivy.xml中的mysql-connector-java依赖
  4）、sudo apt-get install mysql-server
2、使用hbase作为数据存储
  1）、在nutch2.0/conf/nutch-site.xml中加入如下配置：
<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.hbase.store.HBaseStore</value>
</property>
  2）、打开nutch2.0/ivy/ivy.xml中的gora-hbase依赖
  3）、cd /home/ysc
  4）、wget http://mirror.bit.edu.cn/apache/hbase/hbase-0.90.5/hbase-0.90.5.tar.gz
  5）、tar -xvf hbase-0.90.5.tar.gz
  6）、vi hbase-0.90.5/conf/hbase-site.xml
   加入以下配置：
<property>
    <name>hbase.rootdir</name>
    <value> file:///home/ysc/hbase-0.90.5-database</value>
</property>
7)、hbase-0.90.5/bin/start-hbase.sh
8)、将/home/ysc/hbase-0.90.5/hbase-0.90.5.jar加入开发环境eclipse的build path

四、配置SSH
三台机器 devcluster01， devcluster02， devcluster03，分别在每一台机器上面执行如下操作：
1、sudo vi /etc/hosts
加入以下配置：
192.168.1.1 devcluster01
192.168.1.2 devcluster02
192.168.1.3 devcluster03
2、安装SSH服务：
  sudo apt-get install openssh-server
3、(有提示的时候回车键确认）
  ssh-keygen -t rsa
  该命令会在用户主目录下创建 .ssh 目录，并在其中创建两个文件：id_rsa 私钥文件。是基于 RSA 算法创建。该私钥文件要妥善保管，不要泄漏。id_rsa.pub 公钥文件。和 id_rsa 文件是一对儿，该文件作为公钥文件，可以公开。
4、cp .ssh/id_rsa.pub .ssh/authorized_keys
把三台机器 devcluster01， devcluster02， devcluster03 的文件/home/ysc/.ssh/authorized_keys的内容复制出来合并成一个文件并替换每一台机器上的/home/ysc/.ssh/authorized_keys文件
在devcluster01上面执行时，以下两条命令的主机为02和03
在devcluster02上面执行时，以下两条命令的主机为01和03
在devcluster03上面执行时，以下两条命令的主机为01和02
5、ssh-copy-id -i .ssh/id_rsa.pub ysc@ devcluster02
6、ssh-copy-id -i .ssh/id_rsa.pub ysc@ devcluster03
以上两条命令实际上是将 .ssh/id_rsa.pub 公钥文件追加到远程主机 server 的 user 主目录下的 .ssh/authorized_keys 文件中。

五、安装Hadoop Cluster（伪分布式运行模式）并运行Nutch
步骤和四大同小异，只需要1台机器 devcluster01，所以黄色背景部分全部设置为devcluster01，不需要第11步

六、安装Hadoop Cluster（分布式运行模式）并运行Nutch
三台机器 devcluster01， devcluster02， devcluster03(vi /etc/hostname)
使用用户ysc登陆 devcluster01：
1、cd /home/ysc
2、wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-1.1.1/hadoop-1.1.1-bin.tar.gz
3、tar -xvf hadoop-1.1.1-bin.tar.gz
4、cd hadoop-1.1.1
5、vi conf/masters
  替换内容为：
  devcluster01
6、vi conf/slaves
  替换内容为：
  devcluster02
  devcluster03
7、vi conf/core-site.xml
  加入配置：
<property>
    <name>fs.default.name</name>
    <value>hdfs://devcluster01:9000</value>
    <description>
       Where to find the Hadoop Filesystem through the network.
       Note 9000 is not the default port.
       (This is slightly changed from previous versions which didnt have "hdfs")
    </description>
</property>
    <property>
     <name>hadoop.security.authorization</name>
      <value>true</value>
    </property>
编辑conf/hadoop-policy.xml
8、vi conf/hdfs-site.xml
  加入配置：
<property>
<name>dfs.name.dir</name>
<value>/home/ysc/dfs/filesystem/name</value>
</property>

<property>
<name>dfs.data.dir</name>
<value>/home/ysc/dfs/filesystem/data</value>
</property>

<property>
<name>dfs.replication</name>
<value>1</value>
</property>

<property>
<name>dfs.block.size</name>
<value>671088640</value>
<description>The default block size for new files.</description>
</property>
9、vi conf/mapred-site.xml
  加入配置：
<property>
<name>mapred.job.tracker</name>
<value>devcluster01:9001</value>
<description>
    The host and port that the MapReduce job tracker runs at. If
    "local", then jobs are run in-process as a single map and
    reduce task.
    Note 9001 is not the default port.
</description>
</property>

<property>
<name>mapred.reduce.tasks.speculative.execution</name>
<value>false</value>
<description>If true, then multiple instances of some reduce tasks
may be executed in parallel.</description>
</property>

<property>
<name>mapred.map.tasks.speculative.execution</name>
<value>false</value>
<description>If true, then multiple instances of some map tasks
may be executed in parallel.</description>
</property>

<property>
<name>mapred.child.java.opts</name>
<value>-Xmx2000m</value>
</property>

<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>4</value>
<description>
the core number of host
</description>
</property>

<property>
<name>mapred.map.tasks</name>
<value>4</value>
</property>

<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>4</value>
    <description>
    define mapred.map tasks to be number of slave hosts.the best number is the number of slave hosts plus the core numbers of per host
    </description>
</property>

<property>
<name>mapred.reduce.tasks</name>
<value>4</value>
<description>
define mapred.reduce tasks to be number of slave hosts.the best number is the number of slave hosts plus the core numbers of per host
</description>
</property>

<property>
<name>mapred.output.compression.type</name>
<value>BLOCK</value>
<description>If the job outputs are to compressed as SequenceFiles, how should they be compressed? Should be one of NONE, RECORD or BLOCK.
</description>
</property>

<property>
<name>mapred.output.compress</name>
<value>true</value>
<description>Should the job outputs be compressed?
</description>
</property>

<property>
<name>mapred.compress.map.output</name>
<value>true</value>
<description>Should the outputs of the maps be compressed before being sent across the network. Uses SequenceFile compression.
</description>
</property>

<property>
<name>mapred.system.dir</name>
<value>/home/ysc/mapreduce/system</value>
</property>

<property>
<name>mapred.local.dir</name>
<value>/home/ysc/mapreduce/local</value>
</property>
10、vi conf/hadoop-env.sh
  追加：
export JAVA_HOME=/home/ysc/jdk1.7.0_05
  export HADOOP_HEAPSIZE=2000
  #替换掉默认的垃圾回收器，因为默认的垃圾回收器在多线程环境下会有更多的wait等待
  export HADOOP_OPTS="-server -Xmn256m -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70"
11、复制HADOOP文件
  scp -r /home/ysc/hadoop-1.1.1 ysc@devcluster02:/home/ysc/hadoop-1.1.1
  scp -r /home/ysc/hadoop-1.1.1 ysc@devcluster03:/home/ysc/hadoop-1.1.1
12、sudo vi /etc/profile
  追加并重启系统：
  export PATH=/home/ysc/hadoop-1.1.1/bin:$PATH
13、格式化名称节点并启动集群
  hadoop namenode -format
  start-all.sh
14、cd /home/ysc/workspace/nutch1.5.1/runtime/deploy
  mkdir urls
  echo http://news.163.com > urls/url
  hadoop dfs -put urls urls
  bin/nutch crawl urls -dir data -depth 2 -topN 100
15、访问 http://localhost:50030 可以查看 JobTracker 的运行状态。访问 http://localhost:50060 可以查看 TaskTracker 的运行状态。访问 http://localhost:50070 可以查看 NameNode 以及整个分布式文件系统的状态，浏览分布式文件系统中的文件以及 log 等
16、通过stop-all.sh停止集群
17、如果NameNode和SecondaryNameNode不在同一台机器上，则在SecondaryNameNode的conf/hdfs-site.xml文件中加入配置：
   <property>
     <name>dfs.http.address</name>
     <value>namenode:50070</value>
   </property>

七、配置Ganglia监控Hadoop集群和HBase集群
1、服务器端（安装到master devcluster01上）
  1）、ssh devcluster01
  2）、useradd ganglia -g ganglia
  3）、sudo apt-get install ganglia-monitor ganglia-webfront gmetad
   //补充：在Ubuntu10.04上，ganglia-webfront这个package名字叫ganglia-webfrontend
   //如果install出错，则运行sudo apt-get update，如果update出错，则删除出错路径
  4）、vi /etc/ganglia/gmond.conf
   先找到setuid = yes,改成setuid =no;
   在找到cluster块中的name，改成name =”hadoop-cluster”;
  5）、sudo apt-get install rrdtool
  6)、vi /etc/ganglia/gmetad.conf
   在这个配置文件中增加一些datasource，即其他2个被监控的节点，增加以下内容：
   data_source “hadoop-cluster” devcluster01:8649 devcluster02:8649 devcluster03:8649
   gridname "Hadoop"
2、数据源端（安装到所有slaves上）
  1)、ssh devcluster02
   useradd ganglia -g ganglia
   sudo apt-get install ganglia-monitor
   useradd ganglia -g ganglia
  2)、ssh devcluster03
   useradd ganglia -g ganglia
   sudo apt-get install ganglia-monitor
   useradd ganglia -g ganglia
  3）、ssh devcluster01
   scp /etc/ganglia/gmond.conf devcluster02:/etc/ganglia/gmond.conf
   scp /etc/ganglia/gmond.conf devcluster03:/etc/ganglia/gmond.conf
3、配置WEB
  1）、ssh devcluster01
  2）、sudo ln -s /usr/share/ganglia-webfrontend /var/www/ganglia
  3）、vi /etc/apache2/apache2.conf
   添加：
   ServerName devcluster01
4、重启服务
  1）、ssh devcluster02
   sudo /etc/init.d/ganglia-monitor restart
   ssh devcluster03
   sudo /etc/init.d/ganglia-monitor restart
  2）、ssh devcluster01
   sudo /etc/init.d/ganglia-monitor restart
   sudo /etc/init.d/gmetad restart
   sudo /etc/init.d/apache2 restart
5、访问页面
  http:// devcluster01/ganglia
6、集成hadoop
  1）、ssh devcluster01
  2）、cd /home/ysc/hadoop-1.1.1
  3）、vi conf/hadoop-metrics2.properties
  # 大于0.20以后的版本用ganglia31  *.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink31
  *.sink.ganglia.period=10
  # default for supportsparse is false
  *.sink.ganglia.supportsparse=true
*.sink.ganglia.slope=jvm.metrics.gcCount=zero,jvm.metrics.memHeapUsedM=both
*.sink.ganglia.dmax=jvm.metrics.threadsBlocked=70,jvm.metrics.memHeapUsedM=40
  #广播IP地址，这是缺省的，统一设该值(只能用组播地址239.2.11.71)
  namenode.sink.ganglia.servers=239.2.11.71:8649
  datanode.sink.ganglia.servers=239.2.11.71:8649
  jobtracker.sink.ganglia.servers=239.2.11.71:8649
  tasktracker.sink.ganglia.servers=239.2.11.71:8649
  maptask.sink.ganglia.servers=239.2.11.71:8649
  reducetask.sink.ganglia.servers=239.2.11.71:8649
  dfs.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
  dfs.period=10
  dfs.servers=239.2.11.71:8649
  mapred.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
  mapred.period=10
  mapred.servers=239.2.11.71:8649
  jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
  jvm.period=10
  jvm.servers=239.2.11.71:8649
  4）、scp conf/hadoop-metrics2.properties root@devcluster02:/home/ysc/hadoop-1.1.1/conf/hadoop-metrics2.properties
  5）、scp conf/hadoop-metrics2.properties root@devcluster03:/home/ysc/hadoop-1.1.1/conf/hadoop-metrics2.properties
  6）、stop-all.sh
  7）、start-all.sh
7、集成hbase
  1）、ssh devcluster01
  2）、cd /home/ysc/hbase-0.92.2
  3）、vi conf/hadoop-metrics.properties(只能用组播地址239.2.11.71)
   hbase.extendedperiod = 3600
   hbase.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
   hbase.period=10
   hbase.servers=239.2.11.71:8649
   jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
   jvm.period=10
   jvm.servers=239.2.11.71:8649
   rpc.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
   rpc.period=10
   rpc.servers=239.2.11.71:8649
  4）、scp conf/hadoop-metrics.properties root@devcluster02:/home/ysc/ hbase-0.92.2/conf/hadoop-metrics.properties
  5）、scp conf/hadoop-metrics.properties root@devcluster03:/home/ysc/ hbase-0.92.2/conf/hadoop-metrics.properties
  6）、stop-hbase.sh
  7）、start-hbase.sh

八、Hadoop配置Snappy压缩
1、wget http://snappy.googlecode.com/files/snappy-1.0.5.tar.gz
2、tar -xzvf snappy-1.0.5.tar.gz
3、cd snappy-1.0.5
4、./configure
5、make
6、make install
7、scp /usr/local/lib/libsnappy* devcluster01:/home/ysc/hadoop-1.1.1/lib/native/Linux-amd64-64/
scp /usr/local/lib/libsnappy* devcluster02:/home/ysc/hadoop-1.1.1/lib/native/Linux-amd64-64/
scp /usr/local/lib/libsnappy* devcluster03:/home/ysc/hadoop-1.1.1/lib/native/Linux-amd64-64/
8、vi /etc/profile
  追加：
  export LD_LIBRARY_PATH=/home/ysc/hadoop-1.1.1/lib/native/Linux-amd64-64
9、修改mapred-site.xml
  <property>
    <name>mapred.output.compression.type</name>
    <value>BLOCK</value>
    <description>If the job outputs are to compressed as SequenceFiles, how should
        they be compressed? Should be one of NONE, RECORD or BLOCK.
    </description>
  </property>

  <property>
    <name>mapred.output.compress</name>
    <value>true</value>
    <description>Should the job outputs be compressed?
    </description>
  </property>

  <property>
    <name>mapred.compress.map.output</name>
    <value>true</value>
    <description>Should the outputs of the maps be compressed before being
        sent across the network. Uses SequenceFile compression.
    </description>
  </property>

  <property>
    <name>mapred.map.output.compression.codec</name>
    <value>org.apache.hadoop.io.compress.SnappyCodec</value>
    <description>If the map outputs are compressed, how should they be
        compressed?
    </description>
  </property>

九、Hadoop配置Lzo压缩
1、wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz
2、tar -zxvf lzo-2.06.tar.gz
3、cd lzo-2.06
4、./configure --enable-shared
5、make
6、make install
7、scp /usr/local/lib/liblzo2.* devcluster01:/lib/x86_64-linux-gnu
scp /usr/local/lib/liblzo2.* devcluster02:/lib/x86_64-linux-gnu
scp /usr/local/lib/liblzo2.* devcluster03:/lib/x86_64-linux-gnu
8、wget http://hadoop-gpl-compression.apache-extras.org.codespot.com/files/hadoop-gpl-compression-0.1.0-rc0.tar.gz
9、tar -xzvf hadoop-gpl-compression-0.1.0-rc0.tar.gz
10、cd hadoop-gpl-compression-0.1.0
11、cp lib/native/Linux-amd64-64/* /home/ysc/hadoop-1.1.1/lib/native/Linux-amd64-64/
12、cp hadoop-gpl-compression-0.1.0.jar /home/ysc/hadoop-1.1.1/lib/(这里hadoop集群的版本要和compression使用的版本一致)
13、scp -r /home/ysc/hadoop-1.1.1/lib devcluster02:/home/ysc/hadoop-1.1.1/
scp -r /home/ysc/hadoop-1.1.1/lib devcluster03:/home/ysc/hadoop-1.1.1/
14、vi /etc/profile
  追加：
  export LD_LIBRARY_PATH=/home/ysc/hadoop-1.1.1/lib/native/Linux-amd64-64
15、修改core-site.xml
  <property>
    <name>io.compression.codecs</name>
    <value>com.hadoop.compression.lzo.LzoCodec,org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.SnappyCodec</value>
    <description>A list of the compression codec classes that can be used
        for compression/decompression.</description>
  </property>

  <property>
    <name>io.compression.codec.lzo.class</name>
    <value>com.hadoop.compression.lzo.LzoCodec</value>
  </property>

  <property>
    <name>fs.trash.interval</name>
    <value>1440</value>
    <description>Number of minutes between trash checkpoints.
    If zero, the trash feature is disabled.
    </description>
  </property>
16、修改mapred-site.xml
  <property>
    <name>mapred.output.compression.type</name>
    <value>BLOCK</value>
    <description>If the job outputs are to compressed as SequenceFiles, how should
        they be compressed? Should be one of NONE, RECORD or BLOCK.
    </description>
  </property>

  <property>
    <name>mapred.output.compress</name>
    <value>true</value>
    <description>Should the job outputs be compressed?
    </description>
  </property>

  <property>
    <name>mapred.compress.map.output</name>
    <value>true</value>
    <description>Should the outputs of the maps be compressed before being
        sent across the network. Uses SequenceFile compression.
    </description>
  </property>

  <property>
    <name>mapred.map.output.compression.codec</name>
    <value>com.hadoop.compression.lzo.LzoCodec</value>
    <description>If the map outputs are compressed, how should they be
        compressed?
    </description>
  </property>

  <property>
    <name>mapred.output.compression.codec</name>
    <value>com.hadoop.compression.lzo.LzoCodec</value>
    <description>If the job outputs are compressed, how should they be compressed?
    </description>
  </property>

十、配置zookeeper集群以运行hbase
1、ssh devcluster01
2、cd /home/ysc
3、wget http://mirror.bjtu.edu.cn/apache/zookeeper/stable/zookeeper-3.4.5.tar.gz
4、tar -zxvf zookeeper-3.4.5.tar.gz
5、cd zookeeper-3.4.5
6、cp conf/zoo_sample.cfg conf/zoo.cfg
7、vi conf/zoo.cfg
  修改：dataDir=/home/ysc/zookeeper
  添加：
   server.1=devcluster01:2888:3888
   server.2=devcluster02:2888:3888
   server.3=devcluster03:2888:3888
   maxClientCnxns=100
8、scp -r zookeeper-3.4.5 devcluster01:/home/ysc
scp -r zookeeper-3.4.5 devcluster02:/home/ysc
scp -r zookeeper-3.4.5 devcluster03:/home/ysc
9、分别在三台机器上面执行：
  ssh devcluster01
  mkdir /home/ysc/zookeeper（注：dataDir是zookeeper的数据目录，需要手动创建）
  echo 1 > /home/ysc/zookeeper/myid
  ssh devcluster02
  mkdir /home/ysc/zookeeper
  echo 2 > /home/ysc/zookeeper/myid
  ssh devcluster03
  mkdir /home/ysc/zookeeper
  echo 3 > /home/ysc/zookeeper/myid
10、分别在三台机器上面执行：
  cd /home/ysc/zookeeper-3.4.5
  bin/zkServer.sh start
  bin/zkCli.sh -server devcluster01:2181
  bin/zkServer.sh status

十一、配置Hbase集群以运行nutch-2.1(Region Servers会因为内存的问题宕机)
1、nutch-2.1使用gora-0.2.1， gora-0.2.1使用hbase-0.90.4，hbase-0.90.4和hadoop-1.1.1不兼容，hbase-0.94.4和gora-0.2.1不兼容，hbase-0.92.2没问题。hbase存在系统时间同步的问题，并且误差要再30s以内。
sudo apt-get install ntp
sudo ntpdate -u 210.72.145.44
2、HBase是数据库，会在同一时间使用很多的文件句柄。大多数linux系统使用的默认值1024是不能满足的。还需要修改 hbase 用户的 nproc，在压力下，如果过低会造成 OutOfMemoryError异常。
vi /etc/security/limits.conf
添加：
   ysc soft nproc 32000
   ysc hard nproc 32000
   ysc soft nofile 32768
   ysc hard nofile 32768
vi /etc/pam.d/common-session
添加：
   session required pam_limits.so
3、登陆master，下载并解压hbase
  ssh devcluster01
  cd /home/ysc
  wget http://apache.etoak.com/hbase/hbase-0.92.2/hbase-0.92.2.tar.gz
  tar -zxvf hbase-0.92.2.tar.gz
  cd hbase-0.92.2
4、修改配置文件hbase-env.sh
  vi conf/hbase-env.sh
  追加：
  export JAVA_HOME=/home/ysc/jdk1.7.0_05
  export HBASE_MANAGES_ZK=false
  export HBASE_HEAPSIZE=10000
  #替换掉默认的垃圾回收器，因为默认的垃圾回收器在多线程环境下会有更多的wait等待
  export HBASE_OPTS="-server -Xmn256m -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70"
5、修改配置文件hbase-site.xml
  vi conf/hbase-site.xml
  <property>
   <name>hbase.rootdir</name>
   <value>hdfs://devcluster01:9000/hbase</value>
  </property>
  <property>
   <name>hbase.cluster.distributed</name>
   <value>true</value>
  </property>
  <property>
   <name>hbase.zookeeper.quorum</name>
   <value>devcluster01,devcluster02,devcluster03</value>
  </property>
  <property>
   <name>hbase.client.scanner.caching</name>
   <value>100</value>
   <description>Number of rows that will be fetched when calling next
   on a scanner if it is not served from (local, client) memory. Higher
   caching values will enable faster scanners but will eat up more memory
   and some calls of next may take longer and longer times when the cache is empty.
   Do not set this value such that the time between invocations is greater
   than the scanner timeout; i.e. hbase.regionserver.lease.period
   </description>
  </property>
  <property>
   <name>hfile.block.cache.size</name>
   <value>0.25</value>
   <description>
    Percentage of maximum heap (-Xmx setting) to allocate to block cache
    used by HFile/StoreFile. Default of 0.25 means allocate 25%.
    Set to 0 to disable but it's not recommended.
   </description>
  </property>
  <property>
   <name>hbase.regionserver.global.memstore.upperLimit</name>
   <value>0.4</value>
   <description>Maximum size of all memstores in a region server before new
     updates are blocked and flushes are forced. Defaults to 40% of heap
   </description>
  </property>
6、修改配置文件regionservers
  vi conf/regionservers
  devcluster01
  devcluster02
  devcluster03
7、因为HBase建立在Hadoop之上，Hadoop使用的hadoop*.jar和HBase使用的必须一致。所以要将 HBase lib 目录下的hadoop*.jar替换成Hadoop里面的那个，防止版本冲突。
  cp /home/ysc/hadoop-1.1.1/hadoop-core-1.1.1.jar /home/ysc/hbase-0.92.2/lib
  rm /home/ysc/hbase-0.92.2/lib/hadoop-core-1.0.3.jar
8、复制文件到regionservers
  scp -r /home/ysc/hbase-0.92.2 devcluster01:/home/ysc
  scp -r /home/ysc/hbase-0.92.2 devcluster02:/home/ysc
  scp -r /home/ysc/hbase-0.92.2 devcluster03:/home/ysc
9、启动hadoop并创建目录
  hadoop fs -mkdir /hbase
10、管理HBase集群:
  启动初始 HBase 集群：
   bin/start-hbase.sh
  停止HBase 集群：
   bin/stop-hbase.sh
  启动额外备份主服务器，可以启动到 9 个备份服务器 (总数10 个)：
   bin/local-master-backup.sh start 1
   bin/local-master-backup.sh start 2 3
  启动更多 regionservers, 支持到 99 个额外regionservers (总100个)：
   bin/local-regionservers.sh start 1
   bin/local-regionservers.sh start 2 3 4 5
  停止备份主服务器:
   cat /tmp/hbase-ysc-1-master.pid |xargs kill -9
  停止单独 regionserver：
   bin/local-regionservers.sh stop 1
  使用HBase命令行模式:
   bin/hbase shell
11、web界面
   http://devcluster01:60010
   http://devcluster01:60030
12、如运行nutch2.1则方法一：
  cp conf/hbase-site.xml /home/ysc/nutch-2.1/conf
  cd /home/ysc/nutch-2.1
  ant
  cd runtime/deploy
  unzip -d apache-nutch-2.1 apache-nutch-2.1.job
  rm apache-nutch-2.1.job
  cd apache-nutch-2.1
  rm lib/hbase-0.90.4.jar
  cp /home/ysc/hbase-0.92.2/hbase-0.92.2.jar lib
  zip -r ../apache-nutch-2.1.job ./*
  cd ..
  rm -r apache-nutch-2.1
13、如运行nutch2.1则方法二：
  cp conf/hbase-site.xml /home/ysc/nutch-2.1/conf
  cd /home/ysc/nutch-2.1
  cp /home/ysc/hbase-0.92.2/hbase-0.92.2.jar lib
  ant
  cd runtime/deploy
  zip -d apache-nutch-2.1.job lib/hbase-0.90.4.jar

启用snappy压缩：
1、vi conf/gora-hbase-mapping.xml
  在family上面添加属性：compression="SNAPPY"
2、mkdir /home/ysc/hbase-0.92.2/lib/native/Linux-amd64-64
3、cp /home/ysc/hadoop-1.1.1/lib/native/Linux-amd64-64/* /home/ysc/hbase-0.92.2/lib/native/Linux-amd64-64
4、vi /home/ysc/hbase-0.92.2/conf/hbase-site.xml
  增加：
                <property>
                        <name>hbase.regionserver.codecs</name>
                        <value>snappy</value>
                </property>

十二、配置Accumulo集群以运行nutch-2.1(gora存在BUG)
1、wget http://apache.etoak.com/accumulo/1.4.2/accumulo-1.4.2-dist.tar.gz
2、tar -xzvf accumulo-1.4.2-dist.tar.gz
3、cd accumulo-1.4.2
4、cp conf/examples/3GB/standalone/* conf
5、vi conf/accumulo-env.sh
  export HADOOP_HOME=/home/ysc/cluster3
  export ZOOKEEPER_HOME=/home/ysc/zookeeper-3.4.5
  export JAVA_HOME=/home/jdk1.7.0_01
  export ACCUMULO_HOME=/home/ysc/accumulo-1.4.2
6、vi conf/slaves
  devcluster01
  devcluster02
  devcluster03
7、vi conf/masters
  devcluster01
8、vi conf/accumulo-site.xml
  <property>
    <name>instance.zookeeper.host</name>
    <value>host6:2181,host8:2181</value>
    <description>comma separated list of zookeeper servers</description>
  </property>

  <property>
    <name>logger.dir.walog</name>
    <value>walogs</value>
    <description>The directory used to store write-ahead logs on the local filesystem. It is possible to specify a comma-separated list of directories.</description>
  </property>

  <property>
    <name>instance.secret</name>
    <value>ysc</value>
    <description>A secret unique to a given instance that all servers must know in order to communicate with one another.
        Change it before initialization. To change it later use ./bin/accumulo org.apache.accumulo.server.util.ChangeSecret [oldpasswd] [newpasswd],
        and then update this file.
    </description>
  </property>

  <property>
    <name>tserver.memory.maps.max</name>
    <value>3G</value>
  </property>

  <property>
    <name>tserver.cache.data.size</name>
    <value>50M</value>
  </property>

  <property>
    <name>tserver.cache.index.size</name>
    <value>512M</value>
  </property>

<property>
    <name>trace.password</name>
    
    <value>ysc</value>
  </property>

  <property>
    <name>trace.user</name>
    <value>root</value>
  </property>
9、bin/accumulo init
10、bin/start-all.sh
11、bin/stop-all.sh
12、web访问： http://devcluster01:50095/

修改nutch2.1：
1、cd /home/ysc/nutch-2.1
2、vi conf/gora.properties
  增加：
  gora.datastore.default=org.apache.gora.accumulo.store.AccumuloStore
  gora.datastore.accumulo.mock=false
  gora.datastore.accumulo.instance=accumulo
  gora.datastore.accumulo.zookeepers=host6,host8
  gora.datastore.accumulo.user=root
  gora.datastore.accumulo.password=ysc
3、vi conf/nutch-site.xml
  增加：
  <property>
    <name>storage.data.store.class</name>
    <value>org.apache.gora.accumulo.store.AccumuloStore</value>
  </property>
4、vi ivy/ivy.xml
  增加：
  <dependency org="org.apache.gora" name="gora-accumulo" rev="0.2.1" conf="*->default" />
5、升级accumulo
  cp /home/ysc/accumulo-1.4.2/lib/accumulo-core-1.4.2.jar /home/ysc/nutch-2.1/lib
  cp /home/ysc/accumulo-1.4.2/lib/accumulo-start-1.4.2.jar /home/ysc/nutch-2.1/lib
  cp /home/ysc/accumulo-1.4.2/lib/cloudtrace-1.4.2.jar /home/ysc/nutch-2.1/lib
6、ant
7、cd runtime/deploy
8、删除旧jar
  zip -d apache-nutch-2.1.job lib/accumulo-core-1.4.0.jar
  zip -d apache-nutch-2.1.job lib/accumulo-start-1.4.0.jar
  zip -d apache-nutch-2.1.job lib/cloudtrace-1.4.2.jar

十三、配置Cassandra 集群以运行nutch-2.1（Cassandra 采用去中心化结构）
1、vi /etc/hosts（注意：需要登录到每一台机器上面，将localhost解析到实际地址）
  192.168.1.1       localhost
2、wget http://labs.mop.com/apache-mirror/cassandra/1.2.0/apache-cassandra-1.2.0-bin.tar.gz
3、tar -xzvf apache-cassandra-1.2.0-bin.tar.gz
4、cd apache-cassandra-1.2.0
5、vi conf/cassandra-env.sh
  增加：
  MAX_HEAP_SIZE="4G"
  HEAP_NEWSIZE="800M"
6、vi conf/log4j-server.properties
  修改：
  log4j.appender.R.File=/home/ysc/cassandra/system.log
7、vi conf/cassandra.yaml
  修改：
  cluster_name: 'Cassandra Cluster'
  data_file_directories:
      - /home/ysc/cassandra/data
  commitlog_directory: /home/ysc/cassandra/commitlog
  saved_caches_directory: /home/ysc/cassandra/saved_caches

  - seeds: "192.168.1.1"
  listen_address: 192.168.1.1
  rpc_address: 192.168.1.1

  thrift_framed_transport_size_in_mb: 1023
  thrift_max_message_length_in_mb: 1024
8、vi bin/stop-server
  增加：
  user=`whoami`
  pgrep -u $user -f cassandra | xargs kill -9
9、复制cassandra到其他节点：
  cd ..
  scp -r apache-cassandra-1.2.0 devcluster02:/home/ysc
  scp -r apache-cassandra-1.2.0 devcluster03:/home/ysc
  分别在devcluster02和devcluster03上面修改：
  vi conf/cassandra.yaml
   listen_address: 192.168.1.2
   rpc_address: 192.168.1.2
  vi conf/cassandra.yaml
   listen_address: 192.168.1.3
   rpc_address: 192.168.1.3
10、分别在3个节点上面运行
  bin/cassandra
  bin/cassandra -f   参数 -f 的作用是让 Cassandra 以前端程序方式运行，这样有利于调试和观察日志信息，而在实际生产环境中这个参数是不需要的（即 Cassandra 会以 daemon 方式运行）
11、bin/nodetool -host devcluster01 ring
        bin/nodetool -host devcluster01 info
12、bin/stop-server
13、bin/cassandra-cli

修改nutch2.1：
1、cd /home/ysc/nutch-2.1
2、vi conf/gora.properties
  增加：
  gora.cassandrastore.servers=host2:9160,host6:9160,host8:9160
3、vi conf/nutch-site.xml
  增加：
  <property>
    <name>storage.data.store.class</name>
    <value>org.apache.gora.cassandra.store.CassandraStore</value>
  </property>
4、vi ivy/ivy.xml
  增加：
  <dependency org="org.apache.gora" name="gora-cassandra" rev="0.2.1" conf="*->default" />
5、升级cassandra
  cp /home/ysc/apache-cassandra-1.2.0/lib/apache-cassandra-1.2.0.jar /home/ysc/nutch-2.1/lib
  cp /home/ysc/apache-cassandra-1.2.0/lib/apache-cassandra-thrift-1.2.0.jar /home/ysc/nutch-2.1/lib
  cp /home/ysc/apache-cassandra-1.2.0/lib/jline-1.0.jar /home/ysc/nutch-2.1/lib
6、ant
7、cd runtime/deploy
8、删除旧jar
  zip -d apache-nutch-2.1.job lib/cassandra-thrift-1.1.2.jar
  zip -d apache-nutch-2.1.job lib/jline-0.9.1.jar

十四、配置MySQL 单机服务器以运行nutch-2.1
1、apt-get install mysql-server mysql-client
2、vi /etc/mysql/my.cnf
  修改：
  bind-address            = 221.194.43.2
  在[client]下增加：
  default-character-set=utf8
  在[mysqld]下增加：
  default-character-set=utf8
3、mysql –uroot –pysc
  SHOW VARIABLES LIKE '%character%';
4、service mysql restart
5、mysql –uroot –pysc
  GRANT ALL PRIVILEGES ON *.* TO root@"%" IDENTIFIED BY "ysc";
6、vi conf/gora-sql-mapping.xml
  修改字段的长度
  <primarykey column="id" length="333"/>
  <field name="content" column="content" />
  <field name="text" column="text" length="19892"/>
7、启动nutch之后登陆mysql
   ALTER TABLE webpage MODIFY COLUMN content MEDIUMBLOB;
   ALTER TABLE webpage MODIFY COLUMN text MEDIUMTEXT;
   ALTER TABLE webpage MODIFY COLUMN title MEDIUMTEXT;
   ALTER TABLE webpage MODIFY COLUMN reprUrl MEDIUMTEXT;
   ALTER TABLE webpage MODIFY COLUMN baseUrl MEDIUMTEXT;
   ALTER TABLE webpage MODIFY COLUMN typ MEDIUMTEXT;
   ALTER TABLE webpage MODIFY COLUMN inlinks MEDIUMBLOB;
   ALTER TABLE webpage MODIFY COLUMN outlinks MEDIUMBLOB;

修改nutch2.1：
1、cd /home/ysc/nutch-2.1
2、vi conf/gora.properties
  增加：
   gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver
gora.sqlstore.jdbc.url=jdbc:mysql://host2:3306/nutch?createDatabaseIfNotExist=true&useUnicode=true&characterEncoding=utf8
  gora.sqlstore.jdbc.user=root
  gora.sqlstore.jdbc.password=ysc
3、vi conf/nutch-site.xml
  增加：
  <property>
    <name>storage.data.store.class</name>
    <value>org.apache.gora.sql.store.SqlStore </value>
  </property>

  <property>
    <name>encodingdetector.charset.min.confidence</name>
    <value>1</value>
    <description>A integer between 0-100 indicating minimum confidence value
    for charset auto-detection. Any negative value disables auto-detection.
    </description>
  </property>
4、vi ivy/ivy.xml
  增加：
  <dependency org="mysql" name="mysql-connector-java" rev="5.1.18" conf="*->default"/>

十五、nutch2.1 使用DataFileAvroStore作为数据源
1、cd /home/ysc/nutch-2.1
2、vi conf/gora.properties
  增加：
  gora.datafileavrostore.output.path=datafileavrostore
  gora.datafileavrostore.input.path=datafileavrostore
3、vi conf/nutch-site.xml
  增加：
  <property>
    <name>storage.data.store.class</name>
    <value>org.apache.gora.avro.store.DataFileAvroStore</value>
  </property>

十六、nutch2.1 使用AvroStore作为数据源
1、cd /home/ysc/nutch-2.1
2、vi conf/gora.properties
  增加：
  gora.avrostore.codec.type=BINARY
  gora.avrostore.input.path=avrostore
  gora.avrostore.output.path=avrostore
3、vi conf/nutch-site.xml
  增加：
  <property>
    <name>storage.data.store.class</name>
    <value>org.apache.gora.avro.store.AvroStore</value>
  </property>

十七、配置SOLR
配置tomcat：
1、wget http://www.fayea.com/apache-mirror/tomcat/tomcat-7/v7.0.35/bin/apache-tomcat-7.0.35.tar.gz
2、tar -xzvf apache-tomcat-7.0.35.tar.gz
3、cd apache-tomcat-7.0.35
4、vi conf/server.xml
增加URIEncoding="UTF-8"：
  <Connector port="8080" protocol="HTTP/1.1"
       connectionTimeout="20000"
       redirectPort="8443" URIEncoding="UTF-8"/>
5、mkdir conf/Catalina
6、mkdir conf/Catalina/localhost
7、vi conf/Catalina/localhost/solr.xml
增加：
  <Context path="/solr">
   <Environment name="solr/home" type="java.lang.String" value="/home/ysc/solr/configuration/" override="false"/>
  </Context>
8、cd ..

下载SOLR:
1、wget http://mirrors.tuna.tsinghua.edu.cn/apache/lucene/solr/4.1.0/solr-4.1.0.tgz
2、tar -xzvf solr-4.1.0.tgz

复制资源：
1、mkdir /home/ysc/solr
2、cp -r solr-4.1.0/example/solr /home/ysc/solr/configuration
3、unzip solr-4.1.0/example/webapps/solr.war -d /home/ysc/apache-tomcat-7.0.35/webapps/solr

配置nutch：
1、复制schema：
  cp /home/ysc/nutch-1.6/conf/schema-solr4.xml /home/ysc/solr/configuration/collection1/conf/schema.xml
2、vi /home/ysc/solr/configuration/collection1/conf/schema.xml
  在<fields>下增加：
  <field name="_version_" type="long" indexed="true" stored="true"/>

配置中文分词：
1、wget http://mmseg4j.googlecode.com/files/mmseg4j-1.9.1.v20130120-SNAPSHOT.zip
2、unzip mmseg4j-1.9.1.v20130120-SNAPSHOT.zip
3、cp mmseg4j-1.9.1-SNAPSHOT/dist/* /home/ysc/apache-tomcat-7.0.35/webapps/solr/WEB-INF/lib
4、unzip mmseg4j-1.9.1-SNAPSHOT/dist/mmseg4j-core-1.9.1-SNAPSHOT.jar -d mmseg4j-1.9.1-SNAPSHOT/dist/mmseg4j-core-1.9.1-SNAPSHOT
5、mkdir /home/ysc/dic
6、cp   mmseg4j-1.9.1-SNAPSHOT/dist/mmseg4j-core-1.9.1-SNAPSHOT/data/* /home/ysc/dic
7、vi /home/ysc/solr/configuration/collection1/conf/schema.xml
  将文件中的
  <tokenizer class="solr.WhitespaceTokenizerFactory"/>
  和
  <tokenizer class="solr.StandardTokenizerFactory"/>
  替换为
  <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/home/ysc/dic"/>

配置tomcat本地库：
1、wget http://apache.spd.co.il/apr/apr-1.4.6.tar.gz
2、tar -xzvf apr-1.4.6.tar.gz
3、cd apr-1.4.6
4、./configure
5、make
6、make install

1、wget http://mirror.bjtu.edu.cn/apache/apr/apr-util-1.5.1.tar.gz
2、tar -xzvf apr-util-1.5.1.tar.gz
3、cd apr-util-1.5.1
4、./configure --with-apr=/usr/local/apr
5、make
6、make install

1、wget http://mirror.bjtu.edu.cn/apache//tomcat/tomcat-connectors/native/1.1.24/source/tomcat-native-1.1.24-src.tar.gz
2、tar -zxvf tomcat-native-1.1.24-src.tar.gz
3、cd tomcat-native-1.1.24-src/jni/native
4、./configure --with-apr=/usr/local/apr \
                --with-java-home=/home/ysc/jdk1.7.0_01 \
                --with-ssl=no \
                --prefix=/home/ysc/apache-tomcat-7.0.35
5、make
6、make install
7、vi /etc/profile
增加：
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/ysc/apache-tomcat-7.0.35/lib:/usr/local/apr/lib
8、source /etc/profile

启动tomcat：
cd apache-tomcat-7.0.35
bin/catalina.sh start
http://devcluster01:8080/solr/

十八、Nagios监控
服务端：
1、apt-get install apache2 nagios3 nagios-nrpe-plugin
  输入密码：nagiosadmin
2、apt-get install nagios3-doc
3、vi /etc/nagios3/conf.d/hostgroups_nagios2.cfg
   define hostgroup {
     hostgroup_name nagios-servers
     alias           nagios servers
     members         devcluster01,devcluster02,devcluster03
   }
4、cp /etc/nagios3/conf.d/localhost_nagios2.cfg /etc/nagios3/conf.d/devcluster01_nagios2.cfg
  vi /etc/nagios3/conf.d/devcluster01_nagios2.cfg
  替换：
   g/localhost/s//devcluster01/g
   g/127.0.0.1/s//192.168.1.1/g
5、cp /etc/nagios3/conf.d/localhost_nagios2.cfg /etc/nagios3/conf.d/devcluster02_nagios2.cfg
  vi /etc/nagios3/conf.d/devcluster02_nagios2.cfg
  替换：
   g/localhost/s//devcluster02/g
   g/127.0.0.1/s//192.168.1.2/g
6、cp /etc/nagios3/conf.d/localhost_nagios2.cfg /etc/nagios3/conf.d/devcluster03_nagios2.cfg
  vi /etc/nagios3/conf.d/devcluster03_nagios2.cfg
  替换：
   g/localhost/s//devcluster03/g
   g/127.0.0.1/s//192.168.1.3/g

7、vi /etc/nagios3/conf.d/services_nagios2.cfg
  将hostgroup_name改为nagios-servers
  增加：
   # check that web services are running
   define service {
     hostgroup_name                  nagios-servers
     service_description             HTTP
     check_command                   check_http
     use                             generic-service
     notification_interval           0 ; set > 0 if you want to be renotified
   }

   # check that ssh services are running
   define service {
     hostgroup_name                  nagios-servers
     service_description             SSH
     check_command                   check_ssh
     use                             generic-service
     notification_interval           0 ; set > 0 if you want to be renotified
   }
8、vi /etc/nagios3/conf.d/extinfo_nagios2.cfg
  将hostgroup_name改为nagios-servers
  增加：
   define hostextinfo{
     hostgroup_name   nagios-servers
     notes            nagios-servers
   #       notes_url        http://webserver.localhost.localdomain/hostinfo.pl?host=netware1
     icon_image       base/debian.png
     icon_image_alt   Debian GNU/Linux
     vrml_image       debian.png
     statusmap_image base/debian.gd2
     }
9、sudo /etc/init.d/nagios3 restart
10、访问 http://devcluster01/nagios3/
  用户名：nagiosadmin密码：nagiosadmin

监控端：
1、apt-get install nagios-nrpe-server
2、vi /etc/nagios/nrpe.cfg
替换：
g/127.0.0.1/s//192.168.1.1/g
3、sudo /etc/init.d/nagios-nrpe-server restart

十九、配置Splunk
1、wget http://download.splunk.com/releases/5.0.2/splunk/linux/splunk-5.0.2-149561-Linux-x86_64.tgz
2、tar -zxvf splunk-5.0.2-149561-Linux-x86_64.tgz
3、cd splunk
4、bin/splunk start --answer-yes --no-prompt --accept-license
5、访问 http://devcluster01:8000
  用户名：admin 密码：changeme
6、添加数据 -> 从 UDP 端口 -> UDP 端口 *: 1688 -> 来源类型从列表 log4j -> 保存
7、配置hadoop
  vi /home/ysc/hadoop-1.1.1/conf/log4j.properties
  修改：
   log4j.rootLogger=${hadoop.root.logger}, EventCounter, SYSLOG
  增加：
   log4j.appender.SYSLOG=org.apache.log4j.net.SyslogAppender
   log4j.appender.SYSLOG.facility=local1
   log4j.appender.SYSLOG.layout=org.apache.log4j.PatternLayout
   log4j.appender.SYSLOG.layout.ConversionPattern=%p %c{2}: %m%n
   log4j.appender.SYSLOG.SyslogHost=host6:1688
   log4j.appender.SYSLOG.threshold=INFO
   log4j.appender.SYSLOG.Header=true
   log4j.appender.SYSLOG.FacilityPrinting=true
8、配置hbase
  vi /home/ysc/hbase-0.92.2/conf/log4j.properties
  修改：
   log4j.rootLogger=${hbase.root.logger},SYSLOG
  增加：
   log4j.appender.SYSLOG=org.apache.log4j.net.SyslogAppender
   log4j.appender.SYSLOG.facility=local1
   log4j.appender.SYSLOG.layout=org.apache.log4j.PatternLayout
   log4j.appender.SYSLOG.layout.ConversionPattern=%p %c{2}: %m%n
   log4j.appender.SYSLOG.SyslogHost=host6:1688
   log4j.appender.SYSLOG.threshold=INFO
   log4j.appender.SYSLOG.Header=true
   log4j.appender.SYSLOG.FacilityPrinting=true
9、配置nutch
  vi /home/lanke/ysc/nutch-2.1-hbase/conf/log4j.properties
  修改：
   log4j.rootLogger=INFO,DRFA,SYSLOG
  增加：
   log4j.appender.SYSLOG=org.apache.log4j.net.SyslogAppender
   log4j.appender.SYSLOG.facility=local1
   log4j.appender.SYSLOG.layout=org.apache.log4j.PatternLayout
   log4j.appender.SYSLOG.layout.ConversionPattern=%p %c{2}: %m%n
   log4j.appender.SYSLOG.SyslogHost=host6:1688
   log4j.appender.SYSLOG.threshold=INFO
   log4j.appender.SYSLOG.Header=true
   log4j.appender.SYSLOG.FacilityPrinting=true
10、启动hadoop和hbase
  start-all.sh
  start-hbase.sh

二十、配置Pig
1、wget http://labs.mop.com/apache-mirror/pig/pig-0.11.0/pig-0.11.0.tar.gz
2、tar -xzvf pig-0.11.0.tar.gz
3、cd pig-0.11.0
4、vi /etc/profile
  增加：
  export PIG_HOME=/home/ysc/pig-0.11.0
  export PATH=$PIG_HOME/bin:$PATH
5、source /etc/profile
6、cp conf/log4j.properties.template conf/log4j.properties
7、vi conf/log4j.properties
8、pig

二十一、配置Hive
1、wget http://mirrors.cnnic.cn/apache/hive/hive-0.10.0/hive-0.10.0.tar.gz
2、tar -xzvf hive-0.10.0.tar.gz
3、cd hive-0.10.0
4、vi /etc/profile
  增加：
  export HIVE_HOME=/home/ysc/hive-0.10.0
  export PATH=$HIVE_HOME/bin:$PATH
5、source /etc/profile
6、cp conf/hive-log4j.properties.template conf/hive-log4j.properties
7、vi conf/hive-log4j.properties
  替换：
  log4j.appender.EventCounter=org.apache.hadoop.metrics.jvm.EventCounter
  为：
  log4j.appender.EventCounter=org.apache.hadoop.log.metrics.EventCounter

二十二、配置Hadoop2.x集群
1、wget http://labs.mop.com/apache-mirror/hadoop/common/hadoop-2.0.2-alpha/hadoop-2.0.2-alpha.tar.gz
2、tar -xzvf hadoop-2.0.2-alpha.tar.gz
3、cd hadoop-2.0.2-alpha
4、vi etc/hadoop/hadoop-env.sh
  追加：
export JAVA_HOME=/home/ysc/jdk1.7.0_05
  export HADOOP_HEAPSIZE=2000
5、vi etc/hadoop/core-site.xml
  <property>
   <name>fs.defaultFS</name>
   <value>hdfs://devcluster01:9000</value>
   <description>
      Where to find the Hadoop Filesystem through the network.
      Note 9000 is not the default port.
      (This is slightly changed from previous versions which didnt have "hdfs")
   </description>
   </property>
   <property>
    <name>io.file.buffer.size</name>
    <value>131072</value>
    <description>The size of buffer for use in sequence files.
    The size of this buffer should probably be a multiple of hardware
    page size (4096 on Intel x86), and it determines how much data is
    buffered during read and write operations.</description>
  </property>
6、vi etc/hadoop/mapred-site.xml
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>

  <property>
    <name>mapred.job.reduce.input.buffer.percent</name>
    <value>1</value>
    <description>The percentage of memory- relative to the maximum heap size- to
    retain map outputs during the reduce. When the shuffle is concluded, any
    remaining map outputs in memory must consume less than this threshold before
    the reduce can begin.
    </description>
  </property>

  <property>
    <name>mapred.job.shuffle.input.buffer.percent</name>
    <value>1</value>
    <description>The percentage of memory to be allocated from the maximum heap
    size to storing map outputs during the shuffle.
    </description>
  </property>

  <property>
    <name>mapred.inmem.merge.threshold</name>
    <value>0</value>
    <description>The threshold, in terms of the number of files
    for the in-memory merge process. When we accumulate threshold number of files
    we initiate the in-memory merge and spill to disk. A value of 0 or less than
    0 indicates we want to DON'T have any threshold and instead depend only on
    the ramfs's memory consumption to trigger the merge.
    </description>
  </property>

  <property>
    <name>io.sort.factor</name>
    <value>100</value>
    <description>The number of streams to merge at once while sorting
    files. This determines the number of open file handles.</description>
  </property>

  <property>
    <name>io.sort.mb</name>
    <value>240</value>
    <description>The total amount of buffer memory to use while sorting
    files, in megabytes. By default, gives each merge stream 1MB, which
    should minimize seeks.</description>
  </property>
    <property>
      <name>mapred.map.output.compression.codec</name>
      <value>org.apache.hadoop.io.compress.SnappyCodec</value>
      <description>If the map outputs are compressed, how should they be
          compressed?
      </description>
    </property>

    <property>
      <name>mapred.output.compression.codec</name>
      <value>org.apache.hadoop.io.compress.SnappyCodec</value>
      <description>If the job outputs are compressed, how should they be compressed?
      </description>
    </property>
  <property>
    <name>mapred.output.compression.type</name>
    <value>BLOCK</value>
    <description>If the job outputs are to compressed as SequenceFiles, how should
        they be compressed? Should be one of NONE, RECORD or BLOCK.
    </description>
  </property>
  <property>
    <name>mapred.child.java.opts</name>
    <value>-Xmx2000m</value>
  </property>

  <property>
    <name>mapred.output.compress</name>
    <value>true</value>
    <description>Should the job outputs be compressed?
    </description>
  </property>

  <property>
    <name>mapred.compress.map.output</name>
    <value>true</value>
    <description>Should the outputs of the maps be compressed before being
        sent across the network. Uses SequenceFile compression.
    </description>
  </property>

  <property>
    <name>mapred.tasktracker.map.tasks.maximum</name>
    <value>5</value>
  </property>

  <property>
    <name>mapred.map.tasks</name>
    <value>15</value>
  </property>

  <property>
    <name>mapred.tasktracker.reduce.tasks.maximum</name>
    <value>5</value>
   <description>
   define mapred.map tasks to be number of slave hosts.the best number is the number of slave hosts plus the core numbers of per host
   </description>
  </property>

  <property>
    <name>mapred.reduce.tasks</name>
    <value>15</value>
    <description>
   define mapred.reduce tasks to be number of slave hosts.the best number is the number of slave hosts plus the core numbers of per host
    </description>
  </property>
  <property>
    <name>mapred.system.dir</name>
    <value>/home/ysc/mapreduce/system</value>
  </property>

  <property>
    <name>mapred.local.dir</name>
    <value>/home/ysc/mapreduce/local</value>
  </property>

  <property>
    <name>mapreduce.job.counters.max</name>
    <value>12000</value>
    <description>Limit on the number of counters allowed per job.
    </description>
  </property>
7、vi etc/hadoop/yarn-site.xml
  <property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>devcluster01:8031</value>
   </property>
   <property>
    <name>yarn.resourcemanager.address</name>
    <value>devcluster01:8032</value>
   </property>
   <property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>devcluster01:8030</value>
   </property>
   <property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>devcluster01:8033</value>
   </property>
   <property>
    <name>yarn.resourcemanager.webapp.address</name>
    <value>devcluster01:8088</value>
   </property>
   <property>
    <description>Classpath for typical applications.</description>
    <name>yarn.application.classpath</name>
    <value>
    $HADOOP_CONF_DIR,
    $HADOOP_COMMON_HOME/*,$HADOOP_COMMON_HOME/lib/*,
    $HADOOP_HDFS_HOME/*,$HADOOP_HDFS_HOME/lib/*,
    $HADOOP_MAPRED_HOME/*,$HADOOP_MAPRED_HOME/lib/*,
    $YARN_HOME/*,$YARN_HOME/lib/*
    </value>
   </property>
   <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce.shuffle</value>
   </property>
   <property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
   </property>
   <property>
    <name>yarn.nodemanager.local-dirs</name>     <value>/home/ysc/h2/data/1/yarn/local,/home/ysc/h2/data/2/yarn/local,/home/ysc/h2/data/3/yarn/local</value>
   </property>
   <property>
    <name>yarn.nodemanager.log-dirs</name>     <value>/home/ysc/h2/data/1/yarn/logs,/home/ysc/h2/data/2/yarn/logs,/home/ysc/h2/data/3/yarn/logs</value>
   </property>
   <property>
    <description>Where to aggregate logs</description>
    <name>yarn.nodemanager.remote-app-log-dir</name>
    <value>/home/ysc/h2/var/log/hadoop-yarn/apps</value>
   </property>
   <property>
    <name>mapreduce.jobhistory.address</name>
    <value>devcluster01:10020</value>
   </property>
   <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>devcluster01:19888</value>
   </property>
8、vi etc/hadoop/hdfs-site.xml
  <property>
   <name>dfs.permissions.superusergroup</name>
   <value>root</value>
  </property>
  <property>
    <name>dfs.name.dir</name>
    <value>/home/ysc/dfs/filesystem/name</value>
  </property>
  <property>
    <name>dfs.data.dir</name>
    <value>/home/ysc/dfs/filesystem/data</value>
  </property>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.block.size</name>
    <value>6710886400</value>
    <description>The default block size for new files.</description>
  </property>
9、启动hadoop
  bin/hdfs namenode -format
  sbin/start-dfs.sh
  sbin/start-yarn.sh
10、访问管理页面
   http://devcluster01:8088
   http://devcluster01:50070

你可能感兴趣的:(Nutch)

Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
深入浅出hdfs-hadoop基本介绍大数据之家 hdfs hadoop 大数据
一、Hadoop基本介绍hadoop最开始是起源于ApacheNutch项目，这个是由DougCutting开发的开源网络搜索引擎，这个项目刚开始的目标是为了更好的做搜索引擎，后来Google发表了三篇未来持续影响大数据领域的三架马车论文：GoogleFileSystem、BigTable、Mapreduce开始掀起来了大数据的浪潮，paper原文可以参考我的这篇文章CSDN。这三篇论文介绍了如何
Hadoop简介：开启大数据处理之门乌龙饼干 hadoop 大数据分布式
随着信息技术的飞速发展，数据呈现爆炸式增长，传统的数据处理方式已无法满足日益增长的数据需求。在此背景下，Hadoop作为一种分布式系统基础架构，应运而生，为大数据处理打开了新的大门。一、Hadoop的起源与概念Hadoop最初由DougCutting创建，作为ApacheLucene的子项目Nutch的一部分。随着项目的不断发展，Hadoop逐渐独立出来，成为Apache软件基金会下的一个开源项目
专为初学者设计：Nutch库Java下载器入门指南亿牛云爬虫专家 java 代理IP 爬虫代理 java 开发语言 Nutch 下载器爬虫代理代理IP 多线程
概述:Nutch是一款开源的Java爬虫框架，用于抓取、解析、提取和存储网页数据。基于Hadoop的分布式系统，Nutch支持大规模网络爬取，并提供各种插件，包括链接分析、语言检测和内容过滤等功能。本文旨在介绍如何使用Nutch库编写简单的Java下载器，即能从指定URL下载网页内容的程序。目标是帮助初学者了解Nutch库的基本用法，并展示如何通过代理IP技术和多线程技术提升下载效率。假设读者已安
在CentOS7上安装Hadoop分布式系统栗子艾李子 hadoop linux hdfs 分布式
项目背景：Hadoop原来是ApacheLucene下的一个子项目，它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop由分布式存储HDFS和分布式计算MapReduce两部分组成。HDFS是一个master/slave的结构，就通常的部署来说，在master上只运行一个Namenode
大数据技术之Hadoop入门一在远方的你等我
1.从Hadoop框架讨论大数据生态名字起源该项目的创建者，DougCutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的项目起源Hadoop由ApacheSoftwareFoundation公司于2005年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由GoogleLab开发的Map/Reduce和GoogleFileSystem(GFS)的启发
openpyxl3.0官方文档（14）—— 甜甜圈图 Sinchard
甜甜圈图表与饼图类似，只是它们使用了一个环而不是一个圆，还可以绘制出若干系列的数据作为中心环。fromopenpyxlimportWorkbookfromopenpyxl.chartimport(DoughnutChart,Reference,Series,)fromopenpyxl.chart.seriesimportDataPointdata=[['Pie',2014,2015],['Plai
kafka入门：简介、使用场景、设计原理、主要配置及集群搭建（转） weixin_34185320 运维操作系统系统架构
李克华云计算高级群:292870151195907286交流：Hadoop、NoSQL、分布式、lucene、solr、nutchkafka入门：简介、使用场景、设计原理、主要配置及集群搭建（转）问题导读：1.zookeeper在kafka的作用是什么？2.kafka中几乎不允许对消息进行“随机读写”的原因是什么？3.kafka集群consumer和producer状态信息是如何保存的？4.par
大数据之 Hadoop 小裕哥略帅大数据 hadoop java
hadoop主要解决：海量数据的存储和海量数据的分析计算hadoop发展历史Google是hadoop的思想之源（Google在大数据方面的三篇论文）2006年3月，Map-reduce和NutchDistributedFileSystem(NDFS)分别被纳入到Hadoop项目，Hadoop正式诞生。MapReduce对海量数据处理map函数进行数据的提取、排序，实现mapper，四个形参（输入
自己动手写搜索引擎系列【目录】 luyee2010 自己动手写搜索引擎自己动手写搜索引擎
第1章遍历搜索引擎技术11.130分钟实现的搜索引擎11.1.1准备工作环境（10分钟）11.1.2编写代码（15分钟）31.1.3发布运行（5分钟）51.2Google神话91.3体验搜索引擎91.4搜索语法101.5你也可以做搜索引擎131.6搜索引擎基本技术141.6.1网络蜘蛛141.6.2全文索引结构141.6.3Lucene全文检索引擎151.6.4Nutch网络搜索软件161.6.5
ElasticSearch（ES）——概述/API 平平无奇小码农笔记大数据 elasticsearch 数据库搜索引擎
文章目录一、ElasticSearch基础1.1简介1.2使用场景1.3ES与其他数据存储进行比较1.4ES的特点1.5Lucene、Nutch、ElasticSearch关系二、基本概念ES概念和MySQL关系对比三、安装ES3.1解压、改名3.2修改配置文件3.3教学环境启动优化分发3.4修改hadoop163、hadoop164的节点名3.5单台启动测试，解决问题四、安装kibana4.1解
asp html5 ajax,ASP.NET AJAX Chart (HTML5) - RadControls for Web Forms | Telerik UI for ASP.NET AJAX weixin_39942191 asp html5 ajax
AnyEssentialChartTypeQuicklyaddmeaningtodatawiththemostcommonlyusedASP.NETchartingtypes:PieorDonutcharttovisualizeeachpieceofdataaspartofawholeLineorAreatomonitortrendsBar,ColumnorRadartocomparesevera
安装关系型数据库MySQL和大数据处理框架Hadoop weixin_30621919 数据库嵌入式大数据
这个作业的要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161。1.简述Hadoop平台的起源、发展历史与应用现状。列举发展过程中重要的事件、主要版本、主要厂商；国内外Hadoop应用的典型案例。（1）Hadoop的介绍：Hadoop最早起源于Nutch，Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、
ChatGPT4 完成数据分析结构分析，动态饼图可视化阿里数据专家 ChatGPT实战案例 ChatGPT 数据分析信息可视化数据挖掘 excel 人工智能 AIGC chatgpt
对于数据分析中的结构占比分析，以下几种图表类型是比较常见和合适的：1.**饼图（PieChart）**：饼图是一种表现部分与整体关系的图表，各部分占整体的比例在图中以圆形的切片形式体现。它适用于表示不同类别之间的比较，以及每个类别占总数的百分比。2.**环图（DoughnutChart）**：环图是饼图的变种，有一个空心中心。它也是显示类别之间占比关系的一种有效的方式。3.**堆叠柱状图/堆叠条形
hadoop yuanjianqiang_0925 hadoop spark
hadoop主要解决：海量数据的存储和海量数据的分析计算hadoop发展历史Google是hadoop的思想之源（Google在大数据方面的三篇论文）2006年3月，Map-reduce和NutchDistributedFileSystem(NDFS)分别被纳入到Hadoop项目，Hadoop正式诞生。MapReduce对海量数据处理map函数进行数据的提取、排序，实现mapper，四个形参（
Ubuntu环境下Hadoop1.2.1, HBase0.94.25, nutch2.2.1各个配置文件一览 weixin_30491641 大数据 java runtime
/×××××××××××××××××××××××××××××××××××××××××/Author：xxx0624HomePage：http://www.cnblogs.com/xxx0624//×××××××××××××××××××××××××××××××××××××××××/Hadoop伪分布式配置过程：Hadoop：1.2.1Hbase：0.94.25nutch：2.2.1Java：1.8.
ElasticSearch详细教程-基础加实战工藤-新二实时数仓大数据实时项目 elasticsearch 实时大数据 spark
文章目录第1章ElasticSearch基础1.1简介1.2使用场景1.3ES与其他数据存储进行比较1.4ElasticSearch的特点1.4.1天然分片，天然集群1.4.2天然索引1.5Lucene、Nutch、ElasticSearch关系第2章ElasticSearch的安装2.1上传安装包2.2将ES解压到/opt/module目录下2.3在/opt/module目录下对ES重命名2.4
jvm命令和可视化工具调优 weixin_30834783 java 操作系统开发工具
李克华云计算高级群:292870151195907286交流：Hadoop、NoSQL、分布式、lucene、solr、nutch虚拟机：系统虚拟机程序虚拟机系统虚拟机有：VMWarevisureBox程序虚拟机：JVMJVM：1.类加载子系统（类加载器）2.方法区3.java堆4.直接内存5.java栈6.本地方法栈7.垃圾回收系统8.PC寄存器9.执行引擎堆：存储问题栈：程序运行方法去：辅助堆
linux服务器忘记ssh密码_【Linux】配置linux服务器之间ssh不用密码访问 weixin_40008033 linux服务器忘记ssh密码
如果想在A这太机器上可以不需要密码就ssh到B、C两台机器上，可以采用如下的方法：(1)在A机器上：ssh-keygen-trsaGeneratingpublic/privatersakeypair.Enterfileinwhichtosavethekey(/nutch/home/.ssh/id_rsa):不输入任何东西，直接回车Enterpassphrase(emptyfornopassphra
Hadoop分布式文件系统杀神lwz hadoop 大数据分布式
一、HadoopHadoop之父DougCuttingHadoop的发音[hædu:p]，Cutting儿子对玩具小象的昵称1、Hadoop发展简史2002年10月，DougCutting和MikeCafarella创建了开源网页爬虫项目Nutch。2003年10月，Google发表GoogleFileSystem论文。2004年7月，DougCutting和MikeCafarella在Nutch
java 爬虫框架nutch_网络爬虫（2）-- Java爬虫框架鲍鱼王 java 爬虫框架nutch
NutchNutch属于分布式爬虫，爬虫使用分布式，主要是解决两个问题：1)海量URL管理；2)网速。如果要做搜索引擎，Nutch1.x是一个非常好的选择。Nutch1.x和solr或者es配合，就可以构成一套非常强大的搜索引擎，否则尽量不要选择Nutch作为爬虫。用Nutch进行爬虫的二次开发，爬虫的编写和调试所需的时间，往往是单机爬虫所需的十倍时间不止。HeritrixHeritrix是个“A
nutch爬取网站数据详细步骤 Echoooo_o
环境：hadoop2.7.7+hbase0.98+nutch2.3+solr4.9大致步骤思想：hadoop提供底层数据存储hbase在其之上建立非关系型数据库nutch将爬的数据存到hbase上并建立索引到solr展示首先采用简单命令：#$1$2...$n表示命令后跟的第n个参数#存放待注入种子的路径SEEDDIR="$1"#存放爬取数据（URL状态信息、爬取数据、解析数据）文件夹的路径CRAW
nutch，hbase记录 feihuadao
hbase表操作优化http://blog.pureisle.net/archives/1930.htmlHow-to:UseHBaseBulkLoading,andWhyhttp://blog.cloudera.com/blog/2013/09/how-to-use-hbase-bulk-loading-and-why/nutch2.2分析http://blog.csdn.net/itufo/a
Hadoop 凤舞飘伶 Go hadoop
Hadoop是Google的集群系统的开源实现，Google集群系统:GFS(GoogleFileSystem)、MapReduce、BigTable。Hadoop主要由HDFS(HadoopDistributedFileSystemHadoop分布式文件系统)、MapReduce和HBase组成Hadoop的初衷是为解决Nutch的海量数据爬取和存储的需要。Hadoop于2005年秋天作为Luc
Hadoop之父：Doug Cutting Mr_Elliot
hadoop生活中，可能所有人都间接用过他的作品，他是Lucene、Nutch、Hadoop等项目的发起人。是他，把高深莫测的搜索技术形成产品，贡献给普罗大众；还是他，打造了目前在云计算和大数据领域里如日中天的Hadoop。他是某种意义上的盗火者，他就是DougCutting。DougCutting从实习生做起1985年，Cutting毕业于美国斯坦福大学。他并不是一开始就决心投身IT行业的，在大
Hadoop-2.6.5完整安装配置过程 syp_net 系统开发 hadoop mapreduce 搜索引擎
记录Hadoop-2.6.5完整安装配置过程一、Hadoop是什么？二、Hadoop-2.6.5安装配置1.修改主机名2.下载并解压JDK3.配置环境变量4.修改Hadoop中5个主要配置文件5.启动Hadoop6.HadoopWeb端口测试三、总结一、Hadoop是什么？Hadoop系统最初的源头来自于ApacheLucene项目下的搜索引擎子项目Nutch，该项目的负责人是DougCuttin
Hadoop之HDFS简介数新网络 hadoop 大数据 hdfs
前言Hadoop是由Apache基金会开发的分布式系统基础框架，主要解决海量数据存储和海量数据分析问题。Hadoop起源于ApacheNutch项目，起始于2002年，在2006年被正式命名为Hadoop。Hadoop有3大核心组件，分别是HDFS、MapReduce和YARN，本次我们重点介绍HDFS。一、HDFS简介HDFS全称HadoopDistributedFileSystem，是一个分布
hadoop原理和细节 truezqx
一、Hadoop概述Hadoop是Google的集群系统开源实现Google的集群系统：GFS、MapReduce、BigTableHadoop的集群系统：HDFS、MapReduce、HBaseHadoop设计的初衷是为了解决Nutch的海量数据存储和处理的需求，可以解决大数据场景下的数据存储和处理的问题。传统数据：GB、TB级别的数据、数据增长不快、主要为结构化的数据、统计和报表大数据：TB、
听阿里P7工程师只分七步讲解HDFS搭建 Python大数据工程师
前言HADOOP产生背景（1）HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。（2）2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。——分布式文件系统（GFS），可用于处理海量网页的存储——分布式计算框架MAPREDUC
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&