Nutch相关框架视频教程--说明

PDF文档：

Nutch大数据相关框架讲义.pdf

Nutch1.7二次开发培训讲义.pdf

Nutch1.7二次开发培训讲义之腾讯微博抓取分析

Nutch公开课从搜索引擎到网络爬虫

=============================================================

Nutch相关框架视频教程

第一讲

1、通过nutch，诞生了hadoop、tika、gora。

2、 nutch通过ivy来进行依赖管理（1.2之后）。

3、 nutch是使用svn进行源代码管理的。

4、 lucene、nutch、hadoop，在搜索界相当有名。

5、 ant构建之后，生成runtime文件夹，该文件夹下面有deploy和local文件夹，分别代表了nutch的两种运行方式。

6、 nutch和hadoop是通过什么连接起来的？通过nutch脚本。通过hadoop命令把apache-nutch-1.6.job提交给hadoop的JobTracker。

7、 nutch入门重点在于分析nutch脚本文件。

第二讲

1、 git来作为分布式版本控制工具，github作为server。bitbucket.org提供免费的私有库。

2、 nutch的提高在于研读nutch-default.xml文件中的每一个配置项的实际含义（需要结合源代码理解）。

3、定制开发nutch的入门方法是研读build.xml文件。

4、命令：

apt-get install subversion

svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/

cd release-1.6

apt-get install ant

ant

cd runtime/local

mkdir urls

vi urls/url.txt 并输入http://blog.tianya.cn

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &

vi release-1.6/conf/nutch-site.xml 增加http.agent.name配置

cd ../../release-1.6

ant

cd runtime/local

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &

删除报错的文件夹

nohup bin/nutch crawl urls -dir data -depth 1 -threads 100 &

第三讲

1、 nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么？

2、命令：

crawldb

bin/nutch | grep read

bin/nutch readdb data/crawldb -stats

bin/nutch readdb data/crawldb -dump data/crawldb/crawldb_dump

bin/nutch readdb data/crawldb -url http://4008209999.tianyaclub.com/

bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN

bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN_m 1

segments

crawl_generate：

bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nocontent -nofetch -noparse -noparsedata –noparsetext

crawl_fetch：

bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nocontent -nogenerate -noparse -noparsedata –noparsetext

content：

bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nofetch -nogenerate -noparse -noparsedata –noparsetext

crawl_parse：

bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nofetch -nogenerate -nocontent –noparsedata –noparsetext

parse_data：

bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nofetch -nogenerate -nocontent -noparse –noparsetext

parse_text：

bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nofetch -nogenerate -nocontent -noparse -noparsedata

全部：

bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump

segments

bin/nutch readseg -list -dir data/segments

bin/nutch readseg -list data/segments/20130325043023

bin/nutch readseg -get data/segments/20130325042858 http://blog.tianya.cn/

linkdb

bin/nutch readlinkdb data/linkdb -url http://4008209999.tianyaclub.com/

bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump

第四讲

1、深入分析nutch的抓取周期

inject

generate -> fetch -> parse ->updatedb

2、 3大merge和3大read命令阐释

bin/nutch | grep merge

bin/nutch | grep read

bin/nutch mergesegs data/segments_all -dir data/segments

3、反转链接

bin/nutch invertlinks data/linkdb -dir data/segments

4、解析页面

bin/nutch parsechecker http://apdplat.org

第五讲

1、域统计

bin/nutch domainstats data2/crawldb/current host host

bin/nutch domainstats data2/crawldb/current domain domain

bin/nutch domainstats data2/crawldb/current suffix suffix

bin/nutch domainstats data2/crawldb/current tld tld

2、webgraph

bin/nutch webgraph -segmentDir data2/segments -webgraphdb data2/webgraphdb

有相同inlinks的URL，只输出topn条

bin/nutch nodedumper -inlinks -output inlinks -topn 1 -webgraphdb data2/webgraphdb

有相同outlinks的URL，只输出topn条

bin/nutch nodedumper -outlinks -output outlinks -topn 1 -webgraphdb data2/webgraphdb

有相同scores的URL，只输出topn条（初始分值全为0）

bin/nutch nodedumper -scores -output scores -topn 1 -webgraphdb data2/webgraphdb

计算URL分值

bin/nutch linkrank -webgraphdb data2/webgraphdb

再次查看分值

bin/nutch nodedumper -scores -output scores –topn 1 -webgraphdb data2/webgraphdb

对结果进行分组，取最大值或是连加和（topn参数不参与）

bin/nutch nodedumper -group domain sum -inlinks -output inlinks_group_sum -webgraphdb data2/webgraphdb

bin/nutch nodedumper -group domain max -inlinks -output inlinks_group_max -webgraphdb data2/webgraphdb

对url进行分组，分组方式可选择为host或是domain，对同一组的url执行topn限制，对执行了topn限制的url集合执行max或是sum操作，max和sum所针对的排序值是3种方式之一inlinks、outlinks以及scores。

第六讲

1、注入分值

bin/nutch readdb data2/crawldb -dump crawldb_dump

cat crawldb_dump/* | grep Score | sort | uniq

bin/nutch scoreupdater -crawldb data2/crawldb -webgraphdb data2/webgraphdb

2、轻量级抓取

bin/nutch freegen urls data3/segments

第七讲

1、indexchecker

bin/nutch indexchecker http://www.163.com

2、安装配置SOLR3.6.2

wget http://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.2/apache-solr-3.6.2.tgz

tar -xzvf apache-solr-3.6.2.tgz

cd apache-solr-3.6.2/example

复制nutch的conf目录中的schema.xml文件到solr/conf目录

将solr/conf/solrconfig.xml文件里的所有<str name="df">text</str>都替换为<str name="df">content</str>

3、运行SOLR并提交索引

启动SOLR服务器
java -jar start.jar &

Web界面

http://host2:8983

提交索引

bin/nutch solrindex http://host2:8983/solr data/crawldb -linkdb data/linkdb -dir data/segments

4、使用LUKE工具查看索引

5、给SOLR3.6.2配置分词器mmseg4j

wget http://mmseg4j.googlecode.com/files/mmseg4j-1.8.5.zip

unzip mmseg4j-1.8.5.zip -d mmseg4j-1.8.5

将mmseg4j-1.8.5/mmseg4j-all-1.8.5-with-dic.jar复制到solr下的lib目录
将schema.xml文件中所有的
  <tokenizer class="solr.WhitespaceTokenizerFactory"/>
  和
  <tokenizer class="solr.StandardTokenizerFactory"/>
  替换为
  <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex"/>

第八讲

1、指定LUKE工具的分词器

访问https://code.google.com/p/mmseg4j/downloads/list

下载mmseg4j-1.9.1.v20130120-SNAPSHOT.zip

将压缩包里面的dist文件夹里面的jar解压，将解压出来com和data文件夹拖到lukeall-4.0.0-ALPHA.jar里面

启动luke，在Search选项卡的Analysis里面选择com.chenlb.mmseg4j.analysis.ComplexAnalyzer

2、安装配置SOLR4.2

wget http://labs.mop.com/apache-mirror/lucene/solr/4.2.0/solr-4.2.0.tgz

tar -xzvf solr-4.2.0.tgz

cd solr-4.2.0/example

复制nutch的conf目录中的schema-solr4.xml文件到solr/collection1/conf目录，改名为schema.xml，覆盖原来文件

修改solr/collection1/conf/schema.xml，在<fields>下增加：<field name="_version_" type="long" indexed="true" stored="true"/>

3、给SOLR4.2配置分词器mmseg4j

wget https://mmseg4j.googlecode.com/files/mmseg4j-1.9.1.v20130120-SNAPSHOT.zip

unzip mmseg4j-1.9.1.v20130120-SNAPSHOT.zip -d mmseg4j-1.9.1

将mmseg4j-1.9.1/dist/*.jar复制到solr下的lib目录
将schema.xml文件中的
  <tokenizer class="solr.WhitespaceTokenizerFactory"/>
  和
  <tokenizer class="solr.StandardTokenizerFactory"/>
  替换为
  <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex"/>

4、运行SOLR并提交索引

启动SOLR服务器
java -jar start.jar &

Web界面

http://host2:8983

提交索引

bin/nutch solrindex http://host2:8983/solr data/crawldb -linkdb data/linkdb -dir data/segments

第九讲

1、安装win上的nutch运行环境Cygwin

cygwin路径不要有空格

把安装好的JDK拷贝到用户主目录

把nutch的文件拷贝到用户主目录

下载解压ant，加入path

2、运行nutch

Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-ysc\mapred\staging\ysc-2036315919\.staging to 0700

https://issues.apache.org/jira/browse/HADOOP-7682

http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz

修改hadoop-1.1.2\src\core\org\apache\hadoop\fs\ FileUtil.java，搜索 Failed to set permissions of path，找到689行，把throw new IOException改为LOG.warn

修改hadoop-1.1.2\ build.xml，搜索autoreconf，移除匹配的6个executable="autoreconf"的exec配置

执行ant

用新生成的hadoop-core-1.1.3-SNAPSHOT.jar替换nutch的hadoop-core-1.0.3.jar

第十讲

1、HADOOP单机本地模式

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz

tar -xzvf hadoop-1.1.2.tar.gz

export PATH=/home/ysc/hadoop-1.1.2/bin:$PATH

切换到nutch的deploy目录运行命令

2、HADOOP单机伪分布式模式

新建用户和组

addgroup hadoop

adduser --ingroup hadoop hadoop

注销root以hadoop用户登录

配置SSH

ssh-keygen -t rsa（密码为空，路径默认）

cp .ssh/id_rsa.pub .ssh/authorized_keys

准备HADOOP运行环境

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz

tar -xzvf hadoop-1.1.2.tar.gz

在/home/hadoop/.bashrc 中追加：

export PATH=/home/hadoop/hadoop-1.1.2/bin:$PATH

重新登录就生效

ssh localhost

which hadoop

配置HADOOP运行参数

vi conf/core-site.xml

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

<name>hadoop.tmp.dir</name>

<value>/home/hadoop/tmp</value>

</property>

vi conf/hdfs-site.xml

<value>/home/hadoop/dfs/filesystem/name</value>

</property>

<value>/home/hadoop/dfs/filesystem/data</value>

</property>

<name>dfs.replication</name>

</property>

vi conf/mapred-site.xml

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

<name>mapred.tasktracker.map.tasks.maximum</name>

</property>

<name>mapred.tasktracker.reduce.tasks.maximum</name>

</property>

<name>mapred.system.dir</name>

<value>/home/hadoop/mapreduce/system</value>

</property>

<name>mapred.local.dir</name>

<value>/home/hadoop/mapreduce/local</value>

</property>

格式化名称节点并启动集群

hadoop namenode -format

启动集群并查看WEB管理界面

start-all.sh

访问 http://localhost:50030 可以查看 JobTracker 的运行状态

访问 http://localhost:50060 可以查看 TaskTracker 的运行状态

访问 http://localhost:50070 可以查看 NameNode 以及整个分布式文件系统的状态，浏览分布式文件系统中的文件以及 log 等

停止集群

stop-all.sh停止集群

3、执行Nutch的crawl命令

第十一讲

1、配置Cygwin支持无密码SSH登陆

安装SSH

默认的Cygwin没有安装ssh，所以重新运行http://www.cygwin.com/setup.exe

在Select Packages的时候，在search输入ssh，选择openssh: The OpenSSH server and client programs

配置SSH服务（以管理员身份运行cygwin）

ssh-host-config

Should privilege separation be used? yes

Do you want to install sshd as a service? yes

默认确认

Do you want to use a different name? no

Create new privileged user account 'cyg_server'? yes

输入密码

cygrunsrv -S sshd

如果需要重新安装sshd服务，可以用cygrunsrv -R sshd

生成SSH Key

ssh-keygen -t rsa（密码为空，路径默认）

cp .ssh/id_rsa.pub .ssh/authorized_keys

登陆

ssh localhost

2、win上的HADOOP单机伪分布式

准备HADOOP运行环境

下载解压并拷贝到Cygwin的用户主目录

http://archive.apache.org/dist/hadoop/core/hadoop-0.20.2/hadoop-0.20.2.tar.gz

1.x版本有BUG,参考：

https://issues.apache.org/jira/browse/HADOOP-7682
https://issues.apache.org/jira/browse/HADOOP-8274

BUG修复请参考：

http://en.wikisource.org/wiki/User:Fkorning/Code/Hadoop-on-Cygwin

在/home/ysc/.bashrc 中追加：

export JAVA_HOME=/home/ysc/jdk1.7.0_17

export PATH=/home/ysc/hadoop-0.20.2/bin:$JAVA_HOME/bin:$PATH

在hadoop-0.20.2/conf/hadoop-evn.sh中追加

export JAVA_HOME=/home/ysc/jdk1.7.0_17

export HADOOP_LOG_DIR=/tmp/logs

创建符号链接

mklink /D C:\tmp C:\cygwin\tmp

重新登录就生效

ssh localhost

which hadoop

配置HADOOP运行参数

vi conf/core-site.xml

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

vi conf/hdfs-site.xml

<name>dfs.replication</name>

</property>

vi conf/mapred-site.xml

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

<name>mapred.tasktracker.map.tasks.maximum</name>

</property>

<name>mapred.tasktracker.reduce.tasks.maximum</name>

</property>

格式化名称节点并启动集群

hadoop namenode -format

启动集群并查看WEB管理界面

start-all.sh

访问 http://localhost:50030 可以查看 JobTracker 的运行状态

访问 http://localhost:50060 可以查看 TaskTracker 的运行状态

访问 http://localhost:50070 可以查看 NameNode 以及整个分布式文件系统的状态，浏览分布式文件系统中的文件以及 log 等

停止集群

stop-all.sh停止集群

3、执行wordcount命令

hadoop jar hadoop-0.20.2-examples.jar wordcount input output

第十二讲

1、 HADOOP多机完全分布式模式

三台机器

host2(NameNode、SecondaryNameNode、JobTracker、DataNode、TaskTracker)

host6(DataNode、TaskTracker)

host8(DataNode、TaskTracker)

vi /etc/hostname（分别给每一台主机指定主机名）

vi /etc/hosts（分别给每一台主机指定主机名到IP地址的映射）

新建用户和组

三台机器上面都要新建用户和组

addgroup hadoop

adduser --ingroup hadoop hadoop

更改临时目录权限

chmod 777 /tmp

注销root以hadoop用户登录

配置SSH

在host2上面执行

ssh-keygen -t rsa（密码为空，路径默认）

该命令会在用户主目录下创建 .ssh 目录，并在其中创建两个文件：id_rsa 私钥文件，是基于 RSA 算法创建，该私钥文件要妥善保管，不要泄漏。id_rsa.pub 公钥文件，和 id_rsa 文件是一对儿，该文件作为公钥文件，可以公开

cp .ssh/id_rsa.pub .ssh/authorized_keys

把公钥追加到其他主机的authorized_keys 文件中

ssh-copy-id -i .ssh/id_rsa.pub hadoop@host6

ssh-copy-id -i .ssh/id_rsa.pub hadoop@host8

可以在host2上面通过ssh无密码登陆host6和host8

ssh host2

ssh host6

ssh host8

准备HADOOP运行环境

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz

tar -xzvf hadoop-1.1.2.tar.gz

在/home/hadoop/.bashrc 中追加：

export PATH=/home/hadoop/hadoop-1.1.2/bin:$PATH

重新登录就生效

ssh localhost

which hadoop

配置HADOOP运行参数

vi conf/masters

把localhost替换为：host2

vi conf/slaves

删除localhost，加入两行:

host2

host6

host8

vi conf/core-site.xml

<name>fs.default.name</name>

</property>

vi conf/hdfs-site.xml

<value>/home/hadoop/dfs/filesystem/name</value>

</property>

<value>/home/hadoop/dfs/filesystem/data</value>

</property>

<name>dfs.replication</name>

</property>

vi conf/mapred-site.xml

<name>mapred.job.tracker</name>

</property>

<name>mapred.tasktracker.map.tasks.maximum</name>

</property>

<name>mapred.tasktracker.reduce.tasks.maximum</name>

</property>

<name>mapred.system.dir</name>

<value>/home/hadoop/mapreduce/system</value>

</property>

<name>mapred.local.dir</name>

<value>/home/hadoop/mapreduce/local</value>

</property>

复制HADOOP文件到其他节点

scp -r /home/hadoop/hadoop-1.1.2 hadoop@host6:/home/hadoop/hadoop-1.1.2
scp -r /home/hadoop/hadoop-1.1.2 hadoop@host8:/home/hadoop/hadoop-1.1.2

格式化名称节点并启动集群

hadoop namenode -format

启动集群并查看WEB管理界面

start-all.sh

访问 http://localhost:50030 可以查看 JobTracker 的运行状态

访问 http://localhost:50060 可以查看 TaskTracker 的运行状态

访问 http://localhost:50070 可以查看 NameNode 以及整个分布式文件系统的状态，浏览分布式文件系统中的文件以及 log 等

停止集群

stop-all.sh停止集群

第十三讲

1、改变负载

三台机器，改变负载

host2(NameNode、DataNode、TaskTracker)

host6(SecondaryNameNode、DataNode、TaskTracker)

host8(JobTracker 、DataNode、TaskTracker)

指定SecondaryNameNode为host6：

vi conf/masters指定host6

scp conf/masters host6:/home/hadoop/hadoop-1.1.2/conf/masters

scp conf/masters host8:/home/hadoop/hadoop-1.1.2/conf/masters

vi conf/hdfs-site.xml

   <property>
     <name>dfs.http.address</name>
     <value>host2:50070</value>
   </property>

<name>dfs.secondary.http.address</name>

</property>

scp conf/hdfs-site.xml host6:/home/hadoop/hadoop-1.1.2/conf/hdfs-site.xml

scp conf/hdfs-site.xml host8:/home/hadoop/hadoop-1.1.2/conf/hdfs-site.xml

指定JobTracker为host8：

vi conf/mapred-site.xml

<name>mapred.job.tracker</name>

</property>

scp conf/mapred-site.xml host6:/home/hadoop/hadoop-1.1.2/conf/mapred-site.xml

scp conf/mapred-site.xml host8:/home/hadoop/hadoop-1.1.2/conf/mapred-site.xml

vi conf/core-site.xml

<name>fs.checkpoint.dir</name>

<value>/home/hadoop/dfs/filesystem/namesecondary</value>

</property>

scp conf/core-site.xml host6:/home/hadoop/hadoop-1.1.2/conf/core-site.xml

scp conf/core-site.xml host8:/home/hadoop/hadoop-1.1.2/conf/core-site.xml

配置host8：

host8上的脚本start-mapred.sh会启动host2和host6上面的TaskTracker，所以需要对host8执行：

ssh-keygen -t rsa（密码为空，路径默认）

ssh-copy-id -i .ssh/id_rsa.pub hadoop@host2

ssh-copy-id -i .ssh/id_rsa.pub hadoop@host6

ssh-copy-id -i .ssh/id_rsa.pub hadoop@host8

可以在host8上面通过ssh无密码登陆host2和host6

ssh host2

ssh host6

ssh host8

在/home/hadoop/.bashrc 中追加：

export PATH=/home/hadoop/hadoop-1.1.2/bin:$PATH

host2: 执行start-dfs.sh

host8: 执行start-mapred.sh

2、SecondaryNameNode

ssh host6

停止secondarynamenode

hadoop-1.1.2/bin/hadoop-daemon.sh stop secondarynamenode

强制合并fsimage和eidts

hadoop-1.1.2/bin/hadoop secondarynamenode -checkpoint force

启动secondarynamenode

hadoop-1.1.2/bin/hadoop-daemon.sh start secondarynamenode

3、启用回收站

<name>fs.trash.interval</name>

</property>

第十四讲

1、动态增加DataNode节点和TaskTracker节点

以host226为例

在host226上执行：

指定主机名

vi /etc/hostname

指定主机名到IP地址的映射

vi /etc/hosts

增加用户和组

addgroup hadoop

adduser --ingroup hadoop hadoop

更改临时目录权限

chmod 777 /tmp

在host2上执行：

vi conf/slaves

增加host226

ssh-copy-id -i .ssh/id_rsa.pub hadoop@host226

scp -r /home/hadoop/hadoop-1.1.2 hadoop@host226:/home/hadoop/hadoop-1.1.2

在host8上执行：

vi conf/slaves

增加host226

ssh-copy-id -i .ssh/id_rsa.pub hadoop@host226

在host226上面执行：

hadoop-daemon.sh start datanode

hadoop-daemon.sh start tasktracker

在/etc/hosts的配置文件中，localhost到ip地址的映射要放到ipv4的最后面

第十五讲

1、限制hadoop节点连接

NameNode:

vi conf/hdfs-site.xml

<name>dfs.hosts</name>

<value>/home/hadoop/hadoop-1.1.2/conf/include</value>

</property>

<name>dfs.hosts.exclude</name>

<value>/home/hadoop/hadoop-1.1.2/conf/exclude</value>

</property>

加入集群节点

vi /home/hadoop/hadoop-1.1.2/conf/include

JobTracker:

vi conf/mapred-site.xml

<name>mapred.hosts</name>

<value>/home/hadoop/hadoop-1.1.2/conf/include</value>

</property>

<name>mapred.hosts.exclude</name>

<value>/home/hadoop/hadoop-1.1.2/conf/exclude</value>

</property>

加入集群节点

vi /home/hadoop/hadoop-1.1.2/conf/include

重启集群

2、动态删除DataNode节点和TaskTracker节点

vi /home/hadoop/hadoop-1.1.2/conf/exclude

增加待删除的节点host226

在NameNode上面执行：

hadoop dfsadmin -refreshNodes

vi hadoop-1.1.2/conf/slaves （去掉host226）

vi hadoop-1.1.2/conf/include （去掉host226）

hadoop dfsadmin -refreshNodes(使include的更改生效)

rm hadoop-1.1.2/conf/exclude

exclude主要是使一个datanode节点安全退役

删除tasktracker方式一：

vi /home/hadoop/hadoop-1.1.2/conf/exclude

增加待删除的节点host226

在JobTracker上面执行：

hadoop mradmin -refreshNodes

vi hadoop-1.1.2/conf/slaves （去掉host226）

vi hadoop-1.1.2/conf/include （去掉host226）

hadoop mradmin -refreshNodes(使include的更改生效)

rm hadoop-1.1.2/conf/exclude

删除tasktracker方式二：

vi /home/hadoop/hadoop-1.1.2/conf/include

删除待删除的节点host226

在JobTracker上面执行：

hadoop mradmin -refreshNodes

vi hadoop-1.1.2/conf/slaves （去掉host226）

第十六讲

1、运行基准测试

hadoop jar hadoop-test-1.1.2.jar

hadoop jar hadoop-test-1.1.2.jar DFSCIOTest -write -nrFiles 12 -fileSize 100000 -resFile test

hadoop jar hadoop-test-1.1.2.jar DFSCIOTest -read -nrFiles 12 -fileSize 100000 -resFile test

hadoop jar hadoop-test-1.1.2.jar DFSCIOTest -clear

第十七讲

Ganglia主要是用来监控大规模分布式系统的性能，如：cpu 、内存、硬盘、负载、网络流量等。Ganglia支持通过浏览器访问，强大的图表展示方式很容易直观地了解每个节点以及整个集群的工作状态，对集群运行参数调整、提高系统整体资源利用率起到重要作用。

1、配置服务端

host6作为服务端：

创建用户和组：

addgroup ganglia

adduser --ingroup ganglia ganglia

安装：

apt-get install gmetad

apt-get install rrdtool

apt-get install ganglia-webfrontend

apt-get install ganglia-monitor

配置gmond：

vi /etc/ganglia/gmond.conf

先找到setuid = yes,改成setuid =no;

在找到cluster块中的name，改成name =”hadoop-cluster”;

配置gmetad：

vi /etc/ganglia/gmetad.conf

在这个配置文件中增加datasource，即增加以下内容：

data_source “hadoop-cluster” 10 host2 host6 host8

gridname "Hadoop"

指定web文件夹：

ln -s /usr/share/ganglia-webfrontend /var/www/ganglia

指定主机名：

vi /etc/apache2/apache2.conf

添加： ServerName host6

重启服务：

/etc/init.d/gmetad restart

/etc/init.d/ganglia-monitor restart

/etc/init.d/apache2 restart

2、配置客户端

在host2和host8上安装数据收集服务：

创建用户和组：

addgroup ganglia

adduser --ingroup ganglia ganglia

安装：

apt-get install ganglia-monitor

配置gmond：

vi /etc/ganglia/gmond.conf

先找到setuid = yes,改成setuid =no;

在找到cluster块中的name，改成name =”hadoop-cluster”;

重启服务：

/etc/init.d/ganglia-monitor restart

3、访问页面

http://host6/ganglia

如果页面中的Choose a Source有unspecified, 重启gmetad即可：

/etc/init.d/gmetad restart

4、集成hadoop

vi conf/hadoop-metrics2.properties

设置内容为：

# 大于0.20以后的版本用ganglia31

*.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink31
  *.sink.ganglia.period=10
  # default for supportsparse is false
  *.sink.ganglia.supportsparse=true
*.sink.ganglia.slope=jvm.metrics.gcCount=zero,jvm.metrics.memHeapUsedM=both
*.sink.ganglia.dmax=jvm.metrics.threadsBlocked=70,jvm.metrics.memHeapUsedM=40
  #组播地址239.2.11.71

  namenode.sink.ganglia.servers=239.2.11.71:8649
  datanode.sink.ganglia.servers=239.2.11.71:8649
  jobtracker.sink.ganglia.servers=239.2.11.71:8649
  tasktracker.sink.ganglia.servers=239.2.11.71:8649
  maptask.sink.ganglia.servers=239.2.11.71:8649
  reducetask.sink.ganglia.servers=239.2.11.71:8649
  dfs.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
  dfs.period=10
  dfs.servers=239.2.11.71:8649
  mapred.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
  mapred.period=10
  mapred.servers=239.2.11.71:8649
  jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
  jvm.period=10
  jvm.servers=239.2.11.71:8649

把配置文件复制到集群其他节点，重启集群。

第十八讲

1、准备压缩数据

从dmoz下载url库

wget http://rdf.dmoz.org/rdf/content.rdf.u8.gz

gunzip content.rdf.u8.gz

准备nutch1.6

svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/

cp release-1.6/conf/nutch-site.xml.template release-1.6/conf/nutch-site.xml

vi release-1.6/conf/nutch-site.xml

增加：

<name>http.agent.name</name>

<value>nutch</value>

</property>

cd release-1.6

ant

cd ..

使用DmozParser把dmoz的URL库解析为文本

release-1.6/runtime/local/bin/nutch org.apache.nutch.tools.DmozParser content.rdf.u8 > urls &

将url文本内容放到HDFS上面

hadoop fs -put urls urls

2、以不同压缩方法注入URL

进入nutch主目录

cd release-1.6

以未压缩的方式注入URL

runtime/deploy/bin/nutch inject data_no_compress/crawldb urls

以默认压缩的方式注入URL

vi conf/nutch-site.xml

<name>mapred.output.compression.type</name>

<value>BLOCK</value>

</property>

<name>mapred.output.compress</name>

</property>

<name>mapred.compress.map.output</name>

</property>

<name>mapred.map.output.compression.codec</name>

<value>org.apache.hadoop.io.compress.DefaultCodec</value>

</property>

<name>mapred.output.compression.codec</name>

<value>org.apache.hadoop.io.compress.DefaultCodec</value>

</property>

ant

runtime/deploy/bin/nutch inject data_default_compress/crawldb urls

以Gzip压缩的方式注入URL

vi conf/nutch-site.xml

<name>mapred.output.compression.type</name>

<value>BLOCK</value>

</property>

<name>mapred.output.compress</name>

</property>

<name>mapred.compress.map.output</name>

</property>

<name>mapred.map.output.compression.codec</name>

<value>org.apache.hadoop.io.compress.GzipCodec</value>

</property>

<name>mapred.output.compression.codec</name>

<value>org.apache.hadoop.io.compress.GzipCodec</value>

</property>

ant

runtime/deploy/bin/nutch inject data_gzip_compress/crawldb urls

以BZip2的压缩方式注入URL

vi conf/nutch-site.xml

<name>mapred.output.compression.type</name>

<value>BLOCK</value>

</property>

<name>mapred.output.compress</name>

</property>

<name>mapred.compress.map.output</name>

</property>

<name>mapred.map.output.compression.codec</name>

<value>org.apache.hadoop.io.compress.BZip2Codec</value>

</property>

<name>mapred.output.compression.codec</name>

<value>org.apache.hadoop.io.compress.BZip2Codec</value>

</property>

ant

runtime/deploy/bin/nutch inject data_bzip2_compress/crawldb urls

以Snappy的方式注入URL

vi conf/nutch-site.xml

<name>mapred.output.compression.type</name>

<value>BLOCK</value>

</property>

<name>mapred.output.compress</name>

</property>

<name>mapred.compress.map.output</name>

</property>

<name>mapred.map.output.compression.codec</name>

<value>org.apache.hadoop.io.compress.SnappyCodec</value>

</property>

<name>mapred.output.compression.codec</name>

<value>org.apache.hadoop.io.compress.SnappyCodec</value>

</property>

ant

runtime/deploy/bin/nutch inject data_snappy_compress/crawldb urls

压缩类型的影响

块大小的影响

3、Hadoop配置Snappy压缩

下载解压：

wget https://snappy.googlecode.com/files/snappy-1.1.0.tar.gz

tar -xzvf snappy-1.1.0.tar.gz

cd snappy-1.0.5

编译:

./configure

make

make install

复制库文件：

scp /usr/local/lib/libsnappy* host2:/home/hadoop/hadoop-1.1.2/lib/native/Linux-amd64-64/

scp /usr/local/lib/libsnappy* host6:/home/hadoop/hadoop-1.1.2/lib/native/Linux-amd64-64/

scp /usr/local/lib/libsnappy* host8:/home/hadoop/hadoop-1.1.2/lib/native/Linux-amd64-64/

在每一台集群机器上面修改环境变量：

vi /home/hadoop/.bashrc

追加：

export LD_LIBRARY_PATH=/home/hadoop/hadoop-1.1.2/lib/native/Linux-amd64-64

第十九讲

1、Ganglia以组播方式监控同一个网段中的多个集群

vi  /etc/ganglia/gmetad.conf
data_source "cluster1"   10  host2
data_source "cluster2"   10  host6
data_source "cluster3"   10  host8

/etc/init.d/gmetad restart

下面要分别指定节点使用的端口：

cluster1：

vi /etc/ganglia/gmond.conf

指定集群名称：

cluster {
  name = "cluster1"
  owner = "unspecified"
  latlong = "unspecified"
  url = "unspecified"
}

指定端口：

udp_send_channel {
  mcast_join = 239.2.11.71
  port = 8661
  ttl = 1
}
udp_recv_channel {
  mcast_join = 239.2.11.71
  port = 8661
  bind = 239.2.11.71
}

/etc/init.d/ganglia-monitor restart

cluster2：

vi /etc/ganglia/gmond.conf

指定集群名称：

cluster {
  name = "cluster2"
  owner = "unspecified"
  latlong = "unspecified"
  url = "unspecified"
}

指定端口：

udp_send_channel {
  mcast_join = 239.2.11.71
  port = 8662
  ttl = 1
}
udp_recv_channel {
  mcast_join = 239.2.11.71
  port = 8662
  bind = 239.2.11.71
}

/etc/init.d/ganglia-monitor restart

cluster3:

vi /etc/ganglia/gmond.conf

指定集群名称：

cluster {
  name = "cluster3"
  owner = "unspecified"
  latlong = "unspecified"
  url = "unspecified"
}

指定端口：

udp_send_channel {
  mcast_join = 239.2.11.71
  port = 8663
  ttl = 1
}
udp_recv_channel {
  mcast_join = 239.2.11.71
  port = 8663
  bind = 239.2.11.71
}

/etc/init.d/ganglia-monitor restart

2、Ganglia以单播方式监控同一个网段中的多个集群

vi  /etc/ganglia/gmetad.conf
data_source "cluster1"   10  host2
data_source "cluster2"   10  host6
data_source "cluster3"   10  host8

/etc/init.d/gmetad restart

cluster1：

vi /etc/ganglia/gmond.conf

指定集群名称：

cluster {
  name = "cluster1"
  owner = "unspecified"
  latlong = "unspecified"
  url = "unspecified"
}

指定接收数据的节点：

udp_send_channel {

# mcast_join = 239.2.11.71

host = host2

port = 8649

ttl = 1

}

udp_recv_channel {

# mcast_join = 239.2.11.71

port = 8649

# bind = 239.2.11.71

}

/etc/init.d/ganglia-monitor restart

cluster2：

vi /etc/ganglia/gmond.conf

指定集群名称：

cluster {
  name = "cluster2"
  owner = "unspecified"
  latlong = "unspecified"
  url = "unspecified"
}

指定接收数据的节点：

udp_send_channel {

# mcast_join = 239.2.11.71

host = host6

port = 8649

ttl = 1

}

udp_recv_channel {

# mcast_join = 239.2.11.71

port = 8649

# bind = 239.2.11.71

}

/etc/init.d/ganglia-monitor restart

cluster3：

vi /etc/ganglia/gmond.conf

指定集群名称：

cluster {
  name = "cluster3"
  owner = "unspecified"
  latlong = "unspecified"
  url = "unspecified"
}

指定接收数据的节点：

udp_send_channel {

# mcast_join = 239.2.11.71

host = host8

port = 8649

ttl = 1

}

udp_recv_channel {

# mcast_join = 239.2.11.71

port = 8649

# bind = 239.2.11.71

}

/etc/init.d/ganglia-monitor restart

3、Ganglia监控不同网段中的多个集群

不同网段中的主机如果属于同一个集群，则无法使用ganglia的多播配置方法，必须使用单播。

下面把host226加入cluster1：

在host226上安装数据收集服务：

创建用户和组：

addgroup ganglia

adduser --ingroup ganglia ganglia

安装：

apt-get install ganglia-monitor

配置gmond：

vi /etc/ganglia/gmond.conf

先找到setuid = yes,改成setuid =no;

在找到cluster块中的name，改成name =”cluster1”;

指定端口(要注意刚才第一步演示组播的时候已经把UDP端口改为8661)：

udp_send_channel {
  mcast_join = 239.2.11.71
  port = 8661
  ttl = 1
}
udp_recv_channel {
  mcast_join = 239.2.11.71
  port = 8661
  bind = 239.2.11.71
}

重启服务：

/etc/init.d/ganglia-monitor restart

第二十讲

1、Ganglia以单播方式监控跨多个网段的单一集群

vi /etc/ganglia/gmetad.conf
data_source "hadoop-cluster" 10 host6

/etc/init.d/gmetad restart

在集群的所有节点中指定以下配置：

vi /etc/ganglia/gmond.conf

指定集群名称：

cluster {
  name = "hadoop-cluster"
  owner = "unspecified"
  latlong = "unspecified"
  url = "unspecified"
}

指定接收数据的节点：

udp_send_channel {

# mcast_join = 239.2.11.71

host = host6

port = 8649

ttl = 1

}

udp_recv_channel {

# mcast_join = 239.2.11.71

port = 8649

# bind = 239.2.11.71

}

/etc/init.d/ganglia-monitor restart

2、配置Hadoop集群使用单播地址

vi conf/hadoop-metrics2.properties

设置内容为：

# 大于0.20以后的版本用ganglia31

  namenode.sink.ganglia.servers=host6
  datanode.sink.ganglia.servers= host6
  jobtracker.sink.ganglia.servers= host6
  tasktracker.sink.ganglia.servers= host6
  maptask.sink.ganglia.servers= host6
  reducetask.sink.ganglia.servers= host6
  dfs.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
  dfs.period=10
  dfs.servers= host6
  mapred.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
  mapred.period=10
  mapred.servers= host6
  jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
  jvm.period=10
  jvm.servers= host6

把配置文件复制到集群其他节点，重启集群。

3、扩展集群，节点分别位于3个不同网段

将host226重新加入集群，并新增host138

在host6和host8的include文件中加入host226和host138

在host6和host8的slaves文件中加入host226和host138

在新增的节点host138上面执行：

指定主机名

vi /etc/hostname

指定主机名到IP地址的映射

vi /etc/hosts

增加用户和组

addgroup hadoop

adduser --ingroup hadoop hadoop

更改临时目录权限

chmod 777 /tmp

在host2和host8 上面配置对host138的SSH登陆：

ssh-copy-id -i .ssh/id_rsa.pub hadoop@host138

在host2上将hadoop文件复制到host138：

scp -r /home/hadoop/hadoop-1.1.2 hadoop@host138:/home/hadoop/hadoop-1.1.2

如果集群已经在运行，则在host226和host138上面执行以下命令以动态增加节点：

hadoop-daemon.sh start datanode

hadoop-daemon.sh start tasktracker

4、配置host138

在host138上安装数据收集服务：

创建用户和组：

addgroup ganglia

adduser --ingroup ganglia ganglia

安装：

apt-get install ganglia-monitor

配置gmond：

vi /etc/ganglia/gmond.conf

指定集群名称：

cluster {
  name = "hadoop-cluster"
  owner = "unspecified"
  latlong = "unspecified"
  url = "unspecified"
}

指定接收数据的节点：

udp_send_channel {

# mcast_join = 239.2.11.71

host = host6

port = 8649

ttl = 1

}

udp_recv_channel {

# mcast_join = 239.2.11.71

port = 8649

# bind = 239.2.11.71

}

/etc/init.d/ganglia-monitor restart

你可能感兴趣的:(Nutch)

Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
深入浅出hdfs-hadoop基本介绍大数据之家 hdfs hadoop 大数据
一、Hadoop基本介绍hadoop最开始是起源于ApacheNutch项目，这个是由DougCutting开发的开源网络搜索引擎，这个项目刚开始的目标是为了更好的做搜索引擎，后来Google发表了三篇未来持续影响大数据领域的三架马车论文：GoogleFileSystem、BigTable、Mapreduce开始掀起来了大数据的浪潮，paper原文可以参考我的这篇文章CSDN。这三篇论文介绍了如何
Hadoop简介：开启大数据处理之门乌龙饼干 hadoop 大数据分布式
随着信息技术的飞速发展，数据呈现爆炸式增长，传统的数据处理方式已无法满足日益增长的数据需求。在此背景下，Hadoop作为一种分布式系统基础架构，应运而生，为大数据处理打开了新的大门。一、Hadoop的起源与概念Hadoop最初由DougCutting创建，作为ApacheLucene的子项目Nutch的一部分。随着项目的不断发展，Hadoop逐渐独立出来，成为Apache软件基金会下的一个开源项目
专为初学者设计：Nutch库Java下载器入门指南亿牛云爬虫专家 java 代理IP 爬虫代理 java 开发语言 Nutch 下载器爬虫代理代理IP 多线程
概述:Nutch是一款开源的Java爬虫框架，用于抓取、解析、提取和存储网页数据。基于Hadoop的分布式系统，Nutch支持大规模网络爬取，并提供各种插件，包括链接分析、语言检测和内容过滤等功能。本文旨在介绍如何使用Nutch库编写简单的Java下载器，即能从指定URL下载网页内容的程序。目标是帮助初学者了解Nutch库的基本用法，并展示如何通过代理IP技术和多线程技术提升下载效率。假设读者已安
在CentOS7上安装Hadoop分布式系统栗子艾李子 hadoop linux hdfs 分布式
项目背景：Hadoop原来是ApacheLucene下的一个子项目，它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop由分布式存储HDFS和分布式计算MapReduce两部分组成。HDFS是一个master/slave的结构，就通常的部署来说，在master上只运行一个Namenode
大数据技术之Hadoop入门一在远方的你等我
1.从Hadoop框架讨论大数据生态名字起源该项目的创建者，DougCutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的项目起源Hadoop由ApacheSoftwareFoundation公司于2005年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由GoogleLab开发的Map/Reduce和GoogleFileSystem(GFS)的启发
openpyxl3.0官方文档（14）—— 甜甜圈图 Sinchard
甜甜圈图表与饼图类似，只是它们使用了一个环而不是一个圆，还可以绘制出若干系列的数据作为中心环。fromopenpyxlimportWorkbookfromopenpyxl.chartimport(DoughnutChart,Reference,Series,)fromopenpyxl.chart.seriesimportDataPointdata=[['Pie',2014,2015],['Plai
kafka入门：简介、使用场景、设计原理、主要配置及集群搭建（转） weixin_34185320 运维操作系统系统架构
李克华云计算高级群:292870151195907286交流：Hadoop、NoSQL、分布式、lucene、solr、nutchkafka入门：简介、使用场景、设计原理、主要配置及集群搭建（转）问题导读：1.zookeeper在kafka的作用是什么？2.kafka中几乎不允许对消息进行“随机读写”的原因是什么？3.kafka集群consumer和producer状态信息是如何保存的？4.par
大数据之 Hadoop 小裕哥略帅大数据 hadoop java
hadoop主要解决：海量数据的存储和海量数据的分析计算hadoop发展历史Google是hadoop的思想之源（Google在大数据方面的三篇论文）2006年3月，Map-reduce和NutchDistributedFileSystem(NDFS)分别被纳入到Hadoop项目，Hadoop正式诞生。MapReduce对海量数据处理map函数进行数据的提取、排序，实现mapper，四个形参（输入
自己动手写搜索引擎系列【目录】 luyee2010 自己动手写搜索引擎自己动手写搜索引擎
第1章遍历搜索引擎技术11.130分钟实现的搜索引擎11.1.1准备工作环境（10分钟）11.1.2编写代码（15分钟）31.1.3发布运行（5分钟）51.2Google神话91.3体验搜索引擎91.4搜索语法101.5你也可以做搜索引擎131.6搜索引擎基本技术141.6.1网络蜘蛛141.6.2全文索引结构141.6.3Lucene全文检索引擎151.6.4Nutch网络搜索软件161.6.5
ElasticSearch（ES）——概述/API 平平无奇小码农笔记大数据 elasticsearch 数据库搜索引擎
文章目录一、ElasticSearch基础1.1简介1.2使用场景1.3ES与其他数据存储进行比较1.4ES的特点1.5Lucene、Nutch、ElasticSearch关系二、基本概念ES概念和MySQL关系对比三、安装ES3.1解压、改名3.2修改配置文件3.3教学环境启动优化分发3.4修改hadoop163、hadoop164的节点名3.5单台启动测试，解决问题四、安装kibana4.1解
asp html5 ajax,ASP.NET AJAX Chart (HTML5) - RadControls for Web Forms | Telerik UI for ASP.NET AJAX weixin_39942191 asp html5 ajax
AnyEssentialChartTypeQuicklyaddmeaningtodatawiththemostcommonlyusedASP.NETchartingtypes:PieorDonutcharttovisualizeeachpieceofdataaspartofawholeLineorAreatomonitortrendsBar,ColumnorRadartocomparesevera
安装关系型数据库MySQL和大数据处理框架Hadoop weixin_30621919 数据库嵌入式大数据
这个作业的要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161。1.简述Hadoop平台的起源、发展历史与应用现状。列举发展过程中重要的事件、主要版本、主要厂商；国内外Hadoop应用的典型案例。（1）Hadoop的介绍：Hadoop最早起源于Nutch，Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、
ChatGPT4 完成数据分析结构分析，动态饼图可视化阿里数据专家 ChatGPT实战案例 ChatGPT 数据分析信息可视化数据挖掘 excel 人工智能 AIGC chatgpt
对于数据分析中的结构占比分析，以下几种图表类型是比较常见和合适的：1.**饼图（PieChart）**：饼图是一种表现部分与整体关系的图表，各部分占整体的比例在图中以圆形的切片形式体现。它适用于表示不同类别之间的比较，以及每个类别占总数的百分比。2.**环图（DoughnutChart）**：环图是饼图的变种，有一个空心中心。它也是显示类别之间占比关系的一种有效的方式。3.**堆叠柱状图/堆叠条形
hadoop yuanjianqiang_0925 hadoop spark
hadoop主要解决：海量数据的存储和海量数据的分析计算hadoop发展历史Google是hadoop的思想之源（Google在大数据方面的三篇论文）2006年3月，Map-reduce和NutchDistributedFileSystem(NDFS)分别被纳入到Hadoop项目，Hadoop正式诞生。MapReduce对海量数据处理map函数进行数据的提取、排序，实现mapper，四个形参（
Ubuntu环境下Hadoop1.2.1, HBase0.94.25, nutch2.2.1各个配置文件一览 weixin_30491641 大数据 java runtime
/×××××××××××××××××××××××××××××××××××××××××/Author：xxx0624HomePage：http://www.cnblogs.com/xxx0624//×××××××××××××××××××××××××××××××××××××××××/Hadoop伪分布式配置过程：Hadoop：1.2.1Hbase：0.94.25nutch：2.2.1Java：1.8.
ElasticSearch详细教程-基础加实战工藤-新二实时数仓大数据实时项目 elasticsearch 实时大数据 spark
文章目录第1章ElasticSearch基础1.1简介1.2使用场景1.3ES与其他数据存储进行比较1.4ElasticSearch的特点1.4.1天然分片，天然集群1.4.2天然索引1.5Lucene、Nutch、ElasticSearch关系第2章ElasticSearch的安装2.1上传安装包2.2将ES解压到/opt/module目录下2.3在/opt/module目录下对ES重命名2.4
jvm命令和可视化工具调优 weixin_30834783 java 操作系统开发工具
李克华云计算高级群:292870151195907286交流：Hadoop、NoSQL、分布式、lucene、solr、nutch虚拟机：系统虚拟机程序虚拟机系统虚拟机有：VMWarevisureBox程序虚拟机：JVMJVM：1.类加载子系统（类加载器）2.方法区3.java堆4.直接内存5.java栈6.本地方法栈7.垃圾回收系统8.PC寄存器9.执行引擎堆：存储问题栈：程序运行方法去：辅助堆
linux服务器忘记ssh密码_【Linux】配置linux服务器之间ssh不用密码访问 weixin_40008033 linux服务器忘记ssh密码
如果想在A这太机器上可以不需要密码就ssh到B、C两台机器上，可以采用如下的方法：(1)在A机器上：ssh-keygen-trsaGeneratingpublic/privatersakeypair.Enterfileinwhichtosavethekey(/nutch/home/.ssh/id_rsa):不输入任何东西，直接回车Enterpassphrase(emptyfornopassphra
Hadoop分布式文件系统杀神lwz hadoop 大数据分布式
一、HadoopHadoop之父DougCuttingHadoop的发音[hædu:p]，Cutting儿子对玩具小象的昵称1、Hadoop发展简史2002年10月，DougCutting和MikeCafarella创建了开源网页爬虫项目Nutch。2003年10月，Google发表GoogleFileSystem论文。2004年7月，DougCutting和MikeCafarella在Nutch
java 爬虫框架nutch_网络爬虫（2）-- Java爬虫框架鲍鱼王 java 爬虫框架nutch
NutchNutch属于分布式爬虫，爬虫使用分布式，主要是解决两个问题：1)海量URL管理；2)网速。如果要做搜索引擎，Nutch1.x是一个非常好的选择。Nutch1.x和solr或者es配合，就可以构成一套非常强大的搜索引擎，否则尽量不要选择Nutch作为爬虫。用Nutch进行爬虫的二次开发，爬虫的编写和调试所需的时间，往往是单机爬虫所需的十倍时间不止。HeritrixHeritrix是个“A
nutch爬取网站数据详细步骤 Echoooo_o
环境：hadoop2.7.7+hbase0.98+nutch2.3+solr4.9大致步骤思想：hadoop提供底层数据存储hbase在其之上建立非关系型数据库nutch将爬的数据存到hbase上并建立索引到solr展示首先采用简单命令：#$1$2...$n表示命令后跟的第n个参数#存放待注入种子的路径SEEDDIR="$1"#存放爬取数据（URL状态信息、爬取数据、解析数据）文件夹的路径CRAW
nutch，hbase记录 feihuadao
hbase表操作优化http://blog.pureisle.net/archives/1930.htmlHow-to:UseHBaseBulkLoading,andWhyhttp://blog.cloudera.com/blog/2013/09/how-to-use-hbase-bulk-loading-and-why/nutch2.2分析http://blog.csdn.net/itufo/a
Hadoop 凤舞飘伶 Go hadoop
Hadoop是Google的集群系统的开源实现，Google集群系统:GFS(GoogleFileSystem)、MapReduce、BigTable。Hadoop主要由HDFS(HadoopDistributedFileSystemHadoop分布式文件系统)、MapReduce和HBase组成Hadoop的初衷是为解决Nutch的海量数据爬取和存储的需要。Hadoop于2005年秋天作为Luc
Hadoop之父：Doug Cutting Mr_Elliot
hadoop生活中，可能所有人都间接用过他的作品，他是Lucene、Nutch、Hadoop等项目的发起人。是他，把高深莫测的搜索技术形成产品，贡献给普罗大众；还是他，打造了目前在云计算和大数据领域里如日中天的Hadoop。他是某种意义上的盗火者，他就是DougCutting。DougCutting从实习生做起1985年，Cutting毕业于美国斯坦福大学。他并不是一开始就决心投身IT行业的，在大
Hadoop-2.6.5完整安装配置过程 syp_net 系统开发 hadoop mapreduce 搜索引擎
记录Hadoop-2.6.5完整安装配置过程一、Hadoop是什么？二、Hadoop-2.6.5安装配置1.修改主机名2.下载并解压JDK3.配置环境变量4.修改Hadoop中5个主要配置文件5.启动Hadoop6.HadoopWeb端口测试三、总结一、Hadoop是什么？Hadoop系统最初的源头来自于ApacheLucene项目下的搜索引擎子项目Nutch，该项目的负责人是DougCuttin
Hadoop之HDFS简介数新网络 hadoop 大数据 hdfs
前言Hadoop是由Apache基金会开发的分布式系统基础框架，主要解决海量数据存储和海量数据分析问题。Hadoop起源于ApacheNutch项目，起始于2002年，在2006年被正式命名为Hadoop。Hadoop有3大核心组件，分别是HDFS、MapReduce和YARN，本次我们重点介绍HDFS。一、HDFS简介HDFS全称HadoopDistributedFileSystem，是一个分布
hadoop原理和细节 truezqx
一、Hadoop概述Hadoop是Google的集群系统开源实现Google的集群系统：GFS、MapReduce、BigTableHadoop的集群系统：HDFS、MapReduce、HBaseHadoop设计的初衷是为了解决Nutch的海量数据存储和处理的需求，可以解决大数据场景下的数据存储和处理的问题。传统数据：GB、TB级别的数据、数据增长不快、主要为结构化的数据、统计和报表大数据：TB、
听阿里P7工程师只分七步讲解HDFS搭建 Python大数据工程师
前言HADOOP产生背景（1）HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。（2）2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。——分布式文件系统（GFS），可用于处理海量网页的存储——分布式计算框架MAPREDUC
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><