mrcuilidong163

国内首套免费的《Nutch相关框架视频教程》(1-20)

Nutch是一个Java开源项目，拥有十多年的历史，从一开始的搜索引擎演变为如今的网络爬虫。在Nutch的进化过程中，产生了Hadoop、Tika和Gora三个Java开源项目。如今这三个项目都发展迅速，极其火爆，尤其是Hadoop，其已成为大数据和云计算的代名词。

本人拥有多年Nutch相关框架研发经验，顺应大数据云计算的浪潮，推出了国内首套免费的《Nutch相关框架视频教程》。

    《Nutch相关框架视频教程》是一系列的视频教程，详细讲解了跟Nutch相关的框架，这些框架主要有Lucene、Hadoop、Solr、Tika、Gora、HBase等，其中Nutch是网络爬虫、Lucene是全文检索工具包、Hadoop是分布式存储与计算、Solr是搜索服务器、Tika是内容分析工具包、Gora是ORM的大数据版、HBase是基于Hadoop的分布式数据库，都是Java开源框架。
    作为一个Java工程师，这些技术我相信大家都有所耳闻，尤其是Lucene，几乎可以应用到带有搜索功能的所有项目中。Solr基于Lucene，提供了更多的企业级特性。Tika可以从各种不同的文档中提取元数据和结构化文本内容。
    我希望这套视频能对学习的同学起到抛砖引玉的作用，激发大家学习大数据、搜索引擎的热情。

优酷在线视频地址

土豆在线视频地址

微云下载地址（压缩超清）

百度云网盘地址1（压缩超清）

百度云网盘地址2（压缩超清、原版超清以及APDPlat相关）

金山快盘地址（压缩超清）

360云盘地址（压缩超清）

115网盘礼包（压缩超清）

天翼云下载地址

Nutch公开课:从搜索引擎到网络爬虫在线观看地址

【大数据】相关技术英文原版电子书

第一讲

土豆在线视频地址（52分钟）
超清原版下载地址

压缩高清下载地址

1、 通过nutch，诞生了hadoop、tika、gora。

2、 nutch通过ivy来进行依赖管理（1.2之后）。

3、 nutch是使用svn进行源代码管理的。

4、 lucene、nutch、hadoop，在搜索界相当有名。

5、 ant构建之后，生成runtime文件夹，该文件夹下面有deploy和local文件夹，分别代表了nutch的两种运行方式。

6、 nutch和hadoop是通过什么连接起来的？通过nutch脚本。通过hadoop命令把apache-nutch-1.6.job提交给hadoop的JobTracker。

7、 nutch入门重点在于分析nutch脚本文件。

第二讲
土豆在线视频地址（52分钟）
超清原版下载地址

压缩高清下载地址

1、 git来作为分布式版本控制工具，github作为server。bitbucket.org提供免费的私有库。

2、 nutch的提高在于研读nutch-default.xml文件中的每一个配置项的实际含义（需要结合源代码理解）。

3、 定制开发nutch的入门方法是研读build.xml文件。

4、 命令：

apt-get install subversion

svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/

cd release-1.6

apt-get install ant

ant

cd runtime/local

mkdir urls

vi urls/url.txt 并输入http://blog.tianya.cn

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &

vi release-1.6/conf/nutch-site.xml 增加http.agent.name配置

cd ../../release-1.6

ant

cd runtime/local

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &

删除报错的文件夹

nohup bin/nutch crawl urls -dir data -depth 1 -threads 100 &

第三讲
土豆在线视频地址（53分钟）
超清原版下载地址

压缩高清下载地址

1、 nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么？

2、 命令：

crawldb

bin/nutch | grep read

bin/nutch readdb data/crawldb -stats

bin/nutch readdb data/crawldb -dump data/crawldb/crawldb_dump

bin/nutch readdb data/crawldb -url http://4008209999.tianyaclub.com/

bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN

bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN_m 1

segments

crawl_generate：

bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nocontent -nofetch -noparse -noparsedata –noparsetext

crawl_fetch：

bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump-nocontent -nogenerate -noparse -noparsedata –noparsetext

content：

bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nofetch -nogenerate -noparse -noparsedata –noparsetext

crawl_parse：

bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nofetch -nogenerate -nocontent –noparsedata –noparsetext

parse_data：

bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nofetch -nogenerate -nocontent -noparse –noparsetext

parse_text：

bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump -nofetch -nogenerate -nocontent -noparse -noparsedata

全部：

bin/nutch readseg -dump data/segments/20130325042858data/segments/20130325042858_dump

segments

bin/nutch readseg -list -dir data/segments

bin/nutch readseg -list data/segments/20130325043023

bin/nutch readseg -get data/segments/20130325042858 http://blog.tianya.cn/

linkdb

bin/nutch readlinkdb data/linkdb -url http://4008209999.tianyaclub.com/

bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump

第四讲

土豆在线视频地址 （60分钟）
超清原版下载地址
压缩高清下载地址

1、深入分析nutch的抓取周期

inject

generate -> fetch -> parse ->updatedb

2、 3大merge和3大read命令阐释

bin/nutch | grep merge

bin/nutch | grep read

bin/nutch mergesegs data/segments_all -dir data/segments

3、反转链接

bin/nutch invertlinks data/linkdb -dir data/segments

4、解析页面

bin/nutch parsechecker http://apdplat.org

第五讲

土豆在线视频地址（66分钟）

超清原版下载地址
压缩高清下载地址

1、 域统计

bin/nutch domainstats data2/crawldb/current host host

bin/nutch domainstats data2/crawldb/current domain domain

bin/nutch domainstats data2/crawldb/current suffix suffix

bin/nutch domainstats data2/crawldb/current tld tld

2、webgraph

bin/nutch webgraph -segmentDir data2/segments -webgraphdbdata2/webgraphdb

有相同inlinks的URL，只输出topn条

bin/nutch nodedumper -inlinks -output inlinks -topn 1 -webgraphdb data2/webgraphdb

有相同outlinks的URL，只输出topn条

bin/nutch nodedumper -outlinks -output outlinks -topn 1 -webgraphdb data2/webgraphdb

有相同scores的URL，只输出topn条（初始分值全为0）

bin/nutch nodedumper -scores -output scores -topn 1 -webgraphdbdata2/webgraphdb

计算URL分值

bin/nutch linkrank -webgraphdb data2/webgraphdb

再次查看分值

bin/nutch nodedumper -scores -output scores –topn 1 -webgraphdbdata2/webgraphdb

对结果进行分组，取最大值或是连加和（topn参数不参与）

bin/nutch nodedumper -group domain sum -inlinks -outputinlinks_group_sum -webgraphdbdata2/webgraphdb

bin/nutch nodedumper -group domain max -inlinks -outputinlinks_group_max -webgraphdbdata2/webgraphdb
对url进行分组，分组方式可选择为host或是domain，对同一组的url执行topn限制，对执行了topn限制的url集合执行max或是sum操作，max和sum所针对的排序值是3种方式之一inlinks、outlinks以及scores。

第六讲

土豆在线视频地址（46分钟）

超清原版下载地址
压缩高清下载地址

1、注入分值

bin/nutch readdb data2/crawldb -dump crawldb_dump
cat crawldb_dump/* | grep Score | sort | uniq
bin/nutch scoreupdater -crawldb data2/crawldb -webgraphdb data2/webgraphdb

2、轻量级抓取

bin/nutch freegen urls data3/segments

第七讲
土豆在线视频地址（58分钟）
超清原版下载地址
压缩高清下载地址

1、indexchecker

bin/nutch indexchecker http://www.163.com

2、安装配置SOLR

wget http://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.2/apache-solr-3.6.2.tgz

tar -xzvf apache-solr-3.6.2.tgz

cd apache-solr-3.6.2/example

复制nutch的conf目录中的schema.xml文件到solr/conf目录

修改solr/conf/solrconfig.xml,将里面所有的text都替换为content

3、运行SOLR并提交索引

启动SOLR服务器
java -jar start.jar &

Web界面

http://host2:8983

提交索引

bin/nutch solrindex http://host2:8983/solr data/crawldb-linkdb data/linkdb -dir data/segments

4、使用LUKE工具查看索引

5、给SOLR3.6.2配置分词器mmseg4j

wget http://mmseg4j.googlecode.com/files/mmseg4j-1.8.5.zip

unzip mmseg4j-1.8.5.zip -d mmseg4j-1.8.5

将mmseg4j-1.8.5/mmseg4j-all-1.8.5-with-dic.jar复制到solr下的lib目录
将schema.xml文件中所有的

和

替换为

第八讲
土豆在线视频地址（38分钟）
超清原版下载地址
压缩高清下载地址

1、指定LUKE工具的分词器

访问https://code.google.com/p/mmseg4j/downloads/list

下载mmseg4j-1.9.1.v20130120-SNAPSHOT.zip

将压缩包里面的dist文件夹里面的jar解压，将解压出来com和data文件夹拖到lukeall-4.0.0-ALPHA.jar里面

启动luke，在Search选项卡的Analysis里面选择com.chenlb.mmseg4j.analysis.ComplexAnalyzer

2、安装配置SOLR4.2

wget http://labs.mop.com/apache-mirror/lucene/solr/4.2.0/solr-4.2.0.tgz

tar -xzvf solr-4.2.0.tgz

cd solr-4.2.0/example

复制nutch的conf目录中的schema-solr4.xml文件到solr/collection1/conf目录，改名为schema.xml，覆盖原来文件

修改solr/collection1/conf/schema.xml，在下增加：

3、给SOLR4.2配置分词器mmseg4j

wget https://mmseg4j.googlecode.com/files/mmseg4j-1.9.1.v20130120-SNAPSHOT.zip

unzip mmseg4j-1.9.1.v20130120-SNAPSHOT.zip -d mmseg4j-1.9.1

将mmseg4j-1.9.1/dist/*.jar复制到solr下的lib目录
将schema.xml文件中的

  和

  替换为

4、运行SOLR并提交索引

启动SOLR服务器
java -jar start.jar &

Web界面

http://host2:8983

提交索引

bin/nutch solrindex http://host2:8983/solr data/crawldb -linkdb data/linkdb -dir data/segments

第九讲
土豆在线视频地址（44分钟）
超清原版下载地址
压缩高清下载地址

1、 安装win上的nutch运行环境Cygwin

cygwin路径不要有空格

把安装好的JDK拷贝到用户主目录

把nutch的文件拷贝到用户主目录

下载解压ant，加入path

2、 运行nutch

Exception in thread "main" java.io.IOException:Failed to set permissions of path:\tmp\hadoop-ysc\mapred\staging\ysc-2036315919\.staging to 0700

https://issues.apache.org/jira/browse/HADOOP-7682

http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz

修改hadoop-1.1.2\src\core\org\apache\hadoop\fs\FileUtil.java，搜索 Failed to set permissions of path，找到689行，把thrownew IOException改为LOG.warn

修改hadoop-1.1.2\build.xml，搜索autoreconf，移除匹配的6个executable="autoreconf"的exec配置

执行ant

用新生成的hadoop-core-1.1.3-SNAPSHOT.jar替换nutch的hadoop-core-1.0.3.jar

第十讲
土豆在线视频地址（58分钟）
超清原版下载地址
压缩高清下载地址

1、HADOOP单机本地模式

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz

tar -xzvf hadoop-1.1.2.tar.gz

export PATH=/home/ysc/hadoop-1.1.2/bin:$PATH

切换到nutch的deploy目录运行命令

2、HADOOP单机伪分布式模式

新建用户和组

addgroup hadoop

adduser --ingroup hadoop hadoop

注销root以hadoop用户登录

配置SSH

ssh-keygen -t rsa（密码为空，路径默认）

cp .ssh/id_rsa.pub .ssh/authorized_keys

准备HADOOP运行环境

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz

tar -xzvf hadoop-1.1.2.tar.gz

在/home/hadoop/.bashrc 中追加：

export PATH=/home/hadoop/hadoop-1.1.2/bin:$PATH

重新登录就生效

ssh localhost

which hadoop

配置HADOOP运行参数

vi conf/core-site.xml

fs.default.name

hdfs://localhost:9000

hadoop.tmp.dir

/home/hadoop/tmp

vi conf/hdfs-site.xml

dfs.name.dir

/home/hadoop/dfs/filesystem/name

dfs.data.dir

/home/hadoop/dfs/filesystem/data

dfs.replication

vi conf/mapred-site.xml

mapred.job.tracker

localhost:9001

mapred.tasktracker.map.tasks.maximum

mapred.tasktracker.reduce.tasks.maximum

mapred.system.dir

/home/hadoop/mapreduce/system

mapred.local.dir

/home/hadoop/mapreduce/local

格式化名称节点并启动集群

hadoop namenode -format

启动集群并查看WEB管理界面

start-all.sh

访问http://localhost:50030可以查看 JobTracker 的运行状态

访问http://localhost:50060可以查看 TaskTracker 的运行状态

访问http://localhost:50070可以查看 NameNode 以及整个分布式文件系统的状态，浏览分布式文件系统中的文件以及 log 等

停止集群

stop-all.sh停止集群

3、执行Nutch的crawl命令

第十一讲
土豆在线视频地址（64分钟）
超清原版下载地址
压缩高清下载地址

1、配置Cygwin支持无密码SSH登陆

安装SSH

默认的Cygwin没有安装ssh，所以重新运行http://www.cygwin.com/setup.exe

在Select Packages的时候，在search输入ssh，选择openssh:The OpenSSH server and client programs

配置SSH服务（以管理员身份运行cygwin）

ssh-host-config

Should privilege separation be used? yes

Do you want to install sshd as a service? yes

默认确认

Do you want to use a different name? no

Create new privileged user account 'cyg_server'? yes

输入密码

cygrunsrv -S sshd

如果需要重新安装sshd服务，可以用cygrunsrv -R sshd

生成SSH Key

ssh-keygen -t rsa（密码为空，路径默认）

cp .ssh/id_rsa.pub .ssh/authorized_keys

登陆

ssh localhost

2、win上的HADOOP单机伪分布式

准备HADOOP运行环境

下载解压并拷贝到Cygwin的用户主目录

http://archive.apache.org/dist/hadoop/core/hadoop-0.20.2/hadoop-0.20.2.tar.gz

1.x版本有BUG,参考：

https://issues.apache.org/jira/browse/HADOOP-7682
https://issues.apache.org/jira/browse/HADOOP-8274

BUG修复请参考：

http://en.wikisource.org/wiki/User:Fkorning/Code/Hadoop-on-Cygwin

在/home/ysc/.bashrc 中追加：

export JAVA_HOME=/home/ysc/jdk1.7.0_17

export PATH=/home/ysc/hadoop-0.20.2/bin:$JAVA_HOME/bin:$PATH

在hadoop-0.20.2/conf/hadoop-evn.sh中追加

export JAVA_HOME=/home/ysc/jdk1.7.0_17

export HADOOP_LOG_DIR=/tmp/logs

创建符号链接

mklink /D C:\tmp C:\cygwin\tmp

重新登录就生效

ssh localhost

which hadoop

配置HADOOP运行参数

vi conf/core-site.xml

fs.default.name

hdfs://localhost:9000

vi conf/hdfs-site.xml

dfs.replication

vi conf/mapred-site.xml

mapred.job.tracker

localhost:9001

mapred.tasktracker.map.tasks.maximum

mapred.tasktracker.reduce.tasks.maximum

格式化名称节点并启动集群

hadoop namenode -format

启动集群并查看WEB管理界面

start-all.sh

访问http://localhost:50030可以查看 JobTracker 的运行状态

访问http://localhost:50060可以查看 TaskTracker 的运行状态

访问http://localhost:50070可以查看 NameNode 以及整个分布式文件系统的状态，浏览分布式文件系统中的文件以及 log 等

停止集群

stop-all.sh停止集群

3、执行wordcount命令

hadoop jar hadoop-0.20.2-examples.jar wordcount input output

第十二讲

土豆在线视频地址（30分钟）
超清原版下载地址
压缩高清下载地址

1、 HADOOP多机完全分布式模式

三台机器

host2(NameNode、SecondaryNameNode、JobTracker、DataNode、TaskTracker)

host6(DataNode、TaskTracker)

host8(DataNode、TaskTracker)

vi /etc/hostname（分别给每一台主机指定主机名）

vi /etc/hosts（分别给每一台主机指定主机名到IP地址的映射）

新建用户和组

三台机器上面都要新建用户和组

addgroup hadoop

adduser --ingroup hadoop hadoop

更改临时目录权限

chmod 777 /tmp

注销root以hadoop用户登录

配置SSH

在host2上面执行

ssh-keygen -t rsa（密码为空，路径默认）

该命令会在用户主目录下创建 .ssh 目录，并在其中创建两个文件：id_rsa 私钥文件，是基于 RSA 算法创建，该私钥文件要妥善保管，不要泄漏。id_rsa.pub 公钥文件，和 id_rsa 文件是一对儿，该文件作为公钥文件，可以公开

cp .ssh/id_rsa.pub .ssh/authorized_keys

把公钥追加到其他主机的authorized_keys 文件中

ssh-copy-id -i .ssh/id_rsa.pub hadoop@host6

ssh-copy-id -i .ssh/id_rsa.pub hadoop@host8

可以在host2上面通过ssh无密码登陆host6和host8

ssh host2

ssh host6

ssh host8

准备HADOOP运行环境

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz

tar -xzvf hadoop-1.1.2.tar.gz

在/home/hadoop/.bashrc 中追加：

export PATH=/home/hadoop/hadoop-1.1.2/bin:$PATH

重新登录就生效

ssh localhost

which hadoop

配置HADOOP运行参数

vi conf/masters

把localhost替换为：host2

vi conf/slaves

删除localhost，加入两行:

host2

host6

host8

vi conf/core-site.xml

fs.default.name

hdfs://host2:9000

vi conf/hdfs-site.xml

dfs.name.dir

/home/hadoop/dfs/filesystem/name

dfs.data.dir

/home/hadoop/dfs/filesystem/data

dfs.replication

vi conf/mapred-site.xml

mapred.job.tracker

host2:9001

mapred.tasktracker.map.tasks.maximum

mapred.tasktracker.reduce.tasks.maximum

mapred.system.dir

/home/hadoop/mapreduce/system

mapred.local.dir

/home/hadoop/mapreduce/local

复制HADOOP文件到其他节点

scp -r /home/hadoop/hadoop-1.1.2 hadoop@host6:/home/hadoop/hadoop-1.1.2
scp -r /home/hadoop/hadoop-1.1.2 hadoop@host8:/home/hadoop/hadoop-1.1.2

格式化名称节点并启动集群

hadoop namenode -format

启动集群并查看WEB管理界面

start-all.sh

访问http://localhost:50030可以查看 JobTracker 的运行状态

访问http://localhost:50060可以查看 TaskTracker 的运行状态

访问http://localhost:50070可以查看 NameNode 以及整个分布式文件系统的状态，浏览分布式文件系统中的文件以及 log 等

停止集群

stop-all.sh停止集群

第十三讲

优酷在线视频地址（29分钟）
压缩超清下载地址

1、改变负载

三台机器，改变负载

host2(NameNode、DataNode、TaskTracker)

host6(SecondaryNameNode、DataNode、TaskTracker)

host8(JobTracker、DataNode、TaskTracker)

指定SecondaryNameNode为host6：

vi conf/masters指定host6

scp conf/masters host6:/home/hadoop/hadoop-1.1.2/conf/masters

scp conf/masters host8:/home/hadoop/hadoop-1.1.2/conf/masters

vi conf/hdfs-site.xml

     dfs.http.address
     host2:50070

dfs.secondary.http.address

host6:50090

scp conf/hdfs-site.xml host6:/home/hadoop/hadoop-1.1.2/conf/hdfs-site.xml

scp conf/hdfs-site.xml host8:/home/hadoop/hadoop-1.1.2/conf/hdfs-site.xml

指定JobTracker为host8：

vi conf/mapred-site.xml

mapred.job.tracker

host8:9001

scp conf/mapred-site.xml host6:/home/hadoop/hadoop-1.1.2/conf/mapred-site.xml

scp conf/mapred-site.xml host8:/home/hadoop/hadoop-1.1.2/conf/mapred-site.xml

vi conf/core-site.xml

fs.checkpoint.dir

/home/hadoop/dfs/filesystem/namesecondary

scp conf/core-site.xml host6:/home/hadoop/hadoop-1.1.2/conf/core-site.xml

scp conf/core-site.xml host8:/home/hadoop/hadoop-1.1.2/conf/core-site.xml

配置host8：

host8上的脚本start-mapred.sh会启动host2和host6上面的TaskTracker，所以需要对host8执行：

ssh-keygen -t rsa（密码为空，路径默认）

ssh-copy-id -i .ssh/id_rsa.pub hadoop@host2

ssh-copy-id -i .ssh/id_rsa.pub hadoop@host6

ssh-copy-id -i .ssh/id_rsa.pub hadoop@host8

可以在host8上面通过ssh无密码登陆host2和host6

ssh host2

ssh host6

ssh host8

在/home/hadoop/.bashrc 中追加：

export PATH=/home/hadoop/hadoop-1.1.2/bin:$PATH

host2: 执行start-dfs.sh

host8: 执行start-mapred.sh

2、SecondaryNameNode

ssh host6

停止secondarynamenode

hadoop-1.1.2/bin/hadoop-daemon.sh stop secondarynamenode

强制合并fsimage和eidts

hadoop-1.1.2/bin/hadoop secondarynamenode -checkpoint force

启动secondarynamenode

hadoop-1.1.2/bin/hadoop-daemon.sh start secondarynamenode

3、启用回收站

fs.trash.interval

10080

第十四讲

优酷在线视频地址（26分钟）
压缩超清下载地址

1、 动态增加DataNode节点和TaskTracker节点

以host226为例

在host226上执行：

指定主机名

vi /etc/hostname

指定主机名到IP地址的映射

vi /etc/hosts

增加用户和组

addgrouphadoop

adduser--ingroup hadoop hadoop

更改临时目录权限

chmod777 /tmp

在host2上执行：

vi conf/slaves

增加host226

ssh-copy-id -i .ssh/id_rsa.pub hadoop@host226

scp-r /home/hadoop/hadoop-1.1.2 hadoop@host226:/home/hadoop/hadoop-1.1.2

在host8上执行：

vi conf/slaves

增加host226

ssh-copy-id -i .ssh/id_rsa.pub hadoop@host226

在host226上面执行：

hadoop-daemon.sh start datanode

hadoop-daemon.sh start tasktracker

在/etc/hosts的配置文件中，localhost到ip地址的映射要放到ipv4的最后面

第十五讲

优酷在线视频地址（30分钟）
压缩超清下载地址

1、限制hadoop节点连接

NameNode:

vi conf/hdfs-site.xml

dfs.hosts

/home/hadoop/hadoop-1.1.2/conf/include

dfs.hosts.exclude

/home/hadoop/hadoop-1.1.2/conf/exclude

加入集群节点

vi /home/hadoop/hadoop-1.1.2/conf/include

JobTracker:

vi conf/mapred-site.xml

mapred.hosts

/home/hadoop/hadoop-1.1.2/conf/include

mapred.hosts.exclude

/home/hadoop/hadoop-1.1.2/conf/exclude

加入集群节点

vi /home/hadoop/hadoop-1.1.2/conf/include

重启集群

2、动态删除DataNode节点和TaskTracker节点

vi /home/hadoop/hadoop-1.1.2/conf/exclude

增加待删除的节点host226

在NameNode上面执行：

hadoop dfsadmin -refreshNodes

vihadoop-1.1.2/conf/slaves （去掉host226）

vi hadoop-1.1.2/conf/include（去掉host226）

hadoop dfsadmin -refreshNodes(使include的更改生效)

rmhadoop-1.1.2/conf/exclude

exclude主要是使一个datanode节点安全退役

删除tasktracker方式一：

vi /home/hadoop/hadoop-1.1.2/conf/exclude

增加待删除的节点host226

在JobTracker上面执行：

hadoop mradmin -refreshNodes

vihadoop-1.1.2/conf/slaves （去掉host226）

vi hadoop-1.1.2/conf/include（去掉host226）

hadoop mradmin -refreshNodes(使include的更改生效)

rmhadoop-1.1.2/conf/exclude

删除tasktracker方式二：

vi /home/hadoop/hadoop-1.1.2/conf/include

删除待删除的节点host226

在JobTracker上面执行：

hadoop mradmin -refreshNodes

vihadoop-1.1.2/conf/slaves （去掉host226）

第十六讲

优酷在线视频地址（27分钟）
压缩超清下载地址

1、运行基准测试

hadoop jarhadoop-test-1.1.2.jar

hadoop jarhadoop-test-1.1.2.jar DFSCIOTest -write -nrFiles 12 -fileSize 1000 -resFiletest

hadoop jarhadoop-test-1.1.2.jar DFSCIOTest -read -nrFiles 12 -fileSize 1000 -resFile test

hadoop jarhadoop-test-1.1.2.jar DFSCIOTest -clear

第十七讲

优酷在线视频地址（31分钟）
压缩超清下载地址

Ganglia主要是用来监控大规模分布式系统的性能，如：cpu 、内存、硬盘、负载、网络流量等。Ganglia支持通过浏览器访问，强大的图表展示方式很容易直观地了解每个节点以及整个集群的工作状态，对集群运行参数调整、提高系统整体资源利用率起到重要作用。

1、 配置服务端

host6作为服务端：

创建用户和组：

addgroup ganglia

adduser --ingroup ganglia ganglia

安装：

apt-get install gmetad

apt-get install rrdtool

apt-get install ganglia-webfrontend

apt-get install ganglia-monitor

配置gmond：

vi/etc/ganglia/gmond.conf

先找到setuid= yes,改成setuid=no;

在找到cluster块中的name，改成name=”hadoop-cluster”;

配置gmetad：

vi/etc/ganglia/gmetad.conf

在这个配置文件中增加datasource，即增加以下内容：

data_source “hadoop-cluster” 10 host2 host6 host8

gridname "Hadoop"

指定web文件夹：

ln -s /usr/share/ganglia-webfrontend /var/www/ganglia

指定主机名：

vi/etc/apache2/apache2.conf

添加： ServerName host6

重启服务：

/etc/init.d/gmetadrestart

/etc/init.d/ganglia-monitor restart

/etc/init.d/apache2restart

2、 配置客户端

在host2和host8上安装数据收集服务：

创建用户和组：

addgroup ganglia

adduser --ingroup ganglia ganglia

安装：

apt-get install ganglia-monitor

配置gmond：

vi/etc/ganglia/gmond.conf

先找到setuid= yes,改成setuid=no;

在找到cluster块中的name，改成name=”hadoop-cluster”;

重启服务：

/etc/init.d/ganglia-monitor restart

3、 访问页面

http://host6/ganglia

如果页面中的Choosea Source有unspecified,重启gmetad即可：

/etc/init.d/gmetad restart

4、 集成hadoop

vi conf/hadoop-metrics2.properties

设置内容为：

#大于0.20以后的版本用ganglia31

*.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink31
  *.sink.ganglia.period=10
  # default for supportsparse is false
  *.sink.ganglia.supportsparse=true
*.sink.ganglia.slope=jvm.metrics.gcCount=zero,jvm.metrics.memHeapUsedM=both
*.sink.ganglia.dmax=jvm.metrics.threadsBlocked=70,jvm.metrics.memHeapUsedM=40
  #广播IP地址，这是缺省的，统一设该值(只能用组播地址239.2.11.71)

  namenode.sink.ganglia.servers=239.2.11.71:8649
  datanode.sink.ganglia.servers=239.2.11.71:8649
  jobtracker.sink.ganglia.servers=239.2.11.71:8649
  tasktracker.sink.ganglia.servers=239.2.11.71:8649
  maptask.sink.ganglia.servers=239.2.11.71:8649
  reducetask.sink.ganglia.servers=239.2.11.71:8649
  dfs.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
  dfs.period=10
  dfs.servers=239.2.11.71:8649
  mapred.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
  mapred.period=10
  mapred.servers=239.2.11.71:8649
  jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
  jvm.period=10
  jvm.servers=239.2.11.71:8649

把配置文件复制到集群其他节点，重启集群。

第十八讲

优酷在线视频地址（57分钟）
压缩超清下载地址

1、准备压缩数据

从dmoz下载url库

wget http://rdf.dmoz.org/rdf/content.rdf.u8.gz

gunzip content.rdf.u8.gz

准备nutch1.6

svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/

cprelease-1.6/conf/nutch-site.xml.template release-1.6/conf/nutch-site.xml

vi release-1.6/conf/nutch-site.xml

增加：

http.agent.name

nutch

cdrelease-1.6

ant

cd ..

使用DmozParser把dmoz的URL库解析为文本

release-1.6/runtime/local/bin/nutchorg.apache.nutch.tools.DmozParser content.rdf.u8 > urls &

将url文本内容放到HDFS上面

hadoop fs -put urls urls

2、以不同压缩方法注入URL

进入nutch主目录

cd release-1.6

以未压缩的方式注入URL

runtime/deploy/bin/nutch inject data_no_compress/crawldb urls

以默认压缩的方式注入URL

viconf/nutch-site.xml

mapred.output.compression.type

BLOCK

mapred.output.compress

true

mapred.compress.map.output

true

mapred.map.output.compression.codec

org.apache.hadoop.io.compress.DefaultCodec

mapred.output.compression.codec

org.apache.hadoop.io.compress.DefaultCodec

ant

runtime/deploy/bin/nutch inject data_default_compress/crawldb urls

以Gzip压缩的方式注入URL

viconf/nutch-site.xml

mapred.output.compression.type

BLOCK

mapred.output.compress

true

mapred.compress.map.output

true

mapred.map.output.compression.codec

org.apache.hadoop.io.compress.GzipCodec

mapred.output.compression.codec

org.apache.hadoop.io.compress.GzipCodec

ant

runtime/deploy/bin/nutch inject data_gzip_compress/crawldb urls

以BZip2的压缩方式注入URL

viconf/nutch-site.xml

mapred.output.compression.type

BLOCK

mapred.output.compress

true

mapred.compress.map.output

true

mapred.map.output.compression.codec

org.apache.hadoop.io.compress.BZip2Codec

mapred.output.compression.codec

org.apache.hadoop.io.compress.BZip2Codec

ant

runtime/deploy/bin/nutch inject data_bzip2_compress/crawldb urls

以Snappy的方式注入URL

viconf/nutch-site.xml

mapred.output.compression.type

BLOCK

mapred.output.compress

true

mapred.compress.map.output

true

mapred.map.output.compression.codec

org.apache.hadoop.io.compress.SnappyCodec

mapred.output.compression.codec

org.apache.hadoop.io.compress.SnappyCodec

ant

runtime/deploy/bin/nutch inject data_snappy_compress/crawldb urls

压缩类型的影响

块大小的影响

3、Hadoop配置Snappy压缩

下载解压：

wget https://snappy.googlecode.com/files/snappy-1.1.0.tar.gz

tar -xzvf snappy-1.1.0.tar.gz

cdsnappy-1.0.5

编译:

./configure

make

make install

复制库文件：

scp /usr/local/lib/libsnappy* host2:/home/hadoop/hadoop-1.1.2/lib/native/Linux-amd64-64/

scp /usr/local/lib/libsnappy* host6:/home/hadoop/hadoop-1.1.2/lib/native/Linux-amd64-64/

scp /usr/local/lib/libsnappy* host8:/home/hadoop/hadoop-1.1.2/lib/native/Linux-amd64-64/

在每一台集群机器上面修改环境变量：

vi /home/hadoop/.bashrc

追加：

export LD_LIBRARY_PATH=/home/hadoop/hadoop-1.1.2/lib/native/Linux-amd64-64

第十九讲（21分钟）

1、Ganglia以组播方式监控同一个网段中的多个集群

vi /etc/ganglia/gmetad.conf data_source "cluster1" 10 host2 data_source "cluster2" 10 host6 data_source "cluster3" 10 host8

/etc/init.d/gmetad restart

下面要分别指定节点使用的端口：

cluster1：

vi /etc/ganglia/gmond.conf

指定集群名称：

cluster {
name = "cluster1"
owner ="unspecified"
latlong ="unspecified"
url ="unspecified"
}

指定端口：

udp_send_channel {
mcast_join = 239.2.11.71
port = 8661
ttl = 1
}
udp_recv_channel {
mcast_join =239.2.11.71
port = 8661
bind =239.2.11.71
}

/etc/init.d/ganglia-monitor restart

cluster2：

vi /etc/ganglia/gmond.conf

指定集群名称：

cluster {
name = "cluster2"
owner ="unspecified"
latlong ="unspecified"
url ="unspecified"
}

指定端口：

udp_send_channel {
mcast_join =239.2.11.71
port = 8662
ttl = 1
}
udp_recv_channel {
mcast_join =239.2.11.71
port = 8662
bind =239.2.11.71
}

/etc/init.d/ganglia-monitor restart

cluster3:

vi /etc/ganglia/gmond.conf

指定集群名称：

cluster {
name = "cluster3"
owner ="unspecified"
latlong ="unspecified"
url ="unspecified"
}

指定端口：

udp_send_channel {
mcast_join =239.2.11.71
port = 8663
ttl = 1
}
udp_recv_channel {
mcast_join =239.2.11.71
port = 8663
bind =239.2.11.71
}

/etc/init.d/ganglia-monitor restart

2、Ganglia以单播方式监控同一个网段中的多个集群

vi /etc/ganglia/gmetad.conf data_source "cluster1" 10 host2 data_source "cluster2" 10 host6 data_source "cluster3" 10 host8

/etc/init.d/gmetad restart

cluster1：

vi /etc/ganglia/gmond.conf

指定集群名称：

cluster {
name = "cluster1"
owner = "unspecified"
latlong ="unspecified"
url ="unspecified"
}

指定接收数据的节点：

udp_send_channel {

# mcast_join = 239.2.11.71

host = host2

port = 8649

ttl = 1

}

udp_recv_channel {

# mcast_join = 239.2.11.71

port = 8649

# bind = 239.2.11.71

}

/etc/init.d/ganglia-monitor restart

cluster2：

vi /etc/ganglia/gmond.conf

指定集群名称：

cluster {
name = "cluster2"
owner ="unspecified"
latlong ="unspecified"
url ="unspecified"
}

指定接收数据的节点：

udp_send_channel {

# mcast_join = 239.2.11.71

host = host6

port = 8649

ttl = 1

}

udp_recv_channel {

# mcast_join = 239.2.11.71

port = 8649

# bind = 239.2.11.71

}

/etc/init.d/ganglia-monitor restart

cluster3：

vi /etc/ganglia/gmond.conf

指定集群名称：

cluster {
name = "cluster3"
owner ="unspecified"
latlong ="unspecified"
url ="unspecified"
}

指定接收数据的节点：

udp_send_channel {

# mcast_join = 239.2.11.71

host = host8

port = 8649

ttl = 1

}

udp_recv_channel {

# mcast_join = 239.2.11.71

port = 8649

# bind = 239.2.11.71

}

/etc/init.d/ganglia-monitor restart

3、Ganglia监控不同网段中的多个集群

不同网段中的主机如果属于同一个集群，则无法使用ganglia的多播配置方法，必须使用单播。

下面把host226加入cluster1：

在host226上安装数据收集服务：

创建用户和组：

addgroup ganglia

adduser --ingroup ganglia ganglia

安装：

apt-get install ganglia-monitor

配置gmond：

vi/etc/ganglia/gmond.conf

先找到setuid= yes,改成setuid=no;

在找到cluster块中的name，改成name=”cluster1”;

指定端口(要注意刚才第一步演示组播的时候已经把UDP端口改为8661)：

udp_send_channel {
mcast_join = 239.2.11.71
port = 8661
ttl = 1
}
udp_recv_channel {
mcast_join =239.2.11.71
port = 8661
bind =239.2.11.71
}

重启服务：

/etc/init.d/ganglia-monitor restart

第二十讲（22分钟）

1、Ganglia以单播方式监控跨多个网段的单一集群

vi /etc/ganglia/gmetad.conf data_source "hadoop-cluster" 10 host6

/etc/init.d/gmetad restart

在集群的所有节点中指定以下配置：

vi /etc/ganglia/gmond.conf

指定集群名称：

cluster {
name = "hadoop-cluster"
owner = "unspecified"
latlong ="unspecified"
url ="unspecified"
}

指定接收数据的节点：

udp_send_channel {

# mcast_join = 239.2.11.71

host = host6

port = 8649

ttl = 1

}

udp_recv_channel {

# mcast_join = 239.2.11.71

port = 8649

# bind = 239.2.11.71

}

/etc/init.d/ganglia-monitor restart

2、配置Hadoop集群使用单播地址

vi conf/hadoop-metrics2.properties

设置内容为：

#大于0.20以后的版本用ganglia31

  namenode.sink.ganglia.servers=host6
  datanode.sink.ganglia.servers= host6
  jobtracker.sink.ganglia.servers= host6
  tasktracker.sink.ganglia.servers= host6
  maptask.sink.ganglia.servers= host6
  reducetask.sink.ganglia.servers= host6
  dfs.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
  dfs.period=10
  dfs.servers= host6
  mapred.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
  mapred.period=10
  mapred.servers= host6
  jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
  jvm.period=10
  jvm.servers= host6

把配置文件复制到集群其他节点，重启集群。

3、扩展集群，节点分别位于3个不同网段

将host226重新加入集群，并新增host138

在host6和host8的include文件中加入host226和host138

在host6和host8的slaves文件中加入host226和host138

在新增的节点host138上面执行：

指定主机名

vi /etc/hostname

指定主机名到IP地址的映射

vi /etc/hosts

增加用户和组

addgrouphadoop

adduser--ingroup hadoop hadoop

更改临时目录权限

chmod777 /tmp

在host2和host8 上面配置对host138的SSH登陆：

ssh-copy-id -i .ssh/id_rsa.pub hadoop@host138

在host2上将hadoop文件复制到host138：

scp-r /home/hadoop/hadoop-1.1.2 hadoop@host138:/home/hadoop/hadoop-1.1.2

如果集群已经在运行，则在host226和host138上面执行以下命令以动态增加节点：

hadoop-daemon.sh start datanode

hadoop-daemon.sh start tasktracker

4、配置host138

在host138上安装数据收集服务：

创建用户和组：

addgroup ganglia

adduser --ingroup ganglia ganglia

安装：

apt-get install ganglia-monitor

配置gmond：

vi /etc/ganglia/gmond.conf

指定集群名称：

cluster {
name = "hadoop-cluster"
owner = "unspecified"
latlong ="unspecified"
url ="unspecified"
}

指定接收数据的节点：

udp_send_channel {

# mcast_join = 239.2.11.71

host = host6

port = 8649

ttl = 1

}

udp_recv_channel {

# mcast_join = 239.2.11.71

port = 8649

# bind = 239.2.11.71

}

/etc/init.d/ganglia-monitor restart

你可能感兴趣的:(国内首套免费的《Nutch相关框架视频教程》(1-20))

guava loadingCache代码示例 IM 胡鹏飞 Java 工具类介绍
publicclassTest2{publicstaticvoidmain(String[]args)throwsException{LoadingCachecache=CacheBuilder.newBuilder()//设置并发级别为8，并发级别是指可以同时写缓存的线程数.concurrencyLevel(8)//设置缓存容器的初始容量为10.initialCapacity(10)//设置缓存
系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
为什么会出现“与此站点的连接不安全”警告？
当浏览器弹出“与此站点的连接不安全”的红色警告时，不仅会让访客感到不安，还可能直接导致用户流失、品牌信誉受损，甚至引发数据泄露风险。作为网站运营者，如何快速解决这一问题？一、为什么会出现“与此站点的连接不安全”警告？浏览器提示“不安全连接”，本质上是检测到当前网站与用户之间的数据传输未经过加密保护。以下是触发警告的常见原因：1.未安装SSL证书SSL（SecureSocketsLayer）证书是网
什么是证书吊销列表？CRL 解释 WoTrusSSL ssl https
数字证书是安全在线互动的支柱，用于验证身份和确保加密通信。但是，当这些证书被盗用或滥用时，必须立即撤销它们以维持信任。这就是证书撤销列表(CRL)的作用所在。CRL由证书颁发机构(CA)维护，对于识别和撤销已撤销的证书，防止其造成危害至关重要。在本指南中，我们将探讨什么是CRL、它们如何运作以及为什么它们对网络安全至关重要。什么是证书吊销列表(CRL)？证书吊销列表(CRL)是证书颁发机构(CA)
有必要获得WHQL测试认证吗，有什么好处？
什么是WHQL认证？WHQL是MicrosoftWindowsHardwareQualityLab的缩写，中文意思是Windows硬件设备质量实验室，主要是对Windows操作系统的兼容性测试，检验硬件产品和驱动程序在windows系统下的兼容性和稳定性。当某一硬件或软件通过WHQL测试时，制造商可以在其产品包装和广告上使用“DesignedforWindows”标志。该标志可以证明硬件或软件已经
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
求是网：“内卷式”竞争的突出表现和主要危害有哪些？加百力财经研究科技知识人工智能大数据
"内卷式"竞争主要表现为：企业层面的低价竞争、同质化竞争和营销"逐底竞争"；地方政府层面的违规优惠政策、盲目重复建设和设置市场壁垒。危害体现在三个层面：微观上导致"劣币驱逐良币"，损害消费者利益；中观上破坏行业生态，挤压产业链利润空间；宏观上扭曲资源配置，抑制创新活力。什么是“内卷式”竞争？概括其一般特征，是指经济主体为了维持市场地位或争夺有限市场，不断投入大量精力和资源，却没有带来整体收益增长的
WHQL签名怎么申请 GDCA SSL证书 windows
WHQL（WindowsHardwareQualityLabs）签名是微软对硬件和驱动程序进行认证的一种方式，以确保它们与Windows操作系统的兼容性和稳定性。以下是申请WHQL签名的基本步骤，供您参考：1.准备阶段准备硬件设备和驱动程序：确保您的硬件设备已经准备好，并且对应的驱动程序已经经过充分的测试，能够在各种配置和环境下正常工作。获取EV代码签名证书：根据微软的要求，驱动程序进行WHQL认
JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
发票合并工具小朋的软件园前端 javascript java html 服务器
"发票合并工具"是一款专为高效整理票据设计的实用工具，支持将来自不同渠道的发票文件（如PDF文档、各类图片格式）快速整合为排版规范的PDF文件，尤其适用于财务报销场景下的批量票据处理需求。核心功能亮点多格式兼容：无缝导入PDF文件及常见图片格式（.png/.jpg/.jpeg/.bmp），适配多来源发票整合需求。智能布局配置：提供灵活的页面布局选项（每页2/3/4张发票），其中"2合1"模式针对报
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
Guava LoadingCache sqyaa. java并发编程 Java知识 jvm 缓存 guava
LoadingCache是GoogleGuava库提供的一个高级缓存实现，它通过自动加载机制简化了缓存使用模式。核心特性自动加载机制当缓存未命中时，自动调用指定的CacheLoader加载数据线程安全：并发请求下，相同key只会加载一次灵活的过期策略支持基于写入时间(expireAfterWrite)和访问时间(expireAfterAccess)的过期可设置最大缓存大小，基于LRU策略淘汰丰富的
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
LeetCode 148. 排序链表：归并排序的细节解析进击的小白菜 2025 Top100 详解 leetcode 链表算法
文章目录题目描述一、方法思路：归并排序的核心步骤二、关键实现细节：快慢指针分割链表1.快慢指针的初始化问题2.为什么选择`fast=head.next`？示例1：链表长度为偶数（`1->2->3->4`）三、完整代码实现四、复杂度分析五、总结题目描述LeetCode148题要求对链表进行排序，时间复杂度需为O(nlogn)，且空间复杂度为O(logn)。由于链表的特殊结构（无法随机访问），归并排序
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情