Apache Nutch（一）

Nutch 当前两个版本：

1.6 - Nutch1.6使用Hadoop Distributed File System (HDFS)来作为存储，稳定可靠。
2.1 - 通过gora对存储层进行了扩展，可以选择使用HBase、Accumulo、Cassandra 、MySQL 、DataFileAvroStore、AvroStore中任何一种来存储数据，但其中一些并不成熟。

在Linux（Centos）上搭建 Nutch 框架：

安装 svn
```
yum install subversion
```
安装 ant
```
yum install ant
```
check out nutch（进入 http://nutch.apache.org ，在 Version Control 板块可查看到svn地址。）
```
svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/
```
ant 构建 nutch
```
cd release-1.6/

ant
```

ant 构建完成之后，在 release-1.6 目录下生成两个目录：build、runtime，进入 runtime ，有两个子文件夹：deploy、local，分别代表了nutch两种运行方式：

deploy - hadoop 运行
local - 本地文件系统运行，只能有一个Map和Reduce。

local/bin/nutch ：分析nutch脚本是入门的重点，可以看到通过 nutch 脚本连接Hadoop与Nutch，把apache-nutch-1.6.job提交给Hadoop的JobTracker；同时也可以看到在命令中所指定的是哪个Java类。

Nutch 脚本

#!/bin/bash

#

# Licensed to the Apache Software Foundation (ASF) under one or more

# contributor license agreements.  See the NOTICE file distributed with

# this work for additional information regarding copyright ownership.

# The ASF licenses this file to You under the Apache License, Version 2.0

# (the "License"); you may not use this file except in compliance with

# the License.  You may obtain a copy of the License at

#

#     http://www.apache.org/licenses/LICENSE-2.0

#

# Unless required by applicable law or agreed to in writing, software

# distributed under the License is distributed on an "AS IS" BASIS,

# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

# See the License for the specific language governing permissions and

# limitations under the License.

# 

# The Nutch command script

#

# Environment Variables

#

#   NUTCH_JAVA_HOME The java implementation to use.  Overrides JAVA_HOME.

#

#   NUTCH_HEAPSIZE  The maximum amount of heap to use, in MB. 

#                   Default is 1000.

#

#   NUTCH_OPTS      Extra Java runtime options.

#

cygwin=false

case "`uname`" in

CYGWIN*) cygwin=true;;

esac



# resolve links - $0 may be a softlink

THIS="$0"

while [ -h "$THIS" ]; do

  ls=`ls -ld "$THIS"`

  link=`expr "$ls" : '.*-> \(.*\)$'`

  if expr "$link" : '.*/.*' > /dev/null; then

    THIS="$link"

  else

    THIS=`dirname "$THIS"`/"$link"

  fi

done



# if no args specified, show usage

if [ $# = 0 ]; then

  echo "Usage: nutch COMMAND"

  echo "where COMMAND is one of:"

  echo "  crawl             one-step crawler for intranets (DEPRECATED - USE CRAWL SCRIPT INSTEAD)"

  echo "  readdb            read / dump crawl db"

  echo "  mergedb           merge crawldb-s, with optional filtering"

  echo "  readlinkdb        read / dump link db"

  echo "  inject            inject new urls into the database"

  echo "  generate          generate new segments to fetch from crawl db"

  echo "  freegen           generate new segments to fetch from text files"

  echo "  fetch             fetch a segment's pages"

  echo "  parse             parse a segment's pages"

  echo "  readseg           read / dump segment data"

  echo "  mergesegs         merge several segments, with optional filtering and slicing"

  echo "  updatedb          update crawl db from segments after fetching"

  echo "  invertlinks       create a linkdb from parsed segments"

  echo "  mergelinkdb       merge linkdb-s, with optional filtering"

  echo "  solrindex         run the solr indexer on parsed segments and linkdb"

  echo "  solrdedup         remove duplicates from solr"

  echo "  solrclean         remove HTTP 301 and 404 documents from solr"

  echo "  parsechecker      check the parser for a given url"

  echo "  indexchecker      check the indexing filters for a given url"

  echo "  domainstats       calculate domain statistics from crawldb"

  echo "  webgraph          generate a web graph from existing segments"

  echo "  linkrank          run a link analysis program on the generated web graph"

  echo "  scoreupdater      updates the crawldb with linkrank scores"

  echo "  nodedumper        dumps the web graph's node scores"

  echo "  plugin            load a plugin and run one of its classes main()"

  echo "  junit             runs the given JUnit test"

  echo " or"

  echo "  CLASSNAME         run the class named CLASSNAME"

  echo "Most commands print help when invoked w/o parameters."

  exit 1

fi



# get arguments

COMMAND=$1

shift



# some directories

THIS_DIR=`dirname "$THIS"`

NUTCH_HOME=`cd "$THIS_DIR/.." ; pwd`



# some Java parameters

if [ "$NUTCH_JAVA_HOME" != "" ]; then

  #echo "run java in $NUTCH_JAVA_HOME"

  JAVA_HOME=$NUTCH_JAVA_HOME

fi

  

if [ "$JAVA_HOME" = "" ]; then

  echo "Error: JAVA_HOME is not set."

  exit 1

fi



local=true



# NUTCH_JOB 

if [ -f ${NUTCH_HOME}/*nutch*.job ]; then

    local=false

  for f in $NUTCH_HOME/*nutch*.job; do

    NUTCH_JOB=$f;

  done

fi



# cygwin path translation

if $cygwin; then

  NUTCH_JOB=`cygpath -p -w "$NUTCH_JOB"`

fi



JAVA=$JAVA_HOME/bin/java

JAVA_HEAP_MAX=-Xmx1000m 



# check envvars which might override default args

if [ "$NUTCH_HEAPSIZE" != "" ]; then

  #echo "run with heapsize $NUTCH_HEAPSIZE"

  JAVA_HEAP_MAX="-Xmx""$NUTCH_HEAPSIZE""m"

  #echo $JAVA_HEAP_MAX

fi



# CLASSPATH initially contains $NUTCH_CONF_DIR, or defaults to $NUTCH_HOME/conf

CLASSPATH=${NUTCH_CONF_DIR:=$NUTCH_HOME/conf}

CLASSPATH=${CLASSPATH}:$JAVA_HOME/lib/tools.jar



# so that filenames w/ spaces are handled correctly in loops below

IFS=



# add libs to CLASSPATH

if $local; then

  for f in $NUTCH_HOME/lib/*.jar; do

   CLASSPATH=${CLASSPATH}:$f;

  done

  # local runtime

  # add plugins to classpath

  if [ -d "$NUTCH_HOME/plugins" ]; then

     CLASSPATH=${NUTCH_HOME}:${CLASSPATH}

  fi

fi



# cygwin path translation

if $cygwin; then

  CLASSPATH=`cygpath -p -w "$CLASSPATH"`

fi



# setup 'java.library.path' for native-hadoop code if necessary

# used only in local mode 

JAVA_LIBRARY_PATH=''

if [ -d "${NUTCH_HOME}/lib/native" ]; then

  JAVA_PLATFORM=`CLASSPATH=${CLASSPATH} ${JAVA} org.apache.hadoop.util.PlatformName | sed -e 's/ /_/g'`

  

  if [ -d "${NUTCH_HOME}/lib/native" ]; then

    if [ "x$JAVA_LIBRARY_PATH" != "x" ]; then

      JAVA_LIBRARY_PATH=${JAVA_LIBRARY_PATH}:${NUTCH_HOME}/lib/native/${JAVA_PLATFORM}

    else

      JAVA_LIBRARY_PATH=${NUTCH_HOME}/lib/native/${JAVA_PLATFORM}

    fi

  fi

fi



if [ $cygwin = true -a "X${JAVA_LIBRARY_PATH}" != "X" ]; then

  JAVA_LIBRARY_PATH=`cygpath -p -w "$JAVA_LIBRARY_PATH"`

fi



# restore ordinary behaviour

unset IFS



# default log directory & file

if [ "$NUTCH_LOG_DIR" = "" ]; then

  NUTCH_LOG_DIR="$NUTCH_HOME/logs"

fi

if [ "$NUTCH_LOGFILE" = "" ]; then

  NUTCH_LOGFILE='hadoop.log'

fi



#Fix log path under cygwin

if $cygwin; then

  NUTCH_LOG_DIR=`cygpath -p -w "$NUTCH_LOG_DIR"`

fi



NUTCH_OPTS="$NUTCH_OPTS -Dhadoop.log.dir=$NUTCH_LOG_DIR"

NUTCH_OPTS="$NUTCH_OPTS -Dhadoop.log.file=$NUTCH_LOGFILE"



if [ "x$JAVA_LIBRARY_PATH" != "x" ]; then

  NUTCH_OPTS="$NUTCH_OPTS -Djava.library.path=$JAVA_LIBRARY_PATH"

fi



# figure out which class to run

if [ "$COMMAND" = "crawl" ] ; then

  CLASS=org.apache.nutch.crawl.Crawl

elif [ "$COMMAND" = "inject" ] ; then

  CLASS=org.apache.nutch.crawl.Injector

elif [ "$COMMAND" = "generate" ] ; then

  CLASS=org.apache.nutch.crawl.Generator

elif [ "$COMMAND" = "freegen" ] ; then

  CLASS=org.apache.nutch.tools.FreeGenerator

elif [ "$COMMAND" = "fetch" ] ; then

  CLASS=org.apache.nutch.fetcher.Fetcher

elif [ "$COMMAND" = "parse" ] ; then

  CLASS=org.apache.nutch.parse.ParseSegment

elif [ "$COMMAND" = "readdb" ] ; then

  CLASS=org.apache.nutch.crawl.CrawlDbReader

elif [ "$COMMAND" = "mergedb" ] ; then

  CLASS=org.apache.nutch.crawl.CrawlDbMerger

elif [ "$COMMAND" = "readlinkdb" ] ; then

  CLASS=org.apache.nutch.crawl.LinkDbReader

elif [ "$COMMAND" = "readseg" ] ; then

  CLASS=org.apache.nutch.segment.SegmentReader

elif [ "$COMMAND" = "mergesegs" ] ; then

  CLASS=org.apache.nutch.segment.SegmentMerger

elif [ "$COMMAND" = "updatedb" ] ; then

  CLASS=org.apache.nutch.crawl.CrawlDb

elif [ "$COMMAND" = "invertlinks" ] ; then

  CLASS=org.apache.nutch.crawl.LinkDb

elif [ "$COMMAND" = "mergelinkdb" ] ; then

  CLASS=org.apache.nutch.crawl.LinkDbMerger

elif [ "$COMMAND" = "solrindex" ] ; then

  CLASS=org.apache.nutch.indexer.solr.SolrIndexer

elif [ "$COMMAND" = "solrdedup" ] ; then

  CLASS=org.apache.nutch.indexer.solr.SolrDeleteDuplicates

elif [ "$COMMAND" = "solrclean" ] ; then

  CLASS=org.apache.nutch.indexer.solr.SolrClean

elif [ "$COMMAND" = "parsechecker" ] ; then

  CLASS=org.apache.nutch.parse.ParserChecker

elif [ "$COMMAND" = "indexchecker" ] ; then

  CLASS=org.apache.nutch.indexer.IndexingFiltersChecker

elif [ "$COMMAND" = "domainstats" ] ; then 

  CLASS=org.apache.nutch.util.domain.DomainStatistics

elif [ "$COMMAND" = "webgraph" ] ; then

  CLASS=org.apache.nutch.scoring.webgraph.WebGraph

elif [ "$COMMAND" = "linkrank" ] ; then

  CLASS=org.apache.nutch.scoring.webgraph.LinkRank

elif [ "$COMMAND" = "scoreupdater" ] ; then

  CLASS=org.apache.nutch.scoring.webgraph.ScoreUpdater

elif [ "$COMMAND" = "nodedumper" ] ; then

  CLASS=org.apache.nutch.scoring.webgraph.NodeDumper

elif [ "$COMMAND" = "plugin" ] ; then

  CLASS=org.apache.nutch.plugin.PluginRepository

elif [ "$COMMAND" = "junit" ] ; then

  CLASSPATH=$CLASSPATH:$NUTCH_HOME/test/classes/

  CLASS=junit.textui.TestRunner

else

  CLASS=$COMMAND

fi



# distributed mode

EXEC_CALL="hadoop jar $NUTCH_JOB"



if $local; then

 EXEC_CALL="$JAVA $JAVA_HEAP_MAX $NUTCH_OPTS -classpath $CLASSPATH"

else

 # check that hadoop can be found on the path

 if [ $(which hadoop | wc -l ) -eq 0 ]; then

    echo "Can't find Hadoop executable. Add HADOOP_HOME/bin to the path or run in local mode."

    exit -1;

 fi

fi



# run it

exec $EXEC_CALL $CLASS "$@"

nutch 的所有参数

[root@localhost local]# bin/nutch 

Usage: nutch COMMAND

where COMMAND is one of:

  crawl             one-step crawler for intranets (DEPRECATED - USE CRAWL SCRIPT INSTEAD)

  readdb            read / dump crawl db

  mergedb           merge crawldb-s, with optional filtering

  readlinkdb        read / dump link db

  inject            inject new urls into the database

  generate          generate new segments to fetch from crawl db

  freegen           generate new segments to fetch from text files

  fetch             fetch a segment's pages

  parse             parse a segment's pages

  readseg           read / dump segment data

  mergesegs         merge several segments, with optional filtering and slicing

  updatedb          update crawl db from segments after fetching

  invertlinks       create a linkdb from parsed segments

  mergelinkdb       merge linkdb-s, with optional filtering

  solrindex         run the solr indexer on parsed segments and linkdb

  solrdedup         remove duplicates from solr

  solrclean         remove HTTP 301 and 404 documents from solr

  parsechecker      check the parser for a given url

  indexchecker      check the indexing filters for a given url

  domainstats       calculate domain statistics from crawldb

  webgraph          generate a web graph from existing segments

  linkrank          run a link analysis program on the generated web graph

  scoreupdater      updates the crawldb with linkrank scores

  nodedumper        dumps the web graph's node scores

  plugin            load a plugin and run one of its classes main()

  junit             runs the given JUnit test

 or

  CLASSNAME         run the class named CLASSNAME

Most commands print help when invoked w/o parameters.

[root@localhost local]# bin/nutch crawl

Usage: Crawl <urlDir> -solr <solrURL> [-dir d] [-threads n] [-depth i] [-topN N]

参数的意义：

urlDir - 种子url的目录地址
-solr - <solrUrl>为solr的地址（如果没有则为空）
-dir - 保存爬取文件的目录
-threads - 爬取线程数量（默认10）
-depth - 爬取深度 (默认5）
-topN - 访问的广度（默认是Long.max)

配置 local/conf/nutch-site.xml

Nutch 的提高在于研读nutch-default.xml中每一个配置的实际含义，需要结合源代码理解。打开 local/conf/nutch-default.xml，找到：

<property>

  <name>http.agent.name</name>

  <value></value>

  <description>HTTP 'User-Agent' request header. MUST NOT be empty - 

  please set this to a single word uniquely related to your organization.



  NOTE: You should also check other related properties:



    http.robots.agents

    http.agent.description

    http.agent.url

    http.agent.email

    http.agent.version



  and set their values appropriately.



  </description>

</property>

将以上配置复制到 nutch-site.xml 的 <configuration></configuration> 中，http.agent.name 的value值（<value></value>）是基于浏览器的User-Agent（用户代理），它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等，如：Opera/9.80 (Windows NT 5.1; Edition IBIS) Presto/2.12.388 Version/12.15。这个是Nutch服从Robot协议，所以要改。

添加种子url

在local目录下建文件夹如urls，在urls里面建文件如url，里面加入你要爬取的网站的入口url，如：http://www.163.com/

配置local/conf/regex-urlfilter.txt

打开local/conf/regex-urlfilter.txt，注释掉最后一行，并添上你要抓取的网站的域名：

# skip URLs with slash-delimited segment that repeats 3+ times, to break loops

-.*(/[^/]+)/[^/]+\1/[^/]+\1/



# accept anything else

# +.

+^http://([a-z0-9]*\.)*163\.com/

现在就可以爬取163所有的网页了，在local目录下新建文件夹data，保存爬取内容，选择合适的参数：

nohup bin/nutch crawl urls -dir data &

nohup 命令将把输出的信息附加到的 nohup.out 文件中；在执行 nutch 会把爬虫的记录生成到 local/logs/hadoop.log

在爬取完成后，在 data 的文件夹下会有三个文件夹crawldb、linkdb、segments ：

crawldb - 是所有需要爬取的超链接
Linkdb - 存放的是所有超连接及其每个连接的链入地址和锚文本
segments - 存放的是抓取的页面，以爬取的时间命名，个数不多于爬取的深度，Nutch的爬取策略是广度优先，每一层url生成一个文件夹，直到没有新的url。

在segments有6个文件夹：

crawl_generate - names a set of urls to be fetched（待爬取的url）
crawl_fetch - contains the status of fetching each url（爬取的url的状态）
content - contains the content of each url（页面内容）
parse_text - contains the parsed text of each url（网页的文本信息）
parse_data - contains outlinks and metadata parsed from each url（url解析出来的外链和元数据）
crawl_parse - contains the outlink urls, used to update the crawldb（更新crawldb的外链）

这些文件夹都是不可读的，以方便存取并在高一层进行检索用。如果想看到具体内容，要使用Nutch定义的读取命令：

1、查看CrawlDB（readdb）

[root@localhost local]# bin/nutch readdb

Usage: CrawlDbReader <crawldb> (-stats | -dump <out_dir> | -topN <nnnn> <out_dir> [<min>] | -url <url>)

    <crawldb>    directory name where crawldb is located

    -stats [-sort]     print overall statistics to System.out

        [-sort]    list status sorted by host

    -dump <out_dir> [-format normal|csv|crawldb]    dump the whole db to a text file in <out_dir>

        [-format csv]    dump in Csv format

        [-format normal]    dump in standard format (default option)

        [-format crawldb]    dump as CrawlDB

        [-regex <expr>]    filter records with expression

        [-status <status>]    filter records by CrawlDatum status

    -url <url>    print information on <url> to System.out

    -topN <nnnn> <out_dir> [<min>]    dump top <nnnn> urls sorted by score to <out_dir>

        [<min>]    skip records with scores below this value.

            This can significantly improve performance.

查看URL地址总数和它的状态及评分：

[root@localhost local]# bin/nutch readdb data/crawldb/ -stats

CrawlDb statistics start: data/crawldb/

Statistics for CrawlDb: data/crawldb/

TOTAL urls:    10635

retry 0:    10615

retry 1:    20

min score:    0.0

avg score:    2.6920545E-4

max score:    1.123

status 1 (db_unfetched):    9614

status 2 (db_fetched):    934

status 3 (db_gone):    2

status 4 (db_redir_temp):    81

status 5 (db_redir_perm):    4

CrawlDb statistics: done

导出每个url地址的详细内容：bin/nutch readdb data/crawldb/ -dump crawldb(导出的地址)

2、查看linkdb

查看链接情况：bin/nutch readlinkdb data/linkdb/ -url http://www.163.com/
导出linkdb数据库文件：bin/nutch readlinkdb 163/linkdb/ -dump linkdb(导出的地址)

3、查看segments

bin/nutch readseg -list -dir data/segments/ - 可以看到每一个segments的名称，产生的页面数，抓取的开始时间和结束时间，抓取数和解析数。

[root@localhost local]# bin/nutch readseg -list -dir data/segments/

NAME              GENERATED    FETCHER START          FETCHER END            FETCHED    PARSED

20130427150144    53           2013-04-27T15:01:52    2013-04-27T15:05:15    53         51

20130427150553    1036         2013-04-27T15:06:01    2013-04-27T15:58:09    1094       921

20130427150102    1            2013-04-27T15:01:10    2013-04-27T15:01:10    1          1

导出segments ：bin/nutch readseg -dump data/segments/20130427150144 segdb
其中data/segments/20130427150144 为一个segments文件夹，segdb为存放转换后的内容的文件夹。

最后一个命令可能是最有用的，用于获得页面内容，一般会加上几个选项
bin/nutch readseg -dump data/segments/20130427150144/ data_oscar /segments -nofetch -nogenerate -noparse -noparsedata -nocontent
这样得到的 dump文件只包含网页的正文信息，没有标记。

感谢：http://yangshangchuan.iteye.com

Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
maven-assembly-plugin 打包实例带着二娃去遛弯
1.先在pom.xml文件中添加assembly打包插件org.apache.maven.pluginsmaven-assembly-plugin2.6assembly/assembly.xmlmake-assemblypackagesingle说明:1.需要修改的可能就是descriptors标签下面的打包配置文件目录,指定assembly.xml的路径.2.可以添加多个打包配置文件,进行多种形
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
java 技术架构相关文档圣心 java 架构开发语言
在Java中，有许多不同的技术和架构，这里我将列举一些常见的Java技术和架构，并提供一些相关的文档资源。SpringFrameworkSpring是一个开源的Java/JavaEE全功能框架，以Apache许可证形式发布，提供了一种实现企业级应用的方法。官方文档：SpringFrameworkSpringBootSpringBoot是Spring的一个子项目，旨在简化创建生产级的Spring应用
Apache Shiro安全框架(2)-用户认证 heyrian Java shiro
身份认证在shiro中用户需要提供用户的principals（身份）和credentials（证明）来证明该用户属于当前系统用户。常见的认证方式即用户名/密码。在解释身份认证之前，我们先来看看shiro中的Subject和Realm,这是身份认证的两个关键的概念。Subjectsubject代表当前用户，内部主要维护当前用户信息。shiro中所有的subject都交给SecurityManager
Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
Superset二次开发之源码DependencyList.tsx 分析 aimmon Superset二次开发 Superset BI 二次开发 typescript 前端
功能点路径superset-frontend\src\dashboard\components\nativeFilters\FiltersConfigModal\FiltersConfigForm\DependencyList.tsx/***LicensedtotheApacheSoftwareFoundation(ASF)underone*ormorecontributorlicenseagre
史上最全的maven的pom.xml文件详解 Meta999 Maven
注：详解文件中，用红色进行标注的是平常项目中常用的配置节点。要详细学习！转载的，太经典了、、、、欢迎收藏xxxxxxxxxxxx4.0.0xxxxxxjar1.0-SNAPSHOTxxx-mavenhttp://maven.apache.orgAmavenprojecttostudymaven.jirahttp://jira.baidu.com/[email protected]
利用apache-pdfbox库修改pdf文件模板，进行信息替换区块链攻城狮 pdf 合同模板 pdf生成合同生成
publicStringcreateSignFile(Longid)throwsIOException{//1.验证企业信息CompanyDOcompany=validateCompanyExists(id);//2.验证签约状态if(company.getSignStatus()!=0){throwexception(COMPANY_SIGN_STATUS_NOT_ZERO);}//3.获取合同
Apache DataFusion Python 绑定教程柏赢安Simona
ApacheDataFusionPython绑定教程datafusion-pythonApacheDataFusionPythonBindings项目地址:https://gitcode.com/gh_mirrors/data/datafusion-python项目介绍ApacheDataFusion是一个基于ApacheArrow的内存查询引擎，提供了高性能的查询处理能力。DataFusion的
压测服务器并使用 Grafana 进行可视化豆瑞瑞 grafana
简介仓库代码GitCode-全球开发者的开源社区,开源代码托管平台参考Welcome!-TheApacheHTTPServerProjectGrafana|查询、可视化、警报观测平台https://prometheus.io/docs/introduction/overview/
2.Jmeter安装配置，核心目录详情，组件和作用域 XXX-17 Jmeter jmeter 软件测试接口测试
一、Jmeter安装配置以及核心目录详情Jmeter基于java语言来开发，java需要jdk环境。1.安装jdk并且配置jdk的环境变量。2.jmeter只需要解压就可以使用了。3.在D:\apache-jmeter-5.5\bin目录下双击jmeter.bat文件就可以启动使用了backups：自动备份的目录bin：启动文件、配置文件（jmeter.bat是启动问题，jmeter.propti
BindingException: Invalid bound statement (not found) 小卡车555 MyBatis mybatis java mysql
Mybatis出现绑定异常问题的解决org.apache.ibatis.binding.BindingException:Invalidboundstatement(notfound)一般的原因是Mapperinterface和xml文件的定义对应不上，需要检查包名，namespace，函数名称等能否对应上，需要比较细致的对比，我经常就是写错了一两个字母搞的很长时间找不到错误按以下步骤一一执行：1
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
NoClassDefFoundError: org.apache.poi.POIXMLDocument问题排查解决 qinmingjun718 apache
java.lang.NoClassDefFoundError:org/apache/poi/POIXMLDocumentPart这错很明显就是没找到这个类POIXMLDocumentPart就是找不到类问题原因是大概是因为poi从3.1.X低版本版本升级到pio4.1.2高版本的后与org.apache.poi.xwpf.converter.core-1.0.6.jar不兼容问题，导致这个情况的主
使用poi替换XWPFTableCell内容，并设置行间距 RR369_yyh javaUtil java poi
使用poi读取word文档（docx类型），进行数据替换。另外，为了记录poi设置行间距的api，真是找了好几十分钟才找到啊啊啊啊！！！importorg.apache.poi.xwpf.usermodel.*;importorg.springframework.util.StringUtils;importjava.io.File;importjava.io.FileInputStream;im
揭秘OozieBundle：架构组件与核心概念光剑书架上的书计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
揭秘OozieBundle：架构、组件与核心概念1.背景介绍在大数据领域，数据处理工作流程通常由多个复杂的作业组成,这些作业之间存在着依赖关系。ApacheOozie作为一个工作流调度系统,可以有效管理这些复杂的工作流程。OozieBundle是Oozie提供的一种特殊的工作流程,用于协调和控制多个相关的工作流程。OozieBundle的主要目的是将多个相关的工作流程组织在一起,并根据它们之间的依
Apache POI用法 JH3073 apache
一、ApachePOI是什么ApachePOI是用Java编写的免费开源的跨平台的JavaAPI，ApachePOI提供API给Java程序对MicrosoftOffice格式档案读和写的功能，其中使用最多的就是使用POI操作Excel文件。二、POI结构HSSF－提供读写MicrosoftExcelXLS格式档案的功能XSSF－提供读写MicrosoftExcelOOXMLXLSX格式档案的功能
【LINUX】在ubuntu中安装tomcat 缘起性本空 linux 运维服务器
#instaljdkaptinstallopenjdk-8-jdk-y#enterinstallpathcd/home/a/#copytomcatpackagecp/mnt/hgfs/Share/apache-tomcat-9.0.93.tar.gz.#unpresstomcatpackagetar-xfapache-tomcat-9.0.93.tar.gz#enterbinpathcdapach
最好用的e2e框架，使用 Cypress 让产品持续稳定交付 Node全栈 java python 编程语言软件测试 html
以前我们经常使用nightwatch，现在都已经切换到cypress了，可以说cypress目前最好用的e2e框架。具体原因和对比，就是本文要讲的内容。背景ApacheAPISIXDashboard的设计是为了让用户通过前端界面尽可能方便地操作ApacheAPISIX。从项目初始化到现在，已经有552commits、发布了10个版本。在如此之快的产品迭代过程中，确保开源产品质量显的尤为重要。为此，
Linux下apache的安装轴儿
1.获取软件：http://httpd.apache.org/httpd-2.4.25.tar.gz并上传至服务器。运行以上命令时，可能会出现“APRnotfound.”的错误。此时需要下载依赖包。2.下载安装依赖包：创建文件夹：mkdir/usr/httpd-refercd/usr/httpd-refer/下载依赖包：wgethttp://p5osdejt4.bkt.clouddn.com/ap
使用 Apache Cassandra 实现 LLM 缓存：提升 AI 应用性能的实用指南 afTFODguAKBF apache 缓存人工智能 python
使用ApacheCassandra实现LLM缓存：提升AI应用性能的实用指南引言在当今的AI驱动的应用程序中，大语言模型（LLM）扮演着越来越重要的角色。然而，频繁调用LLMAPI不仅会增加延迟，还会导致高昂的成本。为了解决这个问题，实现有效的缓存策略变得至关重要。本文将介绍如何使用ApacheCassandra®或AstraDB来实现LLM缓存，从而显著提升您的AI应用性能和成本效率。为什么选择
CentOS下php安装mcrypt扩展天咋哭了
（以下步骤均为本人实际操作，可能与你的安装方法有所区别，但我会尽量排除疑惑）大致步骤（1）安装mcrypt，（2）安装php对mcrypt的扩展，（3）重启apache（1）、确认你的linux没有安装mcrypt库，如果已安装，跳过安装步骤[root@test-206~]#yumlistinstalled|grepmcryptlibmcrypt.x86_642.5.8-4.el5.centosi
javaweb基于ssm框架学生信息管理(成绩)系统设计与实现 ancen_73bd
开发平台、开发工具、应用服务器的介绍开发平台：Windows开发工具：idea+mySql应用服务器：ApacheTomcat8.0学生成绩管理系统主要用于学校学生成绩信息管理，能实现学生、老师、院系、班级、课程的增删改查操作，同时学生能进行选课和退课操作，老师能对学生的成绩录入和修改操作。系统流程图功能结构图部分截图免费源码获得：扫码关注微信公众号：ancenok，然后回复：013
ASP.NET Core 入门教学二十八 linux打包部署充值内卷 asp.net linux 后端
在Linux上打包和部署ASP.NETCore应用程序涉及几个步骤。以下是一个详细的指南，帮助你在Linux系统上完成这一过程。1.准备工作确保你的Linux系统已经安装了以下软件：.NETSDK（用于构建应用程序）.NETRuntime（用于运行应用程序）Apache或Nginx（作为反向代理服务器）你可以使用以下命令安装.NETSDK和Runtime：sudoaptupdatesudoapti
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

Apache Nutch（一）

你可能感兴趣的:(apache)