july_2

Apache Nutch 1.7 + Solr 4.4.0安装笔记

Nutch安装
参考文档： http://wiki.apache.org/nutch/NutchTutorial
安装必要程序：
yum update
yum list java*
yum install java-1.7.0-openjdk-devel.x86_64
找到java的安装路径：
参考： http://serverfaullt.com/questions/50883/what-is-the-value-of-java-home-for-centos
设置JAVA_HOME：
参考： http://www.cnblogs.com/zhoulf/archive/2013/02/04/2891608.html
vi + /etc/profile

JAVA_HOME=/usr/lib/jvm/java
JRE_HOME=/usr/lib/jvm/java/jre
PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
export JAVA_HOME JRE_HOME PATH CLASSPATH

使profile文件立即生效：
source /etc/profile
下载二进制包文件：
curl -O http://apache.fayea.com/apache-mirror/nutch/1.7/apache-nutch-1.7-bin.tar.gz
解包：
tar -xvzf apache-nutch-1.7-bin.tar.gz

检验运行文件
cd apache-nutch-1.7
bin/nutch
此时会出现用法帮助，表示安装成功了。
修改文件conf/nutch-site.xml，设置HTTP请求中agent的名字：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<property>
<name> http.agent.name </name>
<value>Friendly Crawler</value>
</property>
</configuration>

创建种子文件夹
mkdir -p urls

执行第一次爬虫任务：
bin/nutch crawl urls -dir crawl

solrUrl is not set, indexing will be skipped...
crawl started in: crawl
rootUrlDir = urls
threads = 10
depth = 5
solrUrl=null
Injector: starting at 2013-09-29 12:01:30
Injector: crawlDb: crawl/crawldb
Injector: urlDir: urls
Injector: Converting injected urls to crawl db entries.
Injector: total number of urls rejected by filters: 0
Injector: total number of urls injected after normalization and filtering: 0
Injector: Merging injected urls into crawl db.
Injector: finished at 2013-09-29 12:01:33, elapsed: 00:00:03
Generator: starting at 2013-09-29 12:01:33
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: true
Generator: normalizing: true
Generator: jobtracker is 'local', generating exactly one partition.
Generator: 0 records selected for fetching, exiting ...
Stopping at depth=0 - no more URLs to fetch.
No URLs to fetch - check your seed list and URL filters.
crawl finished: crawl

由于没有设置任何种子URL，所以爬虫什么都不做就退出了。
将种子URL写到文件urls/seed.txt中：

http://www.36kr.com/

vi conf/regex-urlfilter.txt

# accept anything else
# +.
# added by panjunbiao
+36kr.com

再次执行爬虫程序，发现有些种子网站被skip了：
bin/nutch crawl urls -dir crawl

solrUrl is not set, indexing will be skipped...
crawl started in: crawl
rootUrlDir = urls
threads = 10
depth = 5
solrUrl=null
Injector: starting at 2013-09-29 12:10:24
Injector: crawlDb: crawl/crawldb
Injector: urlDir: urls
Injector: Converting injected urls to crawl db entries.
Injector: total number of urls rejected by filters: 0
Injector: total number of urls injected after normalization and filtering: 1
Injector: Merging injected urls into crawl db.
Injector: finished at 2013-09-29 12:10:27, elapsed: 00:00:03
Generator: starting at 2013-09-29 12:10:27
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: true
Generator: normalizing: true
Generator: jobtracker is 'local', generating exactly one partition.
Generator: Partitioning selected urls for politeness.
Generator: segment: crawl/segments/20130929121029
Generator: finished at 2013-09-29 12:10:30, elapsed: 00:00:03
Fetcher: Your ' http.agent.name ' value should be listed first in 'http.robots.agents' property.
Fetcher: starting at 2013-09-29 12:10:30
Fetcher: segment: crawl/segments/20130929121029
Using queue mode : byHost
Fetcher: threads: 10
Fetcher: time-out divisor: 2
QueueFeeder finished: total 1 records + hit by time limit :0
Using queue mode : byHost
Using queue mode : byHost
Using queue mode : byHost
Using queue mode : byHost
Using queue mode : byHost
Using queue mode : byHost
Using queue mode : byHost
Using queue mode : byHost
Using queue mode : byHost
Using queue mode : byHost
Fetcher: throughput threshold: -1
Fetcher: throughput threshold retries: 5
fetching http://www.36kr.com/ (queue crawl delay=5000ms)
-finishing thread FetcherThread, activeThreads=8
-finishing thread FetcherThread, activeThreads=7
-finishing thread FetcherThread, activeThreads=6
-finishing thread FetcherThread, activeThreads=5
-finishing thread FetcherThread, activeThreads=4
-finishing thread FetcherThread, activeThreads=3
-finishing thread FetcherThread, activeThreads=2
-finishing thread FetcherThread, activeThreads=1
-finishing thread FetcherThread, activeThreads=1
-finishing thread FetcherThread, activeThreads=0
-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0
-activeThreads=0
Fetcher: finished at 2013-09-29 12:10:32, elapsed: 00:00:02
ParseSegment: starting at 2013-09-29 12:10:32
ParseSegment: segment: crawl/segments/20130929121029
http://www.36kr.com/ skipped. Content of size 67099 was truncated to 59363
ParseSegment: finished at 2013-09-29 12:10:33, elapsed: 00:00:01
CrawlDb update: starting at 2013-09-29 12:10:33
CrawlDb update: db: crawl/crawldb
CrawlDb update: segments: [crawl/segments/20130929121029]
CrawlDb update: additions allowed: true
CrawlDb update: URL normalizing: true
CrawlDb update: URL filtering: true
CrawlDb update: 404 purging: false
CrawlDb update: Merging segment data into db.
CrawlDb update: finished at 2013-09-29 12:10:34, elapsed: 00:00:01
Generator: starting at 2013-09-29 12:10:34
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: true
Generator: normalizing: true
Generator: jobtracker is 'local', generating exactly one partition.
Generator: 0 records selected for fetching, exiting ...
Stopping at depth=1 - no more URLs to fetch.
LinkDb: starting at 2013-09-29 12:10:35
LinkDb: linkdb: crawl/linkdb
LinkDb: URL normalize: true
LinkDb: URL filter: true
LinkDb: internal links will be ignored.
LinkDb: adding segment: file:/root/apache-nutch-1.7/crawl/segments/20130929121029
LinkDb: finished at 2013-09-29 12:10:36, elapsed: 00:00:01
crawl finished: crawl

为什么呢？用tcpdump或者wireshark抓包发现，该网站的页面内容采用truncate的方式分段返回，而nutch的默认设置是不处理这种方式的，需要打开之，修改conf/nutch-site.xml，在里面增加一个 parser.skip.truncated 属性:
<property>
<name>parser.skip.truncated</name>
<value>false</value>
</property>
参考： http://lucene.472066.n3.nabble.com/Content-Truncation-in-Nutch-2-1-MySQL-td4038888.html
修改后再次执行爬虫任务，已经能够正常抓取了：
bin/nutch crawl urls -dir crawl

爬取结果分析
crawlDir目录下将出现如下3个子目录：

crawldb,
其中是Nutch已知的全部URL(包括已经爬取的和未爬取的，爬取的时间）。

linkdb,其中是到每个URL的已知链接列表，包括源URL和链接的锚名字。

segments,其中是segment的集合。一个segment是URLs的集合，这些URLs作为一个单位（unit）被爬取。

crawl_generate，命名爬取的URLs集合

crawl_fetch，包含每个URL的爬取状态

content，包含从每个URL爬取的原始内容

parse_text，包含每个URL的解析之后的文本
Solr安装
下载安装文件
curl -O http://mirrors.cnnic.cn/apache/lucene/solr/4.4.0/solr-4.4.0.tgz
tar -xvzf solr-4.4.0.tgz
cd solr-4.4.0/example
java -jar start.jar
验证Solr安装
http://117.121.25.217:8983/solr/
集成Nutch与Solr
vi + /etc/profile

NUTCH_RUNTIME_HOME=/root/apache-nutch-1.7APACHE_SOLR_HOME=/root/solr-4.4.0export JAVA_HOME JRE_HOME PATH CLASSPATH NUTCH_RUNTIME_HOME APACHE_SOLR_HOME

source /etc/profile
mkdir ${APACHE_SOLR_HOME}/example/solr/conf
cp ${NUTCH_RUNTIME_HOME}/conf/schema.xml ${APACHE_SOLR_HOME}/example/solr/conf/
重新启动solr的start程序
java -jar start.jar
建立索引：
bin/nutch crawl urls -dir crawl -depth 2 -topN 5 -solr http://localhost:8983/solr/
索引出错：

Active IndexWriters :
SOLRIndexWriter
     solr.server.url : URL of the SOLR instance (mandatory)
     solr.commit.size : buffer size when sending to SOLR (default 1000)
     solr.mapping.file : name of the mapping file for fields (default solrindex-mapping.xml)
     solr.auth : use authentication (default false)
     solr.auth.username : use authentication (default false)
     solr.auth : username for authentication
     solr.auth.password : password for authentication
Exception in thread "main" java.io.IOException: Job failed!
     at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357)
     at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:123)
     at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:81)
     at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:65)
     at org.apache.nutch.crawl.Crawl.run(Crawl.java:155)
     at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

检查Solr的日志：

2859895 [qtp1478922764-16] INFO org.apache.solr.update.processor.LogUpdateProcessor ? [collection1] webapp=/solr path=/update params={wt=javabin&version=2} {} 0 1
2859902 [qtp1478922764-16] ERROR org.apache.solr.core.SolrCore ? org.apache.solr.common.SolrException: ERROR: [doc=http://www.36kr.com/] unknown field 'host'
     at org.apache.solr.update.DocumentBuilder.toDocument(DocumentBuilder.java:174)
     at org.apache.solr.update.AddUpdateCommand.getLuceneDocument(AddUpdateCommand.java:73)
     at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:210)
     at org.apache.solr.update.processor.RunUpdateProcessor.processAdd(RunUpdateProcessorFactory.java:69)
     at org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:51)
     at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalAdd(DistributedUpdateProcessor.java:556)
     at org.apache.solr.update.processor.DistributedUpdateProcessor.versionAdd(DistributedUpdateProcessor.java:692)
     at org.apache.solr.update.processor.DistributedUpdateProcessor.processAdd(DistributedUpdateProcessor.java:435)
     at org.apache.solr.update.processor.LogUpdateProcessor.processAdd(LogUpdateProcessorFactory.java:100)
     at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:246)
     at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:173)
     at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:92)
     at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)
     at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)
     at org.apache.solr.core.SolrCore.execute(SolrCore.java:1904)
     at org.apache.solr.servlet.SolrDispatchFilter.execute(SolrDispatchFilter.java:659)
     at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:362)
     at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:158)
     at org.eclipse.jetty.servlet.ServletHandler$CachedChain.doFilter(ServletHandler.java:1419)
     at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:455)
     at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:137)
     at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:557)
     at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:231)
     at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1075)
     at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:384)
     at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:193)
     at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1009)
     at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:135)
     at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:255)
     at org.eclipse.jetty.server.handler.HandlerCollection.handle(HandlerCollection.java:154)
     at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116)
     at org.eclipse.jetty.server.Server.handle(Server.java:368)
     at org.eclipse.jetty.server.AbstractHttpConnection.handleRequest(AbstractHttpConnection.java:489)
     at org.eclipse.jetty.server.BlockingHttpConnection.handleRequest(BlockingHttpConnection.java:53)
     at org.eclipse.jetty.server.AbstractHttpConnection.content(AbstractHttpConnection.java:953)
     at org.eclipse.jetty.server.AbstractHttpConnection$RequestHandler.content(AbstractHttpConnection.java:1014)
     at org.eclipse.jetty.http.HttpParser.parseNext(HttpParser.java:953)
     at org.eclipse.jetty.http.HttpParser.parseAvailable(HttpParser.java:235)
     at org.eclipse.jetty.server.BlockingHttpConnection.handle(BlockingHttpConnection.java:72)
     at org.eclipse.jetty.server.bio.SocketConnector$ConnectorEndPoint.run(SocketConnector.java:264)
     at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:608)
     at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:543)
     at java.lang.Thread.run(Thread.java:724)
2859920 [qtp1478922764-16] INFO org.apache.solr.update.processor.LogUpdateProcessor ? [collection1] webapp=/solr path=/update params={wt=javabin&version=2} {} 0 5
2859921 [qtp1478922764-16] ERROR org.apache.solr.core.SolrCore ? org.apache.solr.common.SolrException: ERROR: [doc=http://www.36kr.com/] unknown field 'host'
     at org.apache.solr.update.DocumentBuilder.toDocument(DocumentBuilder.java:174)
     at org.apache.solr.update.AddUpdateCommand.getLuceneDocument(AddUpdateCommand.java:73)
     at org.apache.solr.update.DirectUpdateHandler2.addDoc(DirectUpdateHandler2.java:210)
     at org.apache.solr.update.processor.RunUpdateProcessor.processAdd(RunUpdateProcessorFactory.java:69)
     at org.apache.solr.update.processor.UpdateRequestProcessor.processAdd(UpdateRequestProcessor.java:51)
     at org.apache.solr.update.processor.DistributedUpdateProcessor.doLocalAdd(DistributedUpdateProcessor.java:556)
     at org.apache.solr.update.processor.DistributedUpdateProcessor.versionAdd(DistributedUpdateProcessor.java:692)
     at org.apache.solr.update.processor.DistributedUpdateProcessor.processAdd(DistributedUpdateProcessor.java:435)
     at org.apache.solr.update.processor.LogUpdateProcessor.processAdd(LogUpdateProcessorFactory.java:100)
     at org.apache.solr.handler.loader.XMLLoader.processUpdate(XMLLoader.java:246)
     at org.apache.solr.handler.loader.XMLLoader.load(XMLLoader.java:173)
     at org.apache.solr.handler.UpdateRequestHandler$1.load(UpdateRequestHandler.java:92)
     at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(ContentStreamHandlerBase.java:74)
     at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:135)
     at org.apache.solr.core.SolrCore.execute(SolrCore.java:1904)
     at org.apache.solr.servlet.SolrDispatchFilter.execute(SolrDispatchFilter.java:659)
     at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:362)
     at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:158)
     at org.eclipse.jetty.servlet.ServletHandler$CachedChain.doFilter(ServletHandler.java:1419)
     at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:455)
     at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:137)
     at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:557)
     at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:231)
     at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1075)
     at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:384)
     at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:193)
     at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1009)
     at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:135)
     at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:255)
     at org.eclipse.jetty.server.handler.HandlerCollection.handle(HandlerCollection.java:154)
     at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116)
     at org.eclipse.jetty.server.Server.handle(Server.java:368)
     at org.eclipse.jetty.server.AbstractHttpConnection.handleRequest(AbstractHttpConnection.java:489)
     at org.eclipse.jetty.server.BlockingHttpConnection.handleRequest(BlockingHttpConnection.java:53)
     at org.eclipse.jetty.server.AbstractHttpConnection.content(AbstractHttpConnection.java:953)
     at org.eclipse.jetty.server.AbstractHttpConnection$RequestHandler.content(AbstractHttpConnection.java:1014)
     at org.eclipse.jetty.http.HttpParser.parseNext(HttpParser.java:953)
     at org.eclipse.jetty.http.HttpParser.parseAvailable(HttpParser.java:235)
     at org.eclipse.jetty.server.BlockingHttpConnection.handle(BlockingHttpConnection.java:72)
     at org.eclipse.jetty.server.bio.SocketConnector$ConnectorEndPoint.run(SocketConnector.java:264)
     at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:608)
     at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:543)
     at java.lang.Thread.run(Thread.java:724)

这个问题可以参考 http://stackoverflow.com/questions/13429481/error-while-indexing-in-solr-data-crawled-by-nutch
类似的还有其他一些字段需要补充，方法是编辑 ~/solr-4.4.0/example/solr/collection1/conf/schema.xml，在<field>…</fields>中增加以下的字段：

安装验证
重新开始抓取：

[root@localhost apache-nutch-1.7]# rm crawl/ -Rf
[root@localhost apache-nutch-1.7]# bin/nutch crawl urls -dir crawl -depth 2 -topN 5 -solr http://localhost:8983/solr/
crawl started in: crawl
rootUrlDir = urls
threads = 10
depth = 2
solrUrl=http://localhost:8983/solr/
topN = 5
Injector: starting at 2013-09-29 15:27:35
Injector: crawlDb: crawl/crawldb
Injector: urlDir: urls
Injector: Converting injected urls to crawl db entries.
Injector: total number of urls rejected by filters: 0
Injector: total number of urls injected after normalization and filtering: 1
Injector: Merging injected urls into crawl db.
Injector: finished at 2013-09-29 15:27:38, elapsed: 00:00:02
Generator: starting at 2013-09-29 15:27:38
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: true
Generator: normalizing: true
Generator: topN: 5
Generator: jobtracker is 'local', generating exactly one partition.
Generator: Partitioning selected urls for politeness.
Generator: segment: crawl/segments/20130929152740
Generator: finished at 2013-09-29 15:27:41, elapsed: 00:00:03
Fetcher: Your ' http.agent.name ' value should be listed first in 'http.robots.agents' property.
Fetcher: starting at 2013-09-29 15:27:41
Fetcher: segment: crawl/segments/20130929152740
Using queue mode : byHost
Fetcher: threads: 10
Fetcher: time-out divisor: 2
QueueFeeder finished: total 1 records + hit by time limit :0
Using queue mode : byHost
Using queue mode : byHost
fetching http://www.36kr.com/ (queue crawl delay=5000ms)
Using queue mode : byHost
Using queue mode : byHost
Using queue mode : byHost
Using queue mode : byHost
Using queue mode : byHost
Using queue mode : byHost
Using queue mode : byHost
Using queue mode : byHost
Fetcher: throughput threshold: -1
Fetcher: throughput threshold retries: 5
-finishing thread FetcherThread, activeThreads=8
-finishing thread FetcherThread, activeThreads=7
-finishing thread FetcherThread, activeThreads=6
-finishing thread FetcherThread, activeThreads=5
-finishing thread FetcherThread, activeThreads=4
-finishing thread FetcherThread, activeThreads=3
-finishing thread FetcherThread, activeThreads=2
-finishing thread FetcherThread, activeThreads=1
-finishing thread FetcherThread, activeThreads=1
-finishing thread FetcherThread, activeThreads=0
-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0
-activeThreads=0
Fetcher: finished at 2013-09-29 15:27:43, elapsed: 00:00:02
ParseSegment: starting at 2013-09-29 15:27:43
ParseSegment: segment: crawl/segments/20130929152740
Parsed (25ms): http://www.36kr.com/
ParseSegment: finished at 2013-09-29 15:27:45, elapsed: 00:00:02
CrawlDb update: starting at 2013-09-29 15:27:45
CrawlDb update: db: crawl/crawldb
CrawlDb update: segments: [crawl/segments/20130929152740]
CrawlDb update: additions allowed: true
CrawlDb update: URL normalizing: true
CrawlDb update: URL filtering: true
CrawlDb update: 404 purging: false
CrawlDb update: Merging segment data into db.
CrawlDb update: finished at 2013-09-29 15:27:47, elapsed: 00:00:01
Generator: starting at 2013-09-29 15:27:47
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: true
Generator: normalizing: true
Generator: topN: 5
Generator: jobtracker is 'local', generating exactly one partition.
Generator: Partitioning selected urls for politeness.
Generator: segment: crawl/segments/20130929152749
Generator: finished at 2013-09-29 15:27:50, elapsed: 00:00:03
Fetcher: Your ' http.agent.name ' value should be listed first in 'http.robots.agents' property.
Fetcher: starting at 2013-09-29 15:27:50
Fetcher: segment: crawl/segments/20130929152749
Using queue mode : byHost
Fetcher: threads: 10
Fetcher: time-out divisor: 2
QueueFeeder finished: total 5 records + hit by time limit :0
Using queue mode : byHost
Using queue mode : byHost
fetching http://www.36kr.com/category/breaking (queue crawl delay=5000ms)
Using queue mode : byHost
Using queue mode : byHost
Using queue mode : byHost
Using queue mode : byHost
Using queue mode : byHost
Using queue mode : byHost
Using queue mode : byHost
Using queue mode : byHost
Fetcher: throughput threshold: -1
Fetcher: throughput threshold retries: 5
-activeThreads=10, spinWaiting=10, fetchQueues.totalSize=4
* queue: http://www.36kr.com
maxThreads    = 1
inProgress    = 0
crawlDelay    = 5000
minCrawlDelay = 0
nextFetchTime = 1380439675396
now           = 1380439671274
0. http://www.36kr.com/p/206589.html
1. http://www.36kr.com/category/cn-news
2. http://www.36kr.com/category/column
3. http://www.36kr.com/guolee89
-activeThreads=10, spinWaiting=10, fetchQueues.totalSize=4
* queue: http://www.36kr.com
maxThreads    = 1
inProgress    = 0
crawlDelay    = 5000
minCrawlDelay = 0
nextFetchTime = 1380439675396
now           = 1380439672275
0. http://www.36kr.com/p/206589.html
1. http://www.36kr.com/category/cn-news
2. http://www.36kr.com/category/column
3. http://www.36kr.com/guolee89
-activeThreads=10, spinWaiting=10, fetchQueues.totalSize=4
* queue: http://www.36kr.com
maxThreads    = 1
inProgress    = 0
crawlDelay    = 5000
minCrawlDelay = 0
nextFetchTime = 1380439675396
now           = 1380439673277
0. http://www.36kr.com/p/206589.html
1. http://www.36kr.com/category/cn-news
2. http://www.36kr.com/category/column
3. http://www.36kr.com/guolee89
-activeThreads=10, spinWaiting=10, fetchQueues.totalSize=4。。。-activeThreads=10, spinWaiting=10, fetchQueues.totalSize=1
* queue: http://www.36kr.com
maxThreads    = 1
inProgress    = 0
crawlDelay    = 5000
minCrawlDelay = 0
nextFetchTime = 1380439690613
now           = 1380439690291
0. http://www.36kr.com/guolee89
fetching http://www.36kr.com/guolee89 (queue crawl delay=5000ms)
-finishing thread FetcherThread, activeThreads=9
-finishing thread FetcherThread, activeThreads=8
-finishing thread FetcherThread, activeThreads=7
-finishing thread FetcherThread, activeThreads=6
-finishing thread FetcherThread, activeThreads=5
-finishing thread FetcherThread, activeThreads=4
-finishing thread FetcherThread, activeThreads=3
-finishing thread FetcherThread, activeThreads=2
-finishing thread FetcherThread, activeThreads=1
-finishing thread FetcherThread, activeThreads=0
-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0
-activeThreads=0
Fetcher: finished at 2013-09-29 15:28:12, elapsed: 00:00:22
ParseSegment: starting at 2013-09-29 15:28:12
ParseSegment: segment: crawl/segments/20130929152749
Parsed (8ms): http://www.36kr.com/category/breaking
Parsed (6ms): http://www.36kr.com/category/cn-news
Parsed (6ms): http://www.36kr.com/category/column
Parsed (3ms): http://www.36kr.com/guolee89
Parsed (6ms): http://www.36kr.com/p/206589.html
ParseSegment: finished at 2013-09-29 15:28:14, elapsed: 00:00:02
CrawlDb update: starting at 2013-09-29 15:28:14
CrawlDb update: db: crawl/crawldb
CrawlDb update: segments: [crawl/segments/20130929152749]
CrawlDb update: additions allowed: true
CrawlDb update: URL normalizing: true
CrawlDb update: URL filtering: true
CrawlDb update: 404 purging: false
CrawlDb update: Merging segment data into db.
CrawlDb update: finished at 2013-09-29 15:28:15, elapsed: 00:00:01
LinkDb: starting at 2013-09-29 15:28:15
LinkDb: linkdb: crawl/linkdb
LinkDb: URL normalize: true
LinkDb: URL filter: true
LinkDb: internal links will be ignored.
LinkDb: adding segment: file:/root/apache-nutch-1.7/crawl/segments/20130929152740
LinkDb: adding segment: file:/root/apache-nutch-1.7/crawl/segments/20130929152749
LinkDb: finished at 2013-09-29 15:28:16, elapsed: 00:00:01
Indexer: starting at 2013-09-29 15:28:16
Indexer: deleting gone documents: false
Indexer: URL filtering: false
Indexer: URL normalizing: false
Active IndexWriters :
SOLRIndexWriter
     solr.server.url : URL of the SOLR instance (mandatory)
     solr.commit.size : buffer size when sending to SOLR (default 1000)
     solr.mapping.file : name of the mapping file for fields (default solrindex-mapping.xml)
     solr.auth : use authentication (default false)
     solr.auth.username : use authentication (default false)
     solr.auth : username for authentication
     solr.auth.password : password for authentication
Indexer: finished at 2013-09-29 15:28:19, elapsed: 00:00:03
SolrDeleteDuplicates: starting at 2013-09-29 15:28:19
SolrDeleteDuplicates: Solr url: http://localhost:8983/solr/
SolrDeleteDuplicates: finished at 2013-09-29 15:28:20, elapsed: 00:00:01
crawl finished: crawl

检索抓取到的内容，用浏览器打开 http://localhost:8983/solr/#/collection1/query

你可能感兴趣的:(Apache Nutch 1.7 + Solr 4.4.0安装笔记)

【apache-maven3.9安装与配置】大叔是90后大叔 Java apache java maven
apache-maven3.9安装与配置apache-maven3.9安装与配置已安装JDK8+（推荐JDK11/17）‌安装步骤1.下载Maven3.9‌2.解压并移动到安装目录‌3.配置环境变量‌4.验证安装‌配置优化‌‌1.镜像加速（国内用户必做）‌‌2.自定义本地仓库位置（可选）‌‌3.配置IDE中的Maven‌常见问题解决‌‌mvn:commandnotfound‌‌依赖下载失败‌JDK
zephyr OS 线程的使用
目录概述1线程的概念1.1线程定义1.2线程的本质定义1.3线程的核心组成要素1.4线程与进程的对比1.5线程在RTOS中的关键特性1.6线程的同步与通信1.7线程在嵌入式系统的特殊考量1.8多线程编程模型2ZephyrRTOS中线程2.1创建线程的步骤2.2ZephyrRTOS中线程定义2.3关键API函数2.4线程中的睡眠函数3线程应用实践3.1完整线程定义模板3.1.1源代码3.1.2关键细
Ubuntu下安装Moodle平台 swy520 ubuntu Moodle ubuntu Moodle
一前言Moodle是一个开源课程管理系统（CMS），也被称为学习管理系统（LMS）或虚拟学习环境（VLE），它通常用来播放符合SCORM标准的课件，但功能远不止课程管理，作业模块等功能。这里主要介绍moodle的安装方法。二安装准备Moodle通常在Linux操作系统上，基于Apache，PostgreSQL/MySQL/MariaDB和PHP进行开发。为了平台的稳定性，我们选择Linux操作系统
（较详细）Kafka 安装配置耐思nice～数据分析 kafka 分布式
一，kafka介绍Kafka是一个分布式的消息队列系统，用于高效处理和传递大规模数据流。本文将指导您如何在您的系统上安装和配置Kafka。二，步骤概述1，下载Kafka前往,kafka官网下载Kafka（ApacheKafka）。2，安装Java确保您的系统上已安装Java。Kafka是用Java开发的，因此需要Java环境来运行。3，解压Kafka将下载的Kafka压缩文件解压到您选择的目录中。
【TVM 教程】PAPI 入门
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/性能应用程序编程接口（PerformanceApplicationProgrammingInterface，简称PAPI）是一个可在各种平台上提供性能计数器的库。在指定的运行期间，性能计数器提供处理器行为的准确底层信息，包含简单的指标，如总
JMeter中变量如何使用？测试者家园智能化测试性能测试 JMeter jmeter 智能化测试性能测试软件测试质量效能软件开发和测试持续测试
在性能测试的世界中，ApacheJMeter是一把利器，凭借其强大的可扩展性与图形化操作界面，在工业界和开源社区中广受青睐。而“变量的使用”作为JMeter中提高测试灵活性、可维护性和复用性的关键技术点，却常常被初学者忽略或误用。本文将从变量的定义方式、作用域、典型应用场景到高级技巧全面展开剖析，并结合实际案例为读者提供具有启发性的思维视角。一、什么是变量？为什么JMeter离不开它？JMeter
解决报错：org.apache.catalina.connector.ClientAbortException: java.io.IOException: Broken pipe 天黑请闭眼 Java异常处理 java
目录一、场景二、报错信息三、原因四、解决一、场景1、前端调用后端接口报错2、接口功能为导出excel二、报错信息org.apache.catalina.connector.ClientAbortException:java.io.IOException:Brokenpipeatorg.apache.catalina.connector.OutputBuffer.realWriteBytes(Out
Burrow - Kafka 消费者滞后检查工具虞耀炜
Burrow-Kafka消费者滞后检查工具BurrowKafkaConsumerLagChecking项目地址:https://gitcode.com/gh_mirrors/bu/Burrow项目基础介绍和主要编程语言Burrow是一个由LinkedIn开发的开源项目，旨在为ApacheKafka提供消费者滞后检查服务。该项目的主要编程语言是Go，利用Go语言的高效性能和并发处理能力，Burrow
探索Kafka监控新维度：Burrow深度解析孙爽知Kody
探索Kafka监控新维度：Burrow深度解析BurrowKafkaConsumerLagChecking项目地址:https://gitcode.com/gh_mirrors/bu/Burrow项目介绍在大数据领域，ApacheKafka作为实时数据流处理的领军者，其稳定性和性能备受赞誉。然而，对于消费者端的监控始终是一个挑战。这时，LinkedIn开源的Burrow应运而生，它是一款专为Kaf
TDengine 运维全攻略：五种备份与恢复方法深度解析（2025 最新版） TDengine （老段） TDengine 运维 tdengine 运维大数据涛思数据物联网时序数据库数据库
备份与还原是数据库运维的核心环节，TDengine提供了五种主流数据备份方法，覆盖不同场景需求。本文将详细解析各方法的特性与操作要点。1.taosdump介绍taosdump是TDengine社区版首选的数据备份工具（企业版同样支持），其核心特点是操作简便、支持多线程处理，且备份文件采用ApacheAvro格式（大数据领域通用数据交换格式），便于向其他系统共享数据。工具支持跨平台连接远程服务器执行
Flink项目基础配置指南 Edingbrugh.南空 flink 大数据 flink 大数据
在大数据处理领域，ApacheFlink凭借强大的实时流处理和批处理能力，成为众多开发者的首选工具。在日常工作中，开发FlinkJar任务是常见需求，但每次都需重复配置日志、梳理pom依赖、设置打包插件等，流程繁琐且易出错。为提升开发效率，减少重复劳动，将这些基础配置进行整理归纳十分必要。本文将围绕Flink项目的本地日志配置、pom依赖及插件配置展开详细介绍，为开发者提供一套可直接复用的基础配置
Apache SeaTunnel Flink引擎执行流程源码分析 Code Monkey’s Lab 源码分析 Flink flink 大数据架构 seatunnel
目录1.任务启动入口2.任务执行命令类：FlinkTaskExecuteCommand3.FlinkExecution的创建与初始化3.1核心组件初始化3.2关键对象说明4.任务执行：FlinkExecution.execute()5.Source处理流程5.1插件初始化5.2数据流生成6.Transform处理流程6.1插件初始化6.2转换执行7.Sink处理流程7.1插件初始化7.2数据输出执
使用POI导入Excel文件数据处理生活压力大 Java开发 poi java excel
前言最近项目中做了一个Excel模板导入功能，需要将文件中的数据获取后保存，优于Excel文件中表头多行，数据比较凌乱所以采用了POI进行导入。引入jar包我的是maven项目，所以直接在pom文件中引入相关依赖即可，我使用的jar包为3.16：org.apache.poipoi3.16org.apache
Apache POI导入导出excel文件实战小白de成长之路 Java相关 apache excel 前端
文章目录前言技术栈1、引入依赖2、导入代码实现3、导出代码实现3.1、准备导出文件模板3.2、导出代码实现4、代码实现解释5、常见问题前言这两天公司项目业务提出需求，要求在前端上传excel文件然后解析展示，因此写篇文章记录一下实现。技术栈springboot2.6.61、引入依赖maven格式：org.apache.poipoi3.14org.apache.poipoi-ooxml3.142、导
事件驱动架构（EDA）：不止是代码，更是现代运维的灵魂运维开发王义杰系统运维系统架构 aws 架构运维
今天我们来聊一个在云原生时代越来越火热的概念——事件驱动架构（Event-DrivenArchitecture,EDA）。大家可能在浏览AWSEventBridge、ApacheKafka或RabbitMQ的文档时遇到过它。起初，可能会觉得这只是软件工程师在设计微服务时用到的一种模式。但如果我们深入思考就会发现，EDA的精髓早已渗透到现代系统运维的方方面面，甚至可以说，它是一种构建和管理高韧性、高
获取周末及节假日 qiuJun998 获取周末获取节假日
packagecom.testwar.util.testWeekAndJiiejiari.weekAndHolidaySuccess;importorg.apache.commons.collections4.CollectionUtils;importorg.javatuples.Pair;importjava.util.ArrayList;importjava.util.List;import
【pdf】Java代码生成PDF Leslie_Lei #pdf pdf java
目录依赖创建单元格表格数据行辅助添加方法创建表头单元格创建下划线创建带下划线的文字创建PDF依赖com.itextpdfitextpdf5.4.2org.apache.pdfboxpdfbox2.0.13com.itextpdfitext-asian5.2.0创建单元格/***创建单元格**@paramtext显示值*@paramfont字体*@paramhorizontalAlign值水平显示位
Python HTTP日志分析：Nginx/Apache日志的Python解析华科℡云网络协议负载均衡运维
Web服务器日志是监控流量模式、性能瓶颈及安全威胁的关键数据源。Python凭借其丰富的库生态，可高效解析Nginx与Apache的日志格式，实现结构化数据提取与分析。日志格式解析基础Nginx默认采用combined格式，字段包括：$remote_addr（客户端IP）、$time_local（时间戳）、$request（请求方法+URL+协议）、$status（HTTP状态码）、$body_b
浅谈HttpClient weixin_34092455 网络
为什么80%的码农都做不了架构师？>>>HttpClient简介HttpClient是ApacheJakartaCommon下的子项目，可以用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包，并且它支持HTTP协议最新的版本和建议。HttpClient支持的功能如下：支持Http0.9、Http1.0和Http1.1协议。实现了Http全部的方法（GET,POST,PUT,HEA
本地搭建WordPress （XAMPP环境） weixin_30577801 数据库运维 php
1，XAMPP是一个流行的PHP开发环境，官网下载：https://www.apachefriends.org/zh_cn/index.html然后安装。官方介绍：XAMPP是最流行的PHP开发环境XAMPP是完全免费且易于安装的Apache发行版，其中包含MariaDB、PHP和Perl。XAMPP开放源码包的设置让安装和使用出奇容易。2，WordPress官网下载：https://cn.wor
org.apache.rocketmq.client.consumer.DefaultMQPushConsumer.setNamespaceV2(java.lang.String) not exist nextera-void java-rocketmq apache rocketmq
***************************APPLICATIONFAILEDTOSTART***************************Description:Anattemptwasmadetocallamethodthatdoesnotexist.Theattemptwasmadefromthefollowinglocation:org.apache.rocketmq.sp
SpringBoot Admin 详解 m0_74824170 spring boot 后端 java
SpringBootAdmin详解一、Actuator详解1.Actuator原生端点1.1监控检查端点：health1.2应用信息端点：info1.3http调用记录端点：httptrace1.4堆栈信息端点：heapdump1.5线程信息端点：threaddump1.6获取全量Bean的端点：beans1.7条件自动配置端点：conditions1.8配置属性端点：configprops1.9
SpringBoot整合百度翻译API全攻略在Spring Boot项目的pom.xml文件中添加必要的依赖 2501_92020556 dubbo
整合百度翻译API到SpringBoot项目注册百度翻译开发者账号在百度翻译开放平台（http://api.fanyi.baidu.com）注册账号，创建应用获取APIKey和SecretKey。这两个参数是调用翻译API的必要凭证。添加Maven依赖在SpringBoot项目的pom.xml文件中添加必要的依赖，包括HTTP客户端和JSON处理库：org.apache.httpcomponent
Apache 支持 HTTPS 童心同萌 https 服务器网络协议
证书文件提取私钥opensslpkcs12-incert.pfx-nocerts-outprivate.key-nodes打开命令行（CMD或PowerShell），进入证书所在目录，输入上面命令，它会提示你输入密码，可以从password.txt中复制提取证书opensslpkcs12-incert.pfx-clcerts-nokeys-outcert.pemhttpd.confLoadModu
Apache Flink深度解析：现代流处理引擎暴躁哥大数据技术 apache flink 大数据
好的，我来帮您写一篇关于Flink技术的详细介绍博客：ApacheFlink深度解析：现代流处理引擎一、Flink简介ApacheFlink是一个开源的分布式流处理和批处理统一计算引擎。它提供了数据流上的状态计算、精确一次性语义保证、高吞吐、低延迟等特性，能够运行在所有常见的集群环境中。1.1核心特性统一的流批处理精确一次性语义事件时间处理有状态计算高吞吐和低延迟高可用性配置内存管理二、Flink
Java云原生性能测试的3大必杀技：JMeter、Jenkins、Docker，选哪个才是王道？墨瑾轩 Java乐园 java 云原生 jmeter
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣**三大必杀技——从"手忙脚乱"到"全自动"的完整攻略**必杀技一：JMeter——"性能体检师"的精准诊断问题：想模拟高并发场景，但手动测试太慢？解决方案：原理：通过ApacheJMeter设计测试计划，像"医疗扫描仪"一样模拟用户行为，测量响应时间、吞吐量
Java--程序控制结构（下）阿亮爱学代码 Java java 开发语言程序控制结构 java基础讲解循环控制
目录1.1for循环控制注意事项和细节说明：练习：打印1-100之间所有是9的倍数的整数，统计个数及总和我们进行代码优化：代码：1.2while循环控制1.3do...while循环控制1.4多重循环控制（重点）1.5break跳转控制语句细节：1.6continue跳转语句1.7return跳转语句1.1for循环控制介绍：听其名而知其意，就是让你的代码可以循环的执行语法：for（循环变量初始化
将html静态页面转化为图片
packagecom.demo.common.utils;importlombok.extern.slf4j.Slf4j;importorg.apache.commons.io.FileUtils;importorg.apache.commons.lang3.StringUtils;importorg.w3c.dom.Document;importorg.xhtmlrenderer.swing.J
Flink SQL Connector Kafka 核心参数全解析与实战指南 Edingbrugh.南空 kafka flink 大数据 flink sql kafka
FlinkSQLConnectorKafka是连接FlinkSQL与Kafka的核心组件，通过将Kafka主题抽象为表结构，允许用户使用标准SQL语句完成数据读写操作。本文基于ApacheFlink官方文档（2.0版本），系统梳理从表定义、参数配置到实战调优的全流程指南，帮助开发者高效构建实时数据管道。一、依赖配置与环境准备1.1Maven依赖引入在FlinkSQL项目中使用Kafka连接器需添加
存得快查得准，但就是算不动？试试时序数据库 TDengine × Spark 的组合拳
每个工程师可能都遇到过类似场景：时序数据沉淀在数据库中，格式规范、查询快捷，但当任务升级——比如滑窗聚合、多源拼接、机器学习训练——一些业务可能就需要更强的计算能力和更灵活的分析工具。TDengine专注于高效存储与极速查询，而在数据“算力”层面，我们选择了更强的伙伴。现在，TDengine正式开放与ApacheSpark的无缝集成通道。一个是高性能、低成本的时序数据库，一个是横扫大数据世界的分析
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo