wbj0110

Nutch 实战

基本信息

Nutch是一个开放源代码（open-source）的Java搜索引擎包，它提供了构建一个搜索引擎所需要的全部工具和功能。使用Nutch不仅可以建立自己内部网的搜索引擎，同时也可以针对整个网络建立搜索引擎。除了基本的功能之外，Nutch也还有不少自己的特色，如Map-Reduce、Hadoop、Plugin等。

Nutch的总体结构

Nutch从总体上看来，分为三个主要的部分：爬行、索引和搜索，各部分之间的关系如图1所示。Web db是Nutch初始运行的URL集合；Fetcher是用来抓取网页的爬行器，也就是平时常说的Crawler；indexer是用来建立索引的部分，它将会生成的索引文件并存放在系统之中；searcher是查询器，用来完成对某一词条的搜索并返回结果。

图 1. Nutch 总体结构

Nutch 的运行流程

在了解了 Nutch 的总体结构之后，再详细的看看 Nutch 具体是如何运行的？Nutch 的运行流程如图2所示。

1. 将起始 URL 集合注入到 Nutch 系统之中。

2. 生成片段文件，其中包含了将要抓取的 URL 地址。

3. 根据URL地址在互联网上抓取相应的内容。

4. 解析所抓取到的网页，并分析其中的文本和数据。

5. 根据新抓取的网页中的URL集合来更新起始URL集合，并再次进行抓取。

6. 同时，对抓取到的网页内容建立索引，生成索引文件存放在系统之中。

图 2. Nutch 的运行流程

从用户端来看，Nutch 提供了一个基于 Tomcat 的应用程序，它允许用户输入词条，然后 Nutch 会在已经建立好的索引文件中进行搜索，并将相应的结果返回给用户。

Nutch 的配置和运行

Nutch 既可以在 Linux 下运行，可以在 Windows 下运行，同时还可以在 Eclipse 环境中运行。在本部分中，主要介绍如何在 Eclipse 环境下运行 Nutch。

下载 Nuch 软件包

首先，应该在 Nutch 的下载页面中下载相应的Nutch软件包，现在最新的版本号是0.9, 通常使用的版本号是 0.8.1。

解压缩

下载后得到的是一个名为 nutch-0.9.tar.gz 的压缩包，使用7-Zip可以将其解压缩，解压后得到的文件结构如图3所示。

图 3. Nutch 的目录结构

在bin文件夹下存放的是用于命令行运行的文件；Nutch的配置文件都放在了conf下，lib是一些运行所需要的jar文件；plugins下存放的相应的插件；在src文件夹中的是Nutch的所有源文件；webapps文件夹中存放的是web运行相关文件；nutch-0.9.war是Nutch所提供的基于Tomcat的应用程序包。

导入源代码

在获得Nutch的源代码之中，就可以将其导入到Eclipse环境中，并生成一个新的java工程。导入后的代码结构如图4所示。在导入过程中应该注意的是，需要把lib下的所有jar文件以及conf文件夹都添加到工程的build path之中。

另外，Nutch还需要另外两个jar文件，jid3lib-0.5.1.jar和rtf-parser.jar，请分到到下面两个链接下载。

http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-mp3/lib/

http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-rtf/lib/

图 4. Nutch 的包结构

配置

在正式开始运行Nutch之前，还需要做一些必要的配置，不然在运行时会出错，无法按照要求抓取到相应的页面。

第一个需要修改的文件是 nutch-default.xml, 需要将 HTTP properties 部分的 http.agent.name 赋予一个有意思的字符串；还需要将 plugin properties 部分的 plugin.folders 按照具体的情况做必要修改。清单 1 和清单 2 分别是本文中的 Demo 运行时的具体配置情况，供大家参考。

清单1.

<!-- HTTP properties -->
  <name>http.agent.name</name>
  <value>testNutch</value>
  <description>Just for Testing
  </description>
</property>

清单2.

<!-- plugin properties -->
<property>
  <name>plugin.folders</name>
  <value>plugin</value>
  <description>Directories where nutch plugins are located.  Each
  element may be a relative or absolute path.  If absolute, it is used
  as is.  If relative, it is searched for on the classpath.</description>
</property>

其次，需要修改的文件是crawl-urlfilter.txt, 将其中的MY.DOMAIN.NAME部分按照实际的域名进行修改。清单3中的配置是对*.ibm.com/域进行抓取。

清单3.

# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*ibm.com/

另外，还需要的一个操作是在conf文件夹下，建立一个名为prefix-urlfilter.txt的文本文件，其中的内容很简单，如清单4所示。

清单4.

# prefix-urlfilter.txt file starts here
http
# prefix-urlfilter.txt file ends here

抓取

在配置完成之后，就可以开始运行Nutch的Crawler了，不过，正如本文前面所述，开始运行前还需要设定初始URL集合。具体的方法是建立一个文件夹（本文建立的文件夹名为url），并在其中建立一个纯文本文件（本文建立的文件名为urls.txt），文件文件中存放了需要抓取的其实URL地址，如“http://www.ibm.com/”。

然后在org.apache.nutch.crawl包下的Crawl.java文件上点击右键，选择“Run as”，再选择“open run dialog”，在如图5所示的对话框中输入运行参数，然后点击“Run”。这样系统就可以运行了。

图 5. 运行 Crawler

在运行过程中，会出现很多的log信息，图6和图7是系统运行过程中的一些截图，从中可以看出正在抓取的网页URL地址和抓取速度等一些信息。等抓取任务成后，系统会自动生成相应的索引文件，以后查询器使用。在以后的文章中，会深入探讨相应的话题。

图 6. Nutch 运行信息 1

图 7. Nutch 运行信息 2

深入分析 Crawl 源代码

在了解了 Nutch 的运行过程之后，再来分析 Nutch 内部的运行流程是什么样子的，以及各个类之间是如何协同配置的？

Crawl的入口

正如在前文中所提到的，在运行 Crawl 时需要输入一些必要的参数，并且格式也是一定的。具体的用法是 Crawl <urlDir> [-dir d] [-threads n] [-depth i] [-topN N]。其中，<urlDir> 是必须有的参数；Crawl 是运行的主文件；-dir 表示存放的目标文件夹；-threads 表示抓取过程中其中的线程数；-depth 表示要抓取的深度层次。

如果在运行时不指定这些参数，那么Nutch会默认设定这个参数值。详见清单。

清单 5.

   Path dir = new Path("crawl-" + getDate());
    int threads = job.getInt("fetcher.threads.fetch", 10);
    int depth = 5;
int topN = Integer.MAX_VALUE;

如果指定了运行参数，Nutch会按照以下的方式来处理。

清单 6.

for (int i = 0; i < args.length; i++) {
      if ("-dir".equals(args[i])) {
        dir = new Path(args[i+1]);
        i++;
      } else if ("-threads".equals(args[i])) {
        threads = Integer.parseInt(args[i+1]);
        i++;
      } else if ("-depth".equals(args[i])) {
        depth = Integer.parseInt(args[i+1]);
        i++;
      } else if ("-topN".equals(args[i])) {
        topN = Integer.parseInt(args[i+1]);
        i++;
      } else if (args[i] != null) {
        rootUrlDir = new Path(args[i]);
      }
}

生成目标文件夹

在设定运行参数后，经过一个必要的处理，Nutch会生成若干个目标文件夹用来存储不同的文件内容，具体包括：crawlDb，linkDb，segments，indexes和index。

清单 7.

    Path crawlDb = new Path(dir + "/crawldb");
    Path linkDb = new Path(dir + "/linkdb");
    Path segments = new Path(dir + "/segments");
    Path indexes = new Path(dir + "/indexes");
Path index = new Path(dir + "/index");

注入、抓取和更新

当生成了所需要的目标文件夹之后，Nutch就可以开始抓取工作了。当然，在抓取网页过程中会使用功能类来完成相应的单元工作。具体来讲，在注入、抓取和更新过程中，会用来的功能类有Injector、Generator、Fetcher、ParseSegment和CrawlDb。

整个过程分为以下几个步骤：

注入

injector.inject(crawlDb, rootUrlDir);

抓取

Path segment = generator.generate(crawlDb, segments, -1, topN, System
          .currentTimeMillis(), false, false);
      if (segment == null) {
        LOG.info("Stopping at depth=" + i + " - no more URLs to fetch.");
        break;
      }
      fetcher.fetch(segment, threads);

更新

if (!Fetcher.isParsing(job)) {
        parseSegment.parse(segment);  
      }
      crawlDbTool.update(crawlDb, new Path[]{segment}, true, true);

4. 反转、索引、去重及合并

最后的工作就是生成索引，去重并合并索引。不过，现在一般都是会生成倒排索引文件，所以在建立索引之前还会有一个反转的操作，如清单所示。

清单 8.

linkDbTool.invert(linkDb, segments, true, true, false); // invert links

      // 索引
      indexer.index(indexes, crawlDb, linkDb, fs.listPaths(segments));
      //去重
      dedup.dedup(new Path[] { indexes });
      //合并
      merger.merge(fs.listPaths(indexes), index, tmpDir);

转：http://www.ibm.com/developerworks/cn/opensource/os-cn-nutchintro/

你可能感兴趣的:(Nutch)

Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
深入浅出hdfs-hadoop基本介绍大数据之家 hdfs hadoop 大数据
一、Hadoop基本介绍hadoop最开始是起源于ApacheNutch项目，这个是由DougCutting开发的开源网络搜索引擎，这个项目刚开始的目标是为了更好的做搜索引擎，后来Google发表了三篇未来持续影响大数据领域的三架马车论文：GoogleFileSystem、BigTable、Mapreduce开始掀起来了大数据的浪潮，paper原文可以参考我的这篇文章CSDN。这三篇论文介绍了如何
Hadoop简介：开启大数据处理之门乌龙饼干 hadoop 大数据分布式
随着信息技术的飞速发展，数据呈现爆炸式增长，传统的数据处理方式已无法满足日益增长的数据需求。在此背景下，Hadoop作为一种分布式系统基础架构，应运而生，为大数据处理打开了新的大门。一、Hadoop的起源与概念Hadoop最初由DougCutting创建，作为ApacheLucene的子项目Nutch的一部分。随着项目的不断发展，Hadoop逐渐独立出来，成为Apache软件基金会下的一个开源项目
专为初学者设计：Nutch库Java下载器入门指南亿牛云爬虫专家 java 代理IP 爬虫代理 java 开发语言 Nutch 下载器爬虫代理代理IP 多线程
概述:Nutch是一款开源的Java爬虫框架，用于抓取、解析、提取和存储网页数据。基于Hadoop的分布式系统，Nutch支持大规模网络爬取，并提供各种插件，包括链接分析、语言检测和内容过滤等功能。本文旨在介绍如何使用Nutch库编写简单的Java下载器，即能从指定URL下载网页内容的程序。目标是帮助初学者了解Nutch库的基本用法，并展示如何通过代理IP技术和多线程技术提升下载效率。假设读者已安
在CentOS7上安装Hadoop分布式系统栗子艾李子 hadoop linux hdfs 分布式
项目背景：Hadoop原来是ApacheLucene下的一个子项目，它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop由分布式存储HDFS和分布式计算MapReduce两部分组成。HDFS是一个master/slave的结构，就通常的部署来说，在master上只运行一个Namenode
大数据技术之Hadoop入门一在远方的你等我
1.从Hadoop框架讨论大数据生态名字起源该项目的创建者，DougCutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的项目起源Hadoop由ApacheSoftwareFoundation公司于2005年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由GoogleLab开发的Map/Reduce和GoogleFileSystem(GFS)的启发
openpyxl3.0官方文档（14）—— 甜甜圈图 Sinchard
甜甜圈图表与饼图类似，只是它们使用了一个环而不是一个圆，还可以绘制出若干系列的数据作为中心环。fromopenpyxlimportWorkbookfromopenpyxl.chartimport(DoughnutChart,Reference,Series,)fromopenpyxl.chart.seriesimportDataPointdata=[['Pie',2014,2015],['Plai
kafka入门：简介、使用场景、设计原理、主要配置及集群搭建（转） weixin_34185320 运维操作系统系统架构
李克华云计算高级群:292870151195907286交流：Hadoop、NoSQL、分布式、lucene、solr、nutchkafka入门：简介、使用场景、设计原理、主要配置及集群搭建（转）问题导读：1.zookeeper在kafka的作用是什么？2.kafka中几乎不允许对消息进行“随机读写”的原因是什么？3.kafka集群consumer和producer状态信息是如何保存的？4.par
大数据之 Hadoop 小裕哥略帅大数据 hadoop java
hadoop主要解决：海量数据的存储和海量数据的分析计算hadoop发展历史Google是hadoop的思想之源（Google在大数据方面的三篇论文）2006年3月，Map-reduce和NutchDistributedFileSystem(NDFS)分别被纳入到Hadoop项目，Hadoop正式诞生。MapReduce对海量数据处理map函数进行数据的提取、排序，实现mapper，四个形参（输入
自己动手写搜索引擎系列【目录】 luyee2010 自己动手写搜索引擎自己动手写搜索引擎
第1章遍历搜索引擎技术11.130分钟实现的搜索引擎11.1.1准备工作环境（10分钟）11.1.2编写代码（15分钟）31.1.3发布运行（5分钟）51.2Google神话91.3体验搜索引擎91.4搜索语法101.5你也可以做搜索引擎131.6搜索引擎基本技术141.6.1网络蜘蛛141.6.2全文索引结构141.6.3Lucene全文检索引擎151.6.4Nutch网络搜索软件161.6.5
ElasticSearch（ES）——概述/API 平平无奇小码农笔记大数据 elasticsearch 数据库搜索引擎
文章目录一、ElasticSearch基础1.1简介1.2使用场景1.3ES与其他数据存储进行比较1.4ES的特点1.5Lucene、Nutch、ElasticSearch关系二、基本概念ES概念和MySQL关系对比三、安装ES3.1解压、改名3.2修改配置文件3.3教学环境启动优化分发3.4修改hadoop163、hadoop164的节点名3.5单台启动测试，解决问题四、安装kibana4.1解
asp html5 ajax,ASP.NET AJAX Chart (HTML5) - RadControls for Web Forms | Telerik UI for ASP.NET AJAX weixin_39942191 asp html5 ajax
AnyEssentialChartTypeQuicklyaddmeaningtodatawiththemostcommonlyusedASP.NETchartingtypes:PieorDonutcharttovisualizeeachpieceofdataaspartofawholeLineorAreatomonitortrendsBar,ColumnorRadartocomparesevera
安装关系型数据库MySQL和大数据处理框架Hadoop weixin_30621919 数据库嵌入式大数据
这个作业的要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161。1.简述Hadoop平台的起源、发展历史与应用现状。列举发展过程中重要的事件、主要版本、主要厂商；国内外Hadoop应用的典型案例。（1）Hadoop的介绍：Hadoop最早起源于Nutch，Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、
ChatGPT4 完成数据分析结构分析，动态饼图可视化阿里数据专家 ChatGPT实战案例 ChatGPT 数据分析信息可视化数据挖掘 excel 人工智能 AIGC chatgpt
对于数据分析中的结构占比分析，以下几种图表类型是比较常见和合适的：1.**饼图（PieChart）**：饼图是一种表现部分与整体关系的图表，各部分占整体的比例在图中以圆形的切片形式体现。它适用于表示不同类别之间的比较，以及每个类别占总数的百分比。2.**环图（DoughnutChart）**：环图是饼图的变种，有一个空心中心。它也是显示类别之间占比关系的一种有效的方式。3.**堆叠柱状图/堆叠条形
hadoop yuanjianqiang_0925 hadoop spark
hadoop主要解决：海量数据的存储和海量数据的分析计算hadoop发展历史Google是hadoop的思想之源（Google在大数据方面的三篇论文）2006年3月，Map-reduce和NutchDistributedFileSystem(NDFS)分别被纳入到Hadoop项目，Hadoop正式诞生。MapReduce对海量数据处理map函数进行数据的提取、排序，实现mapper，四个形参（
Ubuntu环境下Hadoop1.2.1, HBase0.94.25, nutch2.2.1各个配置文件一览 weixin_30491641 大数据 java runtime
/×××××××××××××××××××××××××××××××××××××××××/Author：xxx0624HomePage：http://www.cnblogs.com/xxx0624//×××××××××××××××××××××××××××××××××××××××××/Hadoop伪分布式配置过程：Hadoop：1.2.1Hbase：0.94.25nutch：2.2.1Java：1.8.
ElasticSearch详细教程-基础加实战工藤-新二实时数仓大数据实时项目 elasticsearch 实时大数据 spark
文章目录第1章ElasticSearch基础1.1简介1.2使用场景1.3ES与其他数据存储进行比较1.4ElasticSearch的特点1.4.1天然分片，天然集群1.4.2天然索引1.5Lucene、Nutch、ElasticSearch关系第2章ElasticSearch的安装2.1上传安装包2.2将ES解压到/opt/module目录下2.3在/opt/module目录下对ES重命名2.4
jvm命令和可视化工具调优 weixin_30834783 java 操作系统开发工具
李克华云计算高级群:292870151195907286交流：Hadoop、NoSQL、分布式、lucene、solr、nutch虚拟机：系统虚拟机程序虚拟机系统虚拟机有：VMWarevisureBox程序虚拟机：JVMJVM：1.类加载子系统（类加载器）2.方法区3.java堆4.直接内存5.java栈6.本地方法栈7.垃圾回收系统8.PC寄存器9.执行引擎堆：存储问题栈：程序运行方法去：辅助堆
linux服务器忘记ssh密码_【Linux】配置linux服务器之间ssh不用密码访问 weixin_40008033 linux服务器忘记ssh密码
如果想在A这太机器上可以不需要密码就ssh到B、C两台机器上，可以采用如下的方法：(1)在A机器上：ssh-keygen-trsaGeneratingpublic/privatersakeypair.Enterfileinwhichtosavethekey(/nutch/home/.ssh/id_rsa):不输入任何东西，直接回车Enterpassphrase(emptyfornopassphra
Hadoop分布式文件系统杀神lwz hadoop 大数据分布式
一、HadoopHadoop之父DougCuttingHadoop的发音[hædu:p]，Cutting儿子对玩具小象的昵称1、Hadoop发展简史2002年10月，DougCutting和MikeCafarella创建了开源网页爬虫项目Nutch。2003年10月，Google发表GoogleFileSystem论文。2004年7月，DougCutting和MikeCafarella在Nutch
java 爬虫框架nutch_网络爬虫（2）-- Java爬虫框架鲍鱼王 java 爬虫框架nutch
NutchNutch属于分布式爬虫，爬虫使用分布式，主要是解决两个问题：1)海量URL管理；2)网速。如果要做搜索引擎，Nutch1.x是一个非常好的选择。Nutch1.x和solr或者es配合，就可以构成一套非常强大的搜索引擎，否则尽量不要选择Nutch作为爬虫。用Nutch进行爬虫的二次开发，爬虫的编写和调试所需的时间，往往是单机爬虫所需的十倍时间不止。HeritrixHeritrix是个“A
nutch爬取网站数据详细步骤 Echoooo_o
环境：hadoop2.7.7+hbase0.98+nutch2.3+solr4.9大致步骤思想：hadoop提供底层数据存储hbase在其之上建立非关系型数据库nutch将爬的数据存到hbase上并建立索引到solr展示首先采用简单命令：#$1$2...$n表示命令后跟的第n个参数#存放待注入种子的路径SEEDDIR="$1"#存放爬取数据（URL状态信息、爬取数据、解析数据）文件夹的路径CRAW
nutch，hbase记录 feihuadao
hbase表操作优化http://blog.pureisle.net/archives/1930.htmlHow-to:UseHBaseBulkLoading,andWhyhttp://blog.cloudera.com/blog/2013/09/how-to-use-hbase-bulk-loading-and-why/nutch2.2分析http://blog.csdn.net/itufo/a
Hadoop 凤舞飘伶 Go hadoop
Hadoop是Google的集群系统的开源实现，Google集群系统:GFS(GoogleFileSystem)、MapReduce、BigTable。Hadoop主要由HDFS(HadoopDistributedFileSystemHadoop分布式文件系统)、MapReduce和HBase组成Hadoop的初衷是为解决Nutch的海量数据爬取和存储的需要。Hadoop于2005年秋天作为Luc
Hadoop之父：Doug Cutting Mr_Elliot
hadoop生活中，可能所有人都间接用过他的作品，他是Lucene、Nutch、Hadoop等项目的发起人。是他，把高深莫测的搜索技术形成产品，贡献给普罗大众；还是他，打造了目前在云计算和大数据领域里如日中天的Hadoop。他是某种意义上的盗火者，他就是DougCutting。DougCutting从实习生做起1985年，Cutting毕业于美国斯坦福大学。他并不是一开始就决心投身IT行业的，在大
Hadoop-2.6.5完整安装配置过程 syp_net 系统开发 hadoop mapreduce 搜索引擎
记录Hadoop-2.6.5完整安装配置过程一、Hadoop是什么？二、Hadoop-2.6.5安装配置1.修改主机名2.下载并解压JDK3.配置环境变量4.修改Hadoop中5个主要配置文件5.启动Hadoop6.HadoopWeb端口测试三、总结一、Hadoop是什么？Hadoop系统最初的源头来自于ApacheLucene项目下的搜索引擎子项目Nutch，该项目的负责人是DougCuttin
Hadoop之HDFS简介数新网络 hadoop 大数据 hdfs
前言Hadoop是由Apache基金会开发的分布式系统基础框架，主要解决海量数据存储和海量数据分析问题。Hadoop起源于ApacheNutch项目，起始于2002年，在2006年被正式命名为Hadoop。Hadoop有3大核心组件，分别是HDFS、MapReduce和YARN，本次我们重点介绍HDFS。一、HDFS简介HDFS全称HadoopDistributedFileSystem，是一个分布
hadoop原理和细节 truezqx
一、Hadoop概述Hadoop是Google的集群系统开源实现Google的集群系统：GFS、MapReduce、BigTableHadoop的集群系统：HDFS、MapReduce、HBaseHadoop设计的初衷是为了解决Nutch的海量数据存储和处理的需求，可以解决大数据场景下的数据存储和处理的问题。传统数据：GB、TB级别的数据、数据增长不快、主要为结构化的数据、统计和报表大数据：TB、
听阿里P7工程师只分七步讲解HDFS搭建 Python大数据工程师
前言HADOOP产生背景（1）HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。（2）2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。——分布式文件系统（GFS），可用于处理海量网页的存储——分布式计算框架MAPREDUC
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他