wbj0110

Apache nutch1.5 & Apache solr3.6詳解

第1章引言

1.1nutch和 solr

Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

Solr 拥有像 web-services API 的独立的企业级搜索服务器。用 XML 通过 HTTP 向它添加文档(称为做索引)，通过 HTTP 查询返回 XML 结果。

1.2研究 nutch 的原因

可能有的朋友会有疑问,我们有google,有百度,为何还需要建立自己的搜索引擎呢?这里我列出3 点原因:

透明度:nutch 是开放源代码的,因此任何人都可以查看他的排序算法是如何工作的。

商业的搜索引擎排序算法都是保密的,我们无法知道为什么搜索出来的排序结果是如何算出来的。更进一步,一些搜索引擎允许竞价排名,比如百度,这样的索引结果并不是和站点内容相关的。因此nutch 对学术搜索和政府类站点的搜索来说,是个好选择,因为一个公平的排序结果是非常重要的。

对搜索引擎的理解:我们并没有google 的源代码,因此学习搜索引擎Nutch 是个不错的选择。了解一个大型分布式的搜索引擎如何工作是一件让人很受益的事情。在写Nutch 的过程中,从学院派和工业派借鉴了很多知识:比如,Nutch 的核心部分目前已经被重新用Map Reduce 实现了。Map Reduce 是一个分布式的处理模型,最先是从Google 实验室提出来的。并且Nutch 也吸引了很多研究者,他们非常乐于尝试新的搜索算法,因为对Nutch 来说,这是非常容易实现扩展的。
扩展性:你是不是不喜欢其他的搜索引擎展现结果的方式呢?那就用Nutch 写你自己的搜索引擎吧。Nutch 是非常灵活的:他可以被很好的客户订制并集成到你的应用程序中,使用Nutch 的插件机制,Nutch可以作为一个搜索不同信息载体的搜索平台。当然,最简单的就是集成Nutch 到你的站点,为你的用户提供搜索服务。

1.3nutch 的目标

nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web 搜索引擎. 为了完成这一宏伟的目标, nutch 必须能够做到:

• 每个月取几十亿网页

• 为这些网页维护一个索引

• 对索引文件进行每秒上千次的搜索

• 提供高质量的搜索结果

• 以最小的成本运作

这将是一个巨大的挑战。

1.4nutch VS lucene

简单的说:

Lucene 不是完整的应用程序,而是一个用于实现全文检索的软件库。

Nutch 是一个应用程序,可以以Lucene 为基础实现搜索引擎应用。

Lucene 为Nutch 提供了文本索引和搜索的API。一个常见的问题是;我应

该使用Lucene 还是Nutch?最简单的回答是:如果你不需要抓取数据的话,应该使用Lucene。常见的应用场合是:你有数据源,需要为这些数据提供一个搜索页面。

在这种情况下,最好的方式是直接从数据库中取出数据并用Lucene API 建立索引。

第2章安装与配置

安装环境: Ubuntu12.04 LTS

所安装软件: JDK1.6.0_29

apache-nutch-1.5-bin.tar.gz

solr3.6

IKAnalyzer3.2.3

tomcat7.0

我将软件默认安装在当前用户的主文件夹下(/用户)

下载网址:

jdk:http://www.oracle.com/technetwork/java/javase/downloads/index.html

nutch: http://www.apache.org/dyn/closer.cgi/nutch/

solr：http://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.0/

IKAnalyzer：http://code.google.com/p/ik-analyzer/

tomcat: http://tomcat.apache.org/download-70.cgi#7.0.27

2.1安装和配置 JDK， Tomcat

网上很多例子了。

2.2安装和配置 nutch

到用户主目录：

cd~

建立文件夹：

mkdirnutch

将文件拷贝到~/hadoop/nutch目录，解压缩：

tar-zxvf apache-nutch-1.5-bin.tar.gz

如果没用权限，可以使用chmod和chown授权

验证一下，执行

bin/nutch

2.3安装和配置 solr

到用户主目录：

cd~

进入hadoop目录，拷贝apache-solr-3.6.0.tgz，解压缩：

tar-zxvf apache-solr-3.6.0.tgz

1）拷贝[solr_home]/dist/apache-solr-3.6.0.war的文件到tomcat/webapps目录下，并且改名solr.war

2）将[solr_home]\example\下的solr目录拷贝到任意位置，我是放在：～/tomcat7/solr下

3）在tomcat目录下的conf\Catalina\localhost目录中（如果没有则手工创建该目录）创建solr.xml文件，文件内容如下：
<ContextdocBase="[tomat_home]/webapps/solr.war" debug="0"crossContext="true" >
<Environmentname="solr/home" type="java.lang.String"value="[tomcat_home]/solr" override="true"/>
</Context>

4）修改tomcat的server.xml文件，找到<Connectorport="8080" … 项（假设tomcat监听8080端口），添加编码方式，修改后如下<Connectorport="8080" URIEncoding="UTF-8"

5）启动tomcat，输入http://localhost:8080/solr/，出现欢迎界面则表示配置成功

2.4配置 1KAnalyzer到 solr

拷贝IKAnalyzer2012.jar到webapps中的solr的lib目录下

配置项目中文分词：

编辑[tomat_home]/solr/conf/schema.xml，在<Types>下添加以下内容：

<fieldType name="text" class="solr.TextField" >

<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>

<analyzer type="index">

<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>

<filter class="solr.StopFilterFactory"

ignoreCase="true" words="stopwords.txt"/>

<filter class="solr.WordDelimiterFilterFactory"

generateWordParts="1"

generateNumberParts="1"

catenateWords="1"

catenateNumbers="1"

catenateAll="0"

splitOnCaseChange="1"/>

<filter class="solr.LowerCaseFilterFactory"/>

<filter class="solr.EnglishPorterFilterFactory"

protected="protwords.txt"/>

<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>

</analyzer>

<analyzer type="query">

<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>

<filter class="solr.StopFilterFactory"

ignoreCase="true" words="stopwords.txt"/>

<filter class="solr.WordDelimiterFilterFactory"

generateWordParts="1"

generateNumberParts="1"

catenateWords="1"

catenateNumbers="1"

catenateAll="0"

splitOnCaseChange="1"/>

<filter class="solr.LowerCaseFilterFactory"/>

<filter class="solr.EnglishPorterFilterFactory"

protected="protwords.txt"/>

<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>

</analyzer>

</fieldType>

然后在<fields>下添加：

重新启动tomcat，进入

http://localhost:8080/solr/admin/analysis.jsp

输入“中华人民共和国”，点击analyze，得到结果如下：

第3章 nutch实验

Nutch的爬虫有两种方式

•爬行企业内部网(Intranetcrawling)。针对少数网站进行,用crawl 命令。

•爬行整个互联网。使用低层的inject,generate, fetch 和updatedb命令,

具有更强的可控制性。

3.1爬取 163

进入[nutch_home]

编辑conf/nutch-site.xml：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>



<configuration>
<property>
<name>http.agent.name</name>
<value>myagent</value>
<description>HTTP 'User-Agent' request header. MUST NOT be empty -
please set this to a single word uniquely related to your organization.
NOTE: You should also check other related properties:
http.robots.agents
http.agent.description
http.agent.url
http.agent.email
http.agent.version
and set their values appropriately.
</description>
</property>
<property>
<name>http.agent.description</name>
<value></value>
<description>Further description of our bot- this text is used in
the User-Agent header. It appears in parenthesis after the agent name.
</description>
</property>
<property>
<name>http.agent.url</name>
<value></value>
<description>A URL to advertise in the User-Agent header. This will
appear in parenthesis after the agent name. Custom dictates that this
should be a URL of a page explaining the purpose and behavior of this
crawler.
</description>
</property>
<property>
<name>http.agent.email</name>
<value></value>
<description>An email address to advertise in the HTTP 'From' request
header and User-Agent header. A good practice is to mangle this address (e.g. 'info at example dot com') to avoid spamming.
</description>
</property>
</configuration>

创建目录urls，并建立文件seed.txt，加入

http://www.163.com

编辑conf/regex-urlfilter.txt

修改以下部分：

# accept anything else

+^http://([a-z0-9]*\.)*www.163.com/

执行爬取命令：

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

-dir crawl.demo 是抓取的页面的存放目录

-depth 指爬行的深度,这里处于测试的目的,选择深度为2 ,完

全爬行一般可设定为10 左右

-threads 指定并发的进程这是设定为4

-topN 指在每层的深度上所要抓取的最大的页面数,

完全抓取可设定为1 万到100 万,这取决于网站资源数量

爬取资源并且添加索引：

bin/nutch crawl urls -solr http://localhost:8080/solr/ -depth 3 -topN 5

执行结果如下：

3.2solrj访问 solr

3.2.1solr基础

因为 Solr 包装并扩展了 Lucene，所以它们使用很多相同的术语。更重要的是，Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对 Solr 进行适当的配置，某些情况下可能需要进行编码，Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。

在 Solr 和 Lucene 中，使用一个或多个 Document 来构建索引。Document 包括一个或多个 Field。Field 包括名称、内容以及告诉 Solr 如何处理内容的元数据。例如，Field 可以包含字符串、数字、布尔值或者日期，也可以包含你想添加的任何类型，只需用在solr的配置文件中进行相应的配置即可。Field可以使用大量的选项来描述，这些选项告诉 Solr 在索引和搜索期间如何处理内容。现在，查看一下表 1 中列出的重要属性的子集：

属性名称	描述
Indexed	Indexed Field 可以进行搜索和排序。你还可以在 indexed Field 上运行 Solr 分析过程，此过程可修改内容以改进或更改结果。
Stored	stored Field 内容保存在索引中。这对于检索和醒目显示内容很有用，但对于实际搜索则不是必需的。例如，很多应用程序存储指向内容位置的指针而不是存储实际的文件内容。

3.2.2solr索引操作

在Solr 中，通过向部署在servlet 容器中的Solr Web 应用程序发送HTTP请求来启动索引和搜索。Solr接受请求，确定要使用的适当SolrRequestHandler，然后处理请求。通过HTTP以同样的方式返回响应。默认配置返回Solr 的标准XML 响应。你也可以配置Solr的备用响应格式，如json、csv格式的文本。

索引就是接受输入元数据（数据格式在schema.xml中进行配置）并将它们传递给Solr，从而在HTTPPost XML 消息中进行索引的过程。你可以向Solr索引servlet传递四个不同的索引请求：

add/update允许您向Solr添加文档或更新文档。直到提交后才能搜索到这些添加和更新。

commit告诉Solr，应该使上次提交以来所做的所有更改都可以搜索到。

optimize重构Lucene的文件以改进搜索性能。索引完成后执行一下优化通常比较好。如果更新比较频繁，则应该在使用率较低的时候安排优化。一个索引无需优化也可以正常地运行。优化是一个耗时较多的过程。

delete可以通过id或查询来指定。按id删除将删除具有指定id的文档；按查询删除将删除查询返回的所有文档。

Lucene中操作索引也有这几个步骤，但是没有更新。Lucene更新是先删除，然后添加索引。因为更新索引在一定情况下，效率没有先删除后添加的效率好。

3.2.3solr搜索

添加文档后，就可以搜索这些文档了。Solr接受HTTPGET 和HTTPPOST 查询消息。收到的查询由相应的SolrRequestHandler进行处理。

solr查询参数描述：

参数	描述	示例
q	Solr中用来搜索的查询。可以通过追加一个分号和已索引且未进行断词的字段（下面会进行解释）的名称来包含排序信息。默认的排序是scoredesc，指按记分降序排序。	q=myField:JavaAND otherField:developerWorks; dateasc此查询搜索指定的两个字段，并根据一个日期字段对结果进行排序。
start	将初始偏移量指定到结果集中。可用于对结果进行分页。默认值为0。	start=15 返回从第15 个结果开始的结果。
rows	返回文档的最大数目。默认值为 10。	rows=25，返回25个结果集
fq	提供一个可选的筛选器查询。查询结果被限制为仅搜索筛选器查询返回的结果。筛选过的查询由Solr进行缓存。它们对提高复杂查询的速度非常有用。	任何可以用 q参数传递的有效查询，排序信息除外。
hl	当 hl=true时，在查询响应中醒目显示片段。默认为false。	hl=true
fl	作为逗号分隔的列表指定文档结果中应返回的 Field集。默认为 “*”，指所有的字段。“score”指还应返回记分。	*,score
sort	排序，对查询结果进行排序	sort=dateasc,price desc

3.2.4solr模式

上面有提到schema.xml这个配置，这个配置可以在你下载solr包的安装解压目录的apache-solr-3.6.0\example\solr\conf中找到，它就是solr模式关联的文件。打开这个配置文件，你会发现有详细的注释。

模式组织主要分为三个重要配置

types部分是一些常见的可重用定义，定义了Solr（和Lucene）如何处理Field。也就是添加到索引中的xml文件属性中的类型，如int、text、date等

fileds是你添加到索引文件中出现的属性名称，而声明类型就需要用到上面的types

其他配置有

uniqueKey唯一键，这里配置的是上面出现的fileds，一般是id、url等不重复的。在更新、删除的时候可以用到。

defaultSearchField默认搜索属性，如q=solr就是默认的搜索那个字段

solrQueryParser查询转换模式，是并且还是或者（and/or）

3.2.5索引配置

Solr性能因素，来了解与各种更改相关的性能权衡。

表1概括了可控制Solr索引处理的各种因素：

因素	描述
useCompoundFile	通过将很多 Lucene内部文件整合到单一一个文件来减少使用中的文件的数量。这可有助于减少Solr使用的文件句柄数目，代价是降低了性能。除非是应用程序用完了文件句柄，否则false的默认值应该就已经足够。
mergeFactor	决定低水平的 Lucene段被合并的频率。较小的值（最小为2）使用的内存较少但导致的索引时间也更慢。较大的值可使索引时间变快但会牺牲较多的内存。
maxBufferedDocs	在合并内存中文档和创建新段之前，定义所需索引的最小文档数。段是用来存储索引信息的 Lucene文件。较大的值可使索引时间变快但会牺牲较多的内存。
maxMergeDocs	控制可由 Solr合并的 Document的最大数。较小的值 (<10,000) 最适合于具有大量更新的应用程序。
maxFieldLength	对于给定的 Document，控制可添加到Field的最大条目数，进而截断该文档。如果文档可能会很大，就需要增加这个数值。然而，若将这个值设置得过高会导致内存不足错误。
unlockOnStartup	unlockOnStartup告知 Solr忽略在多线程环境中用来保护索引的锁定机制。在某些情况下，索引可能会由于不正确的关机或其他错误而一直处于锁定，这就妨碍了添加和更新。将其设置为true可以禁用启动锁定，进而允许进行添加和更新。

3.2.6查询处理配置

<maxBooleanClauses>标记定义了可组合在一起形成一个查询的子句数量的上限。对于大多数应用程序而言，默认的1024就应该已经足够；然而，如果应用程序大量使用了通配符或范围查询，增加这个限值将能避免当值超出时，抛出TooManyClausesException。

若应用程序预期只会检索Document上少数几个Field，那么可以将<enableLazyFieldLoading>属性设置为true。懒散加载的一个常见场景大都发生在应用程序返回和显示一系列搜索结果的时候，用户常常会单击其中的一个来查看存储在此索引中的原始文档。初始的显示常常只需要显示很短的一段信息。若考虑到检索大型Document的代价，除非必需，否则就应该避免加载整个文档。

<query>部分负责定义与在Solr中发生的事件相关的几个选项。Searcher的Java类来处理Query实例。要改进这一设计和显著提高性能，把这些新的Searcher联机以便为现场用户提供查询服务之前，先对它们进行“热身”。<query>部分中的<listener>选项定义newSearcher和firstSearcher事件，您可以使用这些事件来指定实例化新搜索程序或第一个搜索程序时应该执行哪些查询。如果应用程序期望请求某些特定的查询，那么在创建新搜索程序或第一个搜索程序时就应该反注释这些部分并执行适当的查询。

solrconfig.xml文件的剩余部分，除<admin>之外，涵盖了与缓存、复制和扩展或定制 Solr有关的项目。admin部分让您可以定制管理界面。有关配置admin节的更多信息，请参看solrconfig.xml文件中的注释。

3.2.7监视、记录和统计数据

用于监视、记录和统计数据的Solr管理选项

菜单名	URL	描述
Statistics	http://localhost:8080/solr/admin/stats.jsp	Statistics管理页提供了与 Solr性能相关的很多有用的统计数据。这些数据包括：关于何时加载索引以及索引中有多少文档的信息。关于用来服务查询的SolrRequestHandler的有用信息。涵盖索引过程的数据，包括添加、删除、提交等的数量。缓存实现和hit/miss/eviction信息
Info	http://localhost:8080/solr/admin/registry.jsp	有关正在运行的Solr的版本以及在当前实现中进行查询、更新和缓存所使用的类的详细信息。此外，还包括文件存于Solrsubversion 存储库的何处的信息以及对该文件功能的一个简要描述。
Distribution	http://localhost:8080/solr/admin/distributiondump.jsp	显示与索引发布和复制有关的信息。更多信息，请参见“发布和复制” 一节。
Ping	http://localhost:8080/solr/admin/ping	向服务器发出ping请求，包括在solrconfig.xml文件的admin部分定义的请求。
Logging	http://localhost:8080/solr/admin/logging.jsp	让您可以动态更改当前应用程序的日志记录等级。更改日志记录等级对于调试在执行过程中可能出现的问题非常有用。
properties	http://localhost:8080/solr/admin/get-properties.jsp	显示当前系统正在使用的所有 Java系统属性。Solr支持通过命令行的系统属性替换。有关实现此特性的更多信息，请参见solrconfig.xml文件。
Thread dump	http://localhost:8080/solr/admin/threaddump.jsp	thread dump选项显示了在 JVM中运行的所有线程的堆栈跟踪信息。

3.2.8智能缓存

智能缓存是让Solr得以成为引人瞩目的搜索服务器的一个关键性能特征。Solr提供了四种不同的缓存类型，所有四种类型都可在solrconfig.xml的<query>部分中配置。solrconfig.xml文件中所用的标记名列出了这些缓存类型：

缓存标记名	描述	能否自热
filterCache	通过存储一个匹配给定查询的文档 id的无序集，过滤器让 Solr能够有效提高查询的性能。缓存这些过滤器意味着对Solr的重复调用可以导致结果集的快速查找。更常见的场景是缓存一个过滤器，然后再发起后续的精炼查询，这种查询能使用过滤器来限制要搜索的文档数。	可以
queryResultCache	为查询、排序条件和所请求文档的数量缓存文档 id的有序集合。	可以
documentCache	缓存 LuceneDocument，使用内部 Lucene文档 id（以便不与Solr 惟一id 相混淆）。由于Lucene 的内部Document id可以因索引操作而更改，这种缓存不能自热。	不可以
Named caches	命名缓存是用户定义的缓存，可被 Solr定制插件所使用。	可以，如果实现了org.apache.solr.search.CacheRegenerator的话。

每个缓存声明都接受最多四个属性：

class是缓存实现的Java名。

size是最大的条目数。

initialSize是缓存的初始大小。

autoWarmCount是取自旧缓存以预热新缓存的条目数。如果条目很多，就意味着缓存的hit会更多，只不过需要花更长的预热时间。

你可能感兴趣的:(apache,apache,Solr,Nutch,&,nutch1.5,solr3.6詳解)

今日联对0306 诗图佳得
自对联：烟销皓月临江浒，水漫金山荡塔裙。一一肖士平2020.3.6.1、试对肖老师联：烟销皓月临江浒，夜笼寒沙梦晚舟。耀哥求正2、试对萧老师联:烟销浩月临江浒，雾散乾坤解汉城。秀霞习作请各位老师校正3、自对联：烟销皓月临江浒，水漫金山荡塔裙。一一肖士平2020.3.6.4、试对肖老师垫场联：烟销皓月临江浒，雾锁寒林缈葉丛。小智求正[抱拳]5、试对肖老师联：烟销皓月临江浒；风卷乱云入峰巅。一一五品6
linux 发展史种树的猴子内核 java 操作系统 linux 大数据
linux发展史说明此前对linux认识模糊一知半解，近期通过学习将自己对于linux的发展总结一下方便大家日后的学习。那Linux是目前一款非常火热的开源操作系统，可是linux是什么时候出现的，又是因为什么样的原因被开发出来的呢。以下将对linux的发展历程进行详细的讲解。目录一、Linux发展背景二、UINIX的诞生三、UNIX的重要分支-BSD的诞生四、Minix的诞生五、GNU与Free
《吹牛大王历险记》读书随笔赵炳森
这本书的作者是埃·拉斯伯戈·毕尔格。（没查到相关内容，好像他只写过《吹牛大王历险记》。）最让人百思不得其解的是他居然能自己拉自己的辫子出泥潭？！我觉得自己拉自己的辫子只会把自己的辫子拉断，而不会飞出泥潭。（问:图片中底下的屁股为什么插了一根钢针？）屁股底下居然有根钢针？在泥潭应该是滑滑的吧，可是他怎么能夹紧马肚呢？马肚子应该是在马的下方。还有如果能从泥潭里把连人带马都给拽出来的话，他力气肯定很大，
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
第二十五辑-安尘乱物 wallowed
1、《劳犁》作犁耕土解炎林，劳碌秋丰四两金。挥汗佝偻衣褴褛，卖得如洗衬寒贫。春种南山锄造力，傍老倚仗体民心。颗籽无收黍稷尘，农田饥劬苦疫病。牛羊冷炙食蚕桑，丁壮耒耜宿闲勤。归来未已开红豆，篱落花稀麦苗青。米贵征徭生柴火，荒草凄清渐鸡鸣。谷雨时节方期许，择日又是复曾经。2、《忘言》久别似相识，对酒客长安。嘘唏一仗夜，临行却忘言。江雪空投岸，梨花淡云烟。若问有缘人，相窥两不厌。莫作酒魂归，窗台结生寒。
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
2022-06-29 感恩学习相信小陶
感恩！六点签到相信很多人都有过这样的经验，拼命想的时候答案怎么都想不出来，不去想的时候，答案却自动冒出来了。为什么？这是因为潜意识也会工作，它非常神奇。你要相信，那些百思不得其解的问题早已扎根在你的头脑中，即使你不再刻意去想，潜意识也会自动围着它转。或许有一天，你会突然得到答案。这也是为什么有时我们会有顿悟的感觉。学会等待，也是进行持续思考的一个重要方法。
今夜的雨欠费了？洛小简
文/洛小简这里是醉人的宜宾，这是枫叶的十月。是不是得罪了龙王爷，让这雨肆无忌惮，却也毫无章法。那雨声暴躁，或早晨，或是午后，更多的在夜里。可今夜它睡着了，我看怕是欠费了，还未充值。但偏偏我醒了，醒在以往下雨的凌晨。耳边还有车声，最恨那乌鸦，又在远处偷鸣。就让龙王息怒吧，雨神也要歇一歇，持久的战斗体力无存，怎么给冬天一个雪的交待？那我的梦里还会不会下雪，是否如我所愿，这又是未解的谜题。幸好这雨也会欠
好运来是露漫漫呀
4月9日下午17.45分晴此时学校里广播站放着激情热烈的歌曲——《好运来》。“好运来，祝你好运来……”第一瞬间，我想到了他们是放这首歌是为补考的同学招来好运气的。然后我思绪飞扬，飘到了高中考试前同学放这首歌来抚平心态。飘到了高考前整理班级课桌时，学校喇叭里大大咧咧放着《好运来》……疲惫的我会心一笑。飘到了上学期考细解实验试卷时的那个中午青春小胖放这首歌来招好运，祈祷考的都会…………关于《好运来》的
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
滑动窗口+动态规划 wniuniu_ 算法动态规划算法
前言：分析这个题目的时候，就知道要这两个线段要分开，但是要保证得到最优解，那么我们在选取第二根线段的时候，要保证我们第一根线段是左边最优解并且我们选的两根线段的右端点一定是我们的数组的点（贪心思想）classSolution{public:intmaximizeWin(vector&prizePositions,intk){intn=prizePositions.size();vectormx(n
maven-assembly-plugin 打包实例带着二娃去遛弯
1.先在pom.xml文件中添加assembly打包插件org.apache.maven.pluginsmaven-assembly-plugin2.6assembly/assembly.xmlmake-assemblypackagesingle说明:1.需要修改的可能就是descriptors标签下面的打包配置文件目录,指定assembly.xml的路径.2.可以添加多个打包配置文件,进行多种形
【鸿蒙应用】总结一下ArkUI 读心悦鸿蒙基础鸿蒙应用
ArkUI是HarmonyOS应用界面的UI开发框架，提供了简洁的UI语法、UI组件、动画机制和事件交互等等UI开发基础，以此满足应用开发者对UI界面开发的需求。组件是界面搭建的最小单位，开发者通过多种组件的组合构成完整的界面。页面是ArkUI最小的调度分隔单位，开发者可以将应用设计为多个功能页面，每一个页面进行单独的文件管理，并且通过页面路由API完成页面之间的调度管理，以此来实现应用内功能的解
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
今天到底是谁的生日马蹄踏碎落叶
在我的记忆中，最使我百思不得其解的就是奶奶的六十大寿，那天发生的事。早晨九点多，我们全家已经把家里打扫的一尘不染，为祝贺奶奶60大寿的东西也准备齐全了，一会儿小姑，大姑全来了！他们各自带了礼物。该准备午餐了，奶奶让我去拿围裙，一走进房间看见一地的瓜子壳，像下了雪似的积了厚厚一层。走进客厅姑父和大爷正在打牌，笑声此起彼伏，而老寿星奶奶呢却正在厨房烧菜，忙得像一只陀螺。大爷说:“我快渴死了，奶奶匆匆忙
Fork/Join框架与ForkJoinPool 浪白条
1.Fork/Join框架fork操作的作用是把一个大的问题划分成若干个较小的问题。在这个划分过程一般是递归进行的。直到可以直接进行计算。需要恰当地选取子问题的大小。太大的子问题不利于通过并行方式来提高性能，而太小的子问题则会带来较大的额外开销。每个子问题计算完成后，可以得到关于整个问题的部分解。join操作的作用是把这些分解手机组织起来，得到完整解。简单的说，ForkJoin其核心思想就是分治。
2022-04-04 N4一念
佛家讲世间出世间打成一片，世间即出世间，只是重点在出世间，但也不能离开世间而出世间。道家也是如此，虽然这种词语并不多。老子说:“控其锐，解其纷，和其光，同其尘'。这四句句法相同，但并不好讲。“其”指道，即道心。分解地讲道心当然代表光明，但将光明孤悬，或在深山中修道，这境界也并不很高。“和其光”的意思是把光明浑化柔和一下，就是要人勿露锋芒。“挫其锐”也是勿露锋利的意思。因此，人喜言“韬光养晦”，要人
java 技术架构相关文档圣心 java 架构开发语言
在Java中，有许多不同的技术和架构，这里我将列举一些常见的Java技术和架构，并提供一些相关的文档资源。SpringFrameworkSpring是一个开源的Java/JavaEE全功能框架，以Apache许可证形式发布，提供了一种实现企业级应用的方法。官方文档：SpringFrameworkSpringBootSpringBoot是Spring的一个子项目，旨在简化创建生产级的Spring应用
【日本鲫鱼钓】浮游矶钓不同目标鱼不同钓法，日本专业矶钓书籍夏说钓鱼
夏说钓鱼，聊海外钓鱼，助钓友钓技！浮游矶钓不同目标鱼不同钓法，翻译来自《日本図解釣り入門基礎から始める海のウキ釣り入門》说到浮钓，由于它的目标鱼类多种多样，因此针对不同类型的目标也会有不同的浮钓方式。下面介绍一下同种类的浮钓方法和目标鱼类。【伸缩竿的小型钓法】用4.5～5.3米的伸缩竿的钓鱼方法。与矶钓竿相比，这种钓鱼竿更加轻便，连儿童也可以使用。目标鱼类有鲰虎鱼、海鲫、沙氏下鱲、竹荚鱼、鲪鱼、小
STM32——看门狗通俗解析百里与司空 stm32 嵌入式硬件单片机门控循环单元
笔者在学习看门狗的视频后，对看门狗仍然是一知半解，后面在实际应用中发现它是一个很好用的检测或者调试工具。所以总结一下笔者作为初学小白对看门狗的理解。主函数初始化阶段、循环阶段和复位众所周知，程序的运行一般是这样的：程序在进入循环阶段之前，会在初始化阶段将每个寄存器或者某些变量赋值。初始化阶段的代码执行一次后，就不再执行了。而循环阶段的代码会执行很多次，一直循环反复的执行下去。这时，如果进行了复位，
Linux常用文件压缩/解压命令格式大全（tar、gzip、bzip2、zip、compress、cpio、compress、dd）建议收藏狱典司 Linux 网络服务 linux 操作系统 shell
Linux常用文件压缩/解压命令格式大全1.tar2.gzip3.bzip24.zip5.compress6.cpio7.dd1.tar打包备份后的文件包缀：.tar作用：用来对系统上的文件作备份与恢复，可以将系统上多个文件组构成一个tar文件备份到磁盘内或写入到一般的文件（文件名为*.tar）上，也可以将文件从一个tar文件解回到原来的系统中。说明：仅能将一个目录下的所有文件变成一个文件，不具备
Apache Shiro安全框架(2)-用户认证 heyrian Java shiro
身份认证在shiro中用户需要提供用户的principals（身份）和credentials（证明）来证明该用户属于当前系统用户。常见的认证方式即用户名/密码。在解释身份认证之前，我们先来看看shiro中的Subject和Realm,这是身份认证的两个关键的概念。Subjectsubject代表当前用户，内部主要维护当前用户信息。shiro中所有的subject都交给SecurityManager
Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
OpenGL之基础纹理一我的大好时光
先看下效果图：纹理效果图.pngDemo下载地址：点击下载一、像素图像的数据包装图像存储空间=图像width*图像height*每个像素的字节数ps：有一张RGB的图像（每个颜色通道8位），图像的宽度199个像素，每行需要存储多少空间？解：8位为一个字节，有三个颜色，所以一个RGB需要3个字节存储。199（width）*1（height）*3(字节)二、像素的存储方式/**@parampname:
Superset二次开发之源码DependencyList.tsx 分析 aimmon Superset二次开发 Superset BI 二次开发 typescript 前端
功能点路径superset-frontend\src\dashboard\components\nativeFilters\FiltersConfigModal\FiltersConfigForm\DependencyList.tsx/***LicensedtotheApacheSoftwareFoundation(ASF)underone*ormorecontributorlicenseagre
史上最全的maven的pom.xml文件详解 Meta999 Maven
注：详解文件中，用红色进行标注的是平常项目中常用的配置节点。要详细学习！转载的，太经典了、、、、欢迎收藏xxxxxxxxxxxx4.0.0xxxxxxjar1.0-SNAPSHOTxxx-mavenhttp://maven.apache.orgAmavenprojecttostudymaven.jirahttp://jira.baidu.com/[email protected]
麻黄汤续讲与大小青龙汤 c1af95f51459
麻黄九禁脉浮紧者，法当汗出而解，若身重心悸者，不可发汗，须自汗出乃愈。所以然者，尺中脉微此里虚也，须里实，津液自和，便自汗出愈。脉浮紧的人照理说要发汗，可是如果身体重心悸的话，就不可以发汗。其实这个发汗不一定是麻黄汤，大青龙汤也会发汗。但是单独身体重的话不能够成不发汗的理由。因为感冒，很多人身体都是重重的，但是身重，心悸，就不可以发汗，因为心悸往往是阳虚。如果尺脉跳的很慢的人也不可以发汗，尺脉代表
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla