xiaoyu714543065

Nutch主流程代码阅读笔记整理

Nutch 的Crawler和Searcher两部分被尽是分开，其主要目的是为了使两个部分可以布地配置在硬件平台上，例如Crawler和Searcher分别被放置在两个主机上，这样可以极大的提高灵活性和性能。

一、总体流程介绍
Nutch 的Crawler和Searcher两部分被尽是分开，其主要目的是为了使两个部分可以布地配置在硬件平台上，例如Crawler和Searcher分别被放置在两个主机上，这样可以极大的提高灵活性和性能。

1、先注入种子urls到crawldb
2、循环：
   * generate 从crawldb中生成一个url的子集用于抓取
   * fetch 抓取上一小的url生成一个个segment
   * parse 分析已抓取segment的内容
   * update 把已抓取的数据更新到原先的crawldb
3、从已抓取的segments中分析出link地图
4、索引segment文本及inlink锚文本

Nutch用入口地址，地址正则表达式，搜索深度三种形式来限制
因为使用了Hadoop，Nutch的代码都按照Hadoop的模式来编写以获得分布式的能力，因此要先了解一下Hadoop，明白它Mapper,Rerducer,InputFormat, OutputFormat类的作用才能更好的阅读。
二、相关的数据结构和目录结构分析

爬虫Crawler：
Crawler的工作流程包括了整个nutch的所有步骤－－injector,generator,fetcher,parseSegment,updateCrawleDB,Invertlinks, Index ,DeleteDuplicates, IndexMerger
Crawler涉及的数据文件和格式和含义，和以上的各个步骤相关的文件分别被存放在物理设备上的以下几个文件夹里，crawldb,segments,indexes,linkdb,index五个文件夹里。
那么各个步骤和流程是怎么，各个文件夹里又是放着什么呢？
观察Crawler类可以知道它的流程
./nutchcrawl urls -dir ~/crawl -depth 4 -threads 10 -topN 2000

Crawl目录结构分析，参考自《Lucene+Nutch搜索引擎开发》
一、crawldb下载的url，以及下载日期，用来进行页面更新
二、segements 存放抓取页面和分析结果
1、crawl_generate：待下载url
2、crawl_fetch：每个下载url的状态
3、content：每个下载页面的内容
4、parse_text：包含每个解析过的url文本内容
5、parse_data：每个url解析出的外部链接和元数据
6、crawl_parse：用来更新crawl的外部链接库
三、linkdb 存放url的互联关系
四、indexes：存放每次下载的独立索引目录
五、index：符合lucene格式的索引目录，是indexes里所有index合并后的完整索引

数据结构：
Crawl DB
● CrawlDb是一个包含如下结构数据的文件:
<URL,CrawlDatum>
●CrawlDatum:
<status,date, interval, failures, linkCount, ...>
● Status:
{db_unfetched,db_fetched, db_gone,linked,
fetch_success,fetch_fail, fetch_gone

三、主要类和方法分析

org.apache.nutch.crawl.Injector:

1，注入url.txt
2，url标准化
3，拦截url，进行正则校验（regex-urlfilter.txt）
4，对符URL标准的url进行map对构造，在构造过程中给CrawlDatum初始化得分，分数可影响urlhost的搜索排序，和采集优先级！
5，reduce只做一件事，判断url是不是在crawldb中已经存在，如果存在则直接读取原来CrawlDatum，如果是新host，则把相应状态存储到里边（STATUS_DB_UNFETCHED（状态意思为没有采集过））

Injector injector = new Injector(conf);
Usage: Injector <crawldb> <url_dir>
首先是建立起始url集，每个url都经过URLNormalizers、filter和scoreFilter三个过程并标记状态。首先经过normalizerplugin,把url进行标准化，比如basic nomalizer的作用有把大写的url标准化为小写，把空格去除等等。然后再经过的plugin是filter，可以根据你写的正则表达式把想要的url留下来。经过两个步骤后，然后就是把这个url进行状态标记，每个url都对应着一个CrawlDatum,这个类对应着每个url在所有生命周期内的一切状态。细节上还有这个url处理的时间和初始时的分值。
同时，在这个步骤里，会在文件系统里生成如下文件crawlDB/current/part-00000
这个文件夹里还有.data.crc , .index.crc, data, index四个文件

● MapReduce1: 把输入的文件转换成DB格式
In: 包含urls的文本文件
Map(line) → <url, CrawlDatum>; status=db_unfetched
Reduce() is identity;
Output: 临时的输出文件夹
● MapReduce2: 合并到现有的DB
Input: 第一步的输出和已存在的DB文件
Map() is identity.
Reduce: 合并CrawlDatum成一个实体(entry)
Out: 一个新的DB

org.apache.nutch.crawl.Generator:

1，过滤不及格url（使用url过滤插件）
2，检测URL是否在有效更新时间里
3，获取URLmetaData，metaData记录了url上次更新时间
4，对url进行打分
5，将url载入相应任务组（以host为分组）
6，计算urlhash值
7，收集url,直至到达 topN 指定量

Generator generator = newGenerator(conf); //Generates a subset of a crawl db to fetch

Usage: Generator <crawldb> <segments_dir> [-force][-topN N] [-numFetchers numFetchers] [-adddays numDays] [-noFilter]
在这个步骤里，Generator一共做了四件事情，
1、给前面injector完成的输出结果里按分值选出前topN个url,作为一个fetch的子集。
2、根据第一步的结果检查是否已经选取出一些url,CrawlDatum的实体集。
3、再次转化，此次要以url的host来分组，并以url的hash来排序。
4、根据以上的步骤的结果来更新crawldb(injector产生)。

● MapReduce1: 根据要求选取一些要抓取的url
In: Crawl DB 文件
Map() → if date≥now, invert to <CrawlDatum, url>
Partition 以随机的hash值来分组
Reduce:
compare() 以 CrawlDatum.linkCount的降序排列
output only top-N most-linked entries
● MapReduce2: 为下一步抓取准备
Map() is invert; Partition() by host, Reduce() is identity.
Out: 包含<url,CrawlDatum> 要并行抓取的文件

org.apache.nutch.crawl.Fetcher:

1，从segment中读取，将它放入相应的队列中，队列以queueId为分类，而queueId是由协议://ip 组成，在放入队列过程中，如果不存在队列则创建（比如javaeye的所有地址都属于这个队列：http://221.130.184.141）–>queues.addFetchItem(url, datum);
2，检查机器人协议是否允许该url被爬行(robots.txt)–> protocol.getRobotRules(fit.url, fit.datum);
3，检查url是否在有效的更新时间里–> if (rules.getCrawlDelay() > 0)
4，针对不同协议采用不同的协议采用不同机器人，可以是http、ftp、file，这地方已经将内容保存下来（Content）。–> protocol.getProtocolOutput(fit.url, fit.datum);
5，成功取回Content后，在次对HTTP状态进行识别（如200、404）。–>case ProtocolStatus.SUCCESS:
6，内容成功保存，进入ProtocolStatus.SUCCESS区域，在这区域里，系统对输出内容进行构造。–> output(fit.url, fit.datum, content, status,CrawlDatum.STATUS_FETCH_SUCCESS);
7，在内容构造过程中，调取内容解析器插件（parseUtil），如mp3/html/pdf/word/zip/jsp/swf……。–> this.parseUtil.parse(content); –> parsers.getParse(content);
8，现在研究html解析，所以只简略说明HtmlParser，HtmlParser中，会解析出text,title,outlinks, metadata。
text：过滤所有HTML元素；title：网页标题；outlinks：url下的所有链接；metadata：这东西分别做那么几件事情首先检测url头部的meta name=”robots” 看看是否允许蜘蛛爬行，其次通过对meta http-equivrefresh等属性进行识别记录，看页面是否需要转向。

Fetcher fetcher = newFetcher(conf); //The fetcher. Most of the work is done by plugins
Usage: Fetcher <segment> [-threads n] [-noParsing]
这个步骤里，Fetcher所做的事情主要就是抓取了，同时也完成一些其它的工作。首先，这是一个多线程的步骤，默认以10个线程去抓取。根据抓取回来后的结果状态来进行不同的标记，存储，再处理等等行为。输入是上一步骤Generator产生的segment文件夹，这个步骤里，考虑到先前已经按照ip或host来patition了，所以在此就不再把input文件进行分割了。程序继承了SequenceFileInputFormat重写了inputFormat来达到这点。这个类的各种形为都是插件来具体完成的，它只是一个骨架一样为各种插件提供一个平台。它先根据url来取出具体的protocol，得到protocolOutput，进而得到状态status及内容content。然后，根据抓取的状态status来继续再处理。再处理时，首先会将这次抓取的内容content、状态status及它的状态标记进行存储。这个存储的过程中，还会记下抓取的时间，再把segment存过metadata，同时在分析parsing前经过scoreFilter，再用parseUtil(一系列的parse插件)进行分析，分析后再经过一次score插件的处理。经过这一系列处理后，最后进行输出（url,fetcherOutput）。
之前讲到根据抓取回来的各种状态，进行再处理，这些状态一共包括12种，比如当抓取成功时，会像上刚讲的那样先存储结果，再判断是否是链接跳转，跳转的次数等等处理。

● MapReduce:抓取
In: <url,CrawlDatum>, 以host分区, 以hash值排序
Map(url,CrawlDatum) → <url, FetcherOutput>
多线程的, 同步的map实现
调用已有的协议protocol插件
FetcherOutput: <CrawlDatum, Content>
Reduce is identity
Out: 两个文件: <url,CrawlDatum>, <url,Content>

org.apache.nutch.parse.ParseSegment：

1，这个类逻辑就相对简单很多，它对我们也是很有价值的，它只做一件事情，就是对爬行下来的Content（原始HTML）进行解析，具体解析通过插件来实现。比如我们要做的数据分析、数据统计都可以在这进行实现。
2，执行完成后，输出三个Map对解析内容、包含所有链接的分析后的结果、outlinks

ParseSegment parseSegment = newParseSegment(conf); //Parse content in a segment
Usage: ParseSegment segment
对抓取后上一步骤存储在segment里的content进行分析parse。同样，这个步骤的具体工作也是由插件来完成的。

MapReduce: 分析内容
In: <url, Content> 抓取来的内容
Map(url, Content) → <url, Parse>
调用分析插件parser plugins
Reduce is identity.
Parse: <ParseText, ParseData>
Out: 分割成三个文件: <url,ParseText>, <url,ParseData>和<url,CrawlDatum> 为了outlinks.

org.apache.nutch.crawl.CrawlDb：

主要根据crawld_fatch输出更新crawldb。
1，map对crawld_fatch、crawldb地址进行标准化（nomalizer）和拦截操作（filte）；
2，reduce在对两crawld_fatch和crawldb进行合并更新。

CrawlDb crawlDbTool = newCrawlDb(conf); //takes the output of the fetcher and updates thecrawldb accordingly.
Usage: CrawlDb <crawldb> (-dir <segments> |<seg1> <seg2> ...) [-force] [-normalize] [-filter] [-noAdditions]

MapReduce:合并抓取的和分析后的输出到crawldb里
In: <url,CrawlDatum>现有的db加上抓取后的和分析后的输出
Map() is identity
Reduce() 合并所有实体(entry)成一个，以抓取后的状态覆盖原先的db状态信息，统计出分析后的链接数
Out: 新的crawl db

org.apache.nutch.crawl.LinkDb：

这个类的作用是管理新转化进来的链接映射，并列出每个url的外部链接(incominglinks)。
1，先是对每一个url取出它的outLinks，作map操作把这个url作为每个outLinks的incominglink，
2，在reduce里把根据每个key来把一个url的所有incominglink都加到inlinks里。
3，这样就把每个url的外部链接统计出来了，注意，系统对只对外部链接进行统计，什么叫外部链接呢，就是只对不同host进行统计，记住javaeye.com和biaowen.javaeye.com是两个不同的host哦。–> boolean ignoreInternalLinks = true;
4，然后一步是对这些新加进来的链接进行合并。

● MapReduce: 统计每个链接的外部链接
In: <url,ParseData>, 包含所有链接的分析后的结果
Map(srcUrl, ParseData> → <destUrl, Inlinks>
为每个链出链接收集一个入链。
Inlinks: <srcUrl, anchorText>*
Reduce()加上外部入链数量
Out: <url, Inlinks>, 一个相关完整的链接地图

org.apache.nutch.crawl.Indexer：

这个类的任务是另一方面的工作了，它是基于hadoop和lucene的分布式索引。它就是为前面爬虫抓取回来的数据进行索引好让用户可以搜索到这些数据。这里的输入就比较多了，有segments下的fetch_dir,parseData和parseText，还有crawldb下的current_dir和linkdb下的current_dir。
Indexer类应用hadoop遍历所有Segments目录，将parseData文件序列化成ParseData类，从中获得各种资料然后调用插件进行索引，最后仍然由ouputFormat类完成写入索引的工作。
注意，如果你仅想使用Nutch的爬虫，而不是其索引功能，可以仿照Indexer重写自己的实现，比如把segments内容直接搬进数据库。

1，在这个类里，map将所有输入都装载到一个容器里边，
2，在到reduce进行分类处理，
3，实现拦截–> this.filters.filter(doc, parse, key, fetchDatum, inlinks);
4，打分–> this.scfilters.indexerScore(key, doc, dbDatum,fetchDatum, parse, inlinks,boost);
5，当然要把这些数据体组合成一个lucene的document让它索引了。
6，在reduce里组装好后收集时是，最后在输出的OutputFormat类里进行真正的索引。
doc里有如下几个field
content（正文）
site（所属主地址）
title（标题）
host（host）
segement(属于哪个segement)
digest(MD5码，去重时候用到)
tstamp（暂时不知道什么东西）
url（当前URL地址）

● MapReduce: 生成lucene的索引文件
In: 外个文件, values 以 <Class, Object>包装
<url, ParseData> from parse, 有title, metadata, 等等信息.
<url, ParseText> from parse, 文本 text
<url, Inlinks> from invert, 锚文本anchors
<url, CrawlDatum> from fetch,用于抓取
Map() is identity
Reduce() 生成Lucene Document
调用index插件
Out: 建立Lucene 索引; 最后存储到文件系统上

org.apache.nutch.crawl.DeleteDuplicates：

这个类的作用就是这它的名字所写的意思－－去重。
前面索引后（当然不是一次时的情况）会有重复，所以要去重。为什么呢，在一次索引时是不重复的，可是多次抓取后就会有重复了。就是这个原因才要去重。当然去重的规则有两种一个是以时间为标准，一种是以内容的md5值为标准。

org.apache.nutch.indexer.IndexMerger：

这个类就相对简单了，目的将多个indexes合并为一个index，直接调用lucene方法实现！把所有的小索引合并成一个索引。在这一步没有用到map-reduce。

在这九大步骤中generator,fetcher,parseSegment,crawlDbTool会根据抓取的层数循环运行，当抓取的层数大于1时会运行linkInvert,index,dedup,和merge。

四、Nutch 每条索引记录的字段说明

url：作为唯一标标识值，由BasicIndexingFilter类产生。

segment：由Indexer类产生。Nutch抓回来的页面内容放在segments目录，lucene只会索引，不会store原文内容，因此在查询时要以 segment与url作为外键，由FetchedSegments类根据hitsDetail从segments目录获得content。

boost：优先级，由Indexer类调用插件计算产生。

title：显示标题，在BasicIndexingFilter插件中被索引和存储。

content：主要的被搜索项，在BasicIndexingFilter插件中被索引。

五、Nutch搜索过程实例

Nutch提供了一个Fascade的NutchBean类供我们使用，一段典型的代码如下

    NutchBean bean = new NutchBean();
    Query query = Query.parse(args[0]);
    Hits hits = bean.search(query, NUM_HITS,"title",true);

    for (int i = 0; i < hits.getLength(); i++) {
      Hit hit = hits.getHit(i);
      HitDetails details = bean.getDetails(hit);

      String title = details.getValue("title");
      String url = details.getValue("url");
      String summary =bean.getSummary(details, query);
    }
这里NutchBean为我们做了几样事情：
一是按Title field来排序
二是支持分布式查询，如果有配置servers，就会使用hadoop的IPC系统，调用所有server上的nutchBeans，最后规约出总的结果。
三是每个站点只显示分数最高的一页，如果用户还想看同站的其他结果，就需要访问MoreHitsExculde[]。
四是生成Summary，读取segments目录，按segments和url获得content, 并按一定算法抽取出包含关键字的文档片断。

skynet 源码阅读 -- 启动主流程 Winston-Tao skynet 源码阅读 skynet skynet 启动游戏服务器框架 c语言
Skynet启动主流程分析Skynet是一个轻量级、高并发的服务器框架。它在启动时会进行一系列初始化操作，并启动多个不同功能的线程（Monitor、Timer、Worker、Socket），从而实现消息分发、定时器、网络I/O等核心功能。本文主要从main()函数开始一步步trace，循序渐进地看Skynet的启动过程以及各条线程的分工，为后续深入阅读Skynet源码做铺垫。1.启动入口main函
SpringCloud系列——5Spring Cloud 源码分析之OpenFeign 木木_2024 SpringCloud系列 spring cloud java spring 架构
学习目标为什么加一个注解就能实现远程过程调用呢？推导它底层的实现主流程？OpenFeign怎么实现RPC的基本功能的通过源码验证第1章OpenFeign主流程推导要明确OpenFeign的主流程首先我们还是要明确它的核心目标是什么？说白了，OpenFeign最核心的目标就是让客户端在远程调用过程中不需要做什么多余的操作，只要拿到一个对象，然后调用该对象的方法就好了，剩下的操作都交给OpenFeig
YOLOv10-1.1部分代码阅读笔记-model.py 红色的山茶花 YOLO 笔记深度学习
model.pyultralytics\engine\model.py目录model.py1.所需的库和模块2.classModel(nn.Module):1.所需的库和模块#UltralyticsYOLO,AGPL-3.0licenseimportinspectimportsysfrompathlibimportPathfromtypingimportUnionimportnumpyasnpim
YOLOv10-1.1部分代码阅读笔记-loaders.py 红色的山茶花 YOLO 笔记深度学习
loaders.pyultralytics\data\loaders.py目录loaders.py1.所需的库和模块2.classSourceTypes:3.classLoadStreams:4.classLoadScreenshots:5.classLoadImagesAndVideos:6.classLoadPilAndNumpy:7.classLoadTensor:8.defautocast
风控系统建设，指标策略规则流程设计，LiteFlow隐式子流程，构造EL和Chain
个人博客：无奈何杨（wnhyang）个人语雀：wnhyang共享语雀：在线知识共享Github：wnhyang-Overview简介前面有很多文章已经说了，我要利用LiteFlow做风控系统。至于进度嘛，只能尽力而为，毕竟我的惰性也很强。下面是目前Git的提交记录，代码托管在Github和Gitee，但是是私有仓库，因为还不是开放的时候，还有很多要做的。其中能梳理的仅是主流程的TODO都有下面这么
YOLOv10-1.1部分代码阅读笔记-base.py 红色的山茶花 YOLO 笔记深度学习
base.pyultralytics\data\base.py目录base.py1.所需的库和模块2.classBaseDataset(Dataset):1.所需的库和模块#UltralyticsYOLO,AGPL-3.0licenseimportglobimportmathimportosimportrandomfromcopyimportdeepcopyfrommultiprocessing.
laravel 代码混淆，混淆不是加密，只是增加了代码阅读的难度 php混淆代码laravel
laravel代码混淆1.下载yakpro-po最新版https://github.com/pk-fr/yakpro-po2.解压unzipyakpro-po.zip-d/usr/local/3.给yakpro-po.php添加执行权限cd/usr/local/yakpro-pochmoda+xyakpro-po.php4.下载PHP-Parser4.x并解压到/usr/local/yakpro-
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
【代码随想录python笔记整理】第一课 · A+B 问题1 南星六月雪 Python 刷题笔记笔记 python
前言:本笔记仅仅只是对内容的整理和自行消化，并不是完整内容，如有侵权，联系立删。一、数据类型Python中有一些常见数据类型，包括数字类型，布尔类型，字符串类型。其中，数字类型又分为整数类型和浮点数类型。整数类型-1、0、1浮点数类型3.14布尔类型True=1；False=0字符串类型'Hello'、"Helllo"二、输入输出1、输入：输入采用input()函数，再将变量与其建立联系。在inp
鼓励和表扬（笔记整理）小草的时光
一、纠正偏差行为：亮点原则1、忽略（缺点）：忽略本身是一种巨大的力量。2、鼓励强化正面行为。二、什么时候表扬：完成一件事情、目标时表扬。什么时候鼓励：一件事前、中、后给予支持。什么时候确认：孩子的品质、品格。三、夫妻间主动要求表扬，练习表扬——成为习惯，自我表扬。教会孩子自我表扬，精神成长。四、表扬的要领：1、具体。2、真诚。3、无条件。4、感觉传递。五、表扬的原则：完全接纳孩子。六、表扬的公式：
ffplay音视频同步分析攻城狮百里音视频音视频 C++ffplay
ffplay默认也是采用的这种同步策略。主流程ffplay中将视频同步到音频的主要方案是，如果视频播放过快，则重复播放上一帧，以等待音频；如果视频播放过慢，则丢帧追赶音频。这一部分的逻辑实现在视频输出函数video_refresh中，分析代码前，我们先来回顾下这个函数的流程图：在这个流程中，“计算上一帧显示时长”这一步骤至关重要。先来看下代码：staticvoidvideo_refresh(voi
笔记整理—uboot番外（3）环境变量的作用 TeYiToKu X210嵌入式学习整理笔记 linux 嵌入式硬件 c语言
环境变量的最大一个作用就是，能够在不修改代码的情况下去影响应用的运行情况。环境变量的优先级问题：有环境变量的情况下优先使用环境变量，没有环境变量则使用代码中的值（全局变量一类的变量）。例如，machid在bdinfo中，而不再print_env中（环境变量）。但若是setmachid0x30001332就可以在环境变量中生成一个值，当校验时会对这个值进行采用。删除一个环境变量的方法：如刚刚设置了s
笔记整理—内核！启动！—kernel部分（2）从汇编阶段到start_kernel与内核进程 TeYiToKu X210嵌入式学习整理笔记汇编 linux 嵌入式硬件 c语言单片机
kernel起始与ENTRY(stext)，和uboot一样，都是从汇编阶段开始的，因为对于kernel而言，还没进行栈的维护，所以无法使用c语言。_HEAD定义了后面代码属于段名为.head.text的段。内核起始部分代码被解压代码调用，前面关于uboot的文章中有提到过（eg:zImage）。uboot启动是无条件的，只要代码的位置对，上电就工作，kernel启动由bootloader进行构建
笔记整理—uboot启动过程（4）BL2干了什么及内存排布 TeYiToKu X210嵌入式学习整理嵌入式硬件 linux c语言汇编
uboot的第一阶段结束于start_armboot，第二阶段的uboot代码主要负责soc外部硬件（inand、网卡、......）、uboot本身构建（uboot指令、环境变量、......）最后进入命令行，等待命令然后倒数，等待bootcmd，进入内核（uboot结束）。倒数期间通过回车打断进入如下代码，通过循环不去进入bootcmd。for(;;){main_loop();}typedef
JavaWeb笔记整理14——公共字段自动填充技术实现 mikey棒棒棒笔记反射 Spring AOP 公共字段自动填充 JavaWeb 面向切面编程 Aspect
目录为什么需要公共字段自动填充？步骤1自定义注解AutoFill步骤2自定义切面AutoFillAspect步骤3在Mapper接口的方法上加入AutoFill注解@Before("autoFillPointCut()")JoinPoint你能通过JoinPoint获取哪些信息？例子中的JoinPoint获取方法签名和注解获取被拦截方法的参数反射什么是反射获取Class对象获取Method对象动态
Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
JavaWeb笔记整理11——Nginx反向代理Tomcat mikey棒棒棒笔记 nginx tomcat
Nginx反向代理Tomcat服务器的实现原理：Nginx就像一个中间人，它站在你的客户端（比如浏览器）和后端服务器（比如Tomcat）之间。它的主要任务是接收来自客户端的请求，然后将这些请求转发给实际处理请求的服务器（比如Tomcat），最后再把服务器的响应结果返回给客户端。实现原理：客户端发起请求：当用户在浏览器中访问网站时，发出的请求会首先到达Nginx服务器。Nginx接收请求：Nginx
Springboot整合Logstash笔记整理 yicj spring boot elk
编写核心配置类@Configuration(proxyBeanMethods=false)@EnableConfigurationProperties({LogstashProperties.class})publicclassLogstashConfigimplementsInitializingBean,EnvironmentAware{privatefinalLoggerlog=Logger
linux网络流程分析（一）---网卡驱动 wang603603 linux linux
转载：https://www.cnblogs.com/gogly/archive/2012/06/10/2541573.html分析linux网络的书已经很多了，包括《追踪LinuxTCP/IP代码运行》《Linux内核源码剖析——TCP/IP实现》，这里我只是从数据包在linux内核中的基本流程来分析，尽可能的展现一个主流程框架。内核如何从网卡接收数据,传统的过程：1.数据到达网卡；2.网卡产生
2018-06-23 Sebrenna
昨晚辉哥的大课，讲了快四个小时，我一边看球一边整理笔记，里面还附带着辉哥的广普，还得自己一边听一边翻译记录下来。每次听辉哥的大课都是一种考验，考验对航班的坚定程度，原本想着昨天晚上能把讲课的笔记整理好，今天继续补之前大课，但是发现都整理到2点，才整理了1/3.当然原因可能是因为我11点才开始动工。。最近听辉哥说价值观的部分，我有一种感觉，就是我对航班其实是有点执行不合1️⃣的，理智上我觉得航班应该
论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库：用于 BabelNet Synsets 义元预测... 开放知识图谱机器学习人工智能知识图谱自然语言处理深度学习
论文笔记整理：潘锐，天津大学硕士。来源：AAAI2020链接：https://arxiv.org/pdf/1912.01795.pdf摘要义原被定义为人类语言的最小语义单位。义原知识库（KBs）是一种包含义原标注词汇的知识库，它已成功地应用于许多自然语言处理任务中。然而，现有的义原知识库建立在少数几种语言上，阻碍了它们的广泛应用。为此论文提出在多语种百科全书词典BabelNet的基础上建立一个统一
爆款微头条素材如何收集耕夫见闻录
6月15日晚8点，砍柴书院第二期微头条训练营，纳雅老师讲了《爆款微头条素材如何收集？》。本文根据课程笔记整理。一、素材的重要性1、巧妇难为无米之炊，素材是一篇文章的血肉。不管是微头条还是写图文，素材都是内容的血肉，没有素材是没有办法下笔的。可素材那么多，如何找到合适的素材，以及什么样子的素材容易打造爆款呢？简单来说，就是人人都关心的话题或者事件，更容易引发讨论和分析，进而也加大了爆款的可能性。我们
WIFI通信-笔记整理 D_Procedural_Life wifi 通信 wifi 网络传输
一、Wifi基本属性介绍1、WLANWLAN是WirelessLAN（无线局域网）的简称，基于IP的的通信，能提供一定范围内的高速数据连接，一般采用2.4GHz或5.8GHz无线频段（ISM频段）传输，没有线缆限制，传输距离几十米，采用特殊技术可以达到几百米以上。IEEE在WLAN方面的工作只定义了二层以下的协议，目前主要集中在安全性、AP之间的信令、频谱扩展等方面。2、WiFiWiFi是Wire
835感恩日志黄娟践行日志
黄娟践行日志第835,20220928感恩日志：1,感恩果果分享美食做法[爱心]2,感恩翟总解盘生命数字❤3,感恩刘莉的笔记整理，两者笔记合二为一，完美[鼓掌][爱心]4,感恩今天的新决定，第3期镜子练习群建群❤5,感恩最近遇到的越来越多优秀老师们❤6,感恩南阳一周之旅，不但学习了①艾草知识和②炼金知识、③还学了禅拍手法和按摩手法、④学习了悬灸美容法、⑤体验课五福临门芳香、⑥学习了头疗手法⑦看见了
基于 docker 安装思源笔记恶魔大佛爷 Docker 思源笔记 centos7 docker 容器运维
思源笔记整理思路，记笔记的工具一台笔记作为服务器企业网站https://b3log.orghttps://b3log.org/siyuan/拉取镜像dockerpullb3log/siyuan创建目录我是在根目录下创建的一个目录，用来挂载，方便以后的维护和管理mkdirsiyuanNote2创建容器dockerrun--namesiyuan02-it-d--restart=always\-v/ap
《破茧成蝶—用户体验设计师的成长之路》笔记整理（八）—如何进行用户引导设计师阿柯
这周来不及写文章，就把自己之前读的《破茧成蝶—用户体验设计师的成长之路》笔记简单提炼一下。一、如何引导用户完成任务●相似性引导大小、色彩、形态、视觉元素等的相似性●方向性引导●运动元素引导二、如何简化复杂的操作●减少冗余步骤和干扰项●将复杂操作转移给系统●简化操作方式●优化操作过程三、信息量太大，页面怎么摆●让页面层次不言而喻分解-排列-组织接近原则（逻辑相关）差异原则（重要程度不同）嵌套（逻辑包
＜电子幽灵＞前端第二件：CSS进阶笔记上靈镌sama 前端 css 笔记
CSS进阶笔记上介绍费曼学习法最重要的部分，即把知识教给一个完全不懂的孩子——或者小白。为了更好的自我学习，也为了让第一次接触某个知识范畴的同学快速入门，我会把我的学习笔记整理成电子幽灵系列。提示：文章的是以解释-代码块-解释的结构呈现的。当你看到代码块并准备复制复现的时候，最好先保证自己看过了代码块前后的解释。CSS进阶笔记上CSS进阶笔记上介绍简介约定规范CSS选择器高级用法选择器:组合选择符
笔记整理-知识产权与标准化知识-GB/T11457-2006软件工程术语 Zen.Wu java linux python 编程语言面试
文档获取可参考信管网：https://www.cnitpm.com/down/ShowForum-3081-1.htmGB/T11457-2006软件工程术语规定了软件工程领域中的1859个中文术语，以及每个中文术语对应的英文词，还对每个术语给出了一个或一个以上的定义。标准的最后附有英文索引和中文索引。与项目管理相关的术语摘录如下。(1)验收准则：软件产品要符合某一测试阶段必须满足的准则，或软件产
国画山水系列—荷叶皴的画法青山独归远刘冬梅_c786
前面我们学过了披麻皴，这幅画主要用的是荷叶皴。一、工具：1、兼毫毛笔中号、大号，圆形生宣卡纸或生宣纸外框38×38厘米（内圆直径33×33cm），2、墨汁，小瓷盘若干，笔洗，3、颜料：花青，赭石，三绿，硃磦。二、荷叶皴的步骤：三、笔记整理：1、荷叶皴的特点是形状如荷叶的叶筋，皴笔皆如荷叶叶筋自上而下勾皴。2、山顶的地方如荷叶的茎蒂，叶筋都是由此处生发，随意向下勾皴。3、运笔时要有轻有重，有干有湿，
Kafka-SSL笔记整理 yicj kafka ssl 笔记
创建密钥仓库以及CA创建密匙仓库,用户存储证书文件keytool-keystoreserver.keystore.jks-aliashello_kafka-validity100000-genkey创建CAopensslreq-new-x509-keyoutca-key-outca-cert-days100000将生成的CA添加到客户端信任库keytool-keystoreclient.trust
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》

Nutch主流程代码阅读笔记整理

你可能感兴趣的:(Nutch主流程代码阅读笔记整理)