iamaboyy

基于lucene的nutch索引详解

1. 索引流程详解

1.1. crawl中涉及nutch的部分

1.1.1. nutch索引产生所需的文件路径以及产生的索引路径

Path linkDb = new Path(dir + "/linkdb");

Path segments = new Path(dir + "/segments");

Path indexes = new Path(dir + "/indexes");

这些都是产生索引文件必需的文件路径，在crawl中的main()方法中被配置。此外，还得配置索引产生的路径，如下：

Path index = new Path(dir + "/index");

1.1.2. nutch中选择使用何种索引的方式

在nutch的crawl代码刚开始不久，就有以下两行代码：

String indexerName = "lucene";

String solrUrl = null;

boolean isSolrIndex = StringUtils.equalsIgnoreCase(indexerName, "solr");

接下来，在以后的代码中，会根据以上变量的值选择使用何种索引方式，是采用lucene还是solr。也就是说，你可以通过改变这两个变量的值，来选择何种索引方式。

1.1.3. 索引开始

从这段代码开始，索引就开始了。

FileStatus[] fstats = fs.listStatus(segments, HadoopFSUtil.getPassDirectoriesFilter(fs));

//这是FileSystem带有的一个方法，你可以查看Hadoop API来了解详细，该方法的目的旨在提取segments下的各个以时间命名的文件夹的路径。

if (isSolrIndex) { //结合前面讲解的内容，该判断将选择采用何种索引方式。此处将的是lucene索引，所以不再详述solr。

SolrIndexer indexer = new SolrIndexer(conf);

indexer.indexSolr(solrUrl, crawlDb, linkDb,

Arrays.asList(HadoopFSUtil.getPaths(fstats)));

}

else {

//从这里开始，就进行lucene索引了。

DeleteDuplicates dedup = new DeleteDuplicates(conf);

if(indexes != null) {

// Delete old indexes

if (fs.exists(indexes)) {

LOG.info("Deleting old indexes: " + indexes);

fs.delete(indexes, true);

}

// Delete old index

if (fs.exists(index)) {

LOG.info("Deleting old merged index: " + index);

fs.delete(index, true);

}

Indexer indexer = new Indexer(conf);

indexer.index(indexes, crawlDb, linkDb,

Arrays.asList(HadoopFSUtil.getPaths(fstats)));

/*从该方法中可以看出，创建索引所需的文件需要哪些了，分别是crawlDb、lindDb、segments中的内容，当然这是只是初步的认识，在后面讲解每个文件中的哪些子文件被用到了，又有什么作用，重点是segments中的内容。*/

//Arrays.asList方法是用来获得诸如E:\out\segments\20120221153925的path数组的。在Indexer

//中的index方法中可以得到体现：

// public void index(Path luceneDir, Path crawlDb,

// Path linkDb, List<Path> segments)

IndexMerger merger = new IndexMerger(conf);

/*上一步产生的indexes文件夹，下面是对indexes的合并，最终产生index索引文件,将重点讲解上面的索引过程，下面的索引合并过程有必要的话自己去了解吧。*/

if(indexes != null) {

dedup.dedup(new Path[] { indexes });

fstats = fs.listStatus(indexes, HadoopFSUtil.getPassDirectoriesFilter(fs));

merger.merge(HadoopFSUtil.getPaths(fstats), index, tmpDir);

}

} else {

LOG.warn("No URLs to fetch - check your seed list and URL filters.");

}

if (LOG.isInfoEnabled()) { LOG.info("crawl finished: " + dir); }

}

1.1.4. 分析Indexer的index方法

public void index(Path luceneDir, Path crawlDb,

Path linkDb, List<Path> segments)

/*这个方法运行了一个job，该job用来创建indexes。要看懂分布式程序首先得去了解mapreduce*/

throws IOException {

LOG.info("Indexer: starting");

final JobConf job = new NutchJob(getConf());

job.setJobName("index-lucene " + luceneDir);

//该方法中最重要的方法，将在1.1.5中详解

IndexerMapReduce.initMRJob(crawlDb, linkDb, segments, job);

FileOutputFormat.setOutputPath(job, luceneDir);

//下面就涉及到索引管理了。

LuceneWriter.addFieldOptions("segment", LuceneWriter.STORE.YES, LuceneWriter.INDEX.NO, job);

LuceneWriter.addFieldOptions("digest", LuceneWriter.STORE.YES, LuceneWriter.INDEX.NO, job);

LuceneWriter.addFieldOptions("boost", LuceneWriter.STORE.YES, LuceneWriter.INDEX.NO, job);

NutchIndexWriterFactory.addClassToConf(job, LuceneWriter.class);

JobClient.runJob(job);

LOG.info("Indexer: done");

}

1.1.5. initMRJob方法

public static void initMRJob(Path crawlDb, Path linkDb,

Collection<Path> segments,

JobConf job) {

LOG.info("IndexerMapReduce: crawldb: " + crawlDb);

LOG.info("IndexerMapReduce: linkdb: " + linkDb);

for (final Path segment : segments) {

/*将sgements下的路径作为job的文件添加路径，添加的内容包括（全在segments/xxxxxxx下）：

parse_text

parse_data

crawl_fetch

crawl_parse

这些文件夹下的包含的内容如下：

parse_text:包了网页中的文本内容，列如博客中的正文内容

parse_data：包含了网页的一些状态信息，如：标题、外连接等，以crawlDatum的格式存放。

crawl_fetch：包含了每个url的抓取状态信息。Crawldb中状态信息的更新需要它做参数。

crawl_parse:这个不清楚。

LOG.info("IndexerMapReduces: adding segment: " + segment);

FileInputFormat.addInputPath(job, new Path(segment, CrawlDatum.FETCH_DIR_NAME));

FileInputFormat.addInputPath(job, new Path(segment, CrawlDatum.PARSE_DIR_NAME));

FileInputFormat.addInputPath(job, new Path(segment, ParseData.DIR_NAME));

FileInputFormat.addInputPath(job, new Path(segment, ParseText.DIR_NAME));

}

FileInputFormat.addInputPath(job, new Path(crawlDb, CrawlDb.CURRENT_NAME));

FileInputFormat.addInputPath(job, new Path(linkDb, LinkDb.CURRENT_NAME));

job.setInputFormat(SequenceFileInputFormat.class);

//最重要的是MapReduce.class,将在1.1.6中讲解

job.setMapperClass(IndexerMapReduce.class);

job.setReducerClass(IndexerMapReduce.class);

job.setOutputFormat(IndexerOutputFormat.class);

job.setOutputKeyClass(Text.class);

job.setMapOutputValueClass(NutchWritable.class);

job.setOutputValueClass(NutchWritable.class);

}

1.1.6. 核心分布式类讲解

public class IndexerMapReduce extends Configured

implements Mapper<Text, Writable, Text, NutchWritable>,

Reducer<Text, NutchWritable, Text, NutchDocument> {

public static final Log LOG = LogFactory.getLog(IndexerMapReduce.class);

private IndexingFilters filters;

private ScoringFilters scfilters;

public void configure(JobConf job) {

setConf(job);

this.filters = new IndexingFilters(getConf());

/*初始化nutch索引插件，这是nutch索引管理的核心，所有Nutch索引都是通过插件机制完成的*/

this.scfilters = new ScoringFilters(getConf());

}

public void map(Text key, Writable value,

OutputCollector<Text, NutchWritable> output, Reporter reporter) throws IOException {

output.collect(key, new NutchWritable(value));

}

/*最重要的是reduce方法*/

public void reduce(Text key, Iterator<NutchWritable> values,

OutputCollector<Text, NutchDocument> output, Reporter reporter)

throws IOException {

Inlinks inlinks = null;

CrawlDatum dbDatum = null;

CrawlDatum fetchDatum = null;

ParseData parseData = null;

ParseText parseText = null;

/*注意values是Iterator类型，同时注意前面FileInputPath添加的路径是有多个的，所以value的值的类型可以是多种类型的。这个循环通过判断每个value的不同类型来将他们分类，在CrawlDatum类中，有一堆final类型的静态常量，每个阶段的value，其状态都在这些静态常量中细分着，每种状态会有一个常量来区分，而每种状态又有多个静态常量来表述。所以对于CrawlDatum，对其又可以进行细分。*/

while (values.hasNext()) {

final Writable value = values.next().get(); // unwrap

if (value instanceof Inlinks) {

inlinks = (Inlinks)value;

} else if (value instanceof CrawlDatum) {

final CrawlDatum datum = (CrawlDatum)value;

if (CrawlDatum.hasDbStatus(datum))

dbDatum = datum;

else if (CrawlDatum.hasFetchStatus(datum)) {

// don't index unmodified (empty) pages

if (datum.getStatus() != CrawlDatum.STATUS_FETCH_NOTMODIFIED)

fetchDatum = datum;

} else if (CrawlDatum.STATUS_LINKED == datum.getStatus() ||

CrawlDatum.STATUS_SIGNATURE == datum.getStatus() ||

CrawlDatum.STATUS_PARSE_META == datum.getStatus()) {

continue;

} else {

throw new RuntimeException("Unexpected status: "+datum.getStatus());

}

} else if (value instanceof ParseData) {

parseData = (ParseData)value;

} else if (value instanceof ParseText) {

parseText = (ParseText)value;

} else if (LOG.isWarnEnabled()) {

LOG.warn("Unrecognized type: "+value.getClass());

}

if (fetchDatum == null || dbDatum == null

|| parseText == null || parseData == null) {

return; // only have inlinks

}

if (!parseData.getStatus().isSuccess() ||

fetchDatum.getStatus() != CrawlDatum.STATUS_FETCH_SUCCESS) {

return;

}

//创建索引

NutchDocument doc = new NutchDocument();

final Metadata metadata = parseData.getContentMeta();

//parseData对应一个类来管理，就是parseData,可以通过其中的一些方法获得相应的内容。

// add segment, used to map from merged index back to segment files

doc.add("segment", metadata.get(Nutch.SEGMENT_NAME_KEY));

// add digest, used by dedup

doc.add("digest", metadata.get(Nutch.SIGNATURE_KEY));

final Parse parse = new ParseImpl(parseText, parseData);

try {

// extract information from dbDatum and pass it to

// fetchDatum so that indexing filters can use it

final Text url = (Text) dbDatum.getMetaData().get(Nutch.WRITABLE_REPR_URL_KEY);

if (url != null) {

fetchDatum.getMetaData().put(Nutch.WRITABLE_REPR_URL_KEY, url);

}

// run indexing filters

doc = this.filters.filter(doc, parse, key, fetchDatum, inlinks);

//此处调用插件进行索引建立。关于插件，将在第2节中讲解。

} catch (final IndexingException e) {

if (LOG.isWarnEnabled()) { LOG.warn("Error indexing "+key+": "+e); }

return;

}

// skip documents discarded by indexing filters

if (doc == null) return;

float boost = 1.0f;

// run scoring filters

try {

boost = this.scfilters.indexerScore(key, doc, dbDatum,

fetchDatum, parse, inlinks, boost);

} catch (final ScoringFilterException e) {

if (LOG.isWarnEnabled()) {

LOG.warn("Error calculating score " + key + ": " + e);

}

return;

}

// apply boost to all indexed fields.

doc.setScore(boost);

// store boost for use by explain and dedup

doc.add("boost", Float.toString(boost));

output.collect(key, doc);

}

2. 索引管理详解

2.1. 插件

Nutch的索引都是以插件的形式实现的。nutch-site.xml中添加插件扩展，实现插件使用。如：<name>plugin.includes</name>

以分词为例：

首先，在插件的包中，有个plugin.xml，里面有

<plugin

id="analysis-zh"

name="Chinese Analysis Plug-in"

version="1.0.0"

provider-name="net.paoding.analysis">。nutch-site.xml中的插件扩展要和id相匹配才行。

2.2. 自定义插件

在索引插件中，关键是得到你想添加到索引field中的内容。对于索引中的一些细节，参考《lucene+nutch搜索引擎开发》这本书。

重生之——我用WeakMap和Symbol缔造专属于我的金丝雀~~~【使用WeakMap和Symbol实现属性私有】被夏油狠狠爱的悟 JS 前端 javascript 开发语言 WeakMap class 类 Symbol
#今日份大脑爆炸##看完下面内容包你更进一步理解WeakMap!#不想属性被外人看见？不想是个人都能看见你的属性？那就看看WeakMap，帮你轻松实现你的目标！1.WeakMap：第一版：//WeakMap管理私有属性：consthost=newWeakMap()//这里创建了一个WeakMap实例host,用于存储每个User实例的host属性classUser{constructor(url)
Python从0到100（三十四）：Python中的urllib模块使用指南是Dream呀 python 开发语言
1.urllib模块概述在Python中，除了广泛使用的requests模块之外，urllib模块也是处理HTTP请求的重要工具。urllib模块在Python2中分为urllib和urllib2两个模块，而在Python3中，它们被合并为一个urllib模块。本文将重点介绍Python3中的urllib模块及其使用方法。2.urllib模块的基本方法介绍2.1urllib.request.url
Qt选择文件路径，并写入文件水瓶丫头站住 Qt qt 开发语言
以下是使用Qt的QFile和QFileDialog选择路径并写入文件的示例代码：#include#include#include#includevoidwriteFileExample(){//1.获取保存路径QStringfileName=QFileDialog::getSaveFileName(nullptr,//父窗口"保存文件",//对话框标题QDir::homePath(),//默认目录
Python中常见的抓取图片的方法 qq_31397725 python 开发语言
在Python中，抓取图片的方法可以根据你的具体需求和使用场景有所不同。以下是一些常见的方法：使用requests库从URL下载图片：这是最常见的方法，适用于从网络上的URL下载图片。你可以使用requests库发送HTTP请求，然后将响应的内容保存到本地文件中。使用selenium库抓取网页中的图片：如果你需要从一个动态加载的网页中抓取图片，selenium可以帮助你模拟浏览器行为，等待页面加载
【网络爬虫】(2) requests模块，案例：网络图片爬取，附Python代码立Sir 网络爬虫爬虫 python
1.基本原理1.1requests模块requests是Python中一个非常流行的HTTP客户端库，用于发送所有的HTTP请求类型。它基于urllib，但比urllib更易用。中文文档地址：Requests:让HTTP服务人类—Requests2.18.1文档（1）requests.get(url,**kwargs)requests.get()函数是requests库中用于发送HTTPGET请求
如何绕开浏览器批量下载的限制露露在前端前端 javascript html 状态模式学习面试 vue.js
前言最近遇到一个需求，需要将批量选择的图片，批量一个个下载。触发单个下载在浏览器中触发下载，我们可以借用a元素来触发。constdownloadFile=async(url:string,name:string)=>{constres=awaitfetch(url);constblob=awaitres.blob();conststrList=url.split('.');consttype=st
PHP前置知识-HTML学习 freesec html 学习前端
HTML学习1、因特网和万维网1.1、Internet因特网：全球资源的总汇，连接网络的网络1.2、TCP/IP协议簇：传输层/网络层协议1.3、万维网：www（worldwideweb）HTTP超文本传输协议作用：接受和发布HTMl页面URL统一资源定位符协议://域名:端口号/文件路径/文件名.文件后缀http://www.QQ.com.cn:80/tq/index.html1.4、W3C组织
实现短视频播放功能鸿蒙示例代码
本文原创发布在华为开发者社区。介绍本示例使用Swiper+AVPlayer构建了一个短视频上下滑动并播放的场景。实现短视频播放功能源码链接效果预览使用说明打开应用，直接播放第一条短视频。向上滑动，即可进入第二条短视频，之后可以上下滑动播放短视频。实现思路数据处理构造BasicDataSource类，实现对数据的处理函数。classBasicDataSourceimplementsIDataSour
C或C++中实现数据结构课程中的链表、数组、树和图案例小弟有话说1.0 数据结构 c语言 c++
1.双向链表（DoublyLinkedList）-----支持双向遍历。C++实现#includestructNode{intdata;Node*prev;Node*next;};classDoublyLinkedList{private:Node*head;public:DoublyLinkedList():head(nullptr){}//在链表末尾插入节点voidappend(intdata
oracle数据库转mysql数据库一直想成为大神的菜鸟数据库 oracle mysql
1.删除oracle相关配置1.1删除pom中的oracle依赖1.2删除有关@Configuration中oracle配置2.驱动引入引入mysql依赖mysqlmysql-connector-java8.0.13org.springframework.bootspring-boot-starter-jdbc3.配置文件更改spring:datasource:druid:url:jdbc:mys
Oracle转化为MySQL数据库袅沫点兵之经数据库 mysql
使用HttpClient调用Post方法的时候，EntityUtils.toString(response.getEntity());响应数据只能读取一次，读取多次会出现，Attemptedreadfromclosedstream错误。Oracle转化为MySQL数据库OracleMySQLORDERBYCREATED_TIMEDESCNULLSLASTORDERBYCREATED_TIMEDES
Spring Boot - Spring Boot 静态资源映射（默认静态资源映射、自定义静态资源映射）我命由我12345 Java -简化库与框架编程 spring boot 后端 java java-ee spring intellij-idea intellij idea
一、静态资源映射在SpringBoot中，静态资源的映射是指将特定的URL路径与静态资源关联起来静态资源有例如，HTML、CSS、JS、图片等这使得客户端可以通过URL路径访问这些资源二、默认静态资源映射概述SpringBoot默认会将以下目录中的文件映射为静态资源classpath:/static/classpath:/public/classpath:/resources/classpath:
Python的路径pathlib库活跃家族 python 开发语言
1、读取文件默认只会从当前代码操作文件的目录下读取文件。找不到就会报错。解决方式：1、方式一：绝对路径是指：电脑里从根目录开始的一个完整的路径--不推荐注意事项：路径特殊符号\t一定要转义在路径前面加一个r绝对路径弊端：1）移植给其他人电脑上用，文件前面的目录不对，要手动修改。2）\/不同平台路径分隔符不一样，绝对路径不能兼容不同平台。2、相对路径：不会写死每一级的路径，相对层级管理，找文件路径借
数据访问：JPA 关联& MyBatis 斗-匕 oracle 数据库
创建项目添加关键依赖包:任何使用方式都需要首在pox.xml中引入mybatis-spring-boot-starter的启动器，我们使用项目向导添加的依赖如下：application.ymlspring:#配置数据源datasource:driver-class-name:com.mysql.cj.jdbc.Driverurl:jdbc:mysql://localhost:3306/crm?us
安卓环境脚本 nb的码农 linux杂项 linux
sudoapt-getinstalluuiduuid-devzlib1g-devliblz-devliblzo2-2liblzo2-devlzopgit-corecurlu-boot-toolsmtd-utilsandroid-tools-fsutilsopenjdk-8-jdkdevice-tree-compiler\gdiskm4libz-devgitgnupgflexbisongperfli
135.HarmonyOS NEXT系列教程之3D立方体旋转轮播案例讲解之数据源基础概念全栈若城 harmonyos从入门到进阶 harmonyos HarmonyOS NEXT 华为性能优化 3d
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之3D立方体旋转轮播案例讲解之数据源基础概念文章目录HarmonyOSNEXT系列教程之3D立方体旋转轮播案例讲解之数据源基础概念效果演示1.什么是BasicDataSource？2.类的基本结构2.1核心属性3.为什么需要数据
auto.js_HTTP协议_get与post请求_ZHOU125disorder_ zjing125 #auto.js基础学习 auto.js HTTP协议 get与post请求
HTTP协议_get与post请求简介：HTTP协议对地址url进行一次HTTPGET请求http.get(url[,options,callback])url(string)请求的URL地址，需要以"http://"或"https://"开头。如果url没有以"http://"开头，则默认为"http://"。options(Object)请求选项。参见[http.request()][]。ca
使用独立Ironpython 脚本运行Ansys electronics进行建模（二）————脚本自动打开项目并自动运行加点油。。。。 Ironpython电机建模 python 自动化
参考文档官方文档——Maxwellhelp—2022R1官方文档——MaxwellScriptingGuide代码实现功能通过Pycharm运行脚本，来自动打开已有程序，进行运行importsyssys.path.append(r"F:\ProgramFiles\AnsysEM\v221\Win64")sys.path.append(r"F:\ProgramFiles\AnsysEM\v221\W
python的导包使用 power_kai python
1、查看文件的创建时间importtimeimportosprint（time.localtime(os.path.getatime('E:\\a.txt'))）2、查看文件的修改时间print（time.localtime(os.path.getmtime('E:\\a.txt'))）3、pickle数据转换模块,这个写入的文件是一个二进制文件，普通文本编辑器打开是乱码importpickle#
HTML期末设计——代码篇 green5+1 html
事先声明这个网页设计也就是用了我学到的知识做的一个中规中矩的网页，可以给以后的大一新生们做个参考，和商业网站的效果肯定是没得比的，期望太高的可以关掉了引入页效果图：欢迎来到香氛密语body{background:url(img/1的背景图.jpg)no-repeatcentercenter;background-size:cover;/*让背景图基于容器大小伸缩*/background-attac
python 导包 amaicsdn python
__init__.pyisneededunderthepackagewhereyouwanttoputyourownpyfilesorthisdirectorywontberecongnisedasapythonpackage__init__.pycanbeemptyfileusefillpathyoucanaccessthedefinedmethodmethodunder__init__.pyc
第七章Solr：企业级搜索应用 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
第七章Solr：企业级搜索应用1.背景介绍1.1搜索引擎的重要性在当今信息时代,数据量呈指数级增长,海量数据中蕴含着极其宝贵的信息和知识。然而,如何快速、准确地从大数据中检索出所需的信息,一直是企业和组织面临的巨大挑战。传统的数据库查询方式已经无法满足现代搜索需求,因此高效的搜索引擎应运而生。1.2什么是SolrApacheSolr是一个高性能、可扩展、云就绪的企业级搜索平台,由Apache软件基
第2篇：SOLR 的架构总览不出名的架构师 solr 架构 lucene
第2篇：SOLR的架构总览2.1前言在上一篇文章中，我们已经完成了SOLR的源码环境搭建，成功运行了一个简单的实例，并初步浏览了源码目录结构。现在，我们将目光转向SOLR的整体架构，探索它如何将复杂的功能组织成一个高效的搜索系统。通过本篇，你将了解SOLR的核心组件是如何协作的，请求是如何从客户端到达服务器并返回结果的，以及源码中哪些关键类扮演了重要角色。这不仅是后续深入分析的基础，也是理解SOL
linux环境下快速输出电脑的系统/硬件/显卡/网络/已安装软件等信息 Tipriest_ Ubuntu linux 电脑网络信息输出
在Linux环境下，可以通过以下命令快速获取系统和硬件信息。最后将这些命令整合成一个脚本（如`sysinfo.sh``），一键输出所有信息。1.系统信息#内核信息uname-a#发行版信息lsb_release-a2>/dev/null||cat/etc/*release*#系统启动时间uptime#环境变量echo"PATH:$PATH"2.硬件信息#CPU信息lscpucat/proc/cpu
ionic5+capacitor+angular 人生如游戏--- Cordova Ionic angular
ionic更新到5之后。创建项目会默认使用capacitor容器。是ionic自己开发的一套类似cordova的东西。使用起来也比较简单。慢慢的会替代cordova，变成自己的东西吧。官方地址https://capacitor.ionicframework.com/docs/basics/running-your-app之前使用的是ioniccordova来操作现在使用npxcap来操作安装ion
C++ Map 查询时的两个小细节：`map[id]` 与 `map.value(id, nullptr)` 的区别誰能久伴不乏 c++java 开发语言
文章目录C++Map查询时的两个小细节：`map[id]`与`map.value(id,nullptr)`的区别1.`map[id]`—直接访问和自动插入新元素示例代码：关键点：适用场景：2.`map.value(id,nullptr)`—安全查询并避免插入新元素示例代码：关键点：适用场景：3.对比：`map[id]`与`map.value(id,nullptr)`的区别4.总结：选择合适的方式5
Android第四次面试总结（基础算法篇）每次的天空 android 面试算法
一、反转链表//定义链表节点类classListNode{//节点存储的值intval;//指向下一个节点的引用ListNodenext;//构造函数，用于初始化节点的值ListNode(intx){val=x;}}classSolution{//反转链表的方法publicListNodereverseList(ListNodehead){//初始化前一个节点为nullListNodeprev=n
Android 高频面试必问之Java基础 2401_83641443 程序员 android 面试 java
BootstrapClassLoader：Bootstrap类加载器负责加载rt.jar中的JDK类文件，它是所有类加载器的父加载器。Bootstrap类加载器没有任何父类加载器，如果调用String.class.getClassLoader()，会返回null，任何基于此的代码会抛出NUllPointerException异常，因此Bootstrap加载器又被称为初始类加载器。ExtClassL
批量将将xlsx转为csv，将csv转为csv utf-8 Znnjcidmslz 数据 python pandas
csv转换为csvutf-8将csv格式文件批量转换为csvutf-8格式文件，以下为使用Python处理的代码：importosimportpandasaspd#存有文件的路径current_path=os.getcwd()#current_path=os.path.dirname('G:/weather_output2')#转换之后存放的路径为“UTF8”，会检查当前路径是否有，没有就创建ut
【Python】爬取高校数据（名字，院校特色，所在地，性质）。可用于判断高校是否为双一流，本科/专科等分析 llzcxdb Python python 开发语言爬虫
源网站：http://college.gaokao.com/schlist/p1利用Python的lxml库进行html解析，源代码：importrequestsfromlxmlimportetreeimportpandasaspdimportcsv#请求URLurl='http://college.gaokao.com/schlist/p'#构建请求头headers={'User-Agent':
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

基于lucene的nutch索引详解

你可能感兴趣的:(null,Lucene,Solr,url,basic,Path)