longgangbai

lucene全文检索应用示例及代码简析

Lucene是apache软件基金会 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包及架构，提供了完整的查询引擎和索引引擎，实现了一些通用的分词算法，预留很多词法分析器接口。本文以myrss.easyjf.com网站系统中使用Lucene实现全文检索的代码为例，简单演示Lucene在实际项目中的应用。
　　使用Lucene实现全文检索，主要有下面三个步骤：
　　1、建立索引库：根据网站新闻信息库中的已有的数据资料建立Lucene索引文件。
　　2、通过索引库搜索：有了索引后，即可使用标准的词法分析器或直接的词法分析器实现进行全文检索。
　　3、维护索引库：网站新闻信息库中的信息会不断的变动，包括新增、修改及删除等，这些信息的变动都需要进一步反映到Lucene索引文件中。
    下面是myrss.easyjf.com相关代码!

一、索引管理(建立及维护)
　　索引管理类MyRssIndexManage主要实现根据网站信息库中的数据建立索引，维护索引等。由于索引的过程需要消耗一定的时间，因此，索引管理类实现Runnable接口，使得我们可以在程序中开新线程来运行。
package com.easyjf.lucene;
import java.util.Date;
import java.util.List;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.queryParser.MultiFieldQueryParser;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.Searcher;
import com.easyjf.dbo.EasyJDB;
import com.easyjf.news.business.NewsDir;
import com.easyjf.news.business.NewsDoc;
import com.easyjf.news.business.NewsUtil;
import com.easyjf.web.tools.IPageList;
public class MyRssIndexManage implements Runnable {
private String indexDir;
private String indexType="add";
public void run() {
  // TODO Auto-generated method stub
  if("add".equals(indexType))
   normalIndex();
  else if ("init".equals(indexType)) reIndexAll();
}
public void normalIndex()
{
  try{
   Date start = new Date();
   int num=0;
   IndexWriter writer=new IndexWriter(indexDir,new StandardAnalyzer(),false);
   //NewsDir dir=NewsDir.readBySn();
   String scope="(needIndex<2) or(needIndex is null)";
   IPageList pList=NewsUtil.pageList(scope,1,50);
   for(int p=0;p   {
   pList=NewsUtil.pageList(scope,p,100);
   List list=pList.getResult();
   for(int i=0;i   {
    NewsDoc doc=(NewsDoc)list.get(i);
    writer.addDocument(newsdoc2lucenedoc(doc));
    num++;
   }
   }
   writer.optimize();
   writer.close();
   EasyJDB.getInstance().execute("update NewsDoc set needIndex=2 where "+scope);
   Date end = new Date();
   System.out.print("新增索引"+num+"条信息，一共花："+(end.getTime() - start.getTime())/60000+"分钟!");
   }
   catch(Exception e)
   {
    e.printStackTrace();
   }
}
public void reIndexAll()
{
  try{
   Date start = new Date();
   int num=0;
   IndexWriter writer=new IndexWriter(indexDir,new StandardAnalyzer(),true);
   NewsDir dir=NewsDir.readBySn("easyjf");
   IPageList pList=NewsUtil.pageList(dir,1,50);
   for(int p=0;p   {
   pList=NewsUtil.pageList(dir,p,100);
   List list=pList.getResult();
   for(int i=0;i   {
    NewsDoc doc=(NewsDoc)list.get(i);
    writer.addDocument(newsdoc2lucenedoc(doc));
    num++;
   }
   }
   writer.optimize();
   writer.close();
   EasyJDB.getInstance().execute("update NewsDoc set needIndex=2 where dirPath like 'easyjf%'");
   Date end = new Date();
   System.out.print("全部重新做了一次索引，一共处理了"+num+"条信息，花："+(end.getTime() - start.getTime())/60000+"分钟!");
   }
   catch(Exception e)
   {
    e.printStackTrace();
   }
}
private Document newsdoc2lucenedoc(NewsDoc doc)
{
  Document lDoc=new Document();
  lDoc.add(new Field("title",doc.getTitle(),Field.Store.YES,Field.Index.TOKENIZED));
  lDoc.add(new Field("content",doc.getContent(),Field.Store.YES,Field.Index.TOKENIZED));
  lDoc.add(new Field("url",doc.getRemark(),Field.Store.YES,Field.Index.NO));
  lDoc.add(new Field("cid",doc.getCid(),Field.Store.YES,Field.Index.NO));
  lDoc.add(new Field("source",doc.getSource(),Field.Store.YES,Field.Index.NO));
  lDoc.add(new Field("inputTime",doc.getInputTime().toString(),Field.Store.YES,Field.Index.NO));
  return lDoc;
}
public String getIndexDir() {
  return indexDir;
}
public void setIndexDir(String indexDir) {
  this.indexDir = indexDir;
}

public String getIndexType() {
  return indexType;
}
public void setIndexType(String indexType) {
  this.indexType = indexType;
}
}

二、使用Lucene实现全文搜索
   下面是MyRssSearch类的源码，该类主要实现使用Lucene中Searcher及QueryParser实现从索引库中搜索关键词。
package com.easyjf.lucene;

import java.util.List;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.queryParser.MultiFieldQueryParser;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.Searcher;

import com.easyjf.search.MyRssUtil;
import com.easyjf.search.SearchContent;
import com.easyjf.web.tools.IPageList;
import com.easyjf.web.tools.PageList;

public class MyRssSearch {
    private String indexDir;
    IndexReader ir;
    Searcher search;
    public IPageList search(String key,int pageSize,int currentPage)
    {
        IPageList pList=new PageList(new HitsQuery(doSearch(key)));
        pList.doList(pageSize,currentPage,"","",null);
        if(pList!=null)
        {
            List list=pList.getResult();
            if(list!=null){
            for(int i=0;i            {
                list.set(i,lucene2searchObj((Document)list.get(i),key));
            }
            }
        }
        try{
        if(search!=null)search.close();
        if(ir!=null)ir.close();
        }
        catch(Exception e)
        {
            e.printStackTrace();
        }
        return pList;
    }
    private SearchContent lucene2searchObj(Document doc,String key)
    {
        SearchContent searchObj=new SearchContent();
        String title=doc.getField("title").stringValue();
        searchObj.setTitle(title.replaceAll(key,""+key+""));
        searchObj.setTvalue(doc.getField("cid").stringValue());
        searchObj.setUrl(doc.getField("url").stringValue());
        searchObj.setSource(doc.getField("source").stringValue());
        searchObj.setLastUpdated(doc.getField("inputTime").stringValue());
        searchObj.setIntro(MyRssUtil.content2intro(doc.getField("content").stringValue(),key));
        return searchObj;
    }
    public Hits doSearch(String key)
    {
        Hits hits=null;
        try{
        ir=IndexReader.open(indexDir);
        search=new IndexSearcher(ir);
        String fields[]={"title","content"};
        QueryParser parser=new MultiFieldQueryParser(fields,new StandardAnalyzer());
        Query query=parser.parse(key);
        hits=search.search(query);
        }
        catch(Exception e)
        {
            e.printStackTrace();
        }
        //System.out.println("搜索结果:"+hits.length());
        return hits;
    }

    public String getIndexDir() {
        return indexDir;
    }
    public void setIndexDir(String indexDir) {
        this.indexDir = indexDir;
    }
}

　　在上面的代码中，search方法返回一个封装了分页查询结果的IPageList，IPageList是EasyJWeb Tools业务引擎中的分页引擎，对于IPageList的使用，请看本人写的这篇文章《EasyJWeb Tools中业务引擎分页的设计实现》：

　　我们针对Lucene的的查询结果Hits结构，写了一个查询器HitsQuery。代码如下所示：
package com.easyjf.lucene;
import java.util.ArrayList;
import java.util.Collection;
import java.util.List;
import org.apache.lucene.search.Hits;
import com.easyjf.web.tools.IQuery;
public class HitsQuery implements IQuery {
private int begin=0;
private int max=0;
private Hits hits;
public HitsQuery()
{

}
public HitsQuery(Hits hits)
{
  if(hits!=null)
  {
   this.hits=hits;
   this.max=hits.length();
  }
}
public int getRows(String arg0) {
  // TODO Auto-generated method stub
  return (hits==null?0:hits.length());
}
public List getResult(String arg0) {
  // TODO Auto-generated method stub
  List list=new ArrayList();
  for(int i=begin;i<(begin+max)&&(i  {
   try{
   list.add(hits.doc(i));
   }
   catch(Exception e)
   {
    e.printStackTrace();
   }
  }
  return list;
}
public void setFirstResult(int begin) {
  // TODO Auto-generated method stub
  this.begin=begin;
}
public void setMaxResults(int max) {
  // TODO Auto-generated method stub
  this.max=max;
}
public void setParaValues(Collection arg0) {
  // TODO Auto-generated method stub

}
public List getResult(String condition, int begin, int max) {
  // TODO Auto-generated method stub
  if((begin>=0)&&(begin  if(!(max>hits.length()))this.max=max;
  return getResult(condition);
}
}

三、Web调用
　　下面我们来看看在Web中如果调用商业逻辑层的全文检索功能。下面是处理用户请请的Action中关于搜索部分的源码：
package com.easyjf.news.action;
public class SearchAction implements IWebAction {
public Page doSearch(WebForm form,Module module)throws Exception
{
String key=CommUtil.null2String(form.get("v"));
key=URLDecoder.decode(URLEncoder.encode(key,"ISO8859_1"),"utf-8");
form.set("v",key);
form.addResult("v2",URLEncoder.encode(key,"utf-8"));
if(key.getBytes().length>2){
String orderBy=CommUtil.null2String(form.get("order"));
int currentPage=CommUtil.null2Int(form.get("page"));
int pageSize=CommUtil.null2Int(form.get("pageSize"));
if(currentPage<1)currentPage=1;
if(pageSize<1)pageSize=15;
SearchEngine search=new SearchEngine(key,orderBy,pageSize,currentPage);
search.getLuceneSearch().setIndexDir(Globals.APP_BASE_DIR+"/WEB-INF/index");
search.doSearchByLucene();
IPageList pList=search.getResult();
if(pList!=null && pList.getRowCount()>0){
  form.addResult("list",pList.getResult());
  form.addResult("pages",new Integer(pList.getPages()));
  form.addResult("rows",new Integer(pList.getRowCount()));
  form.addResult("page",new Integer(pList.getCurrentPage()));
  form.addResult("gotoPageHTML",CommUtil.showPageHtml(pList.getCurrentPage(),pList.getPages()));
  }
else
{
  form.addResult("notFound","true");//找不到数据
}
}
else
  form.addResult("errMsg","您输入的关键字太短!");
form.addResult("hotSearch",SearchEngine.getHotSearch(20));
return null;
}
}
其中调用的SearchEngine类中有关Lucene部分的源码：
public class SearchEngine {
private MyRssSearch luceneSearch=new MyRssSearch();
public void doSearchByLucene()
{
SearchKey keyObj=readCache();
if(keyObj!=null){
  result=luceneSearch.search(key,pageSize,currentPage);
  if(updateStatus){
  keyObj.setReadTimes(new Integer(keyObj.getReadTimes().intValue()+1));
  keyObj.update();
  }
}
else//缓存中没有该关键字信息,生成关键字搜索结果
{
  keyObj=new SearchKey();
  keyObj.setTitle(key);
  keyObj.setLastUpdated(new Date());
  keyObj.setReadTimes(new Integer(1));
  keyObj.setStatus(new Integer(0));
  keyObj.setSequence(new Integer(1));
  keyObj.setVdate(new Date());
  keyObj.save();
  result=luceneSearch.search(key,pageSize,currentPage);;

}
}
}

四、程序演示效果
　　这是EasyJF团队官方网站上提供java信息搜索的myrss.easyjf.com的运行效果。

linux lamp 山客泛舟游Y linux php apache
linuxlamp1.lamp简介有了前面学习的知识的铺垫，今天可以来学习下第一个常用的web架构了。所谓lamp，其实就是由Linux+Apache+Mysql/MariaDB+Php/Perl/Python的一组动态网站或者服务器的开源软件，除Linux外其它各部件本身都是各自独立的程序，但是因为经常被放在一起使用，拥有了越来越高的兼容度，共同组成了一个强大的Web应用程序平台。LAMP指的是
java.io.IOException: Broken pipe 异常分析重楼七叶一枝花_1200 Java Exception java 开发语言
org.apache.catalina.connector.ClientAbortException:java.io.IOException:Brokenpipe是一个常见的Java异常，通常在使用Tomcat服务器处理HTTP请求时出现。这个异常表示客户端在服务器完成响应之前关闭了连接，导致服务器端试图写入数据到一个已经关闭的连接上。具体来说，“Brokenpipe”（断开的管道）意味着客户端与
lamp or lnmp or lnamp有什么区别？安装哪个好? weixin_34402408 php 数据库前端 ViewUI
lamp的全称是linux+apache+mysql+phplnmp的全称是linux+nginx+mysql+phplnamp的全称是linux+nginx+apache+mysql+phpNginx特性Nginx性能稳定、功能丰富、运维简单、处理静态文件速度快且消耗系统资源极少。1、相比Apache，用Nginx作为Web服务器：使用资源更少，支持更多并发连接，效率更高。2、作为负载均衡服务器
LAMP（Linux、Apache、MySQL、PHP）环境搭建和项目部署编译安装全流程！ shyuu_ linux apache mysql 服务器云计算运维 php
文章目录LAMP架构LAMP架构组件LAMP架构的工作流程LAMP组件的安装顺序编译安装ApacheHTTP服务器1.关闭防火墙并准备安装所需软件包2.安装环境依赖包3.配置软件模块4.编译及安装5.优化配置文件路径6.添加httpd服务到系统服务管理7.修改httpd服务配置文件8.浏览器访问验证编译安装MySQLd服务1.准备安装包2.安装环境依赖包3.配置软件模块4.编译及安装5.创建MyS
LNMP 和 LAMP 对比（仅供参考）小小先生好无情 windows 运维
Nginx性能稳定、功能丰富、运维简单、处理静态文件速度快且消耗系统资源极少。Apache是LAMP架构最核心的WebServer，开源、稳定、模块丰富是Apache的优势。但Apache的缺点是有些臃肿，内存和CPU开销大，性能上有损耗，不如一些轻量级的Web服务器至于安装哪个好呢？要省内存的话LNMP是最好的选择,但似乎不太稳定,有时会比较常50静态的多用LNMP还是不错的动态内容多的话，LA
大数据开发的底层逻辑是什么？瑰茵大数据
大数据开发的底层逻辑主要围绕数据的生命周期进行，包括数据的采集、存储、处理、分析和可视化等环节。以下是大数据开发的一些关键底层逻辑：数据采集：目的：从不同的数据源（如日志文件、数据库、传感器等）收集数据。方法：使用数据采集工具（如ApacheFlume、ApacheKafka、ApacheSqoop）来捕获和传输数据。数据存储：目的：将收集到的数据存储在可靠且可扩展的存储系统中。方法：使用分布式文
记录一次排查docker中mysql一会儿可以连接上一会儿会话断开问题，服务硬盘损坏，导致docker中mysql没100s自启动一次出现的问题 qkfm docker 容器运维 mysql
1、起因项目现场服务器宕机后，上面的docker容器启动后，突然有一个应用的服务端，总是突然报错，说数据库连接不上，但是通过navicat外面又可以连接。Causedby:org.apache.tomcat.jdbc.pool.PoolExhaustedException:[http-nio-7006-exec-9]Timeout:Poolempty.Unabletofetchaconnectio
《Apache Shiro 源码解析》- 11.Shiro 对 Spring 的支持大漠穷秋9527 《Apache Shiro 源码解析》apache spring java Shiro 权限管理后端
11.Shiro对Spring的支持Shiro的第一个版本发布于2004年，Spring项目起源于2002年，在Shiro最初的版本中没有与Spring相关的内容。后来，随着Spring的流行，从2010年开始，Shiro开始提供对Spring的支持，推出了一个独立的jar包，名为shiro-spring。从2018年开始，Shiro在v1.4中开始增强对SpringBoot的支持。在本章中，我们
自学网络安全，一般人我劝你还是算了吧_白银安卓开发 2401_84281629 程序员 web安全 android 安全
whois信息用来查询域名信息，shodan、zoomeye、fofa等网络空间搜索引擎检索IP、域名、URL等背后的信息，GoogleHacking利用搜索引擎来检索网站内部信息，这些东西都是在网络信息搜集中经常用到的技能。暴力破解在网络攻击中，当扫描到目标开放的服务后，最直接的就是想要登录进去。常见的服务有SSH、RDP、MySQL、Redis、Web表单等等。这个时候，暴力破解通常会派上用场
探索Apache NetBeans Maven Archetypes —— 构建强大的NetBeans套件滕娴殉
探索ApacheNetBeansMavenArchetypes——构建强大的NetBeans套件netbeans-mavenutils-archetype-nbm-suite-rootApacheIncubatorPagespeedWebsite是ApachePagespeed项目的一个孵化网站，提供了关于ApachePagespeed项目的介绍、文档和示例代码。这个项目适用于Web开发者和性能优
探秘Apache NetBeans Maven插件：nbm-maven-plugin深度剖析穆璋垒Estelle
探秘ApacheNetBeansMaven插件：nbm-maven-plugin深度剖析netbeans-mavenutils-nbm-sharedApacheNetBeansMavenUtilsNBM-Shared是一个用于共享ApacheNetBeansMaven插件的通用代码的库。它包含了许多用于处理Maven插件的通用代码，如解析POM文件、处理依赖关系、生成NBM文件等。这个库适用于任何
探索Apache NetBeans Parent Pom：加速你的Maven项目开发之旅萧崧锟
探索ApacheNetBeansParentPom：加速你的Maven项目开发之旅netbeans-parentNetBeansParent:这是一个用于管理NetBeans项目的父pom文件。它为NetBeans项目提供了一个通用的Maven配置，包括依赖管理、插件配置等。适合NetBeans开发者和希望使用Maven进行项目管理的开发者。特点包括支持NetBeans平台的特性、自动生成项目模板
探索Apache NetBeans的魔力：Maven Archetypes带你走进高效开发的世界柳旖岭
探索ApacheNetBeans的魔力：MavenArchetypes带你走进高效开发的世界netbeans-mavenutils-archetype-nbm-suite-rootApacheNetBeansMavenArchetypesforApacheNetBeansModulesSuite项目地址:https://gitcode.com/gh_mirrors/ne/netbeans-mave
探秘高效开发利器——Apache NetBeans Maven 插件工具包孟振优Harvester
探秘高效开发利器——ApacheNetBeansMaven插件工具包netbeans-mavenutils-nbm-maven-harnessThisrepositoryhavebeenmergedtohttps://github.com/apache/netbeans-mavenutils-nbm-maven-plugin/项目地址:https://gitcode.com/gh_mirrors/
推荐开源项目：Apache NetBeans Maven Skin for Website 黎杉娜Torrent
推荐开源项目：ApacheNetBeansMavenSkinforWebsitenetbeans-webskinApacheNetBeansmavensiteskinformavenbuild项目地址:https://gitcode.com/gh_mirrors/ne/netbeans-webskin1、项目介绍ApacheNetBeansMavenSkinforWebsite是一个专为基于Mav
推荐文章：探索Apache NetBeans —— 开源社区的全能网页构建伙伴任澄翊
推荐文章：探索ApacheNetBeans——开源社区的全能网页构建伙伴netbeans-websiteApacheNetBeansWebsite项目地址:https://gitcode.com/gh_mirrors/ne/netbeans-website项目介绍在这个快速发展的数字化时代，开发高效、互动性强的网站是每个技术团队的核心任务。ApacheNetBeans作为一款久负盛名的集成开发环境
Google Chrome浏览器设置奶香臭豆腐 edge浏览器
问题描述点击GoogleChrome图标，打开的不是Google浏览器。解决步骤打开谷歌浏览器，单击右上角“自定义及控制”，再单击菜单栏中“设置”选项卡，如下图中的法1。或者，打开谷歌浏览器，在地址栏输入chrome://settings/，如下图中的法2。打开“设置”后，找到“搜索引擎”，把“地址栏中使用的搜索引擎”改成想用的搜索引擎。再点击左边的“启动时”，点击“打开新标签页”即可。三个点的符
推荐文章：探索Apache NetBeans的魔法——Maven插件架构助您高效开发余印榕
推荐文章：探索ApacheNetBeans的魔法——Maven插件架构助您高效开发netbeans-mavenutils-archetype-nbm-archetypeApacheNetBeansMavenUtilsArchetypeNBMSuiteRoot是一个用于创建ApacheNetBeans模块套件的Maven插件。它可以帮助开发者快速生成一个基于NetBeans的模块套件项目，包括基本的
ES学习二字段类型
1，text当一个字段的内容需要被全文检索时，可以使用text类型，它支持长内容的存储，如文章内容、商品信息等，该类型的字段在保存时会被分词器分析，并拆分成多个词项，然后根据拆分后的词项生成对应的索引。需要注意的是text类型的字段无法进行精确匹配，也不能直接用于排序、聚合，也被称为ananlyzed字符串。2，keywordkeyword类型的字段内容不会被分词器分析、拆分，而是根据原始文本直接
知识图谱自动构建工具有哪些 Nate Hillick 知识图谱 neo4j 人工智能
知识图谱的自动构建工具有很多，常见的包括:Neo4j:基于图数据库的知识图谱构建工具Protégé:开源的知识图谱开发平台GoogleKnowledgeGraph:Google搜索引擎的知识图谱构建工具TopBraidComposer:基于SemanticWeb技术的知识图谱构建工具AllegroGraph:高性能图数据库，可用于构建知识图谱这仅仅是其中一部分工具，在市场上还有更多类似的工具。
struts2详解 dyy_gusi webMVC struts
1.搭建struts2运行环境：1.1找到所需要的jar包struts2-core-xwork-core-ognl-freemarker-commons-logging-commons-fileupload-1.2编写struts2的配置文件*.jsp1.3在web.xml中加入struts2的启动配置struts2org.apache.struts2.dispatcher.ng.filter.S
Python爬虫的一些基本内容、常见步骤以及示例代码 max500600 python python 爬虫开发语言
以下是关于Python爬虫的一些基本内容、常见步骤以及示例代码：一、Python爬虫概述Python爬虫是一种利用Python编程语言编写的程序，用于自动从互联网上获取网页内容以及提取所需信息工具。它可以模拟人类在浏览器上的操作，访问各种网页，并按照特定规则抓取数据，比如抓取新闻标题、商品价格、图片链接等等，广泛应用于数据采集、信息监测、搜索引擎等领域。二、常见步骤1.确定目标和分析网页首先明确你
【TVM教程】为 Mobile GPU 自动调优卷积网络
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：LianminZheng,EddieYan针对特定设备的自动调优对于获得最佳性能至关重要。本文介绍如何调优整个卷积网络。TVM中MobileGPU的算子实现是以template形式编写的。该template有许多可调参数（tile因子
ELK日志分析系统 AWAKE-HU 服务器 elk 日志分布式
什么是ELK:Elasticsearch:基于lucene的开源分布式搜索服务器(类似于solr)特点:分布式,零配置,分片索引,restful风格,多数据源logStash收集日志,过滤分析,并存储Kibana用于展示日志和分析结果ELK原理多个服务器的情况下,各个服务器都会产生不同服务器下不同路径的log文件如果每一台服务器都有一个filebeat把路径下的日志传输给统一的logstash日志
HTML `＜head＞` 元素详解浪浪山小白兔 html 前端
在HTML文档中，元素是一个非常重要的部分，它包含了文档的元数据（metadata）和其他与文档相关的信息。虽然中的内容不会直接显示在网页上，但它对网页的行为、样式和搜索引擎优化（SEO）有着至关重要的影响。本文将详细介绍元素及其常见子元素的使用方法，并通过丰富的示例帮助你更好地理解和应用。1.元素概述元素是HTML文档的头部部分，位于标签内，标签之前。它主要用于定义文档的元数据、链接外部资源、设
私域流量怎么运营最有效？ git
如何有效运营私域流量？这是许多企业和商家都在思考的问题。在当今的数字化时代，私域流量已经成为了企业和商家发展的重要资产之一。但是，如何才能运营好私域流量呢？下面我们将从多个角度来探讨这个问题。一、什么是私域流量？私域流量是指企业和商家通过自己的网站、APP、微信、小程序等渠道获取的流量。与公域流量（即通过搜索引擎、社交媒体等第三方平台获得的流量）相比，私域流量更加可控，且能够通过精细化的运营实现更
如何让ChatGPT接入互联网？ Tensor维度 AIGC chatgpt langchain AIGC 语言模型
一、前言使用谷歌搜索引擎实现的最终效果：搜索引擎一次返回10条搜索结果数据每条数据标题都带有链接地址，点击可跳转到对应网页；标题之后的内容为LLM模型根据原始网页内容整理之后输出的内容搜索引擎搜索出的内容让ChatGPT整理后返回到Chatbot上上述应用开源地址：https://github.com/hubo0417/EasyGC1、背景前段时间自己基于LangChain+ChatGLM2-6B
PySpark数据处理过程简析 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介PySpark是ApacheSpark的PythonAPI，可以用Python进行分布式数据处理，它在内存中利用了ApacheHadoopYARN资源调度框架对数据进行并行处理。PySpark可以直接使用Hadoop文件系统、HDFS来存储数据，也可以通过S3、GCS、ADLS等云存储平台保存数据。因此，在不同的数据源之间移动数据时，只需要复制一次数据就可以完成
性能测试丨分布式性能监控系统 SkyWalking 霍格沃兹测试开发学社测试人社区分布式 skywalking 软件测试测试开发
软件测试领域，分布式系统的复杂性不断增加，如何保证应用程序的高可用性与高性能，这是每一个软件测试工程师所面临的重大挑战。幸运的是，现在有了一些强大的工具来帮助我们应对这些挑战，其中之一便是ApacheSkyWalking。作为一款开源的分布式性能监控工具，SkyWalking不仅具备性能监控的基本功能，还支持服务依赖关系分析和故障排查等高级特性。SkyWalking的有效性体现在其能够实时监控多种
网络爬虫相关软件以及论文检索与推荐网站调研 Q7318 网络爬虫网络爬虫搜索引擎
最近接到一个项目，需要做一个基于网络爬虫技术的论文检索与推荐的网站，所以打算先对市面上已有的基于此技术的软件进行一次统计和分析，以备后面查询使用。一.网络爬虫相关软件1.搜索引擎NutchNutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的创始人是DougCutting，他同时也是Lucene、Hadoop和Avro开源项
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite

lucene全文检索应用示例及代码简析

你可能感兴趣的:(apache,搜索引擎,Lucene,webform,全文检索)