weixin_30627381

搭建内网搜索平台

本文是自己在公司发的文章，搭建公司内部的搜索平台。

很早就有一个想法，我们公司大量业务知识，中心内部交流培训和技术业务文章分享也不少，希望能有一个平台可以检索它们并且很方便的搜索到它们。

检索数据的方式可以像爬虫一样去抓取指定网站的内容，也可以通过任何人手工上传自己的文章，并且能很及时的对上传的文章建立索引并能搜索到它们。

要建立这样的平台，肯定需要花费很多时间才能完成，因为是业余时间来做这个功能，为了能花费较少时间并且多了解一些框架和技术，我开发了部分代码并用一些开源项目帮助搭建了一个这样的平台。

爬虫我用了Nutch1.5.1，通过访问Solr3.6来建立Lucene索引，搜索过程通过Lucene3.6来获取需要的数据，中文分词用了IKAnalyzer2012_u6，搜索页面的项目用的Struts2，一些数据用的Mongodb2.2.1来存储，Nutch是通过Cygwin运行的。

搭建上述的框架，花费了我很多时间，遇到了很多问题，这些问题可能也和操作系统有关系，我是WIN7 64位的，有的问题通过网络也没有搜索到相关问题说明，是自己通过反复看日志猜出来的解决办法。因此对于其他系统搭建这样的框架，不一定完全具有参考性。

一、爬虫和搭建数据中心

安装过程：

首先需要在已经安装JDK环境的机器下，把Cygwin，Nutch，Solr下载后分别解压或安装。

因为Nutch命令是shell脚本，Cygwin的目的是windows环境下模拟Linux环境执行，在http://www.cygwin.com/ 下载setup.exe文件，然后运行，我选择的离线下载，因为安装包比较大会下载很久，离线下载完毕后再安装它，安装目录不要有空格和中文目录。

Nutch从http://nutch.apache.org/ 下载apache-nutch-1.5.1-bin.zip文件后，直接解压即可，但我下载的内容bin文件夹里没有nutch文件，我再单独下载apache-nutch-1.5.1-src.zip文件，再把src里的nutch文件放到之前下载的bin文件夹里。然后把apache-nutch-1.5.1-bin.zip解压后的文件复制到Cygwin文件夹的home/机器名/里。Nutch擅长做爬虫，并且把爬取的数据按照特定结构存储起来，由于大数量的文件存储，Nutch发展起了一个现在很出名的顶级项目：Hadoop，它实现功能类试Google的GFS和Mapduce算法，用来解决分布式的计算的问题，但我也没用过，对它们不了解。把Nutch目录放到Cygwin文件夹下后，需要配置环境变量NUTCH_HOME到该目录。由于需要JDK环境，还需要配置NUTCH_JAVA_HOME环境变量到JDK的文件夹里，并且这里的JDK所在文件夹不能有中文名词和空格。

Solr在http://lucene.apache.org/solr/ 地方下载，下载非源码压缩文件后直接解压就行，Solr是基于Lucene的一个项目，它擅长做数据索引，通过指定URL供其他系统调用，可以建立Lucene结构的索引。Solr3.6开源项目也有自己的页面可以测试分词，测试搜索功能等，可以简单测试下中文分词和搜索功能。同时需要创建一个环境变量SOLR_HOME指向Solr所在目录，比如我指向的D:\solr3.6\。

中文分词用的IKAnalyzer2012_u6，在http://code.google.com/p/ik-analyzer/ 下载后，下载后就一个IKAnalyzer2012_u6.jar包和一个IKAnalyzer.cfg.xml文件，IKAnalyzer.cfg.xml文件内容如下：

IK Analyzer 扩展配置

stopword.dic;

为了让Solr能用中文分词，把中文分词的配置文件IKAnalyzer.cfg.xml放到solr3.6\example\work\Jetty_0_0_0_0_8983_solr.war__solr__k1kf17\webapp\WEB-INF\classe目录下，把IKAnalyzer2012_u6.jar包放到solr3.6\example\work\Jetty_0_0_0_0_8983_solr.war__solr__k1kf17\webapp\WEB-INF\lib目录下，文件夹Jetty..每个机器可能会不一样，IKAnalyzer.cfg.xml配置文件可以配置扩展的名词和停止词，分别用来被中文分词识别的名词和作为分词中断的标识。在solr3.6\example\work\Jetty_0_0_0_0_8983_solr.war__solr__k1kf17\webapp\WEB-INF\classes目录增加扩展词典：ext.dir，ext.dir内容里每一行表示一个新名称，但第一行会被忽略，从第二行开始新增自己的新名词，比如我新增如下图：

然后需要把配置文件中的ext.dic; 取消注释，使ext.dic可以被识别，中文分词Jar包和配置文件配置好后，需要把IK集成到Solr里。首先需要把Nutch下的conf文件夹里的schema.xml文件粘贴到solr3.6\example\solr\conf文件夹里，该Schema记录了索引的字段类型和设置字段的存储方式等，但默认字段类型没有中文字段类型，需要新增一个fieldType为text_cn的类型如下：

positionIncrementGap="100">

然后把field为标题和内容的类型修改为text_cn，把默认为：

修改为：

把类型修改为新增的中文类型，并且由于搜索时需要显示内容，把content字段设置为可存储。通过上面从操作就把IK中文分词集成到Solr里了。

配置完成后，可以用Solr来测试下中文分词，把filed设置为type，并且type的值输入刚才新增的类型text_cn，通过http://127.0.0.1:8983/solr/admin/analysis.jsp搜索：中国航信，如下：

上图是还没有新增自己的扩展字段ext.dic的结果，按照上面描述的方法增加了ext.dic字段后，航信作为了一个新名词，然后再搜索后结果如下：

航信被识别出来了，作为一个单独的名词。现在中文分词和自己扩展的新名词就都可以用了。 lawson

Mongodb从http://www.mongodb.org/下载后，直接解压即可，把解压后的Mongodb放到一个非中文目录下，然后在控制台下，输入Mongod即可开启服务，一般要设置数据库文件所在目录，需要增加-dbpath参数，默认mongodb的端口是27017端口，可以通过-port修改其他端口，但启动后无需任何密码即可连接进来并查询数据，因此开启Mongodb服务时，需要增加-auth参数，这样远程就需要密码才能连接起来查询数据了。通过输入Mongo，即可作为Mongodb客户端访问。下面列举几个客户端常用命令：

1、Show dbs可以查看当前所有数据库。

2、show collections可以查看当前数据库的所有集合。

3、use searcher可以切换到searcher数据库。

4、db.mginfo.find()可以查看当前数据库的mginfo集合的数据。

5、db.addUser(‘user’,’pwd’);可以新增当前数据库的用户，服务端如果用-auth参数启动后，客户端需要db.auth(‘user’,’pwd’);鉴权后才能正常读取Mongodb的数据。

因此正常情况下，服务端运行mongod -dbpath=D:\mongodb\data –auth

客户端就可以通过用户密码访问对应数据库了，可视化查看界面可以用MongoVUE来查看mongodb的数据用户信息。Java客户端包我用的mongo-2.9.3.jar包，操作语句比如：

Mongo mongo = new Mongo("localhost", 27017);

DB db = mongo.getDB("searcher");

if (db.authenticate("user", "pwd".toCharArray())) {

DBCollection users = db.getCollection("mginfo");

users.insert(object);

}

通过客户端mongo也同时需要鉴权才能查询和操作数据了。

搭建爬虫过程：

安装完毕后，首先需要用Nutch去爬数据，到Cygwin的安装目录运行Cygwin.bat或者桌面快捷方式运行Cgywin，然后cd到Nutch的目录，在Nutch目录下先建一个txt文档，用于保存需要爬的网站，每个网站一行，比如保存为url.txt，然后比如运行：bin/nutch crawl url.txt -dir crawlDir -depth 5 -topN 5000 -threads 100，如下图：

然后就可以爬取url.txt文档里记录的网站内容了，这里-depth表示爬取网站的深度，这里为5层，-topN表示每层最多个URL记录，这里为5000个，-threads表示一共多少个线程执行，这里为开启100个线程做抓取网站的工作，但实际每个网站是几个线程来爬取，需要在单独的配置节点配置，fetcher.threads.per.queue这个节点的值表示每个配置的网站用几个线程来抓取。

然后开始等待爬取网站，爬取结束后，crawlDir文件夹下多了crawldb、linkdb、segments文件夹，里面包括.data.crc,.index.crc,data,index文件。这些都是Nutch抓取后的数据文件。

Nutch抓取完毕后，需要把这些文件发送给solr建立索引，首先需要启动solr，solr默认用jetty作为web服务器，进入solr的安装目录，比如我的是D:\solr3.6\，然后进入example目录执行：java -jar start.jar，则可用jetty的方式启动solr网站，默认端口是8983，如下图： lawson

Solr启动后，就可以在Cgywin里通过命令把Nutch抓取的数据发送给Solr建立索引，通过命令：bin/nutch solrindex http://localhost:8983/solr/ crawlDir/crawldb -linkdb crawlDir/linkdb crawlDir/segments/*，如下图：

现在Solr里的D:\solr3.6\example\solr\data文件夹里已经保存有lucene格式的索引以及数据文件了。

然后可以用Solr测试下现在的搜索结果，通过访问http://127.0.0.1:8983/solr/admin/，搜索标题为：航旅天空：

搜索结果如下：

如Solr的结果，一共查找到491条记录。现在说明Lucene正常建立了索引并能成功查询出结果了。

遇到的问题：

我在部署上面环境和搭建过程中遇到很多问题，比如：

1、Nutch爬取网站时，会报错：Failed to set permissions of cygwin，最后经过大量资料查阅，问题应该是nutch的lib文件夹下hadoop-core-1.0.3.jar文件有个权限判断引起的，但由于对hadoop和cygwin不够熟悉内部细节，就下载了hadoop-core-1.0.3.jar的源代码，把FileUtil类的checkReturnValue方法修改了，把里面的代码全部注释了，最后解决了这个权限问题。

2、还有报错：No agents listed in 'http.agent.name' property，这是因为默认Nutch配置文件没有设置爬取网站的爬虫User-Agent头，需要设置一个，修改conf/nutch-default.xml的property节点下的http.agent.name的value值即可。

3、启动Solr后，访问http://127.0.0.1:8983/solr/admin/有时也有报错：in solr.xml org.apache.solr.common.SolrException: Schema Parsing Failed: multiple points，这个问题是因为Solr下的conf配置文件schema.xml有问题导致的，网络基本没有搜索到这个问题，根据报错内容，我发现该XML文件的根节点：配置的1.5.1可能和报错内容有关系，就修改成，结果就没有问题了。

4、除了上面3个会影响最基本爬取数据的问题，还遇到下面3个比较麻烦的问题：

l 有一个内部网站需要登录才能访问，Nutch不能爬取需要登录后才能访问的网页内容。

l 有一个内部网站有robots.txt文件，并且里面限制了爬取所有页面，Nutch会识别该robots.txt，并不爬取这个网站的内容。

l 有一个内部技术论坛用JForum搭建的，这个开源论坛有识别是否爬虫的功能，Nutch默认被当做爬虫，不能爬取了。

针对第一个问题，经过分析，发现这个网站实际就是通过设置cookie，并且可以设置cookie永久有效，因此只需要修改下抓取网站的源码，设置好cookie就行了，Nutch的jar包大多是通过插件的方式注入的，Nutch抓取网页内容是用protocol-http.jar包的HttpResponse类的构造函数执行抓取操作，构造函数为HttpResponse(HttpBase http, URL url, CrawlDatum datum)，内部用Socket的方式构造http请求协议头和内容来获取远程网页的内容，根据不同域名增加类试：

reqStr.append("Cookie: ");

reqStr.append("IS_NEED=1;...;");

reqStr.append("\r\n");

的Http请求头，则可对该域名下的所有网站都带cookie去获取远程网页数据了。

第二个问题Nutch内部默认会判断robots.txt文件，为了修改更简单，我直接修改了apache-nutch-1.5.1.jar包的org.apache.nutch.fetcher.Fetcher下的私有类：FetcherThread的run方法，代码如下：

RobotRules rules = protocol.getRobotRules(fit.url, fit.datum);

/* if (!rules.isAllowed(fit.u)) {

// unblock

fetchQueues.finishFetchItem(fit, true);

if (LOG.isDebugEnabled()) {

LOG.debug("Denied by robots.txt: " + fit.url);

}

output(fit.url, fit.datum, null, ProtocolStatus.STATUS_ROBOTS_DENIED, CrawlDatum.STATUS_FETCH_GONE);

reporter.incrCounter("FetcherStatus", "robots_denied", 1);

continue;

}*/

把判断当前robots.txt内容是否允许爬取网站的逻辑注释掉了，即它还是去分析robots.txt文件，但分析完成后不判断它是否禁止了爬取该网站。

第三个问题是因为该网站以前挂的公网，虽然现在挂内网了，但robots.txt一直存在，这个程序以代码的方式判断是否爬虫，并判断是否屏蔽它的访问，我下载了JForum的源码，发现它主要是通过资源文件：clickstream-jforum.xml配置的Host和user-agent的value值作为爬虫黑名单，Host我肯定不满足，只要修改User-agent头即可，Nutch可以修改nutch-default.xml配置文件，把 http.agent.name节点的值修改下即可，修改后爬取的记录如：

2012-12-05 05:40:37 127.0.0.1 GET /robots.txt - 88 - 127.0.0.1 MozillaLiu/Nutch-1.5.1 404 0 2 0

User-agent里的Nutch-1.5.1从哪里来的呢？通过源码，我才发现这个是另外一个配置节点的值：

http.agent.version

liu1

A version string to advertise in the User-Agent

header.

通过这样配置后，爬虫爬取记录就变为：

2012-12-05 05:54:11 127.0.0.1 GET /robots.txt - 88 - 127.0.0.1 MozillaLiu/liu1 404 0 2 0

现在访问记录就没有任何异样的名称了。最终解决了JForum搭建的这个技术论坛，爬虫能正常爬取这个网站的数据了。

http://lawson.cnblogs.com

通过上述方法解决了我搭建搜索平台的主要问题，但是比如需要登录才能抓取的网页、有robots.txt写明禁止爬虫爬取的问题，虽然让我的爬虫爬取了，但感觉还是抓取这样的数据还是比较暴力，但因为是内网数据，只是用于内部搜索方便大家，因此就让它暴力一点把。

二、平台搭建

平台数据有两个来源：1、来自爬虫的数据和建立的索引数据；2、用户手工上传的文档，因为主要是上传分享的知识，因此上传的文档支持doc,docx,ppt,pptx,pdf。通过上述的介绍，爬虫的数据已经有了，现在需要编写支持用户上传文档的逻辑，并建立Lucene索引和用户搜索的平台。

要实现对用户手工上传文档进行索引并可查询，需要做下面三步：

1、首选需要处理上传文档的解析工作，解析成可以识别的文字文档

2、然后对解析后的文档建立索引，并通过数据库持久化保存一些必要的信息。

3、开发前台页面，能通过用户的搜索信息查询出结果。

http://lawson.cnblogs.com

首先对Office文档的操作，可以用开源项目POI来读取文档内容，在http://poi.apache.org/下载后，解压即可，我是用的3.8版本，比如读取.doc文档代码比如：

org.apache.poi.hwpf.extractor.WordExtractor doc = null;

try {

doc = new WordExtractor(new FileInputStream(filePath));

} catch (Exception e) {

e.printStackTrace();

}

if (null != doc) {

result = doc.getText();

}

读取.docx文档代码比如：

XWPFWordExtractor docx = null;

try {

OPCPackage packages = POIXMLDocument.openPackage(filePath);

docx = new XWPFWordExtractor(packages);

} catch (XmlException e) {

e.printStackTrace();

} catch (OpenXML4JException e) {

e.printStackTrace();

}

if (null != docx) {

result = docx.getText();

}

读取.ppt文档代码比如：

StringBuffer content = new StringBuffer("");

try {

SlideShow ss = new SlideShow(new HSLFSlideShow(path));

Slide[] slides = ss.getSlides();

for (int i = 0; i < slides.length; i++) {

TextRun[] t = slides[i].getTextRuns();

for (int j = 0; j < t.length; j++) {

content.append(t[j].getText());

}

content.append(slides[i].getTitle());

}

} catch (Exception e) {

System.out.println(e.toString());

}

读取.pptx文档代码比如：

OPCPackage slideShow;

String reusltString = null;

try {

slideShow = POIXMLDocument.openPackage(path);

XMLSlideShow xmlSlideShow = new XMLSlideShow(slideShow);

XSLFSlide[] slides = xmlSlideShow.getSlides();

StringBuilder sb = new StringBuilder();

for (XSLFSlide slide : slides) {

CTSlide rawSlide = slide.getXmlObject();

CTGroupShape gs = rawSlide.getCSld().getSpTree();

@SuppressWarnings("deprecation")

CTShape[] shapes = gs.getSpArray();

for (CTShape shape : shapes) {

CTTextBody tb = shape.getTxBody();

if (null == tb)

continue;

CTTextParagraph[] paras = tb.getPArray();

for (CTTextParagraph textParagraph : paras) {

CTRegularTextRun[] textRuns = textParagraph.getRArray();

for (CTRegularTextRun textRun : textRuns) {

sb.append(textRun.getT());

}

sb.append("\r\n");

}

reusltString = sb.toString();

} catch (IOException e) {

e.printStackTrace();

}

上面就完成了常见的幻灯片培训和技术分享文档的读取了。

对PDF文件的读取可以通过开源项目PDFBox来处理，在http://pdfbox.apache.org/下载后解压即可，我是用的1.7.1版本，在官网下载下来只有pdfbox-1.7.1.jar包，但它还依赖了很多其他开源Jar包，需要下载的有bcprov-jdk15on-147.jar，commons-logging.jar，fontbox-1.6.0.jar，icu4j-50rc.jar，JempBox-0.2.0.jar，才能正常读取PDF文档，当然这些jar包可能其他版本也是可以用的。读取PDF文档代码比如：

FileInputStream fis = new FileInputStream(filePath);

String result = "";

try {

PDFParser p = new PDFParser(fis);

p.parse();

PDFTextStripper ts = new PDFTextStripper();

result = ts.getText(p.getPDDocument());

System.out.println(result);

fis.close();

} catch (Exception e) {

e.printStackTrace();

}

这样就能读取出PDF的文档内容了。

文档内容获取后，需要对它们建立索引，通过Lucene的API可以很方便的为这些内容建立索引数据文件，需要注意的是，需要对文档内容进行存储，代码如下：

Field fieldcontent = new Field("content", info.getContentString(), Store.YES, Index.ANALYZED);

doc.add(fieldcontent);

并且IndexWriter写索引文件时，需要用IKAnalyzer作为分析器。

对于用户搜索信息，最好能像百度一样可以对搜索的关键词进行高亮显示，Lucene提供了lucene-highlighter-3.6.0.jar包，来对搜索高亮效果等进行处理，处理语句如下：

SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter("", "");

Highlighter highlighter = new Highlighter(simpleHTMLFormatter, new QueryScorer(query));

TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(showContentString));

String str = highlighter.getBestFragment(tokenStream, showContentString);

这样根据highlighter的getBestFragment方法获取到首先找到的文档内容里符合搜索条件的文档内容，并且符合搜索条件的数据用font color为red的标签框起来了。默认str的长度只为100，即返回100长度的文档内容，可以通过下面的方法修改：

Fragmenter fragmenter = new SimpleFragmenter(150);

highlighter.setTextFragmenter(fragmenter);

这样返回的就是150字符长度的内容了。

通过上面搭建的工作和代码编写的工作，网站功能已经基本开发完毕，搜索“航旅天空”的效果如下：

搜索到的数据都是爬虫爬取的结果，如果是别人主动分享的文档，搜索“B2B 自动出票汇付本票通”效果如下：

查询的第一条结果是人工上传的分享文档，链接直接是一个分享PPT的下载地址并且如果上传人填写了名字，查询时会显示上传人的姓名。

现在一个简易版的搜索平台就搭建好了，有相关问题欢迎沟通！

转载请注明来自： http://lawson.cnblogs.com

转载于:https://www.cnblogs.com/Lawson/archive/2012/12/21/2828631.html

你可能感兴趣的:(搭建内网搜索平台)

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
网易严选官方旗舰店，优质商品，卓越服务高省_飞智666600
网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
2022现在哪个打车软件比较好用又便宜实惠的打车软件合集高省APP珊珊
这是一个信息高速传播的社会。信息可以通过手机，微信，自媒体，抖音等方式进行传播。但同时这也是一个交通四通发达的社会。高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码777777，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
穷人做什么生意最赚钱？10个适合穷人赚钱的路子？氧惠爱高省
不管在什么地方，一般都是穷人占大量数，而富人只有少数，但是它们却掌握着大量的财富。对于穷人来说，想要买车、买房等奢侈品就难如登天，因为他们只能通过打工来赚取几千元的月薪。➤推荐网购返利app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。（应用市场搜“氧惠”下载，邀请码:521521，全网优惠上氧惠！
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
闲鱼鱼小铺怎么开通？鱼小铺开通需要哪些流程？高省APP大九
闲鱼鱼小铺是平台推出的一个专业程度的店铺，与普通店铺相比会有更多的权益，比如说发布的商品数量从50增加到500；拥有专业的店铺数据看板与分析的功能，这对于专门在闲鱼做生意的用户来说是非常有帮助的，那么鱼小铺每个人都能开通吗？大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
直返APP是什么?直返APP是干嘛的氧惠帮朋友一起省
直返是一种电商购物模式，其核心特点是用户购买商品后可以获得直接返利。具体来说，用户在直返电商平台购买商品时，不仅可以获得商品本身的优惠，还可以获得一定的现金返利或者积分奖励。返利的金额可以提现到用户的账户余额，或者用于下次购物时抵扣。氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万
直返的东西正品吗?直返APP安全吗?直返是正规平台吗? 氧惠购物达人
亲们，你们是不是经常在直返APP上买东西呀？但是，你们有没有想过，里面的东西到底是不是正品呢？这个APP安全吗？它是不是一个正规的平台呀？别着急，今天我就来给大家揭秘一下！氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大
福袋生活邀请码在哪里填写，福袋生活app邀请码使用教程小小编007
很多人下载福袋生活后，注册使用时需要填写邀请码。因为福袋生活是注册邀请制，所以首次使用填写邀请码才可以正常登录使用。福袋生活是广州市福袋生活信息科技有限公司旗下一家多元化社交电商导购平台，以APP为载体，社群为媒介，汇集衣食住行、吃喝玩乐生活服务板块，使用福袋生活可以领到淘宝，拼多多等电商平台的商品优惠券和返利，还可以兼职去分享赚钱。我为什么从福袋生活转到果冻宝盒呢？当然是因为福袋生活返利更高，注
容易满足的小孩洒在心头的阳光
去年买的榨汁机没有用几次就坏了，前些时间答应娃儿给他买个，天天没事就问我，啥时候买，还自己淘宝上比较，加入购物车，这不前几天赶紧给他买了，省的每天叨叨在我耳边念叨着。今天终于到货了，因为他一直想和喝芒果汁，顺便买了芒果在家，放学回来兴奋的，赶紧要榨芒果汁，还特意搜索一下芒果汁的做法，我说他要是学习能有吃这般如此认真，我也就没有那么操心了。今晚喝到了芒果汁，他很开心，是阿，孩子就是这么容易满足，得到
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
2024.9.6 Python，华为笔试题总结，字符串格式化，字符串操作，广度优先搜索解决公司组织绩效互评问题，无向图 RaidenQ python 华为 leetcode 算法力扣广度优先无向图
1.字符串格式化name="Alice"age=30formatted_string="Name:{},Age:{}".format(name,age)print(formatted_string)或者name="Alice"age=30formatted_string=f"Name:{name},Age:{age}"print(formatted_string)2.网络健康检查第一行有两个整数m
新私域是什么平台靠谱吗氧惠佣金真的高
新私域指的是借助与互联网电商，随着平台内商家入驻量、用户量相辅相成的全国化平台。是否靠谱取决于平台是否合规。新私域指的是借助与互联网电商，在传统会员体系外新增的锁定用户跨平台、跨界收益，一种随着平台内商家入驻量、用户量相辅相成的全国化平台。关于新私域平台是否靠谱，这个需要看平台的底层逻辑是否合理、合法、合规以及平台的未来的发展方向氧惠APP抖音购物、看电影、点外卖、打车用氧惠APP！佣金更高、更优
我在大学遇到的兼职坑2 竹音小居
不要存在侥幸，天上不会掉馅饼上一次我讲述了我在某宝刷单遇到的坑，今天我就来讲讲比某宝刷单更坑的兼职，不，这应该不是兼职了，是被骗。我因为在某宝刷单交了会费，最后连本金都没有挣回来，就想找一个不用交本金的刷单平台，然后我就上网搜了一下“有没有不用交钱的兼职”，没成想还真有，我打开网页链接，看人家上面写的文案，确实很心动，不用交钱，加一下客服的qq就可以接单，而且网页上还有很多别人挣钱的截图，佣金非常
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache