孤牧栀鸢

solr-企业级搜索应用服务器

1.solr简介

其实我们几乎都在用，比如你用的淘宝，京东，百度等大型网站

看一下百度的
再看一下京东的
很多人其实也会有一种疑问，他们的搜索为啥这么快呢？它又是通过什么技术实现的呢？

在普通项目中，我们的搜索功能很普遍，就是通过某一字段进行模糊查询数据库表数据，有多个字段的话还得整个类型选择，有没有感觉很繁琐。尤其电商平台的交易量和产品量巨大，一旦搜索就会增加搜索的压力，要是考虑有一定量的并发呢？可想而知，网站不崩也算是一种幸运

由此这也就成为了搜索需要转移到外部的搜索服务器的原因。solr具体是啥呢？

Solr是一个高性能，基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展，并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。
lucene
Lucene是apache jakarta项目的一个子项目，是一个开放源代码的全文检索引擎开发工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。

2. 倒排索引

简介：
倒排索引是以字或词为关键字进行索引，表中关键字所对应的记录表项记录了出现这个字或词的所有文档，一个表项就是一个字表段，它记录该文档的ID和字符在该文档中出现的位置情况。

举个例子：
我们一般情况下,先找到文档,再在文档中找出包含的词;

倒排索引则是这个过程反过来,用词,来找出它出现的文档.

实际举例

文档编号	文档内容
1	全文检索引擎工具包
2	全文检索引擎的架构
3	查询引擎和索引引擎

分词结果

文档编号	分词结果集
1	{全文,检索,引擎,工具,包}
2	{全文,检索,引擎,的,架构}
3	{查询,引擎,和,索引,引擎}

倒排索引

编号	单词	文档编号列表
1	全文	1,2
2	检索	1,2
3	引擎	1,2,3
4	工具	1
5	包	1
6	架构	2
7	查询	3
8	索引	3

说明：
　每个字或词对应的文档数量是动态变化的，所以倒排表的建立和维护都较为复杂，但是在查询的时候由于可以一次得到查询关键字所对应的所有文档，所以效率高于正排表。在全文检索中，检索的快速响应是一个最为关键的性能，而索引建立由于在后台进行，尽管效率相对低一些，但不会影响整个搜索引擎的效率。

3. lucene API 介绍

创建一个maven项目：

pom.xml依赖引入：

    
        
            org.apache.lucene</groupId>
            lucene-core</artifactId>
            8.0.0</version>
        </dependency>

        
            junit</groupId>
            junit</artifactId>
            4.12</version>
        </dependency>

        
            org.apache.lucene</groupId>
            lucene-analyzers-smartcn</artifactId>
            8.0.0</version>
        </dependency>
    </dependencies>

创建测试类,添加以下代码：

import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.document.*;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.FSDirectory;
import org.junit.Test;

import java.io.File;

public class Test1 {
    String[] a = {
            "3, 华为 - 华为电脑, 爆款",
            "4, 华为手机, 旗舰",
            "5, 联想 - Thinkpad, 商务本",
            "6, 联想手机, 自拍神器"
    };

    @Test
    public void test1() throws Exception {
        //存储索引文件的路径
        File path = new File("d:/abc/");
        FSDirectory d = FSDirectory.open(path.toPath());
        //lucene提供的中文分词器
        SmartChineseAnalyzer analyzer = new SmartChineseAnalyzer();
        //通过配置对象来指定分词器
        IndexWriterConfig cfg = new IndexWriterConfig(analyzer);
        //索引输出工具
        IndexWriter writer = new IndexWriter(d, cfg);

        for (int i = 0; i < a.length; i++) {
            String[] strs = a[i].split(",");

            //创建文档,文档中包含的是要索引的字段
            Document doc = new Document();
            doc.add(new LongPoint("id", Long.parseLong(strs[0])));
            doc.add(new StoredField("id", Long.parseLong(strs[0])));
            doc.add(new TextField("title", strs[1], Field.Store.YES));
            doc.add(new TextField("sellPoint", strs[2], Field.Store.YES));

            //将文档写入磁盘索引文件
            writer.addDocument(doc);
        }
        writer.close();
    }
}

启动程序创建索引文件

查看索引
luke是索引查看工具，下载一下：https://github.com/DmitryKey/luke/releases

注意luke的版本要和你用的lucene的版本要一致
或者下载源码，自己用maven命令进行打包即可。
源码地址：https://github.com/lmy1965673628/luke.git

找到jar包，运行即可，打开索引的存放位置

指定分词器,并测试分词
查询测试
输入名称，进行查询，可以看到下方会显示所有符合条件的内容
id的查询
id要改成long类型，是因为程序中存储的时候是long类型
我们改改条件，改为id=5,看一下结果。
从索引查询

在测试类中添加 test2() 测试方法

    @Test
    public void test2() throws Exception {
        //索引数据的保存目录
        File path = new File("d:/abc");
        FSDirectory d = FSDirectory.open(path.toPath());
        //创建搜索工具对象
        DirectoryReader reader = DirectoryReader.open(d);
        IndexSearcher searcher = new IndexSearcher(reader);

        //关键词搜索器,我们搜索 "title:华为"
        TermQuery q = new TermQuery(new Term("title", "华为"));
        //执行查询,并返回前20条数据
        TopDocs docs = searcher.search(q, 20);

        //遍历查询到的结果文档并显示
        for (ScoreDoc scoreDoc : docs.scoreDocs) {
            Document doc = searcher.doc(scoreDoc.doc);
            System.out.println(doc.get("id"));
            System.out.println(doc.get("title"));
            System.out.println(doc.get("sellPoint"));
            System.out.println("--------------");
        }
    }

运行看一下结果：对比一下luke工具查询的结果

4. solr 安装

下载地址：http://archive.apache.org/dist/lucene/solr/8.0.0/
我放在Linux上，所以下载Linux版本的

把文件传到 /home目录下
解压 solr

cd /home
# 上传 solr-8.0.0.tgz 到 /usr/local 目录
# 并解压缩
tar -xzf solr-8.0.0.tgz

启动 solr

cd /home/solr-8.0.0
# 不建议使用管理员启动 solr,加 -force 强制启动
bin/solr start -force
#若防火墙已开
# 开放 8983 端口
firewall-cmd --zone=public --add-port=8983/tcp --permanent
firewall-cmd --reload

浏览器访问 solr 控制台

http://服务器ip:8983

创建 core
看一下我的数据库

数据库中 pd_item 表中的商品数据, 在 solr 中保存索引数据, 一类数据, 在 solr 中创建一个 core 保存索引数据

创建一个名为 pd 的 core, 首先要准备以下目录结构:

# solr目录/server/solr/
#                    pd/
#                     conf/
#                     data/


cd /usr/local/solr-8.0.0

mkdir server/solr/pd
mkdir server/solr/pd/conf
mkdir server/solr/pd/data

conf 目录是 core 的配置目录, 存储一组配置文件, 我们以默认配置为基础, 后续逐步修改
复制默认配置

cd /usr/local/solr-8.0.0

cp -r server/solr/configsets/_default/conf server/solr/pd

创建名为 pd 的 core

中文分词测试

填入以下文本, 观察分词结果:

Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。

中文分词工具 - ik-analyzer

https://github.com/magese/ik-analyzer-solr

下载的是源码，需要自己进行打包，传到 solr目录 /server/solr-webapp/webapp/WEB-INF/lib

切记，打包前需要对应好版本

下载所需的文件，我整理好了
链接：https://pan.baidu.com/s/1xSfUi9C5LpN98aUQL8eI6A
提取码：d7k4

将文件里的所有jar包复制到/server/solr-webapp/webapp/WEB-INF/lib

将其他文件复制到 solr目录 /server/solr-webapp/webapp/WEB-INF/classes
如果没有classes文件夹就创建一个

配置 managed-schema
修改 solr目录/server/solr/pd/conf/managed-schema,在文件最后添加 ik-analyzer 分词器

<!-- ik分词器 -->
"text_ik" class="solr.TextField">
  type="index">
      class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf"/>
      <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
  type="query">
      class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" conf="ik.conf"/>
      <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
</fieldType>

重启 solr 服务

cd /usr/local/solr-8.0.0

bin/solr restart -force

使用 ik-analyzer 对中文进行分词测试
填入以下文本, 选择使用 text_ik 分词器, 观察分词结果:

Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。

设置停止词

上传停止词配置文件到 solr目录/server/solr-webapp/webapp/WEB-INF/classes

stopword.dic
stopwords.txt

我整理的文件里其实已经有了，可根据需要进行扩展
重启服务,观察分词结果中,停止词被忽略

bin/solr restart -force

前段时间公司有的资讯栏目就遇到了政治比较敏感的词汇，然后赶紧召集产品，开发，数据等中心去找相关信息，普通的是怎么操作的呢？去数据库赶紧写sql语句筛选，挨个表进行找。然后再删除

但百度却可以做到瞬间屏蔽。正是借助于搜索系统的优势才可有这样的速度，也可以看出从前的方式无论从哪方面讲一点优势也没有
一旦政府公布一些敏感词汇，就可以实现快速屏蔽，快速定位。极大的提高了速度

5. 连接mysql

授予 root 用户跨网络访问权限
注意: 此处设置的是远程登录的 root 用户,本机登录的 root 用户密码不变

grant all on *.* to 'root'@'%' identified by 'root';

但我的mysql版本是8以上的，用这个命令出错，用了另一种：

grant all on *.* to 'root'@'%';

刷新授权(立刻生效)

flush privileges;

可以使用我提供的数据库：GitHub地址

导入到本地中，我们使用pd_item表用于测试

随机修改30%的商品,让商品下架,以便后面做查询测试

UPDATE pd_item SET STATUS=0 WHERE RAND()<0.3

从 mysql 导入商品数据

设置字段

title text_ik
sellPoint text_ik
price plong
barcode string
image string
cid plong
status pint
created pdate
updated pdate

Copy Field 副本字段

查询时需要按字段查询,例如 title:电脑, 可以将多个字段的值合并到一个字段进行查询,默认查询字段 _text_,将 title 和 sellPoint 复制到 _text_ 字段

添加 jar 文件
Data Import Handler 的 jar 文件存放在 solr目录/dist 目录下,
将solr-dataimporthandler-7.5.0.jar 、solr-dataimporthandler-extras-7.5.0.jar 复制到/home/solr-8.0.0/server/solr-webapp/webapp/WEB-INF/lib

我们当初在配置的时候做的一个步骤

我们要进入到/home/solr-8.0.0/server/solr/pd/conf去修改配置

第一步，在solrconfig.xml中文末添加配置：

"/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
    "defaults">
        "config">data-config.xml</str>
    </lst>
</requestHandler>

第二步：创建data-config.xml文件用于配置数据库连接：按照格式改为自己数据库的相关信息
这里需要考虑mysql版本的问题，

我的sql版本是8.0以上的，所以驱动要使用com.mysql.cj.jdbc.Driver
URL中也要注意： serverTimezone：时区 allowPublicKeyRetrieval：公匙验证这两个必须要这么写并且不可少要不然连接报错
将url中的&修改为&


    <!-- 数据库信息 -->
    type="JdbcDataSource" 
        driver="com.mysql.cj.jdbc.Driver" 
        url="jdbc:mysql://172.16.2.134:3306/pd_store?userSSL=true&useUnicode=true&characterEncoding=UTF8&useSSL=false&serverTimezone=GMT%2B8&allowPublicKeyRetrieval=true" 
        user="root" password="root"/>
    
        <!-- document实体 -->
        "item" query="SELECT * FROM pd_item">
            <!-- 数据库字段映射solr字段 -->
            "title" name="title"/>
            "sell_point" name="sellPoint"/>
            "price" name="price"/>
            "barcode" name="barcode"/>
            "image" name="image"/>
            "cid" name="cid"/>
            "status" name="status"/>
            "created" name="created"/>
            "updated" name="updated"/>
        </entity>
    </document>
</dataConfig>
~

重启 solr

cd /usr/local/solr-8.0.0
bin/solr restart -force

刷新一下，点击dataimport，可以看到右侧已经出现了相关信息

然后可以导入数据了，最后选择自动刷新信息，这样可看到数据导入的情况

配置没问题的情况下，可以看到右侧的信息会改变，包含了数据传输的速率和导入的总数据量，若没有出现，请再次确认配置信息

查询测试

在标题中查找电脑
可以看到有10条数据，在这有可能你就怀疑这到底对不对呢
那我们用navicat测试一下：可以看到确实是10条

加粗样式用双引号查找完整词 “笔记本”，仔细查看所有数据，可以发现，不管是title还是sellPoint字段只要有笔记本的都会查询到
搜索 +lenovo +电脑,这个查询的就是同时包含Lenovo和电脑关键词的所有信息

搜索 +lenovo -电脑,这个查询的就是包含Lenovo但不包含电脑关键词的所有信息

统计 cid，用于统计cid字段的信息，就是统计cid每个值的数量
将参数修改为*:*

在最后可以看到信息，格式为：“cid”:[数量]

还可以加条件，比如统计的cid值大于50,加入参数：facet.mincount=50

看结果，可以发现所有的cid值都大于50

价格范围
在 Raw Query Parameters 输入框中填入以下内容:

facet.range=price&facet.range.start=0&facet.range.end=10000&facet.range.gap=2000

意思就是统计价格范围为0~10000，并已2000为递增，统计各个价格的总数目

看一下结果

多字段统计
在 **Raw Query Parameters** 输入框中填入以下内容:

facet.pivot=cid,status

看一下结果：可以看到信息非常详细

6.实践

看一下我的项目： GitHub地址

运行，查看首页
这跟普遍的电子商城的页面几乎都一样，也有搜索功能，那我们使用solr实现
商品检索调用分析

pom.xml 添加 solr 和 lombok 依赖


	org.springframework.boot</groupId>
	spring-boot-starter-data-solr</artifactId>
</dependency>


	org.projectlombok</groupId>
	lombok</artifactId>
</dependency>

application.yml 添加 solr 连接信息

spring:
  data:
    solr:   #注意修改ip地址
      host: http://192.168.64.170:8983/solr/pd

Item 实体类

@Data
public class Item implements Serializable {
		private static final long serialVersionUID = 1L;
		
		@Field("id")
		private String id;
		@Field("title")
		private String title;
		@Field("sellPoint")
		private String sellPoint;
		@Field("price")
		private Long price;
		@Field("image")
		private String image;

}

SearchService 业务接口

public interface SearchService {
	List<Item> findItemByKey(String key) throws Exception;
}

SearchServiceImpl 业务实现类

@Service
public class SearchServiceImpl implements SearchService {
	
	/*
	 * SolrClient实例是在 SolrAutoConfiguration 类中创建的
	 * 
	 * SolrAutoConfiguration添加了@Configuration注解,
	 * 是spring boot自动配置类,其中的solrClient()方法中创建了SolrClient实例
	 */
	@Autowired
	private SolrClient solrClient;

	@Override
	public List<Item> findItemByKey(String key) throws Exception {
		//封装查询的关键词
		//也可以封装其他的查询参数,比如指定字段,facet设置等
		SolrQuery query = new SolrQuery(key);
		//查询前多少条数据
		query.setStart(0);
		query.setRows(20);
		
		//执行查询并得到查询结果
		QueryResponse qr = solrClient.query(query);
		//把查询结果转成一组商品实例
		List<Item> beans = qr.getBeans(Item.class);
		return beans;
	}
}

SearchController 控制器

@Controller
public class SearchController {
	@Autowired
	private SearchService searchService;
	
	@GetMapping("/search/toSearch.html")
	public String search(String key, Model model) throws Exception {
		List<Item> itemList = searchService.findItemByKey(key);
		model.addAttribute("list", itemList);
		return "/search.jsp";
	}
}

若想实现跟控制台一样的效果呢？
比如我想实现参数为title:电脑的效果，我们上面测试了共有10个数据
代码应该怎么写呢？

	@Override
	public List<Item> findItemByKey(String key) throws Exception {
		//封装查询的关键词
		//也可以封装其他的查询参数,比如指定字段,facet设置等
//		SolrQuery query = new SolrQuery(key);
		SolrQuery query = new SolrQuery();
		//查询前多少条数据
		query.setStart(0);
		query.setRows(20);
		query.setQuery("title:"+key);
		//执行查询并得到查询结果
		QueryResponse qr = solrClient.query(query);
		//把查询结果转成一组商品实例
		List<Item> beans = qr.getBeans(Item.class);
		return beans;
	}
}

看一下结果：一共10个数据。
可以看出，要想实现多种多样的搜索结果，只需拼接不同的条件，那我们可以提前根据需求去编写一个专用的接口，这样就能满足实际需求。

你可能感兴趣的:(solr-企业级搜索应用服务器)

[Python]已解决。pycharm突然打不开了，安装PyCharm后，双击没反应。pycharm无法打开一罐小牛奶7 python pycharm 开发语言
前两天刚装的pycharm，今天双击之后突然打不开了，好几次没有反应。我试了以下方法：1.方法一：管理员身份运行，直接右键选择，或者在下方搜索框输入PyCharm后点以管理员身份运行如果你也和我一样，这一步还不行，请继续往下看。2.方法二：修改Roaming文件2.1找到AppData。C盘--用户--User（找不到该文件的往下看）如果User下没有AppData文件，不要慌，可能是隐藏了：点查
玩转至轻云大数据平台-docker部署篇 fanciNate454 大数据 docker
产品介绍至轻云是一款超轻量级、企业级大数据计算平台，基于Spark生态打造。一键部署，开箱即用。快速实现大数据离线ETL、Spark计算、实时计算、可视化调度、自定义接口、数据大屏以及自定义表单等多种功能，为企业提供高效便捷的大数据解决方案。至轻云有什么特点呢？又能怎么玩呢？产品特点开源轻量化云原生架构:兼容云原生架构，支持Docker、Rancher平台的快速部署。国内镜像下载:可直接从阿里云镜
老域名建站更好吗？域名域名申请域名配置
在互联网的世界里，域名不仅是网站的地址，更是品牌的重要组成部分。随着互联网的发展，关于域名的选择也出现了不同的观点，尤其是老域名和新域名的使用。那么，老域名建站是否更好呢？这是一个值得探讨的问题。本文将从多个角度分析老域名建站的优缺点，帮助大家更好地做出选择。一、老域名的潜在优势搜索引擎信任度：如果一个老域名在过去有良好的使用记录，未涉及违规或垃圾信息，搜索引擎可能已经对其建立了一定的信任度。例如
[前端算法]动态规划摇光93 算法算法动态规划
最优子结构,重叠子问题爬楼梯递归+记忆化搜索自顶向下varclimbStairs=function(n){letmap=[]functiondfs(n){if(n=coins[j]){dp[i]=Math.min(dp[i],dp[i-coins[j]]+1);}}}if(dp[amount]===Infinity){return-1;}returndp[amount];}01背包问题functi
1、Java 环境搭建与基本概念：开启 Java 编程之旅的第一步翻晒时光从0学Java java 开发语言
大家好，欢迎来到我们的Java学习系列博客，今天是第一课，我们将一起探索Java环境搭建与基本概念。无论你是编程新手，还是想要学习一门新语言的老手，Java都是一个非常值得学习的语言，它在众多领域都有着广泛的应用，从企业级软件开发、安卓应用开发到大数据处理，都能看到Java的身影。让我们开始这充满挑战与乐趣的Java学习之旅吧！一、Java的发展历程与特点Java诞生于SunMicrosystem
全新发布：企业级安全网盘解决方案，助力数据高效流转与安全管理！ c++代码诗人信息安全开发语言 c++
全新发布：企业级安全网盘解决方案，助力数据高效流转与安全管理！在数字化办公快速发展的今天，信息安全与数据高效管理成为企业的核心需求。我们全新推出的企业级网盘系统，为您提供一站式解决方案，集稳定性、高安全性、多功能性于一体，助力您的企业高效运行和数据安全保障。以下是我们的网盘核心亮点：1.稳定可靠的技术架构客户端采用MFC开发：运行高效，界面直观，用户体验流畅，特别适合Windows系统用户。服务端
大数据：数字时代的变革引擎大数据
在当今这个数字化飞速发展的时代，大数据无疑是最为耀眼的存在，如同变革的引擎，驱动着各个领域的创新与发展。大数据的起源可追溯到信息技术发展的早期阶段。随着计算机的诞生和数据存储技术的逐步发展，人们开始积累越来越多的数据。然而，早期的数据量相对较小，处理和分析技术也较为有限。直到互联网的普及，数据的产生方式发生了根本性的变化。网站、搜索引擎、社交媒体等互联网应用的兴起，使得数据量呈爆炸式增长。每天，全
Axios 封装：处理重复调用与内容覆盖问题 PorkCanteen 问题解决前端 javascript http
问题描述&背景下拉选择框，支持搜索，搜索时携带参数调用接口并更新下拉选项下拉选择连续进行多次搜索，先请求但响应时间长的返回值会覆盖后请求但响应时间短的举例：搜索后先清空选项，再输入内容进行搜索。清空后查询全量数据接口响应时间更长，覆盖搜索过滤后的数据问题分析连续多次请求导致问题通过防抖debounce函数，限制短期内无法重复调用接口-使用lodash的debounce函数实现若接口响应时间相差较大
记录一次 centos 启动失败 __pop_ 杂七杂八总览 linux 运维服务器 centos
文章目录现场1分析1现场2分析2搜索实际解决过程现场1一次断电,导致之前能正常启动的centos7.7起不来了有部分log,关键信息如下[1.332724]XFS(sda3):Internalerrorxfs...atlinexxxoffs/xfs/xfs_trans.c[1.332724]XFS(sda3):Corruptionofin-memorydatadetected.Shuttingdo
ELK Stack学习笔记在线打码学习笔记 redis linux centos es elk
一、ELKStack简介1、Elasticsearch一个实时的分布式搜索和分析引擎，它可以用于全文搜索，结构化搜索以及分析。它是一个建立在全文搜索引擎ApacheLucene(信息检索的工具jar包)基础上的搜索引擎，使用Java语言编写2、Logstash一个完全开源的工具，可以对日志进行收集、过滤，并将其存储供以后使用。是开源的服务器端数据处理管道，能够从多个来源收集数据、转换数据。并保存到
Spring 核心技术解析【纯干货版】- VIII：Spring 数据访问模块 Spring-Tx 模块精讲 m0_74824517 面试学习路线阿里巴巴 spring 数据库 java
在企业级开发中，事务管理是保障数据一致性和完整性的重要手段。Spring作为Java生态中广泛使用的框架，其事务管理模块（Spring-Tx）不仅提供了强大的功能，还极大地简化了开发者在不同技术栈中的事务处理工作。无论是编程式事务，还是声明式事务，Spring都以其灵活性和易用性满足了各种场景需求。本篇文章将从理论到实践，深入解析Spring-Tx模块的核心技术与使用方式，并通过代码示例帮助您更高
no persistent volumes available for this claim and no storage class is set 喝醉酒的小白 K8s 运维
问题1问题描述User:NormalFailedBinding7s(x5over52s)persistentvolume-controllernopersistentvolumesavailableforthisclaimandnostorageclassissetKimi:根据您提供的错误信息和搜索结果，PVCdata-vector-aggregator-0无法绑定的原因是“没有可用的Persi
2024年推荐使用的centos版本是多少? wordpress爱好者 centos linux 运维
2024年CentOS版本选择策略：最新稳定与长期支持的平衡结论：在Linux发行版的选择上，CentOS以其开源、免费和稳定性深受企业级用户的青睐。然而，由于技术的快速发展，每个新版本都会带来新的功能和改进，对于2024年的用户来说，决定采用哪个CentOS版本至关重要。鉴于此，我们建议考虑CentOSStream和CentOS8，两者各具优势，但侧重点不同。原文链接：2024年推荐使用的cen
多查询分析中的并发处理实践 FADxafs python
在进行查询分析时，某些技术可能会生成多个查询。在这种情况下，我们需要记得执行所有查询并合并结果。本文将通过一个简单的示例（使用模拟数据）展示如何实现这一点。技术背景介绍在数据分析和信息检索领域，查询分析技术能够帮助我们生成和优化查询以提高搜索效率。然而，当同时生成多个查询时，处理这些查询并有效地合并结果就显得尤为重要。本次我们将使用langchain库来演示如何处理多查询情况。核心原理解析通过生成
构建一个查询分析系统 AWsggdrg 数据库 python
技术背景介绍在构建一个查询分析系统时，需要能够加载文档、使用聊天模型、生成嵌入、创建向量存储并执行检索。这些过程的目标是将用户输入的查询优化，以实现更为精准的检索结果。本文将通过一个端到端的示例展示如何使用查询分析提升检索结果的相关性。我们将着眼于如何对LangChain的YouTube视频进行检索，并通过查询分析解决原始用户问题直接传递给搜索引擎时可能出现的失败模式。核心原理解析查询分析的核心在
你说通过Kafka AdminClient获取Lag会有性能问题？尊嘟假嘟0.o javakafka大数据
版本日期备注1.02024.8.25文章首发本文内容已用一种抽象的方式做成了视频，喜欢看视频的同学可以在B站上搜索“抽象狗哥”观看相应的内容。0.前言前阵子团队里出了个大故障，本质是因为其他语言实现的client有问题，非常频繁的请求大量元数据，而Kafka服务端这边也没有做什么限制，导致KafkaBroker宕了。在相关的复盘报告中，复盘方提到了我这边的监控程序（用于观察线上实时作业的堆压）会频
代码编写java代做c++程序代编程Python代c#设计C语言接单软件定制 matlabgoodboy java c++c#
您提到的服务涵盖了多种编程语言和软件开发需求，包括Java代码编写、C++程序代编、Python编程代做、C#设计、C语言编程，以及软件定制服务。这些服务在软件开发领域非常常见，且有着广泛的应用。以下是对这些服务更详细的解释和接单时的一些建议：服务详解Java代码编写Java以其跨平台性、面向对象和丰富的API而著称，广泛应用于企业级应用、Android应用开发、Web服务端开发等领域。您可以提供
保护你的会话令牌博文视点信息安全技术 ESAPI OWASP Top10 web Web WEB 会话安全
保护你的会话令牌通常我们会采取以下的措施来保护会话。1．采用强算法生成SessionID正如我们前面用WebScrab分析的那样，会话ID必须具有随机性和不可预测性。一般来说，会话ID的长度至少为128位。下面我们就拿常见的应用服务器Tomcat来说明如何配置会话ID的长度和生成算法。首先我们找到{TOMCAT_HOME}\conf\context.xml，然后加入下面一段设置➊定义会话ID的长度
文献综述相关ChatGPT提示词分享 AIWritePaper官方账号 Prompt ChatGPT AIWritePaper chatgpt 人工智能数据分析 AIGC 信息可视化数据挖掘 prompt
文献综述ChatGPT可以帮助提高文献综述的有效性和全面性。ChatGPT可以高效搜索和审查与宝子们课题研究相关的文献资料来源。一些给力的插件工具还可以帮助您总结复杂的研究论文并提取信息以更快更好地消化信息。合理的运用ChatGPT和GPTs可以提高文献综述的清晰度和质量，使其更加全面和有洞察力。文献综述提示词*131.在[人工智能相关]领域中，主要发现有哪些？2.在[人工智能相关]领域中，引用次
精通爬虫技术：从入门到入狱——网络数据爬虫的合法性与法律边界
了解数据爬虫的原理、用途、法律风险与合规性。本文深入解析网络爬虫的工作机制，探讨其在数据采集、搜索引擎等领域的应用。同时，重点关注Robots协议、反爬虫技术、开放数据等合规性问题，并分析相关法律案例，助您合法安全地使用爬虫技术。文章目录什么是网络数据爬虫？数据爬虫的工作原理数据爬虫的应用与影响数据爬虫的广泛用途数据爬虫带来的负面影响和潜在风险数据爬虫的合规性问题开放数据与非开放数据Robots协
MySql场景面试题：满意度调查分组去除最高最低求平均分码到三十五 mysql高手 mysql spring boot spring cloud 分布式数据分析数据挖掘
❃博主首页：「码到三十五」，同名公众号:「码到三十五」，wx号:「liwu0213」☠博主专栏：♝博主的话：搬的每块砖，皆为峰峦之基；公众号搜索「码到三十五」关注这个爱发技术干货的coder，一起筑基场景描述我们有一个员工满意度调查系统，数据库中有一张表：survey_scores表：存储员工对公司的满意度打分。表结构如下：--调查打分表CREATETABLEsurvey_scores(score
AI Agent的技术选型：从个人项目到企业级应用人工智能机器学习
说实话，每次有人问我"开发AIAgent应该用什么技术栈？"，我都觉得挺难回答的。因为不同的场景，最佳的技术选择可能完全不同。今天就来聊聊我在不同项目中的技术选型经历，希望能给大家一些参考。从个人项目说起去年我开始研究AIAgent的时候，第一个练手项目是给自己做一个代码助手。需求很简单：能读懂我的项目代码，帮我重构和写测试。那时候，我的技术选型是这样的：模型选择：OpenAIGPT-3.5便宜，
Pinterest联盟营销综合指南好运来__ 大数据网络人工智能服务器 ip
Pinterest不仅是社交媒体平台，还是一个优质的视觉搜索引擎，独特的交互方式和平台生态使得Pinterest依然很受欢迎，因此它也成为最适合进行联盟营销的平台之一。一、为什么要使用Pinterest联盟营销1.活跃用户多Pinterest活跃用户数超过5亿，庞大的用户基础在一定程度上意味着更高的购买潜力。2.用户质量高根据PAConsulting和Pinterest的数据，奢侈品牌最关注的消费
python正则表达式re关于数字、字母、特殊字符、汉字的匹配方式乙龙 python 开发语言
在Python中，正则表达式是通过re模块来实现的。正则表达式是一种强大的文本处理工具，用于匹配、搜索、替换或分割字符串。以下是一些基本的正则表达式模式，用于筛选不同类型的字符：数字(\d):匹配任意数字（0-9）。示例：\d可以匹配“123”中的每个‘1’,‘2’,‘3’。字母([a-zA-Z]):匹配任意大小写的英文字母。示例：[a-zA-Z]可以匹配“HelloWorld”中的每个‘H’,‘
深度解析智能问答系统：如何打造精准、高效的AI对话架构？和老莫一起学AI 人工智能架构自然语言处理产品经理语言模型学习 ai
在人工智能的飞速发展中，智能问答系统（QA系统）逐渐成为了企业内部管理、客户服务、搜索引擎等多个领域中的关键技术。今天，我们将深入探讨一个基于大模型、自然语言处理、知识检索的智能问答系统的架构，详细介绍其技术原理、流程以及未来应用前景。一、系统整体概览在这个智能问答系统中，整个流程可以大致划分为两大部分：前端问答生成与后端离线数据处理。前端部分是用户交互的核心，通过用户的输入、关键词提取、检索和问
Dufs开源Web文件服务器爱辉弟啦 linux运维 linux 运维服务器 Web文件服务器开源软件
介绍：Dufs是一个独特的实用文件服务器，支持静态服务，上传，搜索，访问控制，webdav…GitHub-sigoden/dufs:Afileserverthatsupportsstaticserving,uploading,searching,accessingcontrol,webdav…功能列表提供静态文件下载文件夹为zip文件上传文件和文件夹(拖放)创建/编辑/搜索文件可恢复的部分上传/下
【Elasticsearch 实战应用】 wenshao.du elasticsearch
Elasticsearch实战应用在现代企业技术架构中，Elasticsearch因其出色的性能、可扩展性和易用性，成为了处理大规模数据和构建搜索引擎的首选工具。本文将通过一个实际案例，详细讲解如何在SpringBoot项目中集成Elasticsearch，进行数据索引、搜索、聚合分析等操作。1.Elasticsearch简介Elasticsearch是一个基于ApacheLucene构建的开源分
SOA 术语概述，第 2 部分: 开发流程、模型和资产 rochening soa uml ibm eclipse 工作平台
文档选项将此页作为电子邮件发送拓展Tomcat应用下载IBM开源J2EE应用服务器WASCE新版本V1.1级别：初级BertrandPortier([email protected]),IT架构师,IBM,Intel,Microsoft,HP2007年5月23日了解一些基本SOA术语。本文是本系列的第2部分，BertrandPortier将在其中定义一些术语（包括开发流程、模型和资产）并说明为
中型项目中 MyBatis 的挑战与应对计算机毕设定制辅导-无忧学长 #MyBatis mybatis
一、引言在当今的Java企业级开发领域，MyBatis无疑是一款占据重要地位的持久层框架。它像是一座桥梁，优雅地连接着Java应用程序与数据库，让数据的交互变得高效且便捷。当我们聚焦于中型项目时，随着业务复杂度的提升以及数据量的增长，MyBatis在为我们带来便利的同时，也悄然面临着诸多挑战。这些挑战涵盖了从性能瓶颈到代码维护性，从数据库兼容性到事务管理等多个关键层面。深入探究这些问题并找寻有效的
Pinterest联盟营销综合指南纯干苹果派人工智能网络物联网大数据服务器 ip
Pinterest不仅是社交媒体平台，还是一个优质的视觉搜索引擎，独特的交互方式和平台生态使得Pinterest依然很受欢迎，因此它也成为最适合进行联盟营销的平台之一。一、为什么要使用Pinterest联盟营销1.活跃用户多Pinterest活跃用户数超过5亿，庞大的用户基础在一定程度上意味着更高的购买潜力。2.用户质量高根据PAConsulting和Pinterest的数据，奢侈品牌最关注的消费
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb