qw87112

LAMP+Coreseek+sphinx构建中文检索引擎

什么是Sphinx/Coreseek

Sphinx是一个在GPLv2下分发的全文检索引擎；Coreseek是一个可供企业使用的、基于Sphinx（可独立于Sphinx原始版本运行）的中文全文检索引擎，按照GPLv2协议发行，商业使用（例如, 嵌入到其他程序中）需要联系我们以获得商业授权。

一般而言，Sphinx是一个独立的全文搜索引擎；而Coreseek是一个支持中文的全文搜索引擎，意图为其他应用提供高速、低空间占用、高结果相关度的中文全文搜索能力。Sphinx/Coreseek可以非常容易的与SQL数据库和脚本语言集成。

当前系统内置MySQL和PostgreSQL 数据库数据源的支持，也支持从管道标准输入读取入特定格式的XML数据。通过修改源代码，用户可以自行增加新的数据源（例如：其他类型的DBMS的原生支持）。在最新的版本中，用户还可以使用Python脚本作为数据源来获取任何已知世界和未知世界的数据，这极大的扩展了数据源的来源。

搜索API支持PHP、Python、Perl、Rudy和Java，并且也可以用作MySQL存储引擎。搜索API非常简单，可以在若干个小时之内移植到新的语言上。

Sphinx 是SQL PhraseIndex的缩写，但不幸的和CMU的Sphinx项目重名。

Coreseek http://www.coreseek.cn 为Sphinx在中国地区的用户提供支持服务.

Sphinx http://sphinxsearch.com/

Sphinx/Coreseek 的特性

高速的建立索引(在当代CPU上，峰值性能可达到10MB/秒);
高性能的搜索(在2 �C 4GB 的文本数据上，平均每次检索响应时间小于0.1秒);
可处理海量数据(目前已知可以处理超过100GB的文本数据, 在单一CPU的系统上可处理100 M 文档);
提供了优秀的相关度算法，基于短语相似度和统计（BM25）的复合Ranking方法;
支持分布式搜索;
提供文档片段（摘要以及高亮）生成功能;
可作为MySQL的存储引擎提供搜索服务;
支持布尔、短语、词语相似度等多种检索模式;
文档支持多个全文检索字段(缺省配置下，最大不超过32个);
文档支持多个额外的属性信息(例如：分组信息，时间戳等);
停止词查询;
支持单一字节编码和UTF-8编码，以及对GBK和BIG5的完善支持;
支持英语、俄语词词干化和Soundex，以便进行词形学处理;
原生的MySQL支持(同时支持MyISAM 和InnoDB );
原生的PostgreSQL支持;
支持直接模拟为MySQL服务端运行;
支持MMSeg分词引擎，用户可自定义词典;
Python数据源支持，得以获取任何已知世界和未知世界的数据.

目前，Sphinx/Coreseek的发布包包括如下软件:

indexer: 用于创建全文索引;
search: 一个简单的命令行(CLI) 的测试程序，用于测试全文索引;
searchd: 一个守护进程，其他软件可以通过这个守护进程进行全文检索;
sphinxapi: 一系列searchd 的客户端API 库，用于流行的Web脚本开发语言(PHP, Python, Perl, Ruby, Java).
spelldump: 一个简单的命令行工具，用于从 ispell 或 MySpell (OpenOffice内置绑定) 格式的字典中提取词条。当使用 wordforms 时可用这些词条对索引进行定制.
indextool: 工具程序，用来转储关于索引的多项调试信息。此工具是从版本Coreseek 3.1(Sphinx 0.9.9-rc2)开始加入的。
mmseg: 工具程序和库，Coreseek用于提供中文分词和词典处理。

安装前准备环境

yum install make gcc g++ gcc-c++ libtool make mysql-devel libxml2-devel expat-devel

官网参考地址：http://www.coreseek.cn/products/products-install/install_on_bsd_linux/RHEL5-5/

来到官网http://www.coreseek.com/下载Coreseek 3.2.14稳定版，解压进入目录。

# tar xf coreseek-3.2.14.tar.gz

# cd coreseek-3.2.14

配置语言支持中文

# export LANG="zh_CN.UTF-8"

# export LC_ALL="zh_CN.UTF-8"

# cat testpack/var/test/test.xml

安装coreseek开发的mmseg，为coreseek提供中文分词功能

# cd mmseg-3.2.14/

# ./bootstrap

# ./configure --prefix=/usr/local/mmseg3

# make && make install

中文分词测试

# /usr/local/mmseg3/bin/mmseg -d /usr/local/mmseg3/etc src/t1.txt

中文/x 分/x 词/x 测试/x

中国人/x 上海市/x

Word Splite took: 0 ms.

安装coreseek

# cd csft-3.2.14/

# sh buildconf.sh

./configure --prefix=/alidata/server/sphinx/coreseek --without-python --without-unixodbc --with-mmseg --with-mmseg-includes=/alidata/server/sphinx/mmseg3/include/mmseg --with-mmseg-libs=/alidata/server/sphinx/mmseg3/lib/ --with-mysql=/alidata/server/mysql  --with-mysql-includes=/alidata/server/mysql/include/

# make && make install

测试是否可以正常运行

# /usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/sphinx-min.conf.dist

csft-4.0版显示：ERROR: nothing to do.

coreseek中文全文检索测试

# cd testpack/

# /usr/local/coreseek/bin/indexer -c etc/csft.conf

索引全部数据

# /usr/local/coreseek/bin/indexer -c etc/csft.conf -all

索引指定数据

# /usr/local/coreseek/bin/indexer -c etc/csft.conf xml

测试搜索

# /usr/local/coreseek/bin/search -c etc/csft.conf

测试搜索关键词

# /usr/local/coreseek/bin/search -c etc/csft.conf -a hello欢迎来到北京清华大学

开启搜索服务

# /usr/local/coreseek/bin/searchd -c etc/csft.conf

# 如要已启动服务，要更新索引，请使用 /usr/local/coreseek/bin/indexer-c etc/csft.conf --all --rotate

# 如要停止搜索服务，请使用 /usr/local/coreseek/bin/searchd-c etc/csft.conf --stop

然后，请参考csft-3.2.14下api目录中的相关文件，使用PHP、Python、Ruby、Java来测试搜索服务；也可以前往< ahref="/products-install/step_by_step/">搜索服务建立三步曲，查看第三步使用PHP测试。

通过以上步骤，coreseek已经安装测试完成，可以提供正常的xml数据源索引以及提供对应的搜索服务了，下一步工作，请查看手册，准备好mysql数据信息，以及进行mysql数据源的测试，并在您的应用中调用搜索服务；mysql数据源的配置可参考testpack/etc/csft_mysql.conf文件

官方文档地址：http://www.coreseek.cn/docs/coreseek_3.2-sphinx_0.9.9.html

快速安装地址：http://www.coreseek.cn/product_install/install_on_bsd_linux/#mysql

在实现以上功能之后，即可开始下面的实验。

LAMP+Coreseek+sphinx构建中文检索引擎

安装好LAMP环境，并将它们启动(略)，在前面的文章中都有讲到。

1、先给数据库插入一些数据，用于测试，在解压coreseek源码包后可以在/coreseek-4.1-beta/testpack/var/test/找到.sql的数据库脚本文件，导入数据库即可。

2、安装PHP的sphinx扩展

可以在这里（http://pecl.php.net/package/sphinx）找到sphinx的php扩展源码，注意，使用phpize，configure的时候可能会要求要安装libsphinxclient，它在coreseek-4.1-beta/csft-4.1/api/libsphinxclient/里面能找到，编译安装它以后就可以configure，make，生成动态so文件了。

3、给服务提供配置文件（源码目录下有样例: /coreseek-4.1-beta/testpack/etc/csft_mysql.conf）

#源定义

source study

{

type = mysql

sql_host = localhost

sql_user = root

sql_pass =

sql_db = test

sql_port = 3306

sql_query_pre = SET NAMES utf8

sql_query = select id,title,content,group_id from documents;

// 这里使用select 将想要被用于检索的索引字段查出来，缓存于Sphinx服务器中，sql_query第一列id需为整数，title、content作为字符串/文本字段，被全文索引

sql_query_info = SELECT * FROM documents where id=$id

#仅被命令行搜索所用，用来获取和显示文档信息，目前仅对MySQL有效，且仅用于调试目的。此查询为每个文档ID获取CLI搜索工具要显示的文档信息。它需要包含$id宏，以此来对应到查询的文档的ID。

}

#index定义

index study

{

source = study #对应的source名称

path = /usr/local/coreseek/var/data/study

docinfo = extern

mlock = 0

morphology = none //不使用任何词形处理器

min_word_len = 1 //最小索引词长度。可选选项，默认为1（索引任何词）

html_strip = 0

charset_dictpath = /usr/local/mmseg3/etc/ //设置中文分词词典所在的目录

#charset_dictpath = etc/

charset_type = zh_cn.utf-8

}

source mysql

{

type = mysql

sql_host = localhost

sql_user = root

sql_pass =

sql_db = tuchao

sql_port = 3306

sql_query_pre = SET NAMES utf8

sql_query = SELECT id, title, abstract FROM ic_video

sql_query_info = SELECT * FROM ic_video where id=$id

}

index mysql

{

source = mysql

path = /usr/local/coreseek/var/data/mysql

docinfo = extern

mlock = 0

morphology = none

min_word_len = 1

html_strip = 0

charset_dictpath = /usr/local/mmseg3/etc/

#charset_dictpath = etc/

charset_type = zh_cn.utf-8

}

source qupeiyin

{

type = mysql

sql_host = localhost

sql_user = root

sql_pass =

sql_db = tuchao2

sql_port = 3306

sql_query_pre = SET NAMES utf8

sql_query = SELECT id, title, description FROM course

sql_query_info = SELECT * FROM course where id=$id

}

index qupeiyin

{

source = qupeiyin

path = /usr/local/coreseek/var/data/qupeiyin

docinfo = extern

mlock = 0

morphology = none

min_word_len = 1

html_strip = 0

charset_dictpath = /usr/local/mmseg3/etc/

#charset_dictpath = etc/

charset_type = zh_cn.utf-8

}

#全局index定义

indexer

{

mem_limit = 128M //索引过程内存限制，indexer不会超越的强制内存限制，设置太低会影响索引速度，一般为256M~1024M，最大限制是2048M.

}

#searchd服务定义

searchd

{

listen = 9312

read_timeout = 5 //网络客户端请求的读超时时间， searchd 强制关闭在此时间内未能成功发出查询的客户端连接。

max_children = 30 //子进程的最大数量，任何时候不可能有比此设置值更多的搜索同时运行。当达到限制时，新的输入客户端会被用临时失败（SEARCH_RETRY）状态码驳回；

max_matches = 1000 //为每个索引所保持并返回给客户端的匹配数目的最大值

seamless_rotate = 1 //启用无缝轮换，数据轮换时不暂停搜索服务。

preopen_indexes = 0

unlink_old = 1 //索引轮换成功之后，是否删除以.old为扩展名的索引拷贝。可选选项，默认为1（删除这些索引拷贝）。

pid_file = /usr/local/coreseek/var/log/searchd_mysql.pid

log = /usr/local/coreseek/var/log/searchd_mysql.log

query_log = /usr/local/coreseek/var/log/query_mysql.log

}

在写配置文件的时候，sourece名称可以与index名称不一样，但是path后的名称一定要和index定义的名称一致。

4、提供服务启动脚本

#!/bin/bash

# searchd - this script start and stop the searchd daemon

# chkconfig - 85 20

# description:

# processname: searchd

# config: /usr/local/coreseek/etc/csft_mysql.conf

. /etc/rc.d/init.d/functions

searchd="/usr/local/coreseek/bin/searchd"

prog=$(basename $searchd)

conf_file="/usr/local/coreseek/etc/csft_mysql.conf"

lockfile="/var/lock/subsys/searchd"

start() {

[ -e $lockfile ] && echo "searchd is already start" && exit 0

[ -x $searchd ] || exit 1

[ -f $conf_file ] || exit 2

echo -n "Starting $prog:"

daemon $searchd -c $conf_file

retval=$?

echo

if [ $retval -eq 0 ]; then

touch $lockfile

else

echo "$prog is starting failed"

return $retval

}

stop() {

echo -n $"Stopping $prog:"

killproc $prog -QUIT

retval=$?

echo

if [ $retval -eq 0 ]; then

rm -rf $lockfile

return $retval

}

restart() {

stop

sleep 1

start

}

indexer() {

/usr/local/coreseek/bin/indexer -c $conf_file --all

}

case "$1" in

start)

start

;;

stop)

stop

;;

restart)

restart

;;

indexer)

indexer

;;

echo "Usage:$0 {start|stop|restart|indexer}"

exit 2

esac

5、重建全部索引

# /etc/init.d/searchd indexer

6、启动searchd服务

# service searchd start

7、提供PHP测试程序

<?php

$s = new SphinxClient;

$s->setServer("localhost", 9312);

$s->setArrayResult(true);

$s->setSelect();

$s->setMatchMode(SPH_MATCH_ALL);

//SPH_MATCH_ALL这个检索方法表示只显示匹配到的数据ID，并进行分词。SPH_MATCH_ANY表示先将搜索的内容进行分词，输出每个分词匹配到的数据ID。

$result1 = $s->query('乔布斯','mysql');

$result2 = $s->query('搞笑','qupeiyin');

$result3 = $s->query('Google','study');

print_r($result1);

print_r($result2);

print_r($result3);

8、测试服务

我可以在httpd服务器指定的目录下创建一个test.php拷贝以上代码，根据自己的数据库数据做更改后保存。

这一句我要讲下: $result1 = $s->query('乔布斯','mysql'); “乔布斯“是搜索的关键词，后面的’mysql ’对应的是定义在csft_mysql.conf中的索引名称。表示从哪个索引中找

以下是用浏览器访问test.php返回的结果:

首先返回结果是在mysql索引中搜索关键词‘乔布斯’ 的，可以看到在id=>38 、id=>39 有匹配到，而且对搜集内容进行了分词。

[matches] => Array ( [0] => Array ([id] => 38 [weight] => 6 [attrs] => Array ( ) ) [1] => Array ( [id]=> 39 [weight] => 3 [attrs] => Array ( ) ) ) [total] => 2 [total_found]=> 2 [time] => 0.002 [words] => Array ( [乔] =>Array ( [docs] => 2 [hits] => 3 ) [布] => Array ([docs] => 2 [hits] => 3 ) [斯] => Array ( [docs] => 2 [hits] => 3 ) ) )

我们上MySQL服务器查找对应ID来验证:

我们再分析后续的输出结果，在qupeiyin索引中搜索‘ 搞笑’ 关键词，这里可以看到在id=>29 、 id=>518 有匹配到.

Array ( [error] => [warning] =>[status] => 0 [fields] => Array ( [0] => title [1] => description )[attrs] => Array ( ) [matches] => Array ( [0] => Array ( [id] => 29 [weight] => 1 [attrs] => Array () ) [1] => Array ( [id] => 518 [weight]=> 1 [attrs] => Array ( ) ) ) [total] => 2 [total_found] => 2[time] => 0.002 [words] => Array ( [搞笑] => Array ([docs] => 2 [hits] => 2 ) ) )

我们再来到数据库验证：

第三个输出也是可以找到对应的数据的，笔者就不上图了，由此可以看出，在对应的ID号确实能找到匹配的数据。

你可能感兴趣的:(sphinx,分词,coreseek,检索)

Lucene常用的字段类型&lucene检索打分原理学会了没全文检索 lucene 打分字段
在ApacheLucene中，Field类是文档中存储数据的基础。不同类型的Field用于存储不同类型的数据（如文本、数字、二进制数据等）。以下是一些常用的Field类型及其底层存储结构：TextField：用途：用于存储文本数据，并对其进行分词和索引。底层存储结构：文本数据会被分词器（Analyzer）处理，将文本分割成词项（terms）。每个词项会被存储在倒排索引（invertedindex）
检索工具—IndexSearcher 类千里兵峰 lucene2.4 lucene Apache 应用服务器浏览器工作
IndexSearcher类继承自Searcher基类，是Lucene中最重要的一个检索用类。IndexSearcher类时最重要的就是要告诉它索引存放的路径，只有这样，检索工具才可以定位索引，从而完成查找的任务。以下是IndexSearcher的所有构造函数：publicIndexSearcher(Stringpath)throwsIOException{this(IndexReader.ope
检索增强（Retrieval Augmentation）是一种结合信息检索技术和生成模型的技术大霸王龙系统分析业务人工智能
检索增强（RetrievalAugmentation）是一种结合信息检索技术和生成模型的技术，旨在通过从外部知识库或文档中检索相关信息来增强生成模型的能力。这种方法广泛应用于自然语言处理（NLP）任务中，如问答系统、对话生成和文本生成等。1.检索增强的核心思想检索增强的核心思想是将生成模型与信息检索系统结合，利用外部知识库或文档中的信息来辅助生成更准确、更丰富的回答或内容。具体来说，检索增强包括以
Elasticsearch 索引生命周期管理：优化大数据存储静谧星光c 大数据 elasticsearch jenkins
Elasticsearch索引生命周期管理：优化大数据存储在处理大规模数据时，存储和检索效率是至关重要的。Elasticsearch是一款功能强大的搜索和分析引擎，它的索引生命周期管理功能可以帮助我们优化大数据的存储和查询性能。本文将介绍Elasticsearch索引生命周期管理的概念，并提供相应的源代码示例。索引生命周期管理（IndexLifecycleManagement，简称ILM）是Ela
vscode+Python便携版简易制作可以直接复制到u盘再看我把你喝掉笔记 python vscode visual studio code 编辑器
引言对于vscode和Python的爱好者，一直被复杂的开发环境所困扰，于是迫切需要一个可以将vscode和Python放置在u盘中可以不受运行环境的影响运行在不同电脑的便携方案。通过百度初步检索发现：吾爱破解论坛提供了一种需要修改pipe.exe源文件的制作方法，csdn网提供个一种通过设置bat批处理来实现便携化的方案。上述两种方案，操作相对复杂，需要一定的计算机知识，很不方便。对此提出一种更
5 个遥遥领先的大模型 RAG 工具机器学习社区大模型大模型算法人工智能 RAG 多模态大模型语言模型
想象一下拥有一种超能力，让你能够对任何问题或提示生成类似人类的回答，同时还能够利用庞大的外部知识库确保准确性和相关性。这不是科幻小说，这就是检索增强生成（RAG）的力量。在本文中，我们将介绍五大遥遥领先的RAG工具或库：LangChain、LlamaIndex、Haystack、RAGatouille和EmbedChain。LangChainLangChain是一个全面的开源框架，用于开发大型语言
构建 Q&A 系统：基于文档和模型的问答 drebander AI 编程 springAI
在现代企业中，自动化的问答系统可以极大地提升工作效率，特别是在文档处理、客户支持和知识管理等领域。通过结合SpringAI和文档检索技术，可以轻松构建一个智能的问答系统，帮助用户从文档中快速获取信息。本文将展示如何利用SpringAI构建一个可以根据文档内容回答问题的智能Q&A系统。1.构建智能Q&A系统的背景现代的Q&A系统不仅需要能理解用户的问题，还需要能够从大量文档中找到相关的答案。传统的问
基于centos6.5安装ElasticSearch 小码农叔叔 ElasticSearch linux与容器实战 ElasticSearch ES安装
前面我们讲述了solr的安装搭建过程，今天讲讲ElasticSearch，ElasticSearch是另一款作为分词和搜索的服务器，相比solr，ElasticSearch在做大数据方面更有优势，因为其天然支持分布式，而且其强大的分词技术使得其在众多需要处理大数据量的业务中低位逐渐拔高，像大数据中做日志的提取和分析，使用ElasticSearch很适合，实际工作中，ElasticSearch主要是
es6.7.1分词器ik插件安装-和head插件连接es特殊配置运维实战课程 jenkins 运维
es6.7.1分词器ik插件安装-和head插件连接es特殊配置如果对运维课程感兴趣，可以在b站上、A站或csdn上搜索我的账号：运维实战课程，可以关注我，学习更多免费的运维实战技术视频1.查看es6.7.1和es-head安装位置和es插件路径[root@verify-10-100-4-4data]#dockerps|grepes4f0fe4db0ca9elasticsearch-head:6.
大语言模型LLM在地理信息GIS中应用场景 GISer_Jinger 人工智能 GIS模型与应用语言模型人工智能自然语言处理 arcgis
AI&地理AI大语言模型在地理中的应用主要体现在以下几个方面：一、地理信息检索与查询AI大语言模型能够理解复杂的自然语言查询，包括地名、地理位置、地理特征等，从而提供更加精准的地理信息检索服务。例如，用户可以通过自然语言输入查询某个地点的详细信息，模型能够返回包括地理位置、周边设施、交通状况等在内的全面信息。AI与地理信息检索与查询的结合为地理信息的获取和利用带来了革命性的变化。以下是对AI在地理
自学网络安全，一般人我劝你还是算了吧_白银安卓开发 2401_84281629 程序员 web安全 android 安全
whois信息用来查询域名信息，shodan、zoomeye、fofa等网络空间搜索引擎检索IP、域名、URL等背后的信息，GoogleHacking利用搜索引擎来检索网站内部信息，这些东西都是在网络信息搜集中经常用到的技能。暴力破解在网络攻击中，当扫描到目标开放的服务后，最直接的就是想要登录进去。常见的服务有SSH、RDP、MySQL、Redis、Web表单等等。这个时候，暴力破解通常会派上用场
蓝桥云课 | 图书管理员 Mryan2005 #蓝桥那些事算法数据结构开发语言 c++蓝桥云课
题目描述图书馆中每本书都有一个图书编码，可以用于快速检索图书，这个图书编码是一个正整数。每位借书的读者手中有一个需求码，这个需求码也是一个正整数。如果一本书的图书编码恰好以读者的需求码结尾，那么这本书就是这位读者所需要的。小D刚刚当上图书馆的管理员，她知道图书馆里所有书的图书编码，她请你帮她写一个程序，对于每一位读者，求出他所需要的书中图书编码最小的那本书，如果没有他需要的书，请输出-1。输入描述
THULAC-Python 使用教程时昕海Minerva
THULAC-Python使用教程THULAC-PythonTHULAC-Python:由清华大学开发的中文词法分析工具包，提供中文分词和词性标注功能。项目地址:https://gitcode.com/gh_mirrors/th/THULAC-Python项目介绍THULAC（THULexicalAnalyzerforChinese）是由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词
【Python】探索自然语言处理的利器：THULAC 中文词法分析库详解技术无疆 Python 人工智能自然语言处理人工智能 python 数据挖掘机器学习深度学习神经网络
THULAC（THULexicalAnalyzerforChinese）是清华大学开发的一款中文词法分析工具，集成了分词和词性标注两大功能。THULAC拥有强大的分词能力和高效的词性标注，适用于多种中文文本处理场景。该工具能够在保证高准确率的同时保持较快的处理速度，非常适合大规模中文数据处理。⭕️宇宙起点THULAC的特点安装与配置1.使用pip安装2.使用GitHub源码安装♨️使用方法1.分词
ES学习二字段类型
1，text当一个字段的内容需要被全文检索时，可以使用text类型，它支持长内容的存储，如文章内容、商品信息等，该类型的字段在保存时会被分词器分析，并拆分成多个词项，然后根据拆分后的词项生成对应的索引。需要注意的是text类型的字段无法进行精确匹配，也不能直接用于排序、聚合，也被称为ananlyzed字符串。2，keywordkeyword类型的字段内容不会被分词器分析、拆分，而是根据原始文本直接
容器化检索增强框架（R2R） deepdata_cn RAG RAG
R2RbySciPhi-AI是一个专门的RAG框架，专注于通过迭代细化来改进检索过程。主要特点包括实现新颖的检索算法，支持多步检索过程，与各种嵌入模型和向量存储集成，以及用于分析和可视化检索性能的工具。适合有兴趣突破检索技术界限的开发人员和研究人员，特别是在需要创新检索方法的场景。具有RESTfulAPI的容器化检索增强一代（RAG）。具有生产就绪型功能，包括多模式内容摄取、混合搜索功能、可配置的
用 Neo4j GraphRAG 工具开启你的智能应用之旅步子哥 AGI通用人工智能 neo4j 人工智能
在这个人工智能飞速发展的时代，Neo4j带来了一项令人激动的创新——GraphRAG生态系统工具。这组开源工具为开发人员提供了一个全新的途径，以构建基于知识图谱的智能应用，让机器更好地理解和回应我们的查询。接下来，让我们一起探索这些工具如何帮助我们构建更智能、更准确的应用。什么是GraphRAG?GraphRAG是一种结合了检索增强生成（RAG）技术和知识图谱的解决方案。它不仅解决了大型语言模型常
【llm对话系统】大模型RAG之基本逻辑 kakaZhui 人工智能数据库 AIGC chatgpt llama
大模型RAG之基本逻辑：让LLM更精准地回答你的问题（降低幻觉）你是否遇到过这样的情况：当你向LLM提问时，它可能会给出一些“一本正经胡说八道”的答案，或者无法回答一些特定领域的专业问题？为了解决这个问题，RAG(Retrieval-AugmentedGeneration，检索增强生成)技术应运而生。RAG将检索(Retrieval)和生成(Generation)结合起来，让LLM在回答问题时，能
【llm对话系统】基于llm的实时多轮对话如何做kv cache kakaZhui 人工智能前端算法 chatgpt AIGC
问题分析用户流式输入，同步KVCache轮次切换，context动态新增如何同步进行KVCache整体方案随着用户输入新的信息，context会动态增长。为了提高LLM的响应速度和效率，我们通常会使用KVCache来存储context的向量表示，以便快速检索相关信息。当context动态新增时，我们需要同步更新KVCache，以下是几种常见的方法：1.实时计算:原理:每当context新增内容时，
Unreal Engine 4 语音识别插件：Sphinx-UE4 林泽炯
UnrealEngine4语音识别插件：Sphinx-UE4sphinx-ue4AspeechrecognitionpluginforUnrealEngine4.ThisisessentiallyaportofPocketsphinx,tobeusedwithinanUnrealEngineproject.项目地址:https://gitcode.com/gh_mirrors/sp/sphinx-
Sphinx-UE4 语音识别插件使用教程嵇子高Quintessa
Sphinx-UE4语音识别插件使用教程sphinx-ue4AspeechrecognitionpluginforUnrealEngine4.ThisisessentiallyaportofPocketsphinx,tobeusedwithinanUnrealEngineproject.项目地址:https://gitcode.com/gh_mirrors/sp/sphinx-ue4项目介绍Sph
Sphinx-UE4 项目使用教程牧爱颖Kelvin
Sphinx-UE4项目使用教程sphinx-ue4AspeechrecognitionpluginforUnrealEngine4.ThisisessentiallyaportofPocketsphinx,tobeusedwithinanUnrealEngineproject.项目地址:https://gitcode.com/gh_mirrors/sp/sphinx-ue41.项目的目录结构及介
【UE插件】Sphinx关键词语音识别我的巨剑能轻松搅动潮汐 UE插件 ue5
视频教程：UnrealEngine-SpeechRecognition-FreePluginhttps://www.youtube.com/watch?v=KBcXNnSdWog&t=622s官方教程：Sphinx:SpeechRecognitionPlugin|UnrealEngineCommunityWikihttps://unrealcommunity.wiki/speech-recogni
深度学习-70-大语言模型LLM之基于大模型LLM与检索增强技术RAG的智能知识库皮皮冰燃深度学习人工智能深度学习语言模型
文章目录1RAG出现的背景2搭建过程2.1数据收集2.2数据处理2.2.1数据清洗与预处理2.2.2文本分块2.2.3微调数据格式统一2.3建立向量索引2.4大模型选择与微调3开源知识库项目3.1FastGPT3.2AnythingLLM3.3LangChain-Chatchat4商业化解决方案4.1百度智能云+千帆大模型知识库4.2阿里云PAI+向量检索5参考附录1RAG出现的背景自从2022年
网络爬虫相关软件以及论文检索与推荐网站调研 Q7318 网络爬虫网络爬虫搜索引擎
最近接到一个项目，需要做一个基于网络爬虫技术的论文检索与推荐的网站，所以打算先对市面上已有的基于此技术的软件进行一次统计和分析，以备后面查询使用。一.网络爬虫相关软件1.搜索引擎NutchNutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的创始人是DougCutting，他同时也是Lucene、Hadoop和Avro开源项
AI与药学 |AI数字药师：药品说明书构建AI药学知识库明哲AI AI与医疗人工智能大模型 AI药学数智药学药师 AI数字药师
在信息爆炸的时代，我们获取知识的方式正在经历深刻的变革。尤其是在医疗健康领域，快速、准确地获取可靠的药品信息至关重要。药品说明书作为药品信息的权威来源，却常常因为其专业术语和冗长篇幅，让使用者感到困惑。如何让药品说明书不再“晦涩难懂”，成为我们智能用药的得力助手？（关注公众号“赛文AI药学”，获取更多AI与药学的内容）本文将深入探讨如何利用检索增强生成(Retrieval-AugmentedGen
ElasticSearch-文档元数据&乐观并发控制互联网民工蒋大钊 #ElasticSearch elasticsearch
文章目录什么是文档？文档元数据文档的部分更新Update乐观并发控制最近日常工作开发过程中使用到了ES，最近在检索资料的时候翻阅到了ES的官方文档，里面对ES的基础与案例进行了通俗易懂的解释，读下来也有不少收获，所以打算记录一下。果真官方文档才是最好的“菜鸟教程”。贴上官方文档：Elasticsearch:权威指南-基础入门什么是文档？Elasticsearch中，术语文档有着特定的含义。它是指最
MySQL--查询数据君君学姐 mysql 数据库
在MySQL数据库中，查询数据是数据库操作中最为基础和频繁的任务之一。通过查询，用户可以检索存储在数据库表中的数据，以满足特定的业务需求或分析目的。MySQL提供了强大而灵活的查询语言——SQL（StructuredQueryLanguage），特别是其数据查询部分，即DQL（DataQueryLanguage），允许用户以多种方式检索数据。以下将详细探讨MySQL中查询数据的方法，包括基本查询、
什么是IndexedDB？有什么特点前端与小赵 spring java 后端
IndexedDB是一种在用户浏览器中存储大量结构化数据的低级API。它是一种事务性数据库系统，允许Web应用程序保存和检索复杂的数据类型，如文件或二进制大对象（BLOB）。与localStorage和sessionStorage不同，IndexedDB提供了更强大的功能，适合需要频繁读写操作、处理复杂查询以及管理大量数据的应用场景。特点大规模数据存储：IndexedDB支持存储大量的结构化数据，
大型网站的架构设计问题----大型高并发高负载网站的系统架构 moailian J2EE 架构设计 myspace 数据库服务器数据库 sql server web服务
随着中国大型IT企业信息化速度的加快，大部分应用的数据量和访问量都急剧增加，大型企业网站正面临性能和高数据访问量的压力，而且对存储、安全以及信息检索等等方面都提出了更高的要求……本文中，我想通过几个国外大型IT企业及网站的成功案例，从Web技术人员角度探讨如何积极地应对国内大型网站即将面临的扩展（主要是技术方面，而较少涉及管理及营销等方面）矛盾。一、国外大型IT网站的成功之道(一)MySpace今
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持