varsoft

[转] 走进全文搜索

走进全文搜索

作者：奶瓶
来源：http://www.phpx.com/happy/viewthread.php?tid=124696

为什么我要写这种东西？因为趋势。或者说是为了实现。我总是喜欢做一些看起来无意义的事情……

搜索，是互联网的每一步！

提到搜索，最有名的当然是Google、baidu这类全网搜索引擎，提到开发工具，恐怕要算是Lucene了。Lucene是一个开源的全文搜索的工具包，由Java编写，是Apache软件基金会的一个项目。Lucene现在有了很多Java之外的语言版本，比如.NET、Perl等，Lucene4c也在开发中。c语言版本似乎要等上一段时间，因为c版本的结构将和标准的Java版差很多，因为这两种语言根本是一种写法……

在ZendFramework里还有一个Lucene的PHP版本实现，也可以算是Lucene的一种语言分支，不过PHP Lucene并不像Perl Lucene实现得那么完整，它有很多的方法都是空的，它只是实现了Lucene的功能，提供一个可用的平台。当然PHP Lucene的代码质量还是很不错的。

前些日子有看过PHP Lucene和标准Java Lucene在相同环境下的比较，PHP Lucene可以说是惨不忍睹，创建索引的速度和搜索速度都已经超过可承受极限，或者是我们使用的方法不当，但是PHP Lucene对索引文件的Optimizer动作是空的，这个让打散的索引无法合并。虽然根据以往的经验，PHP的IO性能要好过Java，但是这次对比应该反应的是PHP Lucene的实现方式上有问题，因为后来我把它的索引文件转移到tmpfs上，发现没有任何好转。

与此不同的是Perl Lucene，前一阵刚升级到1.25，它的性能是很稳定的，它没有严格地追随Java版的实现结构，因为Perl的语法很灵活，而且它的IO和字符串性能都足够好，Perl Lucene我没有做过什么详细的测试。

这次的目的是在BSM中扩展全文搜索模块，我不打算用Lucene，因为PHP Lucene确实还不成熟，我也不希望有BSM中有Java成分。BSM里只有几个Daemon是Perl的。我不需要Lucene那么复杂，只要用自己的方式实现一个简单的全文搜索功能就可以了。BSM的整体概念就是简单高效很多模块只有一个文件，我不需要那么多的功能，只要它够快够稳定就可以了。虽然在PHP上追求“快”有一点变态。

* * * * * * * * * * * *
全文搜索不是MySQL的LIKE %%，对于普通的数据库索引，LIKE %%几乎是无效的，全文索引的实际概念是有效地把文字拆成词，再对这些词做反向的索引，Lucene中这个叫做“倒排”，区别于传统索引的“这篇文章中有什么词”，倒排实际上记录的是“这个词在哪些文章中出现”，搜索的时候实际就是把搜索字符串按照同样的规则再次拆分成词或非词单元，然后在索引中取出这些词所在的文章号的并集（或交集）。比如有一个词“中国”，它的索引可能是这个样子：
中国：1-25:12-84:37-90

它的含义是“中国”这个词在1号文章的第25个字处、12号文章的第84字处、37号文章的第90字处出现。这就是一个包含位置信息的倒排索引。当用户搜索“中国”的时候，引擎只要按照一定的规则定位到这条索引上，就可以迅速地取出“中国”出现的位置。然后它可以根据文章ID来到数据库或者其它上地方取出一部分文章做摘要返回给用户，而不需要每篇文章都从头到尾遍历一次查找“中国”。

基于这个概念，Lucene创建了非常有效的倒排索引，同时Lucene的索引是包含词频的。然而Lucene是基于“大索引”的，它实际上在维护一个大的数据库，在创建索引的时候它也会创建一些小的索引，当小索引达到一定量的时候，Lucene会把它们合并在一起，也就是PHP Lucene缺少的Optimizer部分。

BSM中的搜索部分依然使用倒排，不过不同于Lucene，我的实现方式是散列。当然它会导致不小的空间浪费，不过可以省去很多计算文件偏移量的麻烦。BSM把索引打散成几乎无数个小的部分，每一个部分通过SQLite引擎来维护，处理这些小的数据表，SQLite是很拿手的。而且一个特定的Hash算法可以一次就定位到文件，它的效率是很高的。

* * * * * * * * * * * *
搜索的一个最重要的问题就是如何有效地拆分文字，西方的拉丁语系比较容易处理，因为它就是以词为单位的书写方式，比如英文，可以简单地通过空格、标点符号、特殊字符完成有效地切分，稍微麻烦一点的就是词性，比如英文的时态、复数形式、特殊的宾格等等，处理这个问题已经有了很多成熟的方案，比如Perl的Linhua包。英文的分词实际上是很容易的。

对于东方文字，最典型的就是中文，它是按照字为单位组织句子的，词与词之间没有明显的分割，不像英文中有空格，如何有效地分割中文是个极其复杂的全球性问题。汉语是世界上最难学的语种之一，也表现在计算机处理上……目前比较通用的中文分词技术包括字元分词、词典匹配、语义分词等。

字元分词是最简单直接的分词方法，包括如二元、三元等。它的划分方式就是相邻的字就按照词来计算，而不管它有没有什么实际意义。比如“我是中华人民共和国的公民”，按照二元分词可以划分为“我是是中中华华人人民民共共和和国国的的公公民”。二元分词简单高效，但是它会制造出很多冗余数据，因为像“民共”、“国的”这些根本就是毫无意义的“词”。二元分词的索引通常比原文还要大。

词典分词是依靠词典匹配的方式来完成划分，实现它需要一个词库表，包含了大量的中文词汇，分词就是以这个词库表（词典）为基础进行，词典划分有正向、逆向、双向以及最大划分、最小划分、最优划分等方式，还有混合几种的变体。举上例“我是中华人民共和国的公民”，按照正向最大分词方法，从句首开始，到句尾逐字递减，直到匹配出词典中的一个词，或者剩下一个单字。首先匹配到的是“我是”，然后将“我是”从句子中拿掉，重复上面的过程，匹配出“中华人民共和国”，再重复过程，这次找不到词典中的词，剩下一个“的”字，最后匹配出“公民”。这样整句划分为“我是中华人民共和国的公民”。它实现了比二元分词更有效的划分。其中“的”字可以根据需要做出取舍。

也可以从逆向匹配，就是从句尾开始查词典。根据统计学观点来看，汉语的词组一般都是前后等长或前短后长，所以一些人认为逆向匹配比正向匹配产生歧义的几率要小。比如“研究生命的起源”，按照逆向匹配可以正确地划分为“研究生命的起源”，但是按照正向匹配，结果就是“研究生命的起源”，这就是一个错误的划分。

基于语义分析的分词技术是目前研究最多，也相对不成熟的分词方式，它的基本概念是对中文语义的理解，它也需要依靠词典，不过这个词典更趋近于知识库，它的词是包含词性的，语义分析器依靠高效的人工智能算法提取出句子的摘要部分，也就是中学语文课上我们常做的“划分句子结构”“提取主干”（好多横线竖线圈圈叉叉把语文书画得乱七八糟）。

BSM中包含了一个二元分词和一个正向最大匹配的词典分词（可以很容易地改为逆向），它简单地实现了中文切分，同时它的结果包含有位置信息（字节偏移量）。或者过段时间我会用更好的分词方法来替换它，不过就我现在的情况，只打算做到这个程度。人懒没办法。

我公开PHP实现部分（其实就是全部，但是PHP只是一个低效率的实现方式，我没有使用太多的PHP本身特性，甚至mb函数都没有用，就是为了方便地向C和perl迁移）。区别于BSM的其它模块，搜索部分的SQLite连接没有使用数据库封装类，因为它的性质是“文件操作”。

BsmSearch的索引保存方式如下：单词的MD5前2位和次2位组成两级hash目录，一共有65536个目录，从第16位到第24位为文件名，后面剩下8位以后可能会留下做校验。当然这个hash算法可以随时修改。这样一个12字节的key，我已经测试过目前的26万词库，没有重复出现。每一个索引文件是一个SQLite数据库，它包含以下结构：

CODE:

[Copy to clipboard]

CREATE TABLE bsm_index (
t_id INTERGER DEFAULT 0,
position INTERGER DEFAULT 0,
d_flag BOOLEAN DEFAULT f
)

t_id是文章编号，可以修改为CHAR，如果不使用数字ID话。t_id上创建有索引。
它用以下的函数生成key：

CODE:

[Copy to clipboard]

<?php
function_get_word_key($word)
{
$word_md5=md5($word);

$ret=substr($word_md5,0,4).substr($word_md5,16,8);

return$ret;
}
?>

生成索引的函数如下：

CODE:

[Copy to clipboard]

<?php
function_write_index($itemid,$tokens)
{
$ret=array();

foreach($tokensas$position=>$word){
$word=strtolower($word);
$word_key=$this->_get_word_key($word);
$ret[$word_key][]=$position;
}

unset($word_key);

foreach($retas$word_key=>$indexes){
$base_dir1=substr($word_key,0,2);
$base_dir2=substr($word_key,2,2);
$index_filename=substr($word_key,4);

$dir=$this->index_dir.$base_dir1.'/';
if(!is_dir($dir))
@mkdir($dir);

$dir=$dir.$base_dir2.'/';
if(!is_dir($dir))
@mkdir($dir);

$index_filename=$dir.$index_filename;

$index_dh=sqlite_open($index_filename);
$sql="SELECTnameFROMsqlite_masterWHEREtype='table'ANDname='bsm_index'";
$res=sqlite_query($sql,$index_dh);
$t_list=sqlite_fetch_all($res);

if(is_array($t_list)&&count($t_list)==0){
//CreateaIndexTable
$sql="CREATETABLEbsm_index(
t_idINTERGERDEFAULT0,
positionINTERGERDEFAULT0,
d_flagBOOLEANDEFAULTf
)";
$res=sqlite_query($sql,$index_dh);

$sql="CREATEINDEXt_idONbsm_index(t_id)";
$res=sqlite_query($sql,$index_dh);
}

foreach($indexesas$position){
$sql="INSERTINTObsm_index(t_id,position)VALUES($itemid,$position)";
sqlite_query($sql,$index_dh);
}
sqlite_close($index_dh);
}

return$res;
}
?>

首先它会判断两级目录是否存在，不存在的话会自动创建，如果为了节省IO时间，可以预先准备好所有的目录。然后函数根据传入的tokens（分词结果）在SQLite的bsm_index表中插入信息。根据使用了一段时间后的情况，每个词的索引添加量都不大，所以INSERT没有使用事务。

CODE:

[Copy to clipboard]

<?php
functionsearch($query)
{
$queries=$this->_tokenizer_dict($this->_normalize_text($query));

$c=0;
$ret=array();
foreach($queriesas$query_item){
$word_key=$this->_get_word_key(strtolower($query_item));

$base_dir1=substr($word_key,0,2);
$base_dir2=substr($word_key,2,2);
$index_filename=$this->index_dir.$base_dir1.'/'.$base_dir2.'/'.substr($word_key,4);

if(!@is_readable($index_filename))
returnfalse;

$index_dh=sqlite_open($index_filename);
$sql="SELECTt_idFROMbsm_indexWHEREd_flag='f'GROUPBYt_id";
$res=sqlite_query($sql,$index_dh);

while($t_id=sqlite_fetch_single($res)){
$ret[$c][]=$t_id;
}
$c++;
}

for($i=0;$i<$c;$i++){
$arr[]='$ret['.$i.']';
}

$tmp=implode(',',$arr);
$tmp='$base_ret=array_intersect('.$tmp.');';
eval($tmp);

return($base_ret);
}
?>

这是一个简单的搜索，它还不完整，比如没有处理交并复合的情况，结果也没有带有位置信息，不过这个容易解决，昨天晚上太困了……哈哈。搜索使用建立索引同样的分词方式_tokenizer_dict来创建queries，根据word_key快速地定位到某个SQLite文件上。在早期版本使用纯文件时，它的定位速度极快，现在使用SQLite，包括库文件初始化，也可以保证在几毫秒的时间内完成搜索定位。

下面是两个分词算法，一个是二元分词，一个是词典分词：

CODE:

[Copy to clipboard]

<?php
function_tokenizer($text)
{
//UTF8_only
//2-BaseCut
$len=strlen($text);
$mbc='';
$last_mbc='';
$tmp='';
$tokens=array();

for($i=0;$i<$len;$i++){
$c=$text[$i];
$v=ord($c);

if($v>0xe0){
//3-byteschars
$tmp='';
$mbc=$c.$text[$i+1].$text[$i+2];
$i+=2;
}

elseif($v>0xc0){
//2-byteschars
$tmp='';
$mbc=$c.$text[$i+1];
$i++;
}

else{
$mbc='';
if($c==''){
if($tmp){
$p=$i-strlen($tmp);
$tokens[$p]=$tmp;
}

$tmp='';
}
else{
$tmp.=$c;
}
}

if($mbc){
if($last_mbc){
$p=$i-strlen($last_mbc.$mbc)+1;
$tokens[$p]=$last_mbc.$mbc;
}
$last_mbc=$mbc;
}

else{
$last_mbc='';
}
}

return$tokens;
}

function_tokenizer_dict($text,$non_word=false)
{
$len=strlen($text);
$mbc='';
//$mbc_str='';
$mbc_str=array();
$tmp='';
$tokens=array();

for($i=0;$i<$len;$i++){
$c=$text[$i];
$v=ord($c);

if($v>0xe0){
//3-byteschars
$tmp='';
$mbc=$c.$text[$i+1].$text[$i+2];
$i+=2;
}

elseif($v>0xc0){
//2-byteschars
$tmp='';
$mbc=$c.$text[$i+1];
$i++;
}

else{
$mbc='';
if($c==''){
if($tmp){
$p=$i-strlen($tmp);
$tokens[$p]=$tmp;
}

$tmp='';
}

else{
$tmp.=$c;
}

if(count($mbc_str)>0){
//Div_dict
//mb_internal_encoding('UTF-8');
$start_offset=$i-strlen(implode('',$mbc_str));
$mbc_str_left=$mbc_str;
while(count($mbc_str_left)){
//$mb_len=mb_strlen($mbc_str_left);
$mb_len=count($mbc_str_left);
$word='';

for($j=($mb_len>4?4:$mb_len);$j>=1;$j--){
//$test=mb_substr($mbc_str_left,0,$j);
$test='';
for($k=0;$k<$j;$k++){
$test.=$mbc_str_left[$k];
}

//$mb_test_len=mb_strlen($test);
if($j==1){
//1only
$word=$test;
}

else{
if($this->dict->find($test)){
$word=$test;
}
}

if($word){
//$mbc_str_left=mb_substr($mbc_str_left,$mb_test_len);

$arr_tmp=array();
for($k=$j;$k<$mb_len;$k++){
$arr_tmp[]=$mbc_str_left[$k];
}

$mbc_str_left=$arr_tmp;
if(!$non_word){
if($j>1)
$tokens[$start_offset]=$word;
}
else
$tokens[$start_offset]=$word;

$start_offset+=strlen($word);
continue2;
}
}
}
}

//$mbc_str='';
$mbc_str=array();
}

if($mbc){
$mbc_str[]=$mbc;
}
}

return$tokens;
}
?>

可以看到注释掉的信息，是mb_函数部分，我去掉他们，一方面是为了迁移，一方面是mb_很慢。我偷懒地使用了不完整的UTF8切字，只判断2个字节的和3个字节的，其实只有UTF3，呵呵……以后再说。

CODE:

[Copy to clipboard]

<?php
function_normalize_text($text)
{
$symbol='`~!@#$%^&*()_+=|{}[]:;"<>,.?';
$symbol=preg_quote($symbol);
$ret=preg_replace("/[$symbol]/",'',$text);
$ret=preg_replace("/[rnt]/",'',$ret);

//ForChinese...
$ret=str_replace('“','',$ret);
$ret=str_replace('”','',$ret);
$ret=str_replace('‘','',$ret);
$ret=str_replace('’','',$ret);
$ret=str_replace('！','',$ret);
$ret=str_replace('？','',$ret);
$ret=str_replace('。','',$ret);
$ret=str_replace('，','',$ret);
$ret=str_replace('、','',$ret);
$ret=str_replace('·','',$ret);
$ret=str_replace('（','',$ret);
$ret=str_replace('）','',$ret);
$ret=str_replace('＃','',$ret);
$ret=str_replace('《','',$ret);
$ret=str_replace('》','',$ret);
$ret=str_replace('；','',$ret);
$ret=str_replace('：','',$ret);
$ret=str_replace('……','',$ret);
$ret=str_replace('　','',$ret);
$ret=str_replace('——','',$ret);

//CutWords...
$ret=str_replace('的','的',$ret);
$ret=str_replace('是','是',$ret);
$ret=str_replace('吗','吗',$ret);
$ret=str_replace('吧','吧',$ret);
$ret=str_replace('呀','呀',$ret);

$ret=preg_replace("/s+/",'',$ret);

return(trim($ret).'');
}
?>

上面这个函数对文字做了一些简单的预处理，扔掉了一些标点符号，主要就是为了把文章先分割成“句子”，实验性函数……
我的词典是保存在内存中的，依靠memcached来维护，每一个词保存的就是一个名字为word_key，值为“t”的内存变量。memcached对这个词典进行了有效的散列。下面是词典class：

CODE:

[Copy to clipboard]

<?php
classBsmSearchDictMemcached
{
var$mc;

functionBsmSearchDictMemcached()
{
global$dict_memcached_host,$dict_memcached_port;

$this->mc=memcache();
$this->mc->add_server($dict_memcached_host,$dict_memcached_port);

return$this->mc;
}

functionmake_mem_dict()
{
global$dict_source_file;

$fp=fopen($dict_source_file,'rb');

while($word=fgets($fp)){
$word=trim($word);
$key=$this->_gen_mem_key($word);
$this->mc->set($key,'t');
}

fclose($fp);
}

functionfind($word)
{
$key=$this->_gen_mem_key($word);

if($this->mc->get($key)=='t')
returntrue;

else
returnfalse;
}

function_gen_mem_key($word)
{
if($word){
$md5_word=md5($word);
$key=substr($md5_word,0,4).substr($md5_word,16,8);
$key='dict_'.$key;
}

else
$key='NO_KEY';

return$key;
}
}
?>

一些参数是在BSM的配置文件中定义的，make_mem_dict是生成内存词典的方法，它从原始词典dict.dat中导出数据插入到内存中。
一个使用实例：

CODE:

[Copy to clipboard]

<?php
define('IN_BSM',true);
$phpEx='php';
error_reporting(2047);
require('../include/kernel/common.inc.'.$phpEx);
require($include_root.'search/search.inc.'.$phpEx);
$search=newBsmSearch('search/');
$str='我是大傻瓜';
$start_time=array_sum(explode('',microtime()));
$db->sql_query("INSERTINTO`data`SET`text`='$str');
$id=$db->sql_nextid();
$search->add_text($id,$str);
print_r($search->search('傻瓜'));
$end_time=array_sum(explode('',microtime()));
$time=$end_time-$start_time;
echo('<br>SpendTime:'.$time.'secs');
?>

它在数据库里插入一篇内容叫“我是大傻瓜”的文章，同时创建了索引，然后搜索“傻瓜”这个词，结果会返回刚刚那个ID，如果之前还插入过包含“傻瓜”的文章，会一起返回。

BsmSearch基本算是写了个框框，还有很多没有实现，我不着急，慢慢做。
抛砖了，希望大家多指正，嘿嘿

PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
如何用matlab灵活控制feko的求解 NingrLi matlab 开发语言
https://bbs.rfeda.cn/read.php?tid=3778Feko中的模型和求解设置等都可以通过editfeko进行设置，其文件存储为.pre文件，该文件可以用文本打开，因此，我们可以通过VB、VC、matlab等工具对.pre文件进行读写操作，以达到更灵活的使用feko。同样，对于.out文件，我们也可以进行读操作。熟练使用对.pre文件和.out文件的操作后，我们可以方便的计
进销存小程序源码 PHP网络版ERP进销存管理系统全开源可二开摸鱼小号 php
可直接源码搭建部署发布后使用：一、功能模块介绍该系统模板主要有进，销，存三个主要模板功能组成，下面将介绍各模块所对应的功能；进：需要将产品采购入库，自动生成采购明细台账同时关联财务生成付款账单；销：是指对客户的销售订单记录，汇总生成产品销售明细及回款计划；存：库存的日常盘点与统计，库存下限预警、出入库台账、库存位置等。1.进购管理采购订单：采购下单审批→由上级审批通过采购入库；采购入库：货品到货>
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
mysql学习教程，从入门到精通，TOP 和MySQL LIMIT 子句（15）知识分享小能手大数据数据库 MySQL mysql 学习 oracle 数据库开发语言 adb 大数据
1、TOP和MySQLLIMIT子句内容在SQL中，不同的数据库系统对于限制查询结果的数量有不同的实现方式。TOP关键字主要用于SQLServer和Access数据库中，而LIMIT子句则主要用于MySQL、PostgreSQL（通过LIMIT/OFFSET语法）、SQLite等数据库中。下面将分别详细介绍这两个功能的语法、语句以及案例。1.1、TOP子句（SQLServer和Access）1.1
非关系型数据库天秤-white nosql
一、为什么要用Nosql1.单机MySQL的时代。一个基本的网站访问量一般不会太大，单个数据库完全足够。那时候更多使用的静态网页html，服务器根本没有太大压力。这时候网站的瓶颈是什么？-数据量如果太大，一个机器放不下。-数据量太大需要建立数据的索引（B+Tree），一个服务器内存放不下。-访问量读写混合，一个服务器承受不了。2.memcached缓存+MySQL+垂直拆分（读写分离）。网站80%
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
SpringBoot整合ES搜索引擎实现网站热搜词及热度计算码踏云端 springboot Elasticsearch spring boot elasticsearch 后端热搜词热度计算 java
博主简介：历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于
华为云分布式缓存服务DCS与开源服务差异对比 hcinfo_18 redis使用华为云 Redis5.0 分布式缓存服务 Redis客户端
分布式缓存服务DCS提供单机、主备、集群等丰富的实例类型，满足用户高读写性能及快速数据访问的业务诉求。支持丰富的实例管理操作，帮助用户省去运维烦恼。用户可以聚焦于业务逻辑本身，而无需过多考虑部署、监控、扩容、安全、故障恢复等方面的问题。DCS基于开源Redis、Memcached向用户提供一定程度定制化的缓存服务，因此，除了拥有开源服务缓存数据库的优秀特性，DCS提供更多实用功能。一、与开源Red
php服务器状态监测,PHP网站状态在线监控源码傲雪吟霜白如冰 php服务器状态监测
在网上找的一个在线监控源码，比较简单，但是功能也略有不足，例如如果网站挂了就按照监控频率一直发邮件提示，网站恢复之后不会发邮件通知；不能直接填写要监控的网址或者某一页面，适合监控大量的网站或者vps、服务器。最新使用感受：没有发送邮件限制，我设置监控频率是一个小时，一天没管就把邮箱塞满了。如果服务器恢复的话不会专门发邮件提醒。如果只是监控几个站的话有很多免费的监控网站可以使用，只是使用数量上有限制
php状态监控源码,PHP服务器状态监控实现程序江子星 php状态监控源码
*/header('Content-type:text/html;charset=utf-8');include'./smtp/class.smtp.php';include'./smtp/class.phpmailer.php';functionsendmail($subject='',$body=''){date_default_timezone_set('Asia/Shanghai');//
服务器状态监控php源码,服务器状态监控_监控Linux服务器网站状态的SHELL脚本温糯米服务器状态监控php源码
摘要腾兴网为您分享:监控Linux服务器网站状态的SHELL脚本，蜗牛集市，同花顺，探客宝，手柄助手等软件知识，以及日期倒计时插件，云南省教育资源公共，rui手机桌面，小屁孩桌面便签，合金装备崛起复仇，朝夕日历，photoshop图像处理软件,一年级学生每日计划表，悟空找房，饿了吗外卖商家版，逃生，中国民宿网，realpolitiks，交通安全知识竞赛，雅思流利说等软件it资讯，欢迎关注腾兴网。1
SQLite的入门级项目学习记录（二）深蓝海拓 SQLite学习笔记 sqlite 学习数据库
再补充一些基础知识：并行操作的问题1、可以多游标同时运行SQLite，对于同一个连接sqlite3.connect(db_file)，可以同时创建多个游标，每个游标都是独立的，可以执行各自的SQL命令序列。importsqlite3#创建数据库连接conn=sqlite3.connect('example.db')#创建第一个游标cursor1=conn.cursor()cursor1.execu
【RabbitMQ 项目】服务端数据管理模块之交换机管理月夜星辉雪 rabbitmq oracle 数据库
文章目录一.编写思路二.代码实践一.编写思路定义交换机类型直接交换广播交换主题交换定义交换机名字类型是否持久化定义交换机持久化类(持久化到sqlite3)构造函数(只能成功，不能失败)如果数据库(文件)不存在则创建打开数据库打开exchange_table数据库表插入交换机移除交换机将数据库中的交换机恢复到内存中传入一个哈希表，key为名字，value为交换机的智能指针，填充该哈希表定义交换机管理
php 实现JWT 每天瞎忙的农民工 php php
在PHP中，JSONWebToken(JWT)是一种开放标准(RFC7519)用于在各方之间作为JSON对象安全地传输信息。JWT通常用于身份验证系统，如OAuth2或基于令牌的身份验证。以下是一个基本的PHP实现JWT生成和验证的代码示例。JWT的组成部分JWT包含三个部分：Header（头部）：说明算法和令牌类型。Payload（有效载荷）：包含声明（如用户数据、过期时间等）。Signatur
discuz discuz_admincp.php 讲解,Discuz! 1.5-2.5 命令执行漏洞分析(CVE-2018-14729) weixin_39740419 discuz 讲解
0x00漏洞简述漏洞信息8月27号有人在GitHub上公布了有关Discuz1.5-2.5版本中后台数据库备份功能存在的命令执行漏洞的细节。漏洞影响版本Discuz!1.5-2.50x01漏洞复现官方论坛下载相应版本就好。0x02漏洞分析需要注意的是这个漏洞其实是需要登录后台的，并且能有数据库备份权限，所以比较鸡肋。我这边是用Discuz!2.5完成漏洞复现的，并用此进行漏洞分析的。漏洞点在：so
FastCGI结合docker下的Nginx执行shell脚本南波波 nginx docker
1使用docker下载Nginx下面展示一些内联代码片。a.#dockerpullnginx#dockerrun--namerunoob-php-nginx-p8088:80-d\-v~/nginx/www:/usr/share/nginx/html:ro\-v~/nginx/conf/conf.d:/etc/nginx/conf.d:ro\nginxb.在~/nginx/conf/conf.d创
Android JetPack架构——结合记事本Demo一篇打通对Sqlite的增删改查结合常用jetpack架构应用 erhtre 程序员 android jetpack 架构 sqlite
为什么要用Jetpack?========================================================================关于为什么要用Jetpack，我参考了许多的博客和官方文档，开阔了我对Android生态圈的理解和认识，在Jetpack推出前出现的许许多多强大的第三方框架与语言，典型代表无疑是强大的RxJava在Jetpack仍然有许多粉丝在一
什么是 PHP? 为什么用 PHP? 谁在用 PHP? m0_37438181 永远学习 php 开发语言
一、什么是PHP？PHP（HypertextPreprocessor，超文本预处理器）是一种广泛应用于Web开发的通用开源脚本语言。PHP主要用于服务器端编程，可以嵌入HTML中，与数据库进行交互，生成动态网页内容。它具有以下特点：简单易学：语法相对简单，容易上手，对于初学者来说是一个不错的选择。跨平台性：可以在多种操作系统上运行，如Windows、Linux、Unix等。丰富的函数库：提供了大量
【网络安全】漏洞挖掘：php代码审计秋说网络安全 php web安全漏洞挖掘
未经许可，不得转载。文章目录正文正文在应用程序中，通过一个JavaScript注释发现了一个备份ZIP文件。解压后，获取了应用程序的代码，其中包含如下代码片段：代码首先检查变量$action是否等于'convert'，如果是，则继续执行。随后对传入的变量$data使用trim()函数去除两端空白字符，并使用eval()函数执行$data的内容。显然，代码对$data没有进行任何过滤或验证，因此可以
2019.1.6 root_restart
1.新版研学行程公众号推送及页面改动，以后继续尝试无logo版行程单方便转发，附带一篇研学政策解读2.百家号，头条号，搜狐号注册认证及审核，后续每天会在上面更新以往研学活动，增加搜索引擎中山大研学和雨滴教育的关联3.与鹿老师探讨研究方便代理的新宣传模式
内网穿透之EW使用、判断服务器是否出网板栗妖怪学习内网渗透
环境搭建使用的是下面文章的环境记一次学习--内网穿透-CSDN博客ew代理然后同样通过thinkphp漏洞写入文件，然后通过蚁剑连接然后上传ew的Linux版本，然后加权执行一层代理正向代理设置正向代理（在ubuntu上），然后kali在proxychain配置文件中连接ubuntu的192.168.244.154的代理端口反向代理在ubuntu上设置反向代理，将连接反弹到kali上的某个端口。然
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
定制优化Nextcloud镜像攻城狮_正
Nextcloud是一款开源免费的私有云存储网盘项目，可以让你快速便捷地搭建一套属于自己或团队的云同步网盘，从而实现跨平台跨设备文件同步、共享、版本控制、团队协作等功能。它的客户端覆盖了Windows、Mac、Android、iOS、Linux等各种平台，也提供了网页端以及WebDAV接口，所以你几乎可以在各种设备上方便地访问你的云盘。Nextcloud基于PHP语言开发，可以使用Nginx+PH
只有一个诚字最重要（3.22）胡同学的读书笔记
1人们会认为谷歌是搜索引擎。而事实上，谷歌是第一个以机器为主导的搜索引擎，这个分类在谷歌之前是不存在的，而你必须要认识到谷歌的这个秘密才能判断它与其他公司的不同之处。2如果我目前在一个公司，当大家不知道未来的路怎么走，过去的路也已经彻底放弃了，我会先把事实摆在所有人面前，然后让大家讨论，在争论的过程中产生一个纲领性的共识，让每个部门在大的纲领下去寻求一种变化，不再以增长和竞争为纲，而是转移到产品和
SQLite的架构 (The Architecture Of SQLite) 斗大的熊猫 Talk about
这篇文档描述SQLite库的基本架构。对那些想要理解和修改SQLite的人很有帮助。下面这张图表展示了SQLite的组件和它们之间的关系。接口（Interface）SQLite的很多对外接口的实现函数在main.c，legacy.c和vdbeapi.c。还以一些散落在其他文件中，sqlite3_get_table()函数实现在table.c，sqlite3_mprintf()函数在printf.c
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

[转] 走进全文搜索

你可能感兴趣的:(PHP,搜索引擎,sqlite,memcached,Lucene)