全文索引

  • 推荐文章
  • 王宝龙-将开源PHP组件注册为服务提供者,以结巴分词为例
  • 首先声明,这个文章是我自己用的
在 config/app.php里面
    App\Library\Tool\ToolServiceProvider::class,
//        App\Library\JiebaFenci\ChineseWordSegmentationServiceProvider::class,
        App\Library\MySystemClass\MySystemProvider::class,
'Common' => App\Library\Tool\CommonFacade::class,
//        'MyRedis' => App\Library\Tool\MyRedisFacade::class,
        'Jieba' => App\Library\JiebaFenci\Jieba::class,
//        'MySecurity' => App\Library\MySystemClass\SecurityFacade::class,

我做了计划任务 vi App\Console\Commands\Long.php

public function handle()
    {
        //        先取出最大的rel_id 和最大的id对比,id大,则有新的数据,小则没有新的数据,不执行任何信息
        $rel_id_max = \DB::table('index_search')->max('rel_id');
        $id_max = \DB::table('job_publish')->max('id');
//        var_dump($id_max);
        if ($id_max > $rel_id_max){
//           此时有新的数据,应该执行分词
//            取出job_publish中的标题和内容
            $datas = \DB::table('job_publish')->where('id','>',$rel_id_max)->get(['id','title','desc']);
            foreach ($datas as $data){
                $keywords_str = $data->title.$data->desc;    //拼接标题和描述
                $keywords_arr =  \Jieba::jieba()->cut($keywords_str);     //分词
                $keywords_str = implode(' ',$keywords_arr);          //加入空格
                $keywords_code =  \Common::unicode_encode($keywords_str);    //转uncode码
                $keywords_code = str_replace('u32',' ',$keywords_code);    // u32,代表空格
                $insertinfo = ['type' => 1, 'rel_id' => $data->id,'keyword' => $keywords_code,'addtime' => date('Y-m-d H:i:s') ];

                \DB::table("index_search")->insertGetId($insertinfo);  //插入数据库
            }

        }
    }
//实际用到的分词是
$keywords_str = $data->title.$data->desc;    //拼接标题和描述
$keywords_arr =  \Jieba::jieba()->cut($keywords_str);     //分词
$keywords_str = implode(' ',$keywords_arr);          //加入空格
$keywords_code =  \Common::unicode_encode($keywords_str);    //转uncode码
此处转码我们不知道空格会转成什么,我们可以先将空格打印
领 $keywords_str = ' ';

$keywords_code = str_replace('u32',' ',$keywords_code);    // u32,代表空格
切记,可不是每个设备空格都是u32代表,我在ubuntu上测试的是u8192
全文索引_第1张图片
空格转码

查询的控制器写法

public function index(Request $request)
{
    $search = $request->input('search');
//        1.如果search的查询不是空,则查询全文索引
    if ($search !=null ){
        $searchArr =  \Jieba::jieba()->cut($search);    //先把搜索的内容分词成为一个数组,即使一个词,分出来的也是数组
    foreach ($searchArr as $search){
        $word = \Common::unicode_encode($search);
        $tmp = \DB::select("select rel_id from index_search where match(keyword) against('{$word}')");  //查询匹配结果
       static $ids = array();  //此处要先声明,否则,如果$tmp为空。会报错,因为$ids没有值。
        if ($tmp != null ){
//                dd($tmp);
            foreach ($tmp as $data){
//                    dd($data);
                $ids[] = $data->rel_id;  //把查询到的rel_id合并到一个数组
            }
        }
    }
//        如果分词后的条件去数据库查询不到结果,则返回无结果
        if (!$ids) return view('home')->with('jobpublishs','没有查询到相关结果,请重新输入搜索内容');
        $ids = array_unique($ids);   //把值相同的去掉
        foreach ($ids as $id){
            $jobpublishs[] = \DB::table('job_publish')->where('id',$id)->first();
        }
        return view('home',compact('jobpublishs'));
    }

//        2.否则,search为空,判断条件查询是否存在
    $where = $request->all();
    if ($where==null){
        $jobpublishs = DB::table('job_publish')->orderBy('starttime','desc')->get();   //没有查询条件则查询全部
    }else{
        $jobpublishs = DB::table('job_publish')->where($where)->orderBy('starttime','desc')->get(); //有条件则按条件查询
    }
    return view('home',compact('jobpublishs'));

}
  • 本质需要的代码是
$searchArr =  \Jieba::jieba()->cut($search);    //先把搜索的内容分词成为一个数组
foreach ($searchArr as $search){
    $word = \Common::unicode_encode($search);
    $tmp = \DB::select("select rel_id from index_search where match(keyword) against('{$word}')");  //查询匹配结果
    }

有时候我们输入的字虽然长,但它有可能是一个词。比如我输入郑州火车站,它就是一个词,但是如果是郑州市火车站,就会分词 郑州市,火车站,这才是我们需要的结果

你可能感兴趣的:(全文索引)