三天不学习

借助 Lucene.Net 构建站内搜索引擎（下）

前言：上一篇我们学习了Lucene.Net的基本概念、分词以及实现了一个最简单的搜索引擎，这一篇我们开始开发一个初具规模的站内搜索项目，通过开发站内搜索模块，我们可以方便地在项目中集成站内搜索功能。本次示例Demo麻雀虽小，五脏俱全，值得学习。

一、项目初窥

1.1 项目背景

　　本项目模拟一个BBS论坛的文章内容管理系统，当用户发帖之后首先将内容存到数据库，然后对内容进行分词后存入索引库。因此，当用户在论坛站内搜索模块进行搜索时，会直接从索引库中进行匹配并获取查询结果。站内搜索界面的效果如下图所示：

　　所以，本Demo的重点就在于如何搭建这样的一个站内搜索模块，其他例如文章帖子的CRUD不会多做介绍，请自行下载源码查看。

　　首先，来看看本Demo的项目结构，虽然只是做一个小Demo，还是使用了简单地三层结构来进行开发：

　　（1）Manulife.SearchEngine.Dao

　　顾名思义，数据访问层，与数据库进行交互，各种SQL！

　　（2）Manulife.SearchEngine.Service

　　业务逻辑层，对数据访问接口进行简单的封装，为UI层提供服务接口。

　　（3）Manulife.SearchEngine.Model

　　公共的实体对象，为各个层次提供Entity。

　　（4）Manulife.SearchEngine.Web

　　一个ASP.NET WebForm的网站，主要提供Admin管理操作（文章帖子的CRUD）以及站内搜索（我们的关注点就在这儿）。

1.2 数据访问层

　　（1）本次数据库只涉及到三张表：

　　其中，Article是文章表，SearchLog是搜索日志表，SearchLogStastics则是搜索日志统计表（例如：什么关键词搜索了多少次之类的统计）。

　　（2）为操作这些表提供数据访问对象类

　　这些代码都很简单，由代码生成器生成，不用care。

1.3 业务逻辑层

　　本次Demo的业务逻辑层仅仅是对数据访问层方法的简单封装，同样，也是由代码生成器生成，不用care。

　　其中，对于获取搜索热词考虑到每个用户都会看到热词，为了减轻数据库访问的压力，使用了ASP.NET自带的Cache进行优化，该方法会首先从Cache中查找是否已有了搜索热词，没有才会去数据库中获取，并且设置缓存失效时间为1小时。也就是说，在1小时以内，所有用户看到的搜索热词都是相同的。

public DataTable GetHotKeyword()
    {
        // 首先判断缓存中是否有记录
        var cacheData = HttpRuntime.Cache["HotKeywords"];
        if (cacheData == null)
        {
            var hotKeywords = new SearchLogStasticsDao().GetHotKeyword();
            // 将结果放入缓存，并设定1小时替换一次缓存
            HttpRuntime.Cache.Insert("HotKeywords",hotKeywords,null, DateTime.Now.AddHours(1), TimeSpan.Zero);
            return hotKeywords;
        }
        else
        {
            return cacheData as DataTable;
        }
    }

1.4 UI界面层

　　界面层是本次Demo的重点，因为关于站内搜索的所有功能都写在这一层的逻辑代码中。首先，我们来看看Web层的项目结构：

　　（1）assets

　　这个不用多说，里面就存放一些css，js与image文件，都是Demo需要使用的。

　　（2）Common

　　这个folder下主要是对一些常用功能的封装，以便尽可能实现代码复用。当然，也对Lucene.Net的一些例如创建索引的操作进行了封装，保证代码的单一职责。

　　（3）Dict与Index

　　这两个folder下主要是存放Lucene.Net必须要用到的词库与索引文件，如果你还不熟悉，请浏览上一篇进行学习。这里需要注意的是，Dict文件夹下的词库文件需要设置为：如果较新则复制，这样才可以在编译时自动同步到Bin目录下。

　　（4）Log

　　这个folder下主要是存放系统一些关键操作的日志记录，以及用户搜索的日志记录。按照年月日进行区分，使用log4net组件进行日志的读写。

　　（5）Views

　　这个folder下就是一些我们熟悉的页面了，其中：Admin目录下是后台管理操作，对文章的CRUD操作；Article目录下则是针对前台用户的站内搜索和文章浏览的页面。Shared目录下是一些公用的模板页。这里为了快速开发原型系统所以主要采用ASP.Net WebForms技术进行实现，没有采用ASP.Net MVC。

二、核心代码

2.1 文章索引的创建与更新

　　（1）设计IndexManager

　　考虑到文章的发布和修改都需要更新到索引库，因此我们将更新索引库的操作提取出来封装一个class命名为IndexManager。

　　①首先，索引库的更新是一个耗时的操作，并且IO资源是很珍贵的，所以我们将IndexManager设置为一个单例：

public class IndexManager
    {
        public static readonly IndexManager Instance = new IndexManager();

        private IndexManager()
        { }

        static IndexManager()
        { }
    }

这里采用了.NET中独有的静态构造函数方法保证实例的唯一，CLR已经为我们考虑了线程安全的问题了。

C#的语法中有一个函数能够确保只调用一次，那就是静态构造函数。由于C#是在调用静态构造函数时初始化静态变量，.NET运行时（CLR）能够确保只调用一次静态构造函数，这样我们就能够保证只初始化一次instance。

　　②其次，借助生产者消费者的思想，通过消息队列的方式将原来同步的创建索引操作变为任务队列的异步操作。由此用户在发布文章时，不用等待索引创建完成后才得到提示，只需要等到保存到数据库之后就可以退出进行其他操作。

　　关键代码如下所示：

public class IndexManager
    {
        ......

        public void Start()
        {
            Thread thread = new Thread(WatchIndexTask);
            thread.IsBackground = true;
            thread.Start();
            log.Debug("IndexManager has been lunched successfully!");
        }

        private Queue indexQueue = new Queue();
        private void WatchIndexTask()
        {
            while (true)
            {
                if (indexQueue.Count > 0)
                {
                    // 索引文档保存位置
                    FSDirectory directory = FSDirectory.Open(new DirectoryInfo(IndexPath), new NativeFSLockFactory());
                    bool isUpdate = IndexReader.IndexExists(directory); //判断索引库是否存在
                    log.Debug(string.Format("The status of index : {0}", isUpdate));
                    if (isUpdate)
                    {
                        //  如果索引目录被锁定（比如索引过程中程序异常退出），则首先解锁
                        //  Lucene.Net在写索引库之前会自动加锁，在close的时候会自动解锁
                        //  不能多线程执行，只能处理意外被永远锁定的情况
                        if (IndexWriter.IsLocked(directory))
                        {
                            log.Debug("The index is existed, need to unlock.");
                            IndexWriter.Unlock(directory);  //unlock:强制解锁，待优化
                        }
                    }
                    //  创建向索引库写操作对象  IndexWriter(索引目录,指定使用盘古分词进行切词,最大写入长度限制)
                    //  补充:使用IndexWriter打开directory时会自动对索引库文件上锁
                    IndexWriter writer = new IndexWriter(directory, new PanGuAnalyzer(), !isUpdate,
                        IndexWriter.MaxFieldLength.UNLIMITED);
                    log.Debug(string.Format("Total number of task : {0}", indexQueue.Count));

                    while (indexQueue.Count > 0)
                    {
                        IndexTask task = indexQueue.Dequeue();
                        long id = task.TaskId;
                        ArticleService articleService = new ArticleService();
                        Article article = articleService.GetById(id);

                        if (article == null)
                        {
                            continue;
                        }

                        //  一条Document相当于一条记录
                        Document document = new Document();
                        //  每个Document可以有自己的属性（字段），所有字段名都是自定义的，值都是string类型
                        //  Field.Store.YES不仅要对文章进行分词记录，也要保存原文，就不用去数据库里查一次了
                        document.Add(new Field("id", id.ToString(), Field.Store.YES, Field.Index.NOT_ANALYZED));
                        //  需要进行全文检索的字段加 Field.Index. ANALYZED
                        //  Field.Index.ANALYZED:指定文章内容按照分词后结果保存，否则无法实现后续的模糊查询 
                        //  WITH_POSITIONS_OFFSETS:指示不仅保存分割后的词，还保存词之间的距离
                        document.Add(new Field("title", article.Title, Field.Store.YES, Field.Index.ANALYZED,
                            Field.TermVector.WITH_POSITIONS_OFFSETS));
                        document.Add(new Field("msg", article.Msg, Field.Store.YES, Field.Index.ANALYZED,
                            Field.TermVector.WITH_POSITIONS_OFFSETS));
                        if (task.TaskType != TaskTypeEnum.Add)
                        {
                            //  防止重复索引，如果不存在则删除0条
                            writer.DeleteDocuments(new Term("id", id.ToString()));// 防止已存在的数据 => delete from t where id=i
                        }

                        //  把文档写入索引库
                        writer.AddDocument(document);

                        log.Debug(string.Format("Index {0} has been writen to index library!", id.ToString()));
                    }

                    writer.Close(); // Close后自动对索引库文件解锁
                    directory.Close();  //  不要忘了Close，否则索引结果搜不到

                    log.Debug("The index library has been closed!");
                }
                else
                {
                    Thread.Sleep(2000);
                }
            }
        }

        ......
    }

这里使用了.NET内置的队列数据结构Queue来实现更新索引任务的队列。

　　③考虑到新增索引和更新索引操作的差异，为页面提供两个接口，其本质都是向任务队列插入一条新的任务。只不过任务的TaskType枚举不一样，通过此枚举标识，在更新索引时会进行判断是否需要删除原来的索引进行重建。

public class IndexManager
    {
        ......

        public void AddArticle(IndexTask task)
        {
            task.TaskType = TaskTypeEnum.Add;
            indexQueue.Enqueue(task);
        }

        public void UpdateArticle(IndexTask task)
        {
            task.TaskType = TaskTypeEnum.Update;
            indexQueue.Enqueue(task);
        }
    }

    public class IndexTask
    {
        public long TaskId { get; set; }

        public TaskTypeEnum TaskType { get; set; }
    }

    public enum TaskTypeEnum
    {
        Add,
        Update
    }

（2）IndexManager的使用

　　在文章编辑保存按钮的事件中使用IndexManager暴露的两个接口方法进行索引的创建和更新：

protected void btnSave_Click(object sender, EventArgs e)
    {
        string action = Request["action"];
        if (action == "Edit")
        {
            ......

            // 更新数据库
            articleService.Update(art);

            // 更新索引库
            IndexTask task = new IndexTask();
            task.TaskId = id;
            IndexManager.Instance.UpdateArticle(task);

            Response.Redirect("ArticleList.aspx");
        }
        else if (action == "AddNew")
        {
            ......

            // 更新数据库
            art = articleService.Add(art);

            // 更新索引库
            IndexTask task = new IndexTask();
            task.TaskId = art.Id;
            IndexManager.Instance.AddArticle(task);

            Response.Redirect("ArticleList.aspx");
        }
        else
        {
            throw new Exception("action错误！");
        }
    }

2.2 统计任务的调度与执行

　　（1）统计任务的背景

　　考虑到用户可能对其他用户搜索的热词的需求，系统需要对用户输入的搜索词进行记录，并统计出一段时间内用户搜索频率最高的一些关键词，类似于微博的热搜榜：

　　而我们要做的就是需要统计一周内所有用户搜索次数最多的5个关键词，并固定显示在搜索页面中。通过SearchLog表（用户的每一次搜索操作都会记录到数据库中）的分析，我们可以通过如下语句进行统计：

　　因此，我们只需要将Top 5的热词绑定到页面即可。

　　（2）借助Quartz.Net实现定时统计任务

　　Quartz.NET是一个开源的作业调度框架，是OpenSymphony 的 Quartz API的.NET移植，它用C#写成，可用于winform和asp.net应用中。它提供了巨大的灵活性而不牺牲简单性。你能够用它来为执行一个作业而创建简单的或复杂的调度，就像你创建一个Windows的定时任务一样，So Easy！

　　这里我们的业务流程是：每一个小时（如果间隔很短会对数据库造成压力）对SearchLogStatics表（搜索记录统计表）进行更新，更新的详细流程如下图所示：

　　使用Quartz.Net有三个核心部分：Schedule、Job和Trigger，一句话概括就是：给某个人（工作线程）指定一个计划（Schedule），具体是做什么事（Job），在什么时候开始做（Trigger）。

public static class SearchLogScheduler
    {
        public static void Start()
        {
            // 每隔一段时间执行任务
            IScheduler sched;
            ISchedulerFactory sf = new StdSchedulerFactory();
            sched = sf.GetScheduler();
            // IndexJob为实现了IJob接口的类
            JobDetail job = new JobDetail("job1", "group1", typeof(BuildStasticsJob));
            // 5秒后开始第一次运行
            DateTime ts = TriggerUtils.GetNextGivenSecondDate(null, 5);
            // 每隔1小时执行一次
            TimeSpan interval = TimeSpan.FromHours(1); 
            // 每若干小时运行一次，小时间隔由appsettings中的IndexIntervalHour参数指定
            Trigger trigger = new SimpleTrigger("trigger1", "group1", "job1", "group1", ts, null,
                                                    SimpleTrigger.RepeatIndefinitely, interval);
            sched.AddJob(job, true);
            sched.ScheduleJob(trigger);
            sched.Start();
        }
    }


    /// 
    /// 具体要执行的任务
    /// 
    public class BuildStasticsJob : IJob
    {
        private SearchLogStasticsService stasticService;

        public BuildStasticsJob()
        {
            stasticService = new SearchLogStasticsService();
        }

        public void Execute(JobExecutionContext context)
        {
            // 删除所有统计记录
            stasticService.Delete();
            // 重新统计插入表中
            stasticService.Stastic();
        }
    }

2.3 获取搜索结果

　　（1）搜索页的工作

　　在搜索主页面加载时，需要进行三件事：

protected void Page_Load(object sender, EventArgs e)
    {
        // 绑定一周热词
        BindHotKeywords();

        if (Request["keyword"] == null)
        {
            return;
        }

        string keyword = Request["keyword"].ToString();
        // 绑定搜索结果
        BindPagerHtml(keyword);
        // 添加搜索记录
        AddSearchLog(keyword);
    }

　　（2）这里主要看看如何获取搜索结果

private void BindSearchResult(string keyword, int startIndex, int pageSize, out int totalCount)
    {
        string indexPath = Context.Server.MapPath("~/Index"); // 索引文档保存位置
        FSDirectory directory = FSDirectory.Open(new DirectoryInfo(indexPath), new NoLockFactory());
        IndexReader reader = IndexReader.Open(directory, true);
        IndexSearcher searcher = new IndexSearcher(reader);

        IEnumerable keyList = SplitHelper.SplitWords(keyword);

        PhraseQuery queryTitle = new PhraseQuery();
        foreach (var key in keyList)
        {
            queryTitle.Add(new Term("title", key));
        }
        queryTitle.SetSlop(100);

        PhraseQuery queryMsg = new PhraseQuery();
        foreach (var key in keyList)
        {
            queryMsg.Add(new Term("msg", key));
        }
        queryMsg.SetSlop(100);

        BooleanQuery query = new BooleanQuery();
        query.Add(queryTitle, BooleanClause.Occur.SHOULD); // SHOULD => 可以有，但不是必须的
        query.Add(queryTitle, BooleanClause.Occur.SHOULD); // SHOULD => 可以有，但不是必须的

        // TopScoreDocCollector:盛放查询结果的容器
        TopScoreDocCollector collector = TopScoreDocCollector.create(1000, true);
        // 使用query这个查询条件进行搜索，搜索结果放入collector
        searcher.Search(query, null, collector);
        // 首先获取总条数
        totalCount = collector.GetTotalHits();
        // 从查询结果中取出第m条到第n条的数据
        ScoreDoc[] docs = collector.TopDocs(startIndex, pageSize).scoreDocs;
        // 遍历查询结果
        IList resultList = new List();
        for (int i = 0; i < docs.Length; i++)
        {
            // 拿到文档的id，因为Document可能非常占内存（DataSet和DataReader的区别）
            int docId = docs[i].doc;
            // 所以查询结果中只有id，具体内容需要二次查询
            // 根据id查询内容：放进去的是Document，查出来的还是Document
            Document doc = searcher.Doc(docId);
            SearchResult result = new SearchResult();
            result.Url = "ViewArticle.aspx?id=" + doc.Get("id");
            result.Title = HighlightHelper.HighLight(keyword, doc.Get("title"));
            result.Msg = HighlightHelper.HighLight(keyword, doc.Get("msg")) + "......";

            resultList.Add(result);
        }

        // 绑定到Repeater
        rptSearchResult.DataSource = resultList;
        rptSearchResult.DataBind();
    }

　　这里使用Lucene.Net提供的BooleanQuery进行复合查询，何为复合查询？举个例子，假设某个帖子的Title为“阿凡达大战机器猫”，帖子内容Content为“呵呵，你妹！”。这时，假设我们只对Content进行查询，那么用户搜索阿凡达就会搜不到。所以，我们需要对Title和Content都进行查询，也就需要使用BooleanQuery。

2.4 搜索建议提示

　　相信我们在使用百度等搜索引擎进行搜索时都会看到每当我们输入一个词时，会弹出提示框，下面有很多相关的搜索项。这里我们可以通过AJAX操作完成搜索建议功能。

　　这里我们得AutoComplete使用的是一个jQuery UI的AutoComplete插件，前端调用其封装的Ajax请求方法：

$(function () {
        $("#txtKeyword").autocomplete({
            source: "SearchSuggestionHandler.ashx",
            select: function (event, ui) {
                $("#txtKeyword").val(ui.item.value);
                $("#mainForm").submit();
            }
        });
        $("#txtKeyword").focus();
    });

　　后端是一个一般处理程序，负责将Keyword与数据库中搜索记录表中的Item进行匹配，如果有匹配项则序列化为JSON传递到前端，前端负责将JSON反序列化并显示到AutoComplete框中：

public class SearchSuggestionHandler : IHttpHandler
    {
        public void ProcessRequest(HttpContext context)
        {
            context.Response.ContentType = "text/plain";
            // 注意这里传过来的参数name是term
            string keyword = context.Request["term"];

            IList keywordList = new List();
            SearchLogStasticsService statService = new SearchLogStasticsService();
            DataTable dt = statService.GetSuggestion(keyword);
            foreach (DataRow dr in dt.Rows)
            {
                keywordList.Add(Convert.ToString(dr["Word"]));
            }

            JavaScriptSerializer jss = new JavaScriptSerializer();
            string json = jss.Serialize(keywordList);
            context.Response.Write(json);
        }
    }

三、效果演示

　　前面说了那么多，终于到了Show Time。不过，也没什么好Show的：

　　（1）一周热词

　　（2）搜索提示

　　（3）搜索结果

附件下载

　　站内搜索Demo：点我下载

　　【提示：数据库文件在App_Data目录下，建议使用MS SQL Server 2008及以上版本附加】

参考资料

（1）杨中科，《Lucene.Net站内搜索公开课》

（2）痞子一毛，《Lucene.Net》

（3）MeteorSeed，《使用Lucene.Net实现全文检索》

（4）Lucene.Net官方网站：http://lucenenet.apache.org/download.html

作者：周旭龙

出处：http://edisonchou.cnblogs.com/

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文链接。

英语语法学习：非谓语动词&过去分词的形式练习！树先生本人
一、过去分词的变化规则1.规则变化(规则动词的变化规则)规则动词的过去分词与过去式变化规则一致：(1)一般而言，在动词原形后直接加-ed.(2)以字母e结尾的动词，直接加-d.(3)以辅音字母加-y结尾的动词，变y为i，再加-ed.(4)以重读闭音节(辅音+元音+辅音)形式结尾的动词，双写末尾的辅音字母，再加-ed.2.不规则变化(不规则动词的变化规则)过去分词的不规则变化，可以和过去式的不规则变
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
docker安装与使用小鱼做了就会开发框架及各种插件 docker java maven ubuntu linux
docker安装与使用一、docker安装二、容器三、镜像五、Docker部署ES5.1部署ES5.2配置跨域5.3重启容器5.4Docker部署ES-IK分词器5.5Docker部署ElasticSearch-Head5.6Docker快速安装kibana一、docker安装sudowget-qO-https://get.docker.com/|bash二、容器容器是由镜像实例化而来，这和我们学
Python的情感词典情感分析和情绪计算 yava_free python 大数据人工智能
一.大连理工中文情感词典情感分析(SentimentAnalysis)和情绪分类(EmotionClassification）都是非常重要的文本挖掘手段。情感分析的基本流程如下图所示，通常包括：自定义爬虫抓取文本信息；使用Jieba工具进行中文分词、词性标注；定义情感词典提取每行文本的情感词；通过情感词构建情感矩阵，并计算情感分数；结果评估，包括将情感分数置于0.5到-0.5之间，并可视化显示。目
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南快撑死的鱼 Python算法精解 python 人工智能开发语言
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南情感分析（SentimentAnalysis）是自然语言处理（NLP）领域中的一个重要分支，旨在从文本中识别出情绪、态度或意见等主观信息。在中文文本处理中，由于语言特性不同于英语，如何高效、准确地分词和提取关键词成为情感分析的关键步骤之一。在这篇文章中，我们将深入探讨如何使用Python和Jieba库进行中文情感分析，
python连接es_Elasticsearch --- 3. ik中文分词器, python操作es weixin_39962285 python连接es
一.IK中文分词器1.下载安装2.测试#显示结果{"tokens":[{"token":"上海","start_offset":0,"end_offset":2,"type":"CN_WORD","position":0},{"token":"自来水","start_offset":2,"end_offset":5,"type":"CN_WORD","position":1},{"token":"
使用Python的Elasticsearch客户端 elasticsearch-py 来完成删除现有索引、重新创建索引并测试分词的示例代码 Roc-xb Python python elasticsearch
以下是一个使用Python的Elasticsearch客户端elasticsearch-py来完成删除现有索引、重新创建索引并测试分词的示例代码一、安装依赖pipinstallelasticsearch二、运行效果三、程序代码fromelasticsearchimportElasticsearch,NotFoundError#连接到Elasticsearches=Elasticsearch(
万字详解PHP+Sphinx中文亿级数据全文检索实战（实测亿级数据0.1秒搜索耗时）小松聊PHP进阶 MySQL PHP 全文检索 php sphinx mysql sql 数据库服务器
Sphinx查询性能非常厉害，亿级数据下输入关键字，大部分能在0.01~0.1秒，少部分再5秒之内查出数据。Sphinx官方文档：http://sphinxsearch.com/docs/sphinx3.html极简概括：由C++编写的高性能全文搜索引擎的开源组件，C/S架构，跨平台（支持Linux、Windows、MacOS），支持分布式部署，并可直接适配MySQL。解决问题：因为MySQL的l
JAVA使用es不分词_谈谈 Elasticsearch 分词和自定义分词 weixin_39966376 JAVA使用es不分词
初次接触Elasticsearch的同学经常会遇到分词相关的难题，比如如下这些场景：1、为什么命名有包含搜索关键词的文档，但结果里面就没有相关文档呢？2、我存进去的文档到底被分成哪些词(term)了？3、我得自定义分词规则，但感觉好麻烦呢，无从下手如果你遇到过类似的问题，希望本文可以解决你的疑惑。一、上手让我们从一个实例出发，如下创建一个文档：PUTtest/doc/1{"msg":"Eating
es安装ik分词器 abments ES elasticsearch jenkins 大数据
下载分词器首先确定es对应的版本（假设版本是7.10.0）根据版本下载指定的分词器开始安装在线安装./bin/elasticsearch-plugininstallhttps://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.10.0/elasticsearch-analysis-ik-7.10.0.zip离线安装-
三国演义python分析系统_Python之三国演义(上) weixin_40002692 三国演义python分析系统
一、设计实现详细说明1.1任务详细描述以中国四大名著之一——《三国演义》为蓝本，结合python数据分析知识进行本次的文本分析。《三国演义》全书共120回。本次的分析主要基于统计分析、文本挖掘等知识。1.2设计思路详细描述数据准备、数据预处理、分词等全书各个章节的字数、词数、段落等相关方面的关系整体词频和词云的展示全书各个章节进行聚类分析并可视化，主要进行了根据IF-IDF的系统聚类和根据词频的L
重生之我们在ES顶端相遇第11 章 - 深入自定义语言分词器不能放弃治疗 Elasticsearch elasticsearch
文章目录0.前言1.英语分词器2.阿拉伯语分词器3.结语0.前言国内企业出海是大势所趋，那么基于不同的语种进行分词就显得尤为重要，因为这会让用户的搜索体验更棒！国内出海企业，会更偏向于选择欧美、中东这2个地区。因此本文章也重点介绍英语、阿拉伯语的分词。在ES中内置的分词器中，有一个叫Languageanalyzers，我们可以根据该分词器，自定义出符合业务需求的特定语言分词器。1.英语分词器英语分
NLP面试题（9月4日笔记）好好学习Py 自然语言处理自然语言处理笔记人工智能
常见的分词方法分词是将连续的子序列按照一定的规则进行重新组合形成词序列的过程，是NLP领域内最基础的内容。常见的分词方法有jieba分词，jieba分词支持多种分词模模式：精确模式，全模式，搜索引擎模式。1）精确模式：将句子最精确的进行切分，适合文本分析，在日常工作中最为常用；2）全模式：将句子中所有可以成词的词语都扫描出来，速度非常快，但不能消除歧义。3）搜索引擎模式：在精确模式的基础上，对长词
小学英语初级高频词汇学习- be 英语小天地nice
1）be+现在分词,构成进行时态,例如：Theyarehavingameeting.他们正在开会.Englishisbecomingmoreandmoreimportant.英语现在越来越重要.2)be+过去分词,构成被动语态,例如：ThewindowwasbrokenbyTom..窗户是汤姆打碎的.Englishistaughtthroughouttheworld.世界各地都教英语.3）be+动
微软开源 Phi-3.5 视觉模型三花AI 三花AI microsoft 人工智能深度学习
微软刚刚发布了Phi3.5系列模型，一个小型模型("Mini")、一个混合模型("MoE")和一个视觉模型。下面是关键总结：Phi3.5Mini:3.8B参数，性能超过Llama3.1(8B)和Mistral7B，接近MistralNeMo12B。支持多种语言，使用了包含32,000个词汇的分词器。512个H100GPU，3.4万亿个tokens训练了10天。Phi3.5MoE:16x3.8B参数
好用的文本内容抽取关键词API接口调用示例天聚数行天行数据天行数据 API接口 tianapi python
用户输入的内容通常是一个不那么简洁的长尾词，通过抽取关键词接口就能快速抽取其中的核心词。该接口支持指定抽取数量和词性，其中num参数为可选，默认返回10个词语，999为不限数量。当指定wordtag参数为1时，返回一个包含词性的列表，例如把一大段文本中的人名或者把一篇文章里提到的地名单独提取出来。词性代码释义请参考中文智能分词接口词性代码释义。接口信息抽取一段文本信息中的核心关键词接口地址：htt
搜索引擎设计：如何避免大海捞针般的信息搜索 CopyLower 架构 Java 学习搜索引擎
搜索引擎设计：如何避免大海捞针般的信息搜索随着互联网的发展，信息的数量呈爆炸式增长。如何在海量信息中快速、准确地找到所需信息，成为了搜索引擎设计中的核心问题。本文将详细探讨搜索引擎的设计原理和技术，从信息获取、索引建立、查询处理、结果排序到性能优化，全面解析如何避免大海捞针般的信息搜索。目录引言信息获取网页抓取数据清洗索引建立倒排索引正排索引查询处理查询解析词法分析与分词查询扩展结果排序相关性评分
Python知识点：如何使用Elasticsearch与Elasticsearch-py进行全文检索超哥同学 Python系列全文检索 python elasticsearch 面试编程
使用Elasticsearch与elasticsearch-py库进行全文检索可以分为以下几个步骤：1.安装elasticsearch-py首先，确保你已经安装了elasticsearch-py库。你可以使用pip来安装它：pipinstallelasticsearch2.连接到Elasticsearch实例使用elasticsearch-py库，你需要先连接到你的Elasticsearch实例。
fastText 情感分类 dreampai
情感分类任务就是看一段文本，然后分辨这个人是否喜欢他们在讨论的这个东西。情感分类一个最大的挑战就是可能标记的训练集没有那么多，但是有了词嵌入，即使只有中等大小的标记的训练集，你也能构建一个不错的情感分类器image.pngimage.png假设有一个句子：“这个衣服质量不错”通过分词、去除停用词等预处理操作，得到“衣服/质量/不错”获取“衣服”、“质量”、“不错”的对应词向量（可以通过TF-IDF
默默背单词-231 ss的专属赫兹
1.stinky:[ˈstɪŋki]adj.发恶臭的n.全景雷达；环视雷达站stink:[stɪŋk]v.发恶臭；（非正式）讨厌透顶n.恶臭；（非正式）大吵大闹adj.臭气熏天的；讨厌的；腐败的过去式stank或stunk过去分词stunk2.gamey:adj.味道强的；勇敢的；多猎物的3.funky:[ˈfʌŋki]adj.时髦的；畏缩的；恶臭的funk:[fʌŋk]n.恐惧；怯懦；恐怖；臭味
python 绘制词云图（自定义png形状、指定字体、颜色）最全！！！早八起得来 python python 开发语言中文分词
前言本文为分总结构，有特定需求的可以查阅前部分分结构的对应板块，最后的总结不懂的可以在分板块查阅解释。分板块分别有引用的库、阅读文本、分词并设置停用词、设置png掩膜、字体设置、生成词云图，感谢您点开这篇分享，祝顺利。目录前言一、引用的库二、阅读文本（让python阅读）三、分词并设置停用词四、设置png掩膜五、字体设置六、生成词云图总结生成示例一、引用的库fromwordcloudimportW
国开（电大）2024秋《文献检索与论文写作》综合练习2 电大题园（1）学习方法经验分享笔记
国开（电大）2024秋《文献检索与论文写作》综合练习2一、单选题(14题)1.什么数据库为用户提供深入到图书章节和内容的全文检索(C)A、知网B、万方C、读秀知识库D、维普解析:“读秀”是由海量全文数据及资料基本信息组成的超大型数据库，为用户提供深入到图书章节和内容的全文检索。2.信息检索根据检索对象不同，一般分为:(D)A、二次检索、高级检索B、分类检索、主题检索C、计算机检索、手工检索D、数据
elasticsearch详解(一)——es是什么、能做什么？万里长江雪 java elasticsearch 搜索引擎大数据 linux docker
es是什么elasticsearch简写es，es是一个高扩展、开源的全文检索和分析引擎，它可以准实时地快速存储、搜索、分析海量的数据。什么是全文检索全文检索是指计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。全文搜
Elasticsearch检索原理知知之之 Elasticsearch elasticsearch 大数据搜索引擎
Elasticsearch的检索原理主要基于其内部使用的倒排索引结构，以及诸如BM25等相关性评分算法。查询解析当用户提交查询时，Elasticsearch接收和解析该请求，包括确定查询类型（如Match、Bool、Term等）和相关字段。解析过程涉及以下步骤：查询解析：Elasticsearch会对查询进行语法和语义分析。分词处理：对查询中的文本进行分词处理，将其转换为词项，以便于与倒排索引对应
自然语言处理系列八》中文分词》规则分词》正向最大匹配法陈敬雷-充电了么-CEO兼CTO 算法人工智能大数据算法人工智能编程语言 java 自然语言处理
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列八规则分词正向最大匹配法总结自然语言处理系列八规则分词规则分词是基于字典、词库匹配的分词方法（机械分词法），其实现的主要思想是：切分语句时，将语句特定长的字符串与字典进行匹配，匹配成功就进行切分。按照匹配的方式可分为：正向最
LSTM与文本生成 Jiang_Immortals 人工智能 lstm 人工智能 rnn
当使用Python和Keras构建LSTM模型时，可以按照以下步骤进行简单的文本生成：准备数据集：首先，将文本数据集进行预处理，例如分词、去除标点符号、将文本转换为小写等。创建一个词汇表，将每个唯一的单词映射到一个整数值，以便进行向量化。将文本序列划分为输入序列和目标序列。例如，对于句子“IloveAI”，输入序列是“Ilove”，目标序列是“AI”。构建LSTM模型：导入必要的库，如Keras和
es映射配置（_mapping）小丁学Java ElasticSearch elasticsearch jenkins 大数据 _mapping 映射配置
文章目录1、创建映射字段2、查看映射关系1、创建映射字段PUT/索引库名/_mapping{"properties":{"字段名":{"type":"类型","index":true，"store":true，"analyzer":"分词器"}}}POST/atguigu/_mapping{"properties":{"title":{"type":"text","index":true,"ana
文本数据分析-（TF-IDF）（2）红米煮粥数据分析 tf-idf python
文章目录一、TF-IDF与jieba库介绍1.TF-IDF概述2.jieba库概述二、TF-IDF与jieba库的结合1.结合2.提取步骤三，代码实现1.导入必要的库读取文件：3.将文件路径和内容存储到DataFrame4.加载自定义词典和停用词5.分词并去除停用词TF-IDF（TermFrequency-InverseDocumentFrequency）与jieba库在文本处理领域有着紧密的联系
全文检索服务 ElasticSearch---------IK分词器的使用 Connection Reset 全文检索服务 ElasticSearch elasticsearch 全文检索搜索引擎
全文检索服务ElasticSearch其他相关：介绍入门及安装Field整合SpringBoot集群管理1.IK分词器1.1测试分词器在添加文档时会进行分词，索引中存放的就是一个一个的词（term），当你去搜索时就是拿关键字去匹配词，最终找到词关联的文档。测试当前索引库使用的分词器：POST/_analyze{"text":"测试分词器，后边是测试内容：springcloud实战"}结果如下：
Java 结合elasticsearch-ik分词器，实现评论的违规词汇脱敏等操作八百码 elasticsearch 大数据搜索引擎
IK分词（IKAnalyzer）是一款基于Java开发的中文分词工具，它结合了词典分词和基于统计的分词方法，旨在为用户提供高效、准确、灵活的中文分词服务。注意：需要自己建立一个敏感词库，然后自己选择方式同步到elasticsearch中，方便比对操作话不多说，直接上后台代码这个依赖是我使用的，可以结合自己的情况自己选择适用版本的相关依赖org.elasticsearchelasticsearcho
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持

借助 Lucene.Net 构建站内搜索引擎（下）

借助 Lucene.Net 构建站内搜索引擎（下）

一、项目初窥

1.1 项目背景

1.2 数据访问层

1.3 业务逻辑层

1.4 UI界面层

二、核心代码

2.1 文章索引的创建与更新

2.2 统计任务的调度与执行

2.3 获取搜索结果

2.4 搜索建议提示

三、效果演示

附件下载

参考资料

你可能感兴趣的:(【全文检索】分词)