豹先生_MR-BAO

如何预测用户query意图

2013-10-13 仁重阿里技术嘉年华

有一个朋友问，一个用户搜索一个query是“百度”，怎么知道用户真正是想找什么呢。

我回答说，分析之前搜索这个query的用户点了些什么结果啊。

朋友继续问，如果没有用户点击呢。

呃，如果没有点击，这个问题就比较复杂了。整理了下思路，于是写成了本文。主要描述了关于如何预测用户query意图。希望会有所帮助。

首先我们的明确一个标准，如何判断我们对用户意图的猜测是正确的?

用户的思维是很发散的，也许今天搜索“葛优”，是想找“让子弹飞”，明天搜索相同的query，就是想找“非诚勿扰”。

我们确定了要在某个方面的query预测上做一个改进，那么我们首先的把标准定下来，依照这个标准来进行改进。

现在有很多对搜索系统的评价指标，如pv，ipv，ctr，搜索引导的后续转化率等可以量化的指标，这些指标是对搜索系统总体的评价。具体到用户意图预测上，标准很难确定，对于排序比较直观的就是进行side by side的评测，比较原有的效果和改进的效果，看是否会排序更优；对于导航，那我们可以看我们预测的类目和用户实际点的类目的占比，是否能有效降低用户点击非推荐类目的比率。

接下来，我们从2种情况下来回答这个问题，

#如果我们已经有了一套完整的系统，有大量的用户访问#

先从简单的说起，假设我们已经有了一个完整的搜索系统，有大量的用户访问，我们希望通过对用户query的预测来提高搜索体验。这样的系统的大概架构如下。

包括图所示的几个部分，

1 前端（f2e）

前端负责直接和用户进行交换，当收到用户搜索请求之后，往后端系统传递请求，并接收搜索引擎返回的结果，组织到网页上，展示给用户。

前端还肩负着一个重要的记录日志的工作，这个日志的记录，并不是apache的访问日志，这样的日志内容过于简单。如果要前端记录过多的日志，又会给服务器带来不小的压力。所以目前主要的手段是通过用户在页面上进行搜索或点击等行为时，调用javascript向指定的日志服务器，发送特征url来记录，这种url不会返回内容，仅仅为了给日志服务器添加记录。发送的url会包括从cookie中解析出的用户特有的数据。

2 Query处理

Query处理是线上服务系统，它是对用户意图进行预测后，对用户的搜索结果进行改进。在接收到前端的请求之后，会利用线下对query分析得到的数据，对用户的query和上下文环境进行分析，附加更多的条件到搜索引擎的请求命令之中。常见的Query处理，会有以下的一些类容，query改写，query分类预测，query的导航等。

Query处理这部分主要的意义在于，将用户的搜索query，翻译为对搜索引擎更适合查询串。在大多数情况下，用户使用搜索引擎是为了解决自己的问题，如果能直接获得答案，用户是不大愿意进行搜索的。

用户也许的问题是，“非诚勿扰2里面说的廖凡是谁”这样的一个问题，这样的问题直接搜索是不太会有会令用户比较满意的答案，（除非有向百度知道这样的系统已经存在了类似的问题）。有些用户就会考虑换个关键词试试，搜索下“廖凡”，看是否会有一些答案可以让自己满意。所以很大程度上是搜索引擎在教用户如何使用自己。但是并非所有的用户都对搜索系统如此的熟悉，那我们就需要考虑看看在我们搜索的结果里面效果不太好的query，分析它是怎么构成的。我们也许无法准确回答“非诚勿扰2里面说的廖凡是谁”，但是可以把其中最关键的信息抽取出来“非诚勿扰2”“廖凡”，并且，我们需要回答“是谁”这样的疑问问题。把这些信息传递给引擎，才会有更好的结果。

再例如，用户想找，“1000元左右的手机”，那么对于淘宝来说，可以把搜索的条件转化为800-1200价格限制范围的，手机类目下的宝贝，或者更进一步，把各种型号的手机，列在一起，进行参数的比较。

再深入一步，用户想找“舒淇在非诚勿扰2中用的手机”，如果我们可以把这个问题转化为对“朵唯S920”的搜索，那就是非常非常好的效果了，至于这个query如何对应到这个结果，也许后面的一些分析，能提供一些线索。

具体的实现，可以参考下面几点，

对query的线上处理，如果是较为hot的query，可以以查表为主，可以用hash表，trie树等进行查表，把在线下计算好的数据，通过查表的方式找到对应的结果，附加到给引擎的搜索条件上，并返回。

另外，可以把线下训练好的模型，在线上进行预测，一般的分类算法预测速度都比较快。可以对长尾的query，进行及时的预测。

也可以做一些规则，如我们上面举的例子，“1000元左右”，可以通过正则表达式进行识别，将其转为对应的搜索条件。这些规则如何来定呢，这是比较麻烦的一点，像这类的query，肯定是pv比较低的，属于长尾的query，这些query效果提升可能比较明显，但是对总体搜索系统效果影响会较小。这个问题比较尴尬，如果我们这类query处理的效果好的话，那用户会使用的更多；用户知道了这样的query效果不好，所以就换成了效果好的query。如果要做好规则，那就把长尾的这些query都拿出来，多看看，分下类，再结合实际的问题分类，总结出一些通用的规则，来进行优化。

3 搜索引擎

搜索引擎主要负责检索和排序，一般由一些倒排表和正排表组成。倒排表用于查找对应的文档id，能快速的检索出命中query的文档，在根据正排表来查对应id的数据。

一般将需要字符串类型的文档字段作为倒排表来进行检索，字符型的字段可以放在正排表中，在通过倒排表找到了满足条件的文档，再在正排表中进行过滤。

找到满足条件的文档后，再进行过滤，统计，并根据排序参数进行排序。

排序分为2个部分，一部分是文档自身的静态分，每个文档会有类似pagerank这样分数，另外一部分是还有和query相关的部分，会计算文档和query的关系，例如，query中出现的词的在文档中是否距离较近，query是否为文档的中心词。

4 日志存储

日志存储系统收集前端记录的日志，存储在数据仓库中，解析后用分布式文件系统来存放。有几类日志比较重要，

A、搜索日志，搜索日志一般会包括以下一些信息，用户id，session id，用户搜索query，用户当前搜索的分类，用户搜索时间，

B、点击日志，用户id，session id，用户搜索query，用户当前搜索的分类，用户点击的item，用户点击时间

C、当然可能还有其他的如交易记录等，

有了以上几个部分之后，我们就可以通过以下2个部分来进行用户意图的预测，

5 统计分析

日志分析主要是一种统计分析，数据源来自于访问日志。另外还可以分析数据库中存储的用户的购买，收藏等行为。

可以从日志中分析出用户搜索query，“nike”最想找的是运动鞋呢，还是运动服。

常用的应用有下拉提示，相关搜索等，

下拉推荐是一种比较常用的用户意图分析的系统，通常是统计日志中，表现比较好的query，将这些query按照pv和数据表现等指标进行排序，然后把query转化为英文和中文对应的前缀，把相同前缀的建成统一索引，在用户输入关键词后，推荐相应的query。

相关搜索是更为常用的用户意图分析，一般通过关联规则(Apriori，FP-growth)，统计同一sesion中，用户经常出现的相关的query，比如，可以发现同一个session里面搜索了nike的用户，很多都搜索了“nike dunk”这样的信息，我们就可以再搜索结果中进行改进。这一算法可以大量应用于数据挖掘。推广开去，我们要找某个类目下进行了购买的用户，还希望购买些什么类目的东西；看了一本书的用户，还会看什么书；搜索了一个“长款”属性，是否还希望“修身”这样的属性。

在往下深入，我们可以分析用户历史行为，进行个性化的预测。比如分析用户性别，喜好，来进行分类，推荐。

6 机器学习

统计的算法也是机器学习的一种，如果用户行为数据足够多，那直接使用统计分析应该是可以解决大部分问题。剩下的小部分问题是可以交给机器学习其他算法来完成。

举一个简单的例子来说明，用户搜索“nike”和“羽绒服”比较多，有了足够多的统计数据，我们知道“nike”对应的是运动鞋，运动服等。“羽绒服”对应的是服装。但是用户搜索“红色的nike羽绒服”次数很少，没有足够多的数据，我们统计到的结果也许是不准确的，偏差较大。

那我们可以将较好的数据进行训练，并对长尾的query进行分类预测。这里的训练数据的特征是用户query中每个词，词出现对应这一种分类。

训练数据的选择是分类算法最重要的一步，一般对文本的分类预测，可以使用信息增益，卡方，互信息等来作为训练特征。具体问题具体分析，例如使用loglinear算法进行预测，实验证明信息增益来作为特征选择会更加有效，另外也得分析应用的场景，根据需要来选择算法，选择特征，法无定法，对于淘宝的数据来说，用于搜索的限于宝贝的标题，非常的短，直接使用用一般的网页分类算法是不太可行的，所以，数据不一样，方法就不一样，重要的是了解数据，了解方法的原理。机器学习不是万能的，不能靠运气。By the way，建议读下元函的Treelink算法介绍（http://www.searchtb.com/2010/12/an-introduction-to-treelink.html），写的挺好的。

分好类后，对每个类中的文档的排序也可以通过机器学习来进行，如果每个文档有很多标准的特征，每个维度的特征有一定的分数。这个也可以通过机器学习的方法来进行好中坏分档，或者找出线性加权的最优化参数。

#假设我们没有用户反馈数据#

我们首先可以做的是把文档的自身的相关性做好，回到最开始的那个问题，一个用户搜索一个query是“百度”，怎么知道用户真正是想找什么呢。

先我们至少可以把文档按分词后的结果和query进行比较，文档中如果是“众里寻他千百度”这样的就可以过滤掉了，因为“千百度”和“百度”还是有一些区别的。这是从文档自有的相关性上来进行优化。

接下来，我们看这个文档是不是描述文档的，比如文档里面是讲“非诚勿扰2”的，里面提到“廖凡，如果你不知道廖凡是谁，请百度一下”，那么这种文档不是描述“百度”这个词的，而是描述“非诚勿扰2的”，我们可以通过给文档进行分类或者加上tag，来表示他的主题词，这样，这类的文档也可以过滤掉。

我们再讨论下如果进行分类，在有用户数据的时候，我们可以用用户的行为来作为文档分类的结果；没有的情况下，我们可以进行人为的标注，当然这部分工作量巨大。另外可能可行的是，在结构化比较好的数据里面，找到关键的字段进行分类，例如，品牌+产品型号，这样的字段作为聚类的关键key，把文档分为很多类。如果结构化不是很好，可以考虑用crf算法来抽取其中的关键字段进行聚类。同时把query对文档的直接搜索转化为对不同类文档的搜索。那么这时候，我们已经把搜索的所有文档进行了聚类，发现“朵唯S920”手机的描述中，常会出现“舒淇在非诚勿扰2中使用”这样的描述，是否就可以考虑把两者联系在一起了呢。

名词解释：

query用户搜索的关键词。

微信名称：阿里技术嘉年华

微信号：alibabatech

简介：传播原创高质量的技术内容

Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
SpringBoot整合ES搜索引擎实现网站热搜词及热度计算码踏云端 springboot Elasticsearch spring boot elasticsearch 后端热搜词热度计算 java
博主简介：历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于
2019.1.6 root_restart
1.新版研学行程公众号推送及页面改动，以后继续尝试无logo版行程单方便转发，附带一篇研学政策解读2.百家号，头条号，搜狐号注册认证及审核，后续每天会在上面更新以往研学活动，增加搜索引擎中山大研学和雨滴教育的关联3.与鹿老师探讨研究方便代理的新宣传模式
只有一个诚字最重要（3.22）胡同学的读书笔记
1人们会认为谷歌是搜索引擎。而事实上，谷歌是第一个以机器为主导的搜索引擎，这个分类在谷歌之前是不存在的，而你必须要认识到谷歌的这个秘密才能判断它与其他公司的不同之处。2如果我目前在一个公司，当大家不知道未来的路怎么走，过去的路也已经彻底放弃了，我会先把事实摆在所有人面前，然后让大家讨论，在争论的过程中产生一个纲领性的共识，让每个部门在大的纲领下去寻求一种变化，不再以增长和竞争为纲，而是转移到产品和
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
【ShuQiHere】快速排序（Quick Sort）：揭开高效排序算法的神秘面纱 ShuQiHere 排序算法算法数据结构
【ShuQiHere】引言在计算机科学中，排序算法是我们日常编程不可或缺的一部分。无论是处理大量数据、优化搜索引擎，还是进行系统性能提升，排序算法都起到了至关重要的作用。在所有的排序算法中，快速排序（QuickSort）凭借其高效性和灵活的分治策略成为最受欢迎的排序算法之一。在这篇博客中，我们将深入探讨快速排序的原理、性能分析以及如何通过优化策略进一步提升其效率。1.什么是快速排序？（QuickS
海量数据查找最大K个值：数据结构与算法的选择星辰@Sea 数据结构 Java 数据结构
在处理大数据集时，经常需要找到数据集中最大的K个元素，这样的需求在很多领域都有广泛应用，例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据，传统的排序方法可能不再适用，因为它们通常具有较高的时间复杂度。因此，选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值，探讨不同的数据结构与算法选择，
全面解析MeiliSearch及其Go语言实现寻找09之夏 Meilisearch golang 开发语言后端 Meilisearch
前言随着互联网的发展和数字化进程的加速，无论是企业还是个人用户，都需要面对海量的信息。在这个背景下，搜索技术的重要性日益凸显。MeiliSearch是一款开源搜索引擎，它的出现为开发者提供了一个高效、灵活的选择。本文将从多个角度探讨MeiliSearch的特性、使用方法及其实现原理，并通过Go语言示例展示如何构建一个高性能的搜索系统。一、MeiliSearch特性MeiliSearch之所以受到欢
面对信息茧房，我们如何破局？听风便是雨_
当我们进入了互联网时代，信息的交互变得无比地便捷，当你需要什么样的信息，只需要在搜索引擎上输入，便可立马查询到你想要的结果，而且现在随着抖音、微博之类的应用APP的出现，我们本应从这些APP中获得更加丰富的知识或者信息，来开阔我们的眼界。但是事实上，我们仿佛没有获得预期的效果，更甚至于陷入更大的怪圈当中——缺乏耐心，不能容忍与自己想法不一样的他人建议，失去了与外界良好沟通的能力以及开拓自己的眼界的
80%的人都知道的——内容营销老泊
我们已经知道内容营销是依靠内容来进行营销，一起看一下内容营销的工作流吧。选题创作投放主要内容营销的选题类型-常青树：用户长时间关心的，比如房价，教育-热点：用户短时间关心的，比如八卦，实事二八原则常青树话题等等选题来源：访谈法：寻找目标用户尽可能一对一进行访谈，用户反馈的问题都可以成为你的选题来源数据法：利用搜索引擎获取内容选题。利用爬虫工具看看人们都比较关心哪些话题来作为选题基于时事的选题数据工
50.复盘变现之路 506小棉袄
1.昨天下载了头条，用搜索引擎找到了如何写文章。注册了一下。这一切其实都好简单，但是自己就是拖着没有做，而且还心安理得。现在在管理别人，于是用自己做到了才能教别人去做到来要求自己发现也不难。2.日更被我捡了起来。后面没有特殊情况，我会一直更下去。放弃一件事很容易，坚持自己喜欢的事也不会太难。3.今天完成了50关的最后一关，接下来就要挑战100关。想看看自己的极限在哪里。具体做法：1.每天早起一小时
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
Django：Python高级Web框架详解及参数设置零度° python python django 前端
Django是一个高级的PythonWeb框架，它鼓励快速开发和简洁实用的设计。Django遵循MVC设计模式，提供了一套完整的解决方案，用于构建复杂的、数据库驱动的网站。Django的主要特点自动管理数据库：通过ORM（对象关系映射）自动管理数据库。自动生成站点地图：支持搜索引擎优化（SEO）。用户身份认证：内置用户认证系统。中间件支持：强大的中间件支持，可以处理请求和响应。跨站请求伪造（CSR
ES(Elasticsearch)常用的函数遨游在知识的海洋里无法自拔 java
Elasticsearch（简称ES）是一个开源的搜索引擎，广泛用于全文搜索、分析和数据可视化。以下是一些常用的Elasticsearch函数和操作：索引操作创建索引PUT/index_name删除索引DELETE/index_name查看索引GET/index_name文档操作插入文档POST/index_name/_doc/{"field":"value"}获取文档GET/index_name
HTML 图片一壶浊酒.. 前端开发 html 前端
在HTML中，我们可以使用img标签来显示一张图片。对于img标签，我们只需要掌握它的三个属性：src、alt和title。alt属性用于描述图片，这个描述文字是给搜索引擎看的，并且当图片无法显示时，页面会显示alt中的文字。title属性也用于描述图片，不过这个描述文字是给用户看的，并且当鼠标指针移到图片上时，会显示title中的文字。colspan属性body{background-color
生信学习Day-1 GJJDr
1.如何学习2.怎样解决学习中遇到的问题？a.第一步:搜索：首选-谷歌，其次-必应，大神级的搜索引擎：虫部落快搜。专业教程-搜狗微信、搜狗知乎、、githubb.第二步：如果你的问题不知该如何搜索，可在微信群中与小组成员讨论c.第三步：正确的提问3.如何搭建高效的学习平台a.效率软件:（1）浏览器-chrome浏览器简洁高效无广告，可以添加插件，比如”沙拉查词”（自行搜索），可以即时翻译。（2）电
优质素材的六个搜索技巧老李大李和小李
一是要有耐心哦耐心不但是搜索的技巧而且是前提的、必要的。没有耐心进行搜索就不会有大量的好的输入。二是多关键词这个就像我们在搜索引擎中使用的方法，输入关键词反复搜索就会发现好多有用的而且是我们未知的知识。三是多渠道我们要利用各种搜索引擎和各种方式包括读书、和人聊天的方法来搜集资料。四是多维度至少要从三方面着手～文字、图片、视频。五是精准搜索有了前面做的功课，我们要对主题和材料进行凝炼～取其精华去除无
什么是黑链？什么是黑帽？什么是明链？倔强的小蚁云Zt 网络数据库 tcp/ip 运维
什么是黑链？什么是黑帽？什么是明链？黑链有哪几种表示方式！怎样预防黑链？首先我们说下黑链定义:黑链是SEO黑帽手法中相当普遍的一种手段，笼统地说，它就是指一些人用非正常的手段获取的其它网站的反向链接，最常见的黑链就是通过各种网站程序漏洞获取搜索引擎权重或者PR较高的网站的WEBSHELL，进而在被黑网站上链接自己的网站。黑链的写法黑链文本黑链标签被放在一个隐藏的div中。用户在浏览器中是无法看到的
精准剖析白帽SEO和黑帽SEO的区别 heimaoxuexi 黑帽seo 黑帽 seo 黑帽seo技术
我们都知道，SEO就是搜索引擎优化，是对网站进行内部及外部的不断调整优化，改进网站在搜索引擎中的关键词自然排名，获得更多流量。而SEO又分为白帽SEO和黑帽SEO，SEO中的黑帽SEO技术http://www.heimaolianmeng.com。根据做网站的实战经验，分享一下自己对于白帽SEO和黑帽SEO的见解。一、白帽SEO1、符合用户体验原理就是指我们网站上做的任何内容、任何图片以及任何网站
【程序员必读】如何利用AI高效编程，从容准时下班！ z千鑫 AI领域人工智能 Agent AI工具 AI助手工作流 AI编程 ai
前言：在编程的旅途中，程序员们常常面临各种挑战，尤其是在编写代码时，难题层出不穷。尽管传统搜索引擎提供了海量信息，但往往让我们在无尽的例子和复杂分析中迷失，难以找到真正适合自己的解决方案。正因如此，越来越多的程序员开始借助AI的力量，轻松应对这些难题，让工作变得更高效，从而实现准时下班的目标。问题：那么如何利用AI编写代码呢？一、明确问题的核心在使用AI生成代码之前，首先要明确你所遇到的问题是什么
万字详解PHP+Sphinx中文亿级数据全文检索实战（实测亿级数据0.1秒搜索耗时）小松聊PHP进阶 MySQL PHP 全文检索 php sphinx mysql sql 数据库服务器
Sphinx查询性能非常厉害，亿级数据下输入关键字，大部分能在0.01~0.1秒，少部分再5秒之内查出数据。Sphinx官方文档：http://sphinxsearch.com/docs/sphinx3.html极简概括：由C++编写的高性能全文搜索引擎的开源组件，C/S架构，跨平台（支持Linux、Windows、MacOS），支持分布式部署，并可直接适配MySQL。解决问题：因为MySQL的l
弹性搜索引擎Elasticsearch：本地部署与远程访问指南猴哥是肖鸿人工智能技术指导专升本 jenkins 运维
在大数据时代，数据搜索和分析成为企业核心竞争力的关键因素。弹性搜索引擎Elasticsearch作为一种分布式、可扩展的搜索和分析引擎，受到广泛欢迎。本文将介绍Elasticsearch的本地部署与远程访问，帮助读者更好地利用这一强大的工具。一、本地部署环境准备在开始部署Elasticsearch之前，需要准备以下环境：操作系统：Elasticsearch支持多种操作系统，如Linux、Windo
程序员如何平衡日常编码工作与提升式学习？--编程之路：平衡与成长的艺术青云交教学 java学习学习高效编码习惯与时间管理技巧提升式学习的策略职业发展与个人成长的和谐共生编程教会你如何思考--比尔盖茨 Java学习方法时间管理
目录引言：正文：方向一：高效编码习惯与时间管理技巧方向二：提升式学习的策略方向三：职业发展与个人成长的和谐共生结束语：引言：在当今科技飞速发展的时代，编程已成为一项至关重要的技能。正如比尔·盖茨所说：“编程教会你如何思考。”对于程序员来说，如何在繁忙的日常编码工作中不断提升自己，实现职业发展与个人成长的双赢，是一个极具挑战性的问题。例如，谷歌的搜索引擎算法就是一个经典的编程案例，它通过高效的算法和
2023-03-15 困的晕_5c43
1.简述引擎有哪些类型，各类搜索引擎的工作原理是什么。.（1）全文索引型（2）目录索引型（3）元数据索引型（4）垂直索引型（5）互动式索引型搜索引擎的原理可以分为：数据收集、建立索引数据库、索引数据库中搜索和排序。2.新媒体内容搜集工具有哪些？尝试使用这些工具搜集一些当前热点话题第一个：爆文素材采集工具做新媒体运营，每天都需要去搜集大量的爆文视频等素材，这里给大家推荐一个自媒体爆文素材采集工具--
云计算技术与应用 - 了解认识云计算 ZuckD 云计算运维
云计算的背景互联网自1960年开始兴起，主要用于军方、大型企业等之间的纯文字电子邮件或新闻集群组服务。直到1990年才开始进入普通家庭，随着web网站与电子商务的发展，网络已经成为了目前人们离不开的生活必需品之一。云计算这个概念首次在2006年8月的搜索引擎会议上提出，成为了互联网的第三次革命。近几年来，云计算也正在成为信息技术产业发展的战略重点，全球的信息技术企业都在纷纷向云计算转型。我们举例来
LlamaIndex 使用 RouterOutputAgentWorkflow hawk2014bj llamaIndex LLM agent
LlamaIndex中提供了一个RouterOutputAgentWorkflow功能，可以集成多个QueryTool，根据用户的输入判断使用那个QueryEngine，在做查询的时候，可以从不同的数据源进行查询，例如确定的数据从数据库查询，如果是语义查询可以从向量数据库进行查询。本文将实现两个搜索引擎，根据不同Query使用不同QueryEngine。安装MySQL依赖pipinstallmys
五类学习技巧之搜索技巧│《学习力》笔记06 翟树纯
在当今信息爆炸的时代，搜索引擎就相当于我们的外接大脑，为了充分发挥搜索引擎的威力，就要提高自己的搜索能力。我们平时用的最多的就是通用搜索引擎，以百度为例，不仅可以用来搜索文字，还可以进行学术搜索、图片搜索、视频搜索、地图搜索。术业有专攻，除了百度之类的通用搜索引擎，还有其他的专业搜索引擎，如网站历史查询、高清图库、学术网站、商业数据库等。01搜索两大原则1．换位思考从搜索引擎的角度思考，用关键词检
NLP面试题（9月4日笔记）好好学习Py 自然语言处理自然语言处理笔记人工智能
常见的分词方法分词是将连续的子序列按照一定的规则进行重新组合形成词序列的过程，是NLP领域内最基础的内容。常见的分词方法有jieba分词，jieba分词支持多种分词模模式：精确模式，全模式，搜索引擎模式。1）精确模式：将句子最精确的进行切分，适合文本分析，在日常工作中最为常用；2）全模式：将句子中所有可以成词的词语都扫描出来，速度非常快，但不能消除歧义。3）搜索引擎模式：在精确模式的基础上，对长词
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方