hizyn

百度(baidu)分词算法分析

一篇老文，好多内容均已变化，不过思路可以参考，内容转自http://blog.sina.com.cn/s/blog_5c4e87070100au2c.html

之前在广州点石茶话会上也有重点讨论过百度分词算法，那时很多SEOer都认为百度在测试分词技术中，有些关键词带公司字眼的关键词，在搜索结果内容时基本上跟关键词不乎核。下面是中科院软件所张俊林一篇百度分词算法的三步曲，希望能帮SEOer解答一些关于百算分词算法的问题，内容可能长点，各位慢慢消化！

查询处理以及分词技术

随着搜索经济的崛起，人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业，会根据搜索引擎的知名度以及日流量来选择是否要投放广告等；
作为普通网民，会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料；作为技术人员，会把有代表性的搜索引擎作为研究对象。搜索引擎经济的崛起，又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据，以及大量等待去费力挖掘的金矿。

但是，如何设计一个高效的搜索引擎？我们可以以百度所采取的技术手段来探讨如何设计一个实用的搜索引擎。搜索引擎涉及到许多技术点，比如查询处理，排序算法，页面抓取算法，CACHE机制，ANTI-SPAM等等。这些技术细节，作为商业公司的搜索引擎服务提供商比如百度，GOOGLE等是不会公之于众的。我们可以将现有的搜索引擎看作一个黑盒，通过向黑盒提交输入，判断黑盒返回的输出大致判断黑盒里面不为人知的技术细节。

查询处理与分词是一个中文搜索引擎必不可少的工作，而百度作为一个典型的中文搜索引擎一直强调其“中文处理”方面具有其它搜索引擎所不具有的关键技术和优势。那么我们就来看看百度到底采用了哪些所谓的核心技术。

我们分两个部分来讲述：查询处理/中文分词。

一、查询处理

用户向搜索引擎提交查询，搜索引擎一般在接受到用户查询后要做一些处理，然后在索引数据库里面提取相关的信息。那么百度在接受到用户查询后做了些什么工作呢？

1、假设用户提交了不只一个查询串，比如“信息检索理论工具”。
那么搜索引擎首先做的是根据分隔符比如空格，标点符号，将查询串分割成若干子查询串，比如上面的查询就会被解析为：<信息检索，理论，工具>三个子字符串；这个道理简单，我们接着往下看。

2、假设提交的查询有重复的内容，搜索引擎怎么处理呢？比如查询“理论工具理论”，百度是将重复的字符串当作只出现过一次，也就是处理成等价的“理论工具”，而GOOGLE显然是没有进行归并，而是将重复查询子串的权重增大进行处理。那么是如何得出这个结论的呢？我们可以将“理论工具”提交给百度，返回341,000篇文档，大致看看第一页的返回内容。

OK。继续，我们提交查询“理论工具理论”，在看看返回结果，仍然是那么多返回文档，当然这个不能说明太多问题，那看看第一页返回结果的排序，看出来了吗？顺序完全没有变化，而GOOGLE 则排序有些变动，这说明百度是将重复的查询归并成一个处理的，而且字符串之间的先后出现顺序基本不予考虑（GOOGLE是考虑了这个顺序关系的）。

3、假设提交的中文查询包含英文单词，搜索引擎是怎么处理的？比如查询”电影BT下载”，百度的方法是将中文字符串中的英文当作一个整体保留，并以此为断点将中文切分开，这样上述的查询就切为<电影，BT，下载>，不论中间的英文是否一个字典里能查到的单词也好，还是随机的字符也好，都会当作一个整体来对待。至于为什么，你用查询“电影dfdfdf下载”看看结果就知道了。当然如果查询中包含数字，也是如此办理。

到目前为止，一切很简单，也很清楚，百度怎么处理用户查询的呢？归纳如下：首先根据分割符号将查询分开，然后看看是否有重复的字符串，如果有，就抛弃多余的，只保留一个，接着判断是否有英文或者数字，如果有的话，把英文或者数字当作一个整体保留并把前后的中文切开。

接着该干什么呢？该考虑分词的问题了。

二、中文分词

首先，讲讲百度的分词时机或者条件问题，是否是个中文字符串百度就拿来切一下呢？非也，要想被百度的分词程序荣幸的切割一下也是要讲条件的，哪能是个字符串就切割啊？你当百度是卖锯条的么？

那么什么样的字符串才满足被切割的条件呢？简单说来，如果字符串只包含小于等于3个中文字符的话，那就保留不动，当字符串长度大于4个中文字符的时候，百度的分词程序才出马大干快上，把这个字符串肢解掉。

怎么证明呢？我们向百度提交“电影下载”，看看返回结果中标为红字的地方，不难看出来，查询已经被切割成<电影，下载>两个单词了，说明分词程序已经开工了，如果是比4个中文字符更长的字符串，那分词程序就更不客气了，一定大卸八块而后快。我们来看看三个字符的情况，提交查询“当然择”，看起来这个查询不伦不类，那是因为我希望看到这个字符串被切分为<当然，择>，返回结果365篇相关页面，翻到最后一页，发现标红的关键字都是” 当然择”连续出现的情况，好像没有切分，但是还不确定，那么再提交人工分好的查询“当然择”看看，返回结果1，090，000篇，基本上可以确定没有进行分词了，当然另外一种解释是：对于三个字符先切分，然后将切分后的结果当作一个短语查询，这样看到的效果和没有切分是相似的。

但是我倾向于判断百度对于少于3个字符的串没有切分，奥卡姆不是说了么“如无必要，勿增实体”，干吗做无用功呢。那么如果没有切分，会有一个随之而来的问题，怎么从索引库里面提取未切分的字符串呢？这牵扯到索引的问题，我觉得百度应该采取了两套索引机制，一种是按照单词索引，一种是按照N-GRAM索引，至于索引的具体问题，以后在详细论述。

下面我们看看百度是采取的何种分词算法，现在分词算法已经算是比较成熟了，有简单的有复杂的，比如正向最大匹配，反向最大匹配，双向最大匹配，语言模型方法，最短路径算法等等，有兴趣的可以用GOOGLE去搜索一下以增加理解。这里就不展开说了。但是要记住一点的是：判断一个分词系统好不好，关键看两点，一个是消除歧义能力；一个是词典未登录词的识别比如人名，地名，机构名等。

那么百度用的是什么方法？我的判断是用双向最大匹配算法。至于怎么推理得出的，让我们一步步来看。当然，这里首先有个假设，百度不会采取比较复杂的算法，因为考虑到速度问题。

我们提交一个查询“何润东北京华烟云”，又一个不知所云的查询，尽管不知所云但是自有它的道理，我想看看百度的分词是如何消歧以及是否有词典未登录词的识别的功能，如果是正向最大匹配算法的话，
那么输出应该是：”何润东/北京/华/烟云”，
如果是反向最大匹配算法的话，那么输出应该是：”毛/泽/东北/京华烟云”，
我们看看百度的分词结果：”何润东/北/京华烟云”，一个很奇怪的输出，跟我们的期望相差较多，
但是从中我们可以获得如下信息：百度分词可以识别人名，也可以识别”京华烟云”，这说明有词典未登录词的识别的功能，我们可以假设分词过程分为两个阶段：第一阶段，先查找一个特殊词典，这个词典包含一些人名，部分地名以及一些普通词典没有的新词，这样首先将”何润东”解析出来，剩下了字符串”北京华烟云”，而”北/京华烟云”，可以看作是反向最大匹配的分词结果。这样基本说得通。为了证明这一点，我们提交查询”发何润东北”，我们期望两种分词结果，一个是正向最大匹配<发毛，泽，东北>，一个是上述假设的结果<发，何润东，北>，事实上百度输出是第二种情况，这样基本能确定百度分词采取了至少两个词典，一个是普通词典，一个是专用词典（人名等）。而且是专用词典先切分，然后将剩余的片断交由普通词典来切分。

继续测验，提交查询“古巴比伦理”，如果是正向最大匹配，那么结果应该是<古巴比伦，理>，如果是反向最大匹配，那么结果应该是 <古巴，比，伦理>，事实上百度的分词结果是<古巴比伦，理>，从这个例子看，好像用了正向最大匹配算法；
此外还有一些例子表明好像是使用正向最大匹配的；但是且慢，我们看这个查询“北京华烟云”，正向最大匹配期望的结果是<北京，华，烟云>，而反向最大匹配期望的结果是 <北，京华烟云>，事实上百度输出的是后者，这说明可能采用的反向最大匹配；
从这点我们可以猜测百度采用的是双向最大匹配分词算法，如果正向和反向匹配分词结果一致当然好办，直接输出即可；但是如果两者不一致，正向匹配一种结果，反向匹配一种结果，此时该如何是好呢？
从上面两个例子看，在这种情况下，百度采取最短路径方法，也就是切分的片断越少越好，比如<古巴，比，伦理>和<古巴比伦，理>相比选择后者，<北京，华，烟云>和<北，京华烟云>相比选择后者。还有类似的一些例子，这样基本可以解释这些输出结果。

但是仍然遗留的问题是：如果正向反向分词不一致，而且最短路径也相同，那怎么办？输出正向的还是反向的结果？
我们再来看一个例子。提交查询“遥远古古巴比伦”，这个查询被百度切分为<遥远，古古，巴比伦>，说明词典里面有”巴比伦”，但是是否有”古巴比伦”这个词汇不确定，此时看不出是正向切分还是反向切分得出的结果，换查询为“遥远古巴比伦”，此时被切分为“遥远/古巴比伦”，这说明词典里面有”古巴比伦”这个词汇，这说明了“遥远古古巴比伦”是正向最大匹配的结果。那为什么“遥远古古巴比伦”不会被反向切分为”遥/远古/古巴比伦”呢，百度的可能选择是这种情况下选择单字少的那组切分结果。

当然还可以继续追问：如果切分后单字也一样多，那怎么办？最后看一个例子，查询“王强大小：”，百度将其切分为“王/强大/小”，是正向切分的结果，如果是反向的会被切分为“王/强/大小”，这说明有歧义而且单字也相同则选择正向切分结果。

OK，看到这里可能头已经有些晕了，最后总结一下百度的分词算法，当然里面还是有猜测的成分，算法如下：

首先查询专用词典（人名，部分地名等），将专有名称切出，剩下的部分采取双向分词策略，如果两者切分结果相同，说明没有歧义，直接输出分词结果。如果不一致，则输出最短路径的那个结果，如果长度相同，则选择单字词少的那一组切分结果。如果单字也相同，则选择正向分词结果。

百度一直宣传自己在中文处理方面的优势，从上面看，分词算法并无特殊之处，消歧效果并不理想，即使百度采取比上述分词算法复杂些的算法也难以说成是优势，如果说百度有优势的话，唯一的优势就是那个很大的专用词典，这个专用词典登录了人名（比如大长今），称谓（比如老太太），部分地名（比如阿联酋等），估计百度采用学术界公布的比较新的命名实体识别算法从语料库里面不断识别出词典未登录词，逐渐扩充这个专门词典。如果这就是优势的话，那么这个优势能够保持多久就是个很明显的问题。

Spelling Checker拼写检查错误提示(以及拼音提示功能)
　　
拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错误.那么我们就来分析看看百度是怎么实现这一功能的.

　　我们分析拼写检查系统关注以下几个问题:

　　(1)系统如何判断用户的输入是有可能发生错误的查询呢?
　　(2)如果判断是可能错误的查询输入,如何提示正确的词汇呢?
　　
　　那么百度是如何做的呢?百度判断用户输入是否错误的标准,我觉得应该是查字典,如果发现字典里面不包含这个词汇,那么很有可能是个错误的输入,此时启动错误提示功能,这个很好判断,因为如果是一个正常词汇的话,百度一般不会有错误提示,而你故意输入一个词典不可能包含的所谓词汇,此时百度一般会提示你正确的检索词汇.

　　那么百度是怎么提示正确词汇的呢?很明显是通过拼音的方式,比如我输入查询" 制才",百度提供的提示词汇为: “:制裁质材纸材",都是同音字.所以百度必然维持着一个同音词词典,里面保留着同音词信息,比如可能包含着下面这条词条: “ zhi cai à制裁,质材,纸材",另外还有一个标注拼音程序,现在能够看到的基本流程是: 用户输入" 制才",查词典,发现没有这个词汇,OK,启动标注拼音程序,将" 制才"标注为拼音"zhi cai",然后查找同音词词典,发现同音词" 制裁,质材,纸材",那么提示用户可能的正确拼写.

　　整体流程看起来很简单,但是还有一些遗留的小问题,比如是否将词表里面所有同音词都作为用户的提示信息呢?比如某个拼音有10个同音词,是否都输出呢?百度并没有将所有同音词都输出而是选择一定筛选标准,
选择其中几个输出.怎么证明这一点?我们看看拼音"liu li"的同音词,紫光输入法提示同音词汇有" 流丽流离琉璃流利"4个,我们看看百度返回几个,输入"流厉"作为查询,这里是故意输入一个词典不包含的词汇,这样百度的拼写检查才开始工作,
百度提示: " 琉璃刘丽刘莉 ",这说明什么?说明不是所有同音词都输出,而是选择输出,那么选择的标准是什么?
我能够猜测到的方法是对于用户查询LOG进行统计,提取用户查询次数多的那些同音词输出,如果是这样的话,上面的例子说明用户搜索"琉璃"次数比其它的都要高些,次之是" 刘丽",再次是" 刘莉",看来大家都喜欢查询自己或者认识的人的名字.

　　另外一个小问题:同音词词典包含2字词,3字词,那么是否包含4字词以及更长的词条?是否包含一字词? 这里一字词好回答,不用测试也能知道肯定不包含,因为你输入一个字,谁知道是否是错误的呢?
反正只要是汉字就能在词表里面找到,所以没有判断依据.二字词是包含的,上面有例子,三字词也包含,比如查询 "中城药"百度错误提示:"中成药",修改查询为"重城药",还是提示"中成药" ,再次修改查询 "重城要",百度依然提示"中成药". 那么4字词汇呢?

　　百度还是会给你提示的,下面是个例子:
　　输入:静华烟云提示京华烟云
　　输入:静话烟云提示京华烟云
　　输入:静话阎晕提示京华烟云

　　那么更长的词汇是否提示呢?也提示,比如我输入: "落花世界有风军",这个查询是什么意思,估计读过古诗的都知道,看看百度的提示"落花时节又逢君",这说明什么?说明同音词词典包含不同长度的同音词信息,另外也说明了百度的核心中文处理技术,也就是那个词典,还真挺大的.

　　但是,如果用户输入的查询由两个或者两个以上子字符串构成,那么百度的错误提示功能就歇菜了,比如输入查询"哀体",百度提示"艾提挨踢",但是.输入为 "我哀体 ",则没有任何错误提示.

　　还有一个比较重要的问题:如果汉字是多音字那么怎么处理?百度呢比较偷懒,它根本就没有对多音字做处理.我们来看看百度的一个标注拼音的错误,在看这个错误前先看看对于多音字百度是怎么提示错误的,我们输入查询"俱长",百度提示"剧场局长", “俱长"的拼音有两个:"ju zhang /ju chang" ,可见如果是多音字则几种情况都提示..现在我们来看看错误的情况, 我们输入查询"剧常",百度提示":剧场局长",提示为"剧场"当然好解释,因为是同音字,但是为什么 "局长"也会被提示呢?这说明百度的同音字词典有错误,说明在"ju chang"这个词条里面包含"局长"这个错误的同音词.让我们顺藤摸瓜,这个错误又说明什么问题呢?

说明百度的同音词典是自动生成的,而且没有人工校对.还说明在自动生成同音词典的过程中,百度不是根据对一篇文章标注拼音然后在抽取词汇和对应的拼音信息获得的,而是完全按照某个词典的词条来标注音节的,
所以对于多音字造成的错误无法识别出来,如果是对篇章进行拼音标注,可能就不会出现这种很容易发现的错误标注. 当然还有另外一种解释,就是"局长"是故意被百度提示出来可能的正确提示词汇,因为考虑到南方人"zh"和 "ch"等前后鼻音分不清么,那么是这样的么?我们继续测试到底是何种情况.是百度有错误还是这是百度的先进的算法?

　　我们考虑词汇"长大 ",故意错误输入为"赃大",如果百度考虑到了前后鼻音的问题,那么应该会提示"长大",但是百度提示是"藏大".这说明什么?说明百度并没有考虑前后鼻音问题,根本就是系统错误. 我们输入查询"悬赏",故意将之错误输入为"悬桑",没有错误提示,说明确实没有考虑这种情况.前鼻音没有考虑,那么后鼻音考虑了么,我们输入":经常",故意改为后鼻音 "经缠",百度提示为"经产经忏",还是没有考虑后鼻音.这基本可以确定是百度系统的错误导致.

　　根据以上推导, 我们可以得出如下结论:百度是将分词词典里面每个词条利用拼音标注程序标注成拼音,然后形成同音词词典,所以两个词典是同样大的 ,而且这个词典也随着分词词典的增长而在不断增长. 至于标注过程中多音字百度没有考虑,如果是多音字就标注成多个发音组合,通过这种方式形成同音词词典.这样的同音词词典显然包含着很多错误.

　最后一个问题:百度对于英文进行拼写检查么?让我们试试看,输入查询"china",不错,搜到不少结果,专注中文搜索的百度还能搜索到英文,真是意外的惊喜.变换一下查询"chine",会更加意外惊喜的给我们提示"china"吗?
百度提示的是: 吃呢持呢,原来是不小心触发了百度的拼音搜索功能了.那么拼音搜索和中文检查错误是否采用同一套同音词词典呢,让我们来实验一下,搜索"rongji",
百度提示" 榕基溶剂容积",OK,换个中文查询"容机",
百度提示" 榕基溶剂容积",看来使用的是同一套同音词词典.也就是说百度的中文纠错和拼音检索使用的机制相同,中文纠错多了一道拼音注音的过程而已.难道这就是传说中那个百度的"事实上是一个无比强大的拼音输入法"的拼音提示功能么?
　　最后让我们总结归纳一下百度的拼写检查系统:
　　后台作业: (1)前面的文章我们说过,百度分词使用的词典至少包含两个词典一个是普通词典,另外一个是专用词典(专名等),百度利用拼音标注程序依次扫描所有词典中的每个词条,然后标注拼音,如果是多音字则把多个音都标上,比如"长大",会被标注为"zhang da/chang da"两个词条.
　　(2)通过标注完的词条,建立同音词词典,比如上面的"长大",会有两个词条: zhang daà长大" , chang daà长大.
　　(3)利用用户查询LOG频率信息给予每个中文词条一个权重;
　　(4)OK,同音词词典建立完成了,当然随着分词词典的逐步扩大,同音词词典也跟着同步扩大;
　　
　　拼写检查:
　　(1)用户输入查询,如果是多个子字符串,不作拼写检查;
　　(2)对于用户查询,先查分词词典,如果发现有这个单词词条,OK, 不作拼写检查;
　　(3)如果发现词典里面不包含用户查询,启动拼写检查系统;首先利用拼音标注程序对用户输入进行拼音标注;
　　 (4)对于标注好的拼音在同音词词典里面扫描,如果没有发现则不作任何提示;
　　(5)如果发现有词条,则按照顺序输出权重比较大的几个提示结果;
　　
　　拼音提示:
　　(1)对于用户输入的拼音在同音词词典里面扫描,如果没有发现则不作任何提示;
　　(2)如果发现有词条,则按照顺序输出权重比较大的几个提示结果;

上面说过,经过分析得出百度的分词系统采用双向最大匹配分词,但是后来发现推理过程中存在一个漏洞,而且推导出来的百度分词算法步骤还是过于繁琐,所以进一步进行分析,看看是否前面的推导有错误.

那么以前的分析有什么漏洞呢?
我们推导百度分词有反向最大匹配的依据是百度将"北京华烟云"分词为<北,京华烟云>,从这里看好像采用了反向最大匹配,因为正向最大匹配的结果应该是<北京,华,烟云>,但是由此就推论说百度采用了双向最大匹配还是太仓促了,前面文章我们也讲过,百度有两个词典,一个普通词典,一个专有词典,而且是专有词典的词汇先切分,然后将剩余片断交给普通词典去切分.所以上面的"北京华烟云"之所以被切分成<北,京华烟云>,另外一个可能是:京华烟云这个词汇是在专有词典里面存储的,所以先分析,这样得出"京华烟云",剩下"北",没什么好切分的,所以输出<北,京华烟云>.

这里只是假设,那么是否确实"京华烟云"在专有词典呢?我们再看一个例子"山东北京华烟云",百度切分的结果是<山东,北,京华烟云 >,如果"京华烟云"在普通词典,如果是反向切分,那么结果应该是<山,东北,京华烟云>,如果是正向切分应该是<山东,北京, 华,烟云>,无论如何都分不出<山东,北,京华烟云>.这说明什么?
说明"京华烟云"是在那个专有词典,所以先切分出"京华烟云",然后剩下的"山东北"交由普通词典切分,明显是正向最大匹配的结果输出<山东,北>.当然按照我们在第一篇文章的算法推导"山东北"的切分也会得出<山东,北>的结论,但是明显比正向最大匹配多几个判断步骤,既然效果一样,另外一个更加简洁的方法也能说得通,那当然选择简便的方法了.所以初步判断百度采取的是正向最大匹配.

我们继续测试采用何种分词算法,为了减少专有词典首先分词造成的影响,那么查询里面不能出现相对特殊的词汇,构筑查询"天才能量级",这里应该没有专有词典出现过的词汇,百度切分为<天才,能量,级>,看来是正向最大匹配的结果.另外,如果所有查询词汇都出现在专有词典,那么采取的是何种方法?这样首先就得保证词汇都出现在专有词典,这么保证这一点呢?

我们构造查询"铺陈晓东方",百度切分为<铺,陈晓东,方>,可以看出 "陈晓东"是在专有词典的所以先切分出来.另外一个例子 "山东京城",百度切分为<山东,京城>,说明"东京"是在普通词典的.OK,构造查询"陈晓东京华烟云",通过前面分析可以看出两个词汇都在专有词典里面,百度切分为<陈晓东,京华烟云>,说明对于专有词典词汇也是采取正向最大匹配或者双向最大匹配.那么使用反向最大匹配了吗? 构造查询例子"陈晓东方不败",首先我们肯定"陈晓东"和"东方不败"都是在专有词典出现的,如果是正向切分,那么应该是<陈晓东,方,不败 >或者<陈晓东,方,不,败>如果是反向切分则是<陈,晓,东方不败>,可以看出百度的切分是<陈晓东,方,不败 >或者<陈晓东,方,不,败>,说明采用的是正向最大匹配.通过分析,百度的词典不包含"不败"这个单词,所以实际上百度的切分结果是 <陈晓东,方,不,败>,很明显这和我们以前推导的算法是有矛盾的,所以以前的分析算法确实有问题,所以结论是百度采取的是正向最大匹配算法.

重新归纳一下百度的分词算法系统:首先用专有词典采用最大正向匹配分词,切分出部分结果,剩余没有切分交给普通词典,同样采取正向最大匹配分词,最后输出结果.

另外,GOOGLE也是采用正向最大匹配分词算法,不过好像没有那个专用词典,所以很多专名都被切碎了.

从这点讲,GOOGLE在中文词典构建上比百度差些,还需要加把子力气才行,不过这也不是什么多难的事.

01.什么是MQTT？墨先森 NodeMCU与MQTT 物联网
目录00_前言01_简述02_特性03_MQTT运行机制00_前言本系列博客是基于NodeMCU平台来完成的一个物联网小项目，目的在于了解并学习MQTT协议，掌握MQTT协议的作用机制。以上。01_简述以下摘自百度百科MQTT(消息队列遥测传输)是ISO标准(ISO/IECPRF20922)下基于发布/订阅范式的消息协议。它工作在TCP/IP协议族上，是为硬件性能低下的远程设备以及网络状况糟糕的情
禁止搜索引擎收录网站内容,百度,谷歌,所有等... wangxingps seo 搜索引擎百度 html
第一种、robots.txt方法搜索引擎默认的遵守robots.txt协议，创建robots.txt文本文件放至网站根目录下，编辑代码如下:User-agent:*Disallow:/通过以上代码，即可告诉搜索引擎不要抓取采取收录本网站，注意慎用如上代码：这将禁止所有搜索引擎访问网站的任何部分。如何只禁止百度搜索引擎收录抓取网页1、编辑robots.txt文件，设计标记为:User-agent:B
个人网站创建百度搜索框「已注销」小项目 js jsonp suggestion 百度跨域请求
需求分析点击提交按钮或者按回车键时，将输入框中的内容作为关键字进行百度搜索，在新的页面显示搜索结果。当输入框中的内容变更时，将输入框中的内容作为关键字，用jsonp跨域请求的方式获取百度的suggestion数据，实时显示出来。当鼠标移动到对应的suggestion项上时，该项高亮，并将输入框中的内容更新为该suggestion的内容。此时点击鼠标或者按回车键时，执行搜索操作。也可以按键盘上下键来
百度Android最新150道面试题及参考答案（上）大模型大数据攻城狮 android 大厂面经手撕时间复杂度空间复杂度启动模式四大组件
Java的多态如何实现？在Java中，多态主要通过以下两种方式来实现：一、方法重写（Override）实现运行时多态概念基础方法重写发生在子类和父类之间。当子类定义了一个与父类中方法签名（方法名、参数列表、返回类型）完全相同的方法时，就实现了方法重写。例如，有一个父类Animal，其中有一个叫makeSound的方法，然后有一个子类Dog，Dog类重写了makeSound方法来实现狗特有的叫声。代
如何在百度搜索上删除与自己名字相关的资料 weixin_locy06 百度
个人信息的网络足迹如同一张无形的网，将我们与世界的每一个角落紧密相连。然而，当某些与自己名字相关的资料不再希望被公众轻易检索到时，如何在百度搜索中有效“隐身”，成为了一个亟待解决的问题。面对复杂多变的网络环境，自行删除百度上的相关资料往往困难重重，但并非无解。本文腾轩科技传媒分享如何在百度搜索上删除与自己名字相关的资料。如果自己不懂怎么操作看左上方。一、为何自行删除难上加难？解决方案之前，重要的是
业务7——数据埋点嚯嚯嚯嚯什么都不会业务数据分析
文章目录一、数据生命周期：二、埋点是什么？1、含义2、方式三、埋点流程1、埋点生命周期2、业务需求分析3、埋点文档设计一、数据生命周期：还能从数据角度来看，数据在工作中的参与环节，帮助理清数据分析流程和思路。二、埋点是什么？1、含义数据埋点是数据采集的一种重要方式，是在有需要的位置采集相应的信息，主要是终端用户的操作行为，后续用于解决业务方提出的业务需求。2、方式全埋点代码埋点（百度统计、友盟、T
【2017-2024】Adobe AN多功能的动画制作软件安装 HIosng adobe
AdobeAN软件简介AdobeAnimate（简称AdobeAN）是由AdobeSystems开发的一款多功能的动画制作软件。它不仅可以用来设计二维动画，也支持创建交互性内容，为网络、游戏和应用程序提供了丰富的媒介。AdobeAnimate是创造动画、交互式内容与动态图形的强大工具，广受动画师、游戏开发者和设计师的欢迎。安装包https://pan.baidu.com/s/1BCK34EJWWu
网盘搜索器 VIP 版：资源搜索与下载的高效利器 2501_90827335 电脑软件工程开源软件
在信息爆炸的时代，从网盘获取各类资源已经成为很多人的日常操作。今天要给大家介绍一款功能强大的工具——网盘搜索器VIP版，它为我们在海量的网盘资源中精准定位所需内容提供了极大便利。强大的核心功能多平台资源整合网盘搜索器VIP版堪称资源整合的“超级大师”。它打破了不同网盘之间的壁垒，支持阿里云盘、百度网盘、迅雷云盘等主流网盘资源的跨平台搜索。无论是热门影视、专业文档、实用软件，还是动听音乐，都能一网打
ubuntu 20.04安装visual studio code并配置C++编译环境 Android Coder #NDK与音视频 ubuntu
1.下载安装visualstudiocode我的系统是Ubuntu20.04，首先是下载安装包。进入官网，直接下载压缩包。https://code.visualstudio.com/Download下载完成后双击安装即可。2.C++运行环境配置插件的安装汉化：过于简单，直接按照教程操作：https://jingyan.baidu.com/article/7e44095377c9d12fc1e2ef
百度地图开放平台Key值申请前端熊猫百度地图开发平台 AK
百度地图开放平台key值获取流程首先，登录需选择个人或者企业实名认证进入百度地图开放平台，点击右上角的控制台，进入开发者管理界面：选择应用管理->我的应用，点击创建应用，填写服务端：需设置IP白名单（安全性更高）或者浏览器端：需配置Referer白名单（防止恶意调用），获取测试key！！！在“我的应用”列表中，可查看并复制AK
form的表单序列化码田里的小白菜 ajax 服务器 javascript
百度可知：表单序列化的作用是：将表单内容序列化成一个字符串，方便Ajax传递表单值给服务器。随着Ajax的出现，表单序列化成为一种常见需求序列化应满足以下几点要求：1、对表单字段和值进行url编码，使用&符号分割2、不发送表单的禁用字段3、只发送选则的复选框和单选按钮4、不发送type为“reset”和“button”的按钮functionserialize(data){letlist=[];Ob
vant官网-vant ui 首页-移动端Vue组件库 embelfe_segge 面试学习路线阿里巴巴 android 前端后端
Vant是有赞前端团队开源的移动端vue组件库，适用于手机端h5页面。鉴于百度搜索不到vant官方网址，分享一下vant组件库官网地址，方便新手使用vant官网地址https://vant-contrib.gitee.io/vant/#/zh-CN/通过npm安装在现有项目中使用Vant时，可以通过npm或yarn进行安装：#Vue2项目，安装Vant2：npmivant-S#Vue3项目，安装V
python processpoolexecutor_Python多进程解决方案multiprocessing ProcessPoolExecutor weixin_39599046 python
大多数编程语言都会有多线程和多进程的概念，至于线程和进程的概念，大家可以百度一下。作为一门胶水语言，Python毫不意外，也可以利用多线程和多进程处理并发问题，但是多线程由于GIL的存在，起作用范围大打折扣，仅限于在IO等场景可以发挥点作用。所以，今天要跟大家分享的是Python多进程方案，更好地利用系统多核，从而提升性能。基础方案一：利用Process新建一个子进程，在子进程执行任务。我们写一个
html5 相册翻转效果,HTML5 css3：3D旋转木马效果相册岑依惜 html5 相册翻转效果
这篇博客的目的是因为上篇HTML5CSS3专题诱人的实例CSS3打造百度贴吧的3D翻牌效果中有个关于CSS3D效果的比较重要的知识点没讲到，就是perspective和tranlateY效果图：嘿嘿，我把大学毕业时的一些照片，做成旋转木马，绕着我大文理旋转，不忘母校的培育之恩~1、perspectiveperspective属性包括两个属性：none和具有单位的长度值。其中perspective属
多个单片机之间的SPI主从通讯菜长江单片机嵌入式硬件
工程文件链接:链接：https://pan.baidu.com/s/1RXp9lw2ZqyglQSwKnw7Siw?pwd=6666提取码：6666工程里面有很多例子都是看B站视频手打的(这次代码只用到了YJSPI文件夹下面的.C和.H文件其余可以忽略),只是验证通讯和配置一,概述1.因为工作是从事PCBA测试软件开发的(上位机),之前做过的很多项目都是一个单片机完成所有功能，做了有段时间了无非就
dv-scroll-board 鼠标移入单元格显示单元格所有数据 mengfei-super 计算机外设前端 vue.js
前言：在使用大屏组件库data-v开发大屏驾驶舱系统，dv-scroll-board实现表格数据滚动的效果，但是某一列数据较多，需求提出：鼠标移上去要显示对应的问题，完全展示出来。奈何以前没有搞过这个问题，随即立马找向百度麻麻！实现效果及方法如下：{{dvTextName}}exportdefault{data(){return{dvText:{keyX:"15px",keyY:"0px",},d
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
Pyhton安装PyQT6 三口一个桃 python pyqt
Windows系统使用CMD命令安装，对于系统中有多个版本python的，在安装pyqt6/pyqt5时需要针对每个python版本单独安装。安装准备过程：①Win+R打开CMD命令行窗口②输入命令：python--version查看当前python版本是否是自己需要安装pyqt6/5的的版本，若是则执行第③步，若不是则执行下述操作：打开电脑环境变量设置(自行百度)--点击系统变量中的Path项-
自然语言处理（5）—— 中文分词隐私无忧人工智能 #自然语言处理自然语言处理中文分词人工智能
中文分词的基本原理及实现1.什么是词2.基本原理3.发展趋势：多数场景无需显式分词信息处理的目标是使用计算机能够理解和产生自然语言。而自然语言理解和产生的前提是对语言能够做出全面的解析。汉语词汇是语言中能够独立运用的最小的语言单位，是语言中的原子结构。由于中文缺乏类似英文的空格分隔，分词的准确性直接影响后续任务（如机器翻译、情感分析）的效果。因此，对中文进行分词就显得至关重要。中文分词（Chine
JAVA代码实现ElasticSearch搜索（入门-进阶）(一):搜索方法、多字段查询、高亮展示 majunssz elasticsearch elasticsearch
一、搜索方法对比首先存入一条数据count="ilikeeatingandkuing"默认分词器应该将内容分为“i”“like”“eating”“and”“kuing”1.QueryBuilders.matchQuery("count",count);会将搜索词分词，再与目标查询字段进行匹配，若分词中的任意一个词与目标字段匹配上，则可查询到。count="i"可查出count="ili"可查出co
记录:(error) NOAUTH Authentication required...【解决方案】 bug菌¹ 全栈Bug调优(实战版)#CSDN问答解惑(全栈版)redis连接报错 Authentication
‍作者：bug菌✏️博客：CSDN、掘金等公众号：猿圈奇妙屋特别声明：原创不易，转载请附上原文出处链接和本文声明，谢谢配合。版权声明：文章里可能部分文字或者图片来源于互联网或者百度百科，如有侵权请联系bug菌处理。一、前言环境版本：centos7.6+redis6.2.6+xshell5二、排错通过xshell5远程连接阿里云服务器，内核是cent
5（五）Jmeter监控服务器性能夜晚打字声工具 jmeter 服务器运维
下载安装插件需要安装插件：ServerAgent-2.2.1（链接：https://pan.baidu.com/s/1Tr63aKbzLuldBoRB5IR7Dg提取码：nyfk）JMeterPlugins-Standard-1.4.0（链接：https://pan.baidu.com/s/13af9OS4JDagg4RFhqxVVbg提取码：51ev）JMeterPlugins-Extras-1
【2017-2025】Adobe Photoshop【PS】软件下载安装 adkjcbqvblq adobe photoshop ui
获取安装包https://pan.baidu.com/s/1NLUthiAyC2chlSEwbf1LRQ?pwd=4ppq1.起源与发展1.1初试啼声AdobePhotoshop的历史可以追溯到1987年，当时由托马斯·诺尔（ThomasKnoll）和他的兄弟约翰·诺尔（JohnKnoll）共同开发。托马斯在父亲的帮助下，开始了图像处理的编程尝试。他们的初始产品是一个用于Mac系统的程序，最初名为
shell 脚本搭建apache 好多知识都想学 apache
#!/bin/bash#SetApacheversiontoinstall##author:yuan#检查外网连接echo"检查外网连接..."pingwww.baidu.com-c3>/dev/null2>&1if[$?-eq0];then echo"外网通讯良好！"else echo"网络连接失败，请检查你的网络设置！" exit1fisleep5#检查并安装APR库echo"检查并安装
LLM 大模型技术知识最佳学习路径图发布！ AGI-杠哥学习人工智能语言模型 agi 自然语言处理
近日，经常有小伙伴私信我，大模型知识太多了，有点懵啊，我该如何学习LLM大模型？今天我们就来剖析下LLM大模型技术知识的学习路径。如果你是一个LLM大模型的“技术小白”，我们建议的学习路径如下：技术交流群前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~我们建了大模型技术与面试交流群
MiniMind 亚伯拉罕·黄肯大模型人工智能
数据集分类：tokenizer训练集：这个数据集用于训练分词器（tokenizer），是文本处理中的一个重要步骤。它可以帮助模型更好地理解文本数据的结构。Pretrain数据：这是用于预训练模型的数据集，它可以帮助模型学习语言的基本结构和特征。SFT数据：SFT（SupervisedFine-Tuning）数据集，用于监督式微调，可以提高模型在特定任务上的性能。DPO数据1和DPO数据2：这两个数
网络安全-信息收集 One_Blanks 网络安全网络安全
声明学习视频来自B站UP主泷羽sec，如涉及侵权马上删除文章。笔记的只是方便各位师傅学习知识，以下网站只涉及学习内容，其他的都与本人无关，切莫逾越法律红线，否则后果自负。目录X一、Whois信息1.思路2.工具3.社工库二、搜索1.Google、bing、baidu三、Github四、搜索引擎FOFA：[https://fofa.info/](https://fofa.info/)360网络空间测
Python爬虫：数据抓取工具及类库详解 2401_84692751 程序员 python 爬虫开发语言
wget也是一个利用URL语法在命令行环境下进行文件传输的工具,其基本用法为wget[URL地址][参数],如:wgethttps://www.baidu.com其常用参数如下:下面例子演示如何使用wget镜像一个网站到本地并启动:使用wget--mirror命令将整个网站的镜像下载到本地wget--mirror-p--convert-linkshttp://www.httpbin.org切换到下
腾讯技术岗位笔试&面试题(一) TechPioneer_lp 互联网大厂技术面试 c++面试数据结构个人开发算法
说在前面本篇文章是腾讯技术面试题目汇总第一篇。后续将持续推出互联网大厂，如阿里，腾讯，百度，美团，头条等技术面试题目，以及答案和分析。欢迎大家点赞关注转发。1.map插入方式有几种？用insert函数插入pair数据，mapStudent.insert(pair(1,“student_one”));用insert函数插入value_type数据mapStudent.insert(map::valu
Spring Boot 与 Couchbase 整合教程嘵奇提升自己 spring boot 后端 java
精心整理了最新的面试资料和简历模板，有需要的可以自行获取点击前往百度网盘获取点击前往夸克网盘获取SpringBoot与Couchbase整合教程环境要求JDK8+SpringBoot2.7.xCouchbaseServer7.xMaven/Gradle步骤1：创建SpringBoot项目使用start.spring.io创建项目，添加以下依赖：SpringWeb（可选，用于RESTAPI）Spri
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

百度(baidu)分词算法分析

你可能感兴趣的:(百度(baidu)分词算法分析)