gavinming

想开发搜索的人必读的文章(www.lucene.com.cn)

1 互联网搜索

其实搜索的这个核心就是分词与PageRank算法，择日和大家讨论具体的实现，依靠PR算法，sogou 3.0的搜索结果相当不错，如果融入人工智能、数据挖掘自然语言理解等最新信息技术成果的搜索引擎，将会给用户带来了一种方便、易用、灵活的检索方式，为用户提供的是详实、准确、直接的信息。

这部分讨论几种特色搜索，概念检索是以概念为核心，这种方式一改以关键词核心的搜索模式，借助概念词典，通过与用户交互而获得用户要搜索的目的核心的一种搜索方式。提问式检索是以自然语言形式的问答式检索。引导式分类检索和聚类检索是对结果显示方式的重新布置方法，使方便用户的一种搜索方式。个性化搜索是利用个性化提取技术对不同的用户获得不同的结果的一种方法。

1.1 概念检索

检索并不是一次完成的，而是通过概念树进行交互过程中实现的，这种技术的前提是用户搜索并不是想查某个关键词，而是想查一个概念，或一件事。比如：用户输入绿茶，它是想查绿茶电影，通过概念树的描述结构获得，绿茶的不同树结点，相应有趣标的节点信息提示给用户，以便用户电击，用户的电击过程其实是与系统交互的过程，通过交互，获得用户所需要的信息。这既是所谓的语义检索。

语义检索是把信息检索与人工智能技术、自然语言处理技术相结合的检索，能够较好地解决传统全文检索中关键词词间关系模糊、检准率低的问题。传统的全文检索系统在网络信息检索中最大的问题就是检索模式单一，表面化，仅用单一的词或词的组合来对网络式结构的知识进行检索，缺乏对知识的理解和处理，其结果是返回的匹配网页数目过多，起不到真正的信息检索的作用。语义检索立足于对原文信息进行语义层次上的分析和理解，提取各种概念信息，并由此形成一个知识库，然后根据对用户提问的理解来检索知识库中相关的信息以提供直接的问答。它提供的不是知识的标识，而是知识的内容。语义检索与全文检索的根本差别在于具有一个巨大的知识库，而知识库本身就是一个概念的语义空间网络。建立知识库首先要构造语义网络，即利用人工智能、计算语言学等技术从大量网页中自动提炼概念、计算概念之间联系，包括确立概念等级体系、概念之间的语义映射关系及语义关系的推理原则等。检索系统可利用语义网络对网页进行语义标注，并形成索引库，智能型检索接口利用语义网络进行语义推理，主动分析用户提出的检索需求，向用户提出既符合用户检索需求又符合索引系统规范的检索关键词，实现语义检索和其他智能处理。

因此，建立在语义空间网络基础上的语义检索具有分析和理解自然语言的能力、记忆能力、智能人机接口，可以实现同义词扩展检索、语义蕴涵和外延扩展检索、语义相关扩展检索，突破了关键词检索单一模式的固有缺陷，实现概念层次上的词义扩展，能够在检索和获取信息过程中有针对性地提供有关解释、说明、范例、辅导、纠错等动态服务，对用户检索实现智能导航，充分保证用户的实际检索效率。但是，如何在一个分布式的、异构的信息环境下实现完全意义上的语义检索是目前所面临的最大挑战。
这项技术提供对用户输入词做一定的运算，获得关键词的中心意义，使得搜索变聪明了。用户只需在问题框里输入关键词，而不用在关键词之间加上一大堆诸如空格、加号、减号之类的东西，搜索引擎就会搞清楚想问的是什么。

1.2 直接提问式搜索

这是对传统检索放出的补充，是中文问答系统的一下应用。
搜索引擎允许用户可以按照平时说话的方式，通过问话框直接提问。把想问的问题输入问话框并提交，用户将会马上看到用户需要的内容。这是一种最直接、最快捷的获取答案的方式。比如，用户想知道北京今天的天气情况，就可以在问话框中直接输入“北京今天天气怎样”或“北京今天的天气好吗”等问法，然后按回车键或点击“提交”按钮，用户会看到有关天气的内容出现在窗口中，里面就是用户要了解的北京的天气情况。还可以询问诸如“《红楼梦》的作者是谁?”，“《大话西游》的导演是谁?”之类的问题。有的时候，用户在问题框中输入问题后得到的是一些相关问题而不是直接的网站，这些相关问题都是搜索引擎精心提炼、归纳的，用户可以从这些相关问题中找到他想确切表述的问题，还可以发现他感兴趣的其它问题；同时，相关问题还可以引导用户快速适应搜索引擎所提倡的提问方式，即用简捷的、有目的性的问句(即有意向的问题)来提问，以便其更快速的找到想要的内容。

1.3 引导式分类浏览

分类浏览是一种更为传统的搜索方法，但某些搜索引擎的分类浏览有别于传统的分类浏览方式，因为在浏览智能搜索引擎的分类时，用户看到的不是传统的网页内容，而是一个个相关问题，也就是说，如果用户不想输入问题，可以浏览相关类目，在问题列表中找出用户想问的问题。用户只要点击每个问题前的按钮，就能看到相应的内容了。（聚类方法见下节）

1.4 聚类搜索

搜索引擎的站点类聚方式和时限的选择等。站点类聚方式的选择，用户在搜索时经常遇到以下情况：一种是一个词频繁一个网站的许多网页中出现，如果搜索这个词的话，就会出现大量的属于同一网站的许多不同网页，如果只关心这个网站，就可以使用“站点类聚”方式，这样在结果中所有同一个网站的网页就会合并成一个键接；另一种情况是同样的内容在不同的网站频繁出现，那么可以选择“内容类聚”方式，这样在搜索结果中就会只显示出与具体内容相关的一个网页。也可以选择“站点类聚+内容类聚”方式，可同时达到上述两个目标。时限选择即选择网页生成时间，提供“任何时间的网页”、“‘三个月以内的网页”、“半年以内的网页”与“一年以内的网页”四个选择。

1.5 个性化搜索

个性化搜索的目的是做到：利用用户在搜索得10分钟，留住用户20分钟，如何做到这一点呢，首先，要在用户的搜索行为发生后对其个性进行分析，获得其感兴趣的信息，同时，在下一个电击行为开始时推送适合这个用户的感兴趣信息。获得用户行为的方法在个性化部分论述，推送方案在以后论述。这项技术同样可以影响结果排序。

1.5.1 个性化广告投放
见智能广告投放技术（2.5）

1.5.1.1 个性化查找服务

用户自动分类：目的是用户在聊天的过程中，自动被识别出自己兴趣爱好相似的同类别，这更增加了同类用户的亲和力。

这部分是面向又交友为目的人，开发的聊天服务功能产品，目前的聊天查找都是以系统内注册的信息获得的，可以通过聊天者的聊天内容的知识表示，获得用户的经历、历史等信息，最终达到聊天交友查找的目的。这种方式显然比直接查找来的更加准确。

2 个性化检索服务

如何面向用户需求，以最最方便的方式让用户获得所需的信息正是智能应用的任务。对于用户来说，没有输入任何信息而获得到自己所需要的这当然是最合适的方案。这部分应用即为个性化检索。
个性化服务的根本原因就是用户的情况千差万别，针对不同的用户可以进行如下分类：地域、性别、文化程度、行业、职业、上网时间等等。针对不同需求，比如上网目的：获取信息、学习、学术研究、休闲娱乐、情感需要、交友、获得各种免费资源、对外通讯、联络、炒股、网上购物、商务活动、追崇时尚、赶时髦、好奇等等也可以作不同的处理

2.1 个性化服务内容

个性化问题已经在研究领域里做了很多工作，这里将用大量的篇幅论述个性化问题的应用方法。
个性化是使事物具有个性,或者使其个性凸显。这里包含了两层含义，其一，个性是需要经过培养而逐步形成的。这个过程可以称之为使个体个性化的一个过程;其二，个体总是具有一定的个性的，让这种个性得到别人的了解、认可，并在一定的空间得以体现、展示，是每个个体都拥有的潜在需求，这个过程也称之为个性化的过程。那么什么是个性化信息，这个概念可从两个角度来分析。其一，个性化信息是指反映人类个性特性的一切信息，这些信息包括了这个个体的各种属性的描述;其二，个性化信息是指由人类个体特性所决定的其对信息的需求的一种信息组合，也就是由人类个性对信息需求的决定关系而产生的一系列对个体有用的信息。个性化信息服务既是一种个性化服务，又是一种信息服务。因此，可根据前面阐述的两种个性化过程和两类个性化信息，找到个性化信息服务的定位。个性化信息服务首先应该是能够满足用户的个体信息需求的一种服务，即根据用户提出的明确要求提供信息服务，或通过对用户个性、使用习惯的分析而主动地向用户提供其可能需要的信息服务。其次，个性化信息服务应能够根据用户的知识结构、心理倾向、信息需求和行为方式等来充分激励用户需求，促进用户有效检索和获取信息，促进用户对信息的有效利用并在此基础上进行知识创新。

2.2 个性化信息服务机制

如前所述，个性化信息服务就是将用户感兴趣的信息主动提供给用户，要实现这项服务，服务系统必须具备两方面的能力:一是构建个性化信息模型，即将个性化信息从全局信息空间中分离出来;二是构建用户信息模型，即跟踪用户行为，学习、记忆用户兴趣，通过描述用户的兴趣来建立个性化用户模型。此外，还需要有功能强大的网络信息搜索能力和友好的用户界面，它们即是构建个性化信息模型和用户模型的基础，也是实现个性化信息服务的保障。

2.3 个性化获取

目前，Internet网上站点从不同角度出发，采用了不同的用户个体特性采集和个性化信息传递方法，主要有以下四种方法。

2.3.1 界面定制法

界面定制个性化信息服务是根据用户需求对用户个体所需的系统界面、资源集合、检索工具与技术、检索利用服务过程、检索结果等进行定制。在理想情况下，系统应提供以下定制功能：1方便实用的定制工具；2用户能对系统提供的定制内容进行选择、引入或自定义定制内容、组合定制内容、调整定制结构；3查看定制效果；4对定制信息进行修改、存储和管理；5根据用户使用选择倾向和历史统计自动修改定制信息。从个性化程度讲，定制应能充分支持和展示个人的特色，允许用户积极参与界面的定制，通过填写表格，用户指示出自己的需求和选择，并依次决定所需的内容和对话界面的外观。一般系统为用户提供一个基础模板，用户根据需要从中选择或添加相关内容。用户定制的数据存放在服务器端数据库里，在用户登录时系统确定用户身份，调用相关定制信息，并利用定制信息匹配系统数据或过程，动态生成个性化的系统形态和系统行为。界面定制至少包括界面结构的定制和界面内容的定制。界面结构指对话界面的总体模块类别和布局形式，例如页面将包括哪些模块或服务，各模块的布局方式(上下或左右或层次)，有关图像、菜单等的位置设置，界面色彩设计等。而界面内容定制主要是对各个信息或服务模块的具体内容进行定制。这种形式定制的个性化信息服务效率依赖于用户定制的能力和动机，如用户不愿花费力气建立复杂、准确的个性化特性，这项服务就不会发挥作用。而且所定制的界而是静止不动的，不会随用户的需求而变化，除非用户能及时调整和更新。

2.3.2 点击流分析法(Click Stream Analysis)

点击流分析法是采集用户在站点上运动情况的方法，可用于跟踪记录访问过的链结点，包括用户的来源地点、浏览站点的路线和最终到达的目标，链结分析包括对点击过的链结的观察、它们在屏幕上的相关位置、用户在网页上停留的时间以及点击过的链接间的关系和最终结果(象用户是否发生了电子交易等)。通过对这些数据的有效分析，不但能够对网站的建设起到指导作用，增强网站的黏着度，而且也能够反映出企业在市场、销售、服务和财务等各个方面的状况。总之，对这些数据深层次分析能够使网站改善客户关系、培养顾客忠诚、增加网上销售和提高服务质量。在电子商务网站环境中，点击流分析的已经远远超出点击流的范围，而成为企业了解经营状况、了解客户行为的有效工具。点击流分析以WEB上的点击流数据为基础，利用OLAP、数据挖掘等技术满足电子商务企业的所有人员(市场、销售、工程与管理)的需求，不同的部门有不同的需求，通过对点击流不同数据的分析来达到不同的目的。

(1)网站点击分析。网站点击分析是点击流分析的一个重要部分，网站点击主要回答了市场开拓部门所关心的以下问题：1网站的哪个部分或产品吸引了最多的访问者；2网站的哪个部分导致的直接购买行为最多；3网站的哪个部分是多余的或者很少有访问的；4哪个部分是会话结束最多；5哪个部分进入的购买会话或其他类型的会话最多；通过对这些问题的充分了解，市场开拓部门在进行网上广告宣传时就会有比较好的倾向性，也利于有倾向的发展广告客户。

(2)点击状态分析。访问者的每次有效点击都是对网站服务器的一个资源请求，因此点击状态等同于请求状态。请求状态是指对于一个访问请求，服务器返回的结果类型。其中，对网站影响最大的请求结果是：资源错误，请求失败。作为网站来讲，实时监测请求的错误情况，找出故障原因并及时排除是至关重要的，点击状态分析提供实时的网站质量报告，给维护人员详细的故障信息做指导，评测故障恢复时间和影响范围。

(3)客户关系管理(CRM)。客户关系管理也是点击流分析的一个重要内容。点击流分析中的客户关系管理通常回答了以下几个方面的问题：1一个新用户的会话模式(Click Profile)是什么样的；2退出客户的会话模式通常是什么样的；3给网站带来利润的客户会话模式是什么样的；4取消服务的客户会话模式是什么样子的；5抱怨和投诉客户的会话模式是什么样的；6怎样可以吸引一个访问者成为网站的注册用户；通过对这些会话模式的分析，为市场、销售等部的CRM提供了数据分析基础。对客户群体进行划分，找到网站所关心的客户，如潜在客户、有价值客户和保持客户等。

2.3.3 协调过滤法(Collaborative Filtering)

协调过滤法把一个用户的偏好与其他用户的偏好进行比较，建立同偏好群体的描述。然后假定这个特定用户与这个同偏好群体的需求相同，对其需求内容进行推荐。协调过滤法的基本机制是：1登记团体人群的偏好；2用相似测度法，挑择偏好类似的子群组；3对子群组的偏好加权平均；4利用由此导出的偏好函数(preference function)为用户作出推荐。如相似测度法确实挑选了具有相似偏好的群体，那么，根据该群体确定的选项满足用户个体的几率就大。协调过滤法较典型的应用是推荐图书、光盘或电影。也可用于文献、服务或产品的挑选。

目前协调过滤法存在的主要瓶颈是用户偏好的收集。为增加可靠性，系统需要大量的人群(数千)在数量相对大(数十)的选项中做出选择。这需要众多人群的共同努力。避免这个问题的方法是采集隐含在用户行为中的偏好。例如，从网上书店订购图书的人们，在他们订购的过程中含蓄地表达着他们对图书的偏好。已经购买了与他们相同图书的顾客则有可能具有与他们相似的图书偏好。这种方法由Amazon网上书店采用，Amazon书店为每本书提供了相似人群购买的有关图书书目。

2.3.4 Cookies方法

Cookie不再是Internet上的新名词，但对个性化信息服务仍然有用。Cookie是由站点发送的小数据包并存储在浏览器一侧，因此作为用户的唯一标识可以在服务器一方(发送Cookie的站点)，重复使用。Cookie提供了追踪用户的方法。它给用户加标识，更确切他说是给用户的浏览器文件加标识，当再次访问发送Cookie的站点时，浏览器被当作唯一可以鉴别的实体。在浏览器中用作Cookie存储的用户信息在以后的访问中能够被发布站点调用，也能够在重复地访问中更新。它构成了到存储在服务器(提供方)方的指定文档信息的连接。Cookie可用于存储用户的其它信息——用户自己提供(填表格)的资料、最后一次访问的时间和其它的对话信息。

2.4 用户分类

用户分类是实现网站个性化的一项重要工作，我们可以根据需要进行多种分类，可以根据访问内容分出用户的各类兴趣爱好：如喜好足球的、喜好电脑技术的、喜好休闲娱乐的、喜好交友的：根据一般的上网时刻、访问量、上网的总时间、上网总次数等把用户分为一般网友、中级网友、高级网友等：甚至还可以根据访问内容确定用户大致所在的阶层，如白领、蓝领等。从以往相同喜好的用户的访问内容、访问顺序中进行学习，经过综合、筛选后将其推荐给当前用户。这些推荐信息与用户兴趣间的相关度很高，能很大程度上满足用户的需求。

2.4.1 通过日志获取兴趣

客户浏览信息被Web服务器自动收集，并保存在访问日志、引用日志和代理日志中有效地对这些Web日志进行定量分析，揭示用户兴趣路径等，不但可以为优化Web站点的拓扑结构提供参考，而且还可以为企业制定更有效的市场营销策略提供依据，使其及时改进决策，获得更大的竞争优势
目前，Web日志的挖掘研究主要集中在用户浏览模式的获取上，算法有最大向前序列法、参考长度法和树形拓扑结构法等它们先将日志中的用户浏览历史记录转换成一个浏览子序列集：最大向前序列法根据用户折返的特性形成若干浏览子序列；参考长度法根据用户在网页上停留的时间形成若干个浏览子序列；树形拓扑结构法则把整个日志当作浏览子序列然后利用关联规则法对浏览子序列进行挖掘找出频繁访问路径以上算法单纯地考虑了浏览频度，简单地认为用户的浏览频度就反应了用户的访问兴趣，这很不精确网页浏览频度的影响因素有很多，其中的页面放置位置和其它页面对该页面的链接都起着非常重要的作用所以有必要提出一种可正确挖掘用户浏览兴趣路径的算法本文就是从提出的支持偏爱度的概念出发，给出了一种Web站点访问的矩阵表示模型，在此基础上挖掘用户浏览偏爱路径，然后进行了实验，提出需要进一步研究的问题。

2.4.2 个性化聚类

作为一种重要的知识发现方法，数据聚类主要用于发现属性间有用的模式和（或）关联（统称为知识），对于大规模数据集的探测性分析有着重要的作用。由于操作的对象是海量数据，所以其效率也就显得特别的重要。为此，近年来除了对聚类算法本身寻求改进以外，还对算法的并行化进行了大量的工作，以充分利用了当今计算机的综合计算能力，缩短聚类过程所需的时间。而且数据聚类的相应技术已经在图象处理，模式识别，信息融合等各个领域里都有重要的应用。发现知识的效率固然重要，但是发现后所得到的知识的“质量”也同样不可忽视。一般来说，一个知识发现系统是面向多用户的（或者说是面向多应用的）。如果一次聚类所得到的知识多于、或少于、甚至根本不是当前用户所需要的知识，那么这些知识对当前用户而言就是存在所谓的质量问题。例如，对于一群学生，教学工作者可能需要把他们分为一年级学生、二年级学生等；而对于同一群学生，医务工作者则可能把他们分为甲肝患者、乙肝患者等。显然，如果一个教学工作者去操作知识发现系统的时候，系统按患病情况进行聚类时，其结果是不能接受的。所以理想的情况是，不但要高效地产生所需要的知识，而且产生的知识要能够满足用户的实际需要，不存在与用户需要无关和多余的知识。当然，这些知识是在反映属性间内在客观联系的前提下满足用户需要的一种知识。该文通过聚类的方法获得仅满足用户需要的知识（不存在无关的知识）的过程，称为个性化聚类，相应的知识就称为个性化知识。

在当今信息的海洋中，研究个性化聚类，发现个性化知识，对于减少用户的工作量、提高工作效率和正确率、以及进一步推动信息处理系统向智能化和实用化方向发展有着极为重要的现实意义。

2.5 信息过滤

信息过滤是个大的概念，这里专门来讨论这个问题。
信息过滤技术基本分为两类：一种是基于内容的过滤(Content-based Filtering)；另一种是合作过滤(Collaborative Filtering)。在基于内容过滤模式中，每个用户假定是相互独立操作的。因此，过滤的结果只取决于用户信息需求模型(即用户模板Profiles)与信息源的匹配程度。在相关反馈的基础上，系统辅助维护用户模板。基于内容过滤的系统如Personal Web Personalizer等，它们利用资源与用户兴趣的相似性来过滤信息。它的优点是简单、有效，缺点是难以区分资源内容的品质和风格，且不能为用户发现新的感兴趣的信息。合作过滤的出发点在于任何人的兴趣不是孤立的，而是处于某个群体中。根据相同或相近兴趣的用户对相应信息做出的评价，向其它用户进行推荐。由于不依赖于内容，这种模式不仅适用于文本格式，也可以广泛应用于非文本介质的资源，如视频、音频等。协作过滤系统如：Web Watcher，Grou-pLens，Firefly，SELECT，LileMinds和Citeseer等，它们利用用户之间的相似性来过滤信息。基于合作过滤系统的优点是能为用户发现新的感兴趣的信息。但是，它也存在两个致命的缺点：其一是稀疏性问题，即在系统使用初期，由于系统资源还未获得足够多的评价，系统很难利用这些评价来发现相似的用户。另一缺点是系统可扩展性，即随着系统用户和信息资源的增多，系统的性能会下降。为了综合基本内容和合作过滤两种方式的优点，本文拟在数字图书馆中采用基于混合模式的信息过滤(Hybrid Filtering)模型。它建立面向个人的用户模板和面向合作的公共模板，抽取信息特征，作为可能的特征项，便于用户动态地修改模板；利用其它用户对文档的评价以及用户模板与文档的相似度来预测用户的接受程度，另外还考虑到推荐者的权威性和与用户兴趣的一致性。结合这两种过滤技术可以克服各自的一些缺点，从而提高信息过滤的性能。

3 热门新词提取

这是利用自然语言未登录词识别技术，获取网上最新的动态，同时，将获得的新词进行分类标注的新技术。这项功能有许多应用，可以很好的有用户的兴趣，结合用户的习惯及个性化，甚至可以改变用户的上网模式，使得用户具有相应的依赖性。

未登录词(unlisted/unknown words)是指词表未收因而机器不认识的词。词表应当有一定规模(一般是几万词)；极而言之，如果词表为空，文本中的每一个词都成了未登录词。另一方面，未登录词本质上是不可穷尽登录的：人名、地名几乎可以看成是无限的，新词也在不断地产生。

缺乏识别未登录词的能力，计算机就难以自动处理大规模语料。目前处理百万词级的语料时，通常的做法是先用机器分词，然后进行人工校对。但是人工校对费时费力，缺乏一致性，即使校对多次也难以保证没有错误。要处理几千万、几亿词语料，用这种办法是肯定行不通的，因此亟需开发一种免校对的自动分词系统。所谓“免校对”，不是说正确率要达到百分之百，而是指切分错误极少，至少能跟人工校对后的正确率相当。要做到这一点，就必须比较彻底地解决未登录词问题。

未登录词可以分为专名和非专名两大类。专名包括人名、地名等，非专名包括新词、简称、方言词语、文言词语、行业用词、港台用词等。目前关于未登录词识别的研究，集中在专名上，非专名的未登录词识别问题尚未引起足够的重视。如前面所举的例子，在真实文本中，非专名的未登录词占相当大的比例。词组式专名中含普通词语，如“蒙古人民共和国”“北京工业大学”。在自动分词中，能把其中的专名未登录词“蒙古”“北京”识别出来就可以了；至于组合处理，有时可能有困难。如，“美国大学”不是一个词组式专名，而“韩国大学”是一个词组式专名(例子引自张小衡，1997)。品牌名常常用普通词语，如“长虹牌彩电”“联想电脑”。对于这些品牌名，按照上面的建议(不作组合处理)，就不存在未登录词识别问题。但“康佳彩电”“富士牌彩卷”之类的品牌名，应该把其中的专名识别出来。如果把这些词组都整个儿看成未登录词，显然会加重自动分词的困难。

3.1 新词的自动获取

第一，先用最大概率法进行第一趟分词，识别已登录的多字词；第二，在“分词碎片”中寻找未登录词：分词碎片中任意字串皆为候选未登录词，利用局部统计和单字概率来计算其概率；但碎片中任意单字亦为候选单字词，故应同时计算每个单字的成词概率，与候选未登录词形成竞争，依概率来决定每个单字究竟是词还是未登录词的一部分，对分词碎片进行第二趟分词。最大概率法分词给出了最大概率法分词的算法，其基本思路是从各种可能的词串中，找出各词概率乘积最大的词串。其实，是自动分词的统计模型。
计算单字概率为了在分词碎片中识别未登录词，计算单字的以下几种概率：(1)单字概率Pz(c)，即每个单字在语料中的出现概率。Pz(c)应从极大规模语料库中统计得到，因为规模不够大时，许多非常用字难得出现，而未登录词(特别是专名)中往往包含非常用字。(2)单字词概率Pw(c)。语料规模当然也是越大越好，但实际上很难得到极大规模的、校对精确的分词语料。关键是如何计算Pw(c)。用单字词出现次数除以分词语料的总词次，得到的是该单字词的出现概率；用单字词的出现次数除以该单字的出现次数，得到的是该单字的相对成词概率。8孤立地考虑某单字是否成词的时候，应该用它的相对成词概率；但如果在上下文中考虑它是否成词时，应该用它的单词出现概率与相对成词概率的乘积。(3)单字非词概率Pf(c)=Pz(c)-Pw(c)分词碎片中的候选单字词连续出现时，用其转移概率：λ1Pw(ci)+λ2Pw(ci-1ci)，其中λ1+λ2=1，具体值可通过试验得到。这是强调慎重识别单字词。最大匹配法和最大概率法为了保证任意汉字串能在有限步骤内切分完毕，都是把词表中查不到的单字权且当作一个词。这是不能发现和识别未登录词的根本原因。未登录词是无限的，而单字是有限的，单字词更少。把单字和单字词作为识别未登录词的关键，就是想以有限来驾驭无限。当然，也不能说，只要把已登录的多字词和单字词都识别出来了，其余的连续单字都当作未登录词。事情不是这么简单，因为在分词碎片中，一个单字是不是词，也有赖于它周围的单字是不是待识别的未登录词的一部分。

3.2 新词的推送技术

通过为登陆处的识别，可以定期获得新词，这样就构成了新词词库。
新词仍让有个性化的问题，也就是说，对以某些用户来说，成为新词的，对于另一些用户来说，可能不是新词，这样。新词的概念有所变化，即个性化新词，新词，对于用户来说是新的兴趣点，对于新词的个性化推送不仅可以获得新的点击效益，对于用户来说，该功能也具有了新的市场，用户在使用过程中获益后，会对此能能产生依赖性的认可。

4 智能广告投放技术

4.1 智能广告投放的内涵

自从万维网WWW出现以来，Internet已经成为人们获取信息重要媒介，据统计中国网民人数已经达到上千万，这么多网民意味着巨大的潜在的广告市场许多商家将目光从传统的广告模式——电视、电台、报纸转向网络广告网站如何设置、播放什么样式的网络广告才能吸引网民而不是造成网民的反感已成为网站设计者需要考虑的问题传统网站常采用两愿营销的网络广告模式，这种模式在实际中存在安全性问题及随着时间的变化，使用者的兴趣与偏好可能会随着改变的问题基于上述的原因，为了能更准确地掌握使用者信息以提供使用者个性化的广告，本文提出一种新的网络广告模式根据用户的浏览行为和所浏览网页的内容，分析出用户的爱好与兴趣有针对地对个人播放个性化广告也既是每个用户看到的广告是根据其爱好不同而动态的改变，并不是现在常见的网站所呈现的固定不变的广告在此模式中，主要使用近来兴起的网页挖掘(WEB挖掘)技术获取用户爱好和兴趣网站使用者在网络上浏览行为存成日志文件，可利用网页挖掘中的网页使用挖掘方法，对于使用者浏览网页的行为找出其浏览网页的偏好，而后利用所得之结果，获取与使用者浏览网页特性有关联的网页其次，未来的网页将具有扩展标记语言中可自我描述与可自行定义标记的特性，对于这些网页内容可利用扩展标记语言挖掘方法进行挖掘，找出使用者对网页内容浏览的偏好与特性如此既能动态而且随时追踪使用者特性，结合广告数据库，建立一个个性化(个人化)的广告播放机制。

4.2 以网页挖掘为基础的个性化网络广告模式

从营销使用者必须主动提供信息，并且维护自己的偏好信息，使得当时间一长或使用者兴趣改变的时候，可能再也无法确切的掌握使用者的偏好，因此，可以利用网页挖掘，且能随时动态地更新使用者资料的个性化网络广告模式：(1)日志文件：此日志文件为一浏览的日志文件，它记录的内容包括记录使用者的浏览路径、时间、使用者ＩＰ地址、浏览器等使用者相关讯息(2)使用者信息数据库：记录使用者的基本资料与经过挖掘之后的使用者特性信息(3)广告数据库：储存广告主托播的各式广告，并包括广告的类别等信息(4)经预处理后的资料：将日志文件透过预处理的程序，进行过滤与筛选，以去掉不必要或错误的信息，得到想要的资料(5)协商代理程序：为一全自动化的代理程序，负责自动与广告主依广告的价格、时段、版面配置、类型、营销目标进行协调广告播放、并负责传送广告效果回报给广告主(6)广告媒合系统：获取使用者数据库并对广告数据库进行媒合，而后呈现经媒合之后的个性化广告(7)网页使用挖掘系统：读取浏览日志文件，进行网页使用挖掘，藉以了解使用者浏览的习惯来找出其浏览的特性，例如：网页浏览的频率高低，亦即使用者对各个网页的浏览频率，分析之后，并加以记录，以作为网页内容挖掘的基础(8)网页内容挖掘系统：在这个系统之中最主要的工作就是以网页挖掘的技术，对XML文件中的标记来做挖掘，并将挖掘之后的所得的资料存入使用者的数据库，以作为将来播放广告的依据

5 自然语言处理的基础资源

这里简单介绍一下实现以上技术所需要的自然语言处理的基础资源-综合型语言知识库。
语言知识库的规模和质量决定了自然语言处理系统的成败。经过18年的努力，北京大学计算语言学研究所已经积累了一系列颇具规模、质量上乘的语言数据资源：现代汉语语法信息词典，大规模基本标注语料库，现代汉语语义词典，中文概念词典，不同单位对齐的双语语料库，多个专业领域的术语库，现代汉语短语结构规则库，中国古代诗词语料库等等。本项研究将把这些语言数据资源集成为一个综合型的语言知识库。集成不同的语言数据资源时，必须克服它们之间的"缝隙"。规划中的综合型语言知识库除了有统一的友好的使用界面和方便的应用程序接口外，还将提供支持知识挖掘的工具软件，促使现有的语言数据资源从初级产品形式向深加工产品形式不断发展；提供多种形式的知识传播和信息服务机制，让综合型语言知识库为语言信息处理研究、语言学本体研究和语言教学提供全方位的、多层次的支持。综合型语言知识库将在应用中扩充规模，更新内容，提高质量，永葆活力。

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/chengg0769/archive/2007/07/27/1710979.aspx

你可能感兴趣的:(想开发搜索的人必读的文章(www.lucene.com.cn))

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后