kangsheng

自然语言理解机制

周锡令

北京信息工程学院

让计算机理解自然语言是当前的热门话题之一。然而，什么是“理解”？机器有没有可能具有“理解”的能力？一直是有点含糊不清的问题。有人说，如果计算机能够把一种自然语言翻译成另外一种，就算是理解了。又有人说，如果计算机能够把一个句子分析成一棵句法树，就算是理解了。这种说法有点像在回答“什么是马？”的问题时说“马能跑，马吃草料”一样,不能说完全不对，但是令人觉得没有说到点子上，没有揭示理解过程的实质。

上小学的时候，我们的主要任务之一是“认字”。那时我们头脑中的印象是：只要认识了“字”，知道每个字的意义，就能读书看报。等到上中学，我们跟着外语老师在课堂上把主要时间用来分析英语句子的结构，这时我们才知道：为了看懂文章，除了知道“字”和“词”的意义以外，还要掌握对句子加以分析的能力。由于我们在能够记事的年龄就已经大致掌握了分析中文句子的能力，因而听自己的母语时并不自觉有这一过程。只是在学习另外一门语法不同的语言时，才感觉到语法的重要。就好像人们的心脏和肺部虽然一直在不停地搏动和呼吸，而人们平时并不自觉，只有到了生病导致心慌或者呼吸困难时才感觉到这一重要而不可缺少的生命过程一样。

待到参加工作，野心勃勃地想让计算机也能理解自然语言的时候，我们一开始也是这样想的：只要在计算机中装备电子词典，编写出指导计算机分析句法的程序，计算机就大致上能理解并进一步翻译用自然语言写出的文章了。

然而几十年来的实践告诉我们，这种想法错了。于是我们不能不怀疑，我们是不是还遗漏了一项对理解自然语言十分重要的机制？

答案是肯定的：为了理解自然语言，还需要些别的东西，这就是语言接受者头脑中的“知识”。自然语言理解最重要的本质就是外来符号信息在信息接受者已有知识上的嫁接过程。

自然语言理解是外来符号信息在信息接受者已有知识上的嫁接过程

如果在书上读到 “湖广熟，天下足” 这句话，要理解它，必须有以下知识：

l 地理知识：知道“湖广”是中国南方省份的名字

l 经济知识：知道“湖广”是中国南方盛产稻米的地区

l 人文科学知识：知道在中国的历史上，天灾人祸不断。保证天下的老百姓有饭吃，一直是历代朝廷的头等大事

把这些知识都融合到这句话里面去，才能知道它的意思是：“湖南，湖北，广东地区的稻米一旦成熟，天下老百姓的粮食就够吃了”。

有人会争议道：这个例子使用的是文言文，如果是普通人讲的“口语”，就不会有这种问题。但此事不尽然。“他是吃股票的。”这句话小孩大约听不懂，然而一般市民都听得懂。因为后者知道现在有许多人在“炒股”，而“吃”有“靠什么为生”的意思。

当然还可以争议道：这个例子使用的是不正规的市井语言，如果是既可以口头说，又可以印到正规出版物上的 “白话式书面语言”，就不会有这种问题。的确，用“白话”书写的自然语言，大大减轻了阅读者调用自己头脑中知识的负担。然而仍旧有相当数量的句子需要读者或听者调用相关的知识才能加以理解。看见“鲁迅回忆录”这几个字，你必须知道鲁迅虽然写了很多杂文，但却没有像外国总统或其他名人那样写过自传体的“回忆录”的事实，才能知道这五个字是其他人回忆鲁迅而写出的“关于鲁迅的回忆录”。对于脍炙人口的例句：“鸡不吃了”，你必须运用对周围环境的知识才能正确理解这句话的含义。如果是在收音机的广播剧里听到这句话，或者在小说中读到这句话，那就要运用先前听到的故事情节来判断当时的情景是在饭桌上还是养鸡场里。

事情还不止于此，语言符号与知识之间的“嫁接”过程还常常引起对外来符号信息的自动矫正或扭曲现象。

理解过程中的矫正和扭曲

人工智能领域的专家曾经遇到一个问题：在向计算机中的知识库中添加“新知识”时，如果新知识与知识库中已有知识相矛盾，应该如何处理才能保证“知识库完整性”？

一种办法是认为新来的知识是如此权威，一定是正确的。因此只有将知识库中已有知识加以适当改造，使之与新来的知识相容。这种做法叫做“知识顺应（Knowledge accomodate）”。

另一种办法是认为知识库中已有知识是正确的。因此只接纳新知识中的正确部分，或者将新知识加以适当改造，使之与库中已有知识相容。这种做法叫做“知识同化（Knowledge Assimilation）”。

人在接收语言符号信息时，显然也有类似过程。当外来信息与己身的知识或信念发生矛盾时，人们会觉得非常不安乃至觉得痛苦。由于人们总是偏向于认为自己头脑中已有的知识是通过长期的努力和生活经验积累下来的，轻易不会放弃。因此“知识顺应” 这种痛苦的思想改造过程只有在特殊情况下才会出现。一般在聆听或阅读自然语言携带来的信息时，大量出现的是“知识同化”现象，也就是说，我们总是设法把外来的语言信息尽可能以与自己已有知识和信念相容的方式加以“理解”。下面举两个例子：

例1：

我们都注意到，听者能够根据自己的生活常识，把说话者所说语句中的不合理处纠正过来。当我们听到有人说：“上午打了一场篮球，累得够呛。洗了一个澡，睡了一小时午觉，才恢复了疲劳”。我们根据生活常识知道，“洗了一个澡，睡了一小时午觉”之后，一定是精神抖擞。因此立即把“恢复了疲劳”矫正为“恢复from疲劳”。反之，当我们听到某人“经过疗养恢复健康”时，立即理解为：“恢复to健康”。[可见，汉语除了“缺乏形态”之外，在用来表示词与词之间的关系的介词的使用上，也是比较松弛的。需要读者（听者）依据他的知识来猜测。]

例2：

每当一个新词（例如“面向对象”，“知识经济”，“信息时代”）出现并流行开来，不同领域的专家对同一个名词术语往往有不同的理解，对他所感兴趣的事物全都贴上流行的标签，从而在交流时造成种种障碍。这种全世界普遍出现的现象生动地说明了不同知识背景和生活经历的人对同一语言符号在理解过程中进行了不同的改造。

例3：

当然也有向误解、曲解方向扭曲的例子。林彪摔死在蒙古温都尔汗以后，各地传达了中央下发的文件。随后在成都市井地区的不识字的老妪之间就流传着如下的故事：

林彪带了一群（叶群）老婆，坐了三个撮箕（三叉戟）飞跑了，结果掉到井里（蒙古境内），捞起来还是温都都的（温都尔汗）。

这样的误解显然和听者十分熟悉旧戏文里有关古代皇帝宫闱轶事和《封神榜》之类的神话故事，而从来没有听说过“三叉戟”“温都尔汗”这些时髦名词有关。

由此可见，人们在理解他人的言语时，时常揉进新知识与已有知识之间的“嫁接、改造”过程。这一点无论是词语义项的判断还是语法方面的分析过程都没有包含进去的。这种新知识与已有知识之间的“嫁接、改造”过程往往带有“猜谜”的性质。我以为，逢年过节时我们常做的“猜谜”游戏，乃是日常生活中语言理解过程的这种特性的夸张与变形。

嫁接过程中知识的动态变化

如果英汉翻译软件在一篇故事中读到以下一段话：

“1935年和我在重庆预见张先生。他告诉我一件事....”

计算机从第一句话得知了故事发生的时间，因此第二句话中的“告诉”必须使用过去式。为了做到这一点，计算机必须把第一句话带来的新知识保存在堆栈中与此故事有关的帧里，直到读完故事之后才可以撤销这一记忆。

理解的深度

对同样一段话，不同的人理解的结果和深度不一样。其原因显然就是由于各人的知识量与结构不同，从而与各人头脑中已有知识结合的程度大不一样。

丈夫气气喘嘘嘘地从外面回来，对家里人说他跟着公共汽车跑了两站路，节省了五毛钱。妻子顶了一句：

“下次你跟着出租车跑回来，还可以省十元钱。”

汉语句法分析程序可以对这句话进行分词、确定词性、划分短句、画出句法树。但是对这句话的语义一无所知。这种理解只停留在语法分析的层面上。

这个家庭的五岁的儿子能够理解大人所说的话的字面上的行为方面的含义。认为他妈妈就是要他爸爸下次跟着出租车跑回来。这种理解停留在字面本身的语义层次上。

有一定文化修养和社会知识的成人，才听得出这句话的幽默含义和“弦外之音”。

报上登载的各国首脑互访的消息对普通平民来说，只是意味着他们飞来飞去互相表示友好而已。但是对于熟悉世界局势和内幕新闻的外交界的人士，这种消息蕴含着丰富的内涵和对今后国际形势发展的预示。

可见，理解的深度实际上是对“外来语言符号信息与信息接受者所拥有的知识相结合的深度与广度的一种衡量”。由此产生了一个问题，对于某种应用目的（例如机器翻译）来说，需要的理解的深度是多少呢？

翻译和理解的关系

文字翻译历来有“硬译”和“意译”之争。“硬译”派强调多保留原文形式方面的东西，而把“与信息接受者的知识相结合的过程”较多地留给译文读者自己去完成。这种做法显然会给译文的读者留下沉重的负担，好象去咀嚼一些很坚硬难以消化的食物。但“硬译”可以避免一些由于译者水平不够只好胡猜乱懵而产生的无法恢复的信息扭曲。“意译”派强调译文的“顺”，但是如果翻译者知识水平不够，就会传出译文读者无法纠正的错误信息。

翻译者是否只有在对原文内容透彻理解的基础之后才能进行翻译？对这一问题的回答要看情况而定。

对于形式化的人工语言，翻译者只需辨别原文中形式上的各种结构，然后进行词语和结构的替换就可以完成翻译工作，而且不丢失语义。“C语言编译器”，“从Fortran语言到C语言的转换工具程序”，都是明显的例子。那么，C编译器在作这件事的时候是否达到了理解的层次呢？恐怕不少人认为，compiler 只是一种翻译机械，因为它决不可能获得程序员在阅读C源程序时对其内容的理解（每一行语句、每一个子程序有什么功能等等）。但如果使用拟人的说法，把C编译器看成是一个知识面非常狭窄的“人”，他所拥有的知识只是C语言的词法和句法知识。它在扫描源程序的过程中，会有如下的感觉：“哈哈！这一串字符是一个 if….else…then… 语句。哦！这一串字符很像一个 function 的头部，…".如此等等，这就是来自源程序的符号信息与C编译器内部知识的结合过程。因此，可以认为C编译器对源程序能够进行某种程度的理解，只不过层次较浅（限于句法层次，达不到功能和用途的层次）而已。

对于自然语言，有一些句子，特别是比较简单、完整和规范化（well-formed）、的句子，似乎也可以简单地用“词语替换”、然后适当调整语序的办法来完成翻译过程。当然，也有相当一部分句子需要听（读）者用自己的知识来加以补充之后才能形成语义比较完整的语句。这时候，翻译者的知识水平就显得十分重要了。

试设想有一位以中文为母语的计算机专家C和另一位以英文为母语的计算机专家通过翻译I聊天。翻译I是英语文学系毕业，对计算机软件一无所知，就出现可以下场景

。

例1：

E说：“There are about 300 application programming interface functions in this system.”

I 把它逐字翻译成：“这一系统里含有300个左右的应用编程接口函数。”

尽管I根本不知道“应用编程接口”是什么东西，但是C却能完全领悟E的意思。这是因为E和C的头脑中都有这一词汇并知晓它在软件中的含义。
这个例子说明：对于双方共享的知识，词语只需起“调用对方头脑中相应知识的作用”，翻译者可以只具有浅层的理解。

例2：

会谈过程中，谈到对Smith先生的意见。C说：“Smith先生是个二百五。”

I如果把它逐字翻译成：“Mr. Smith is two hundred and fifty.”E就会莫名其妙。这是因为C头脑中有如下常识：“二百五”是一个数词，但如果把它和某个人物联系起来，它就具有“傻冒、浅薄”的含义。然而E的头脑中完全没有这样的知识。因此，为了正确地完成翻译任务，I 一方面必须也有这一社会常识，另一方面，又知道在英语中，“two hundred and fifty”并无这一含义，从而改用 “stupid person”或者“smatterer”的字眼。

这个例子说明：对于双方非共享的知识，翻译者需要具有深层的对语句内容的理解，并加以适当处理，向对方传递某种知识，才能完成翻译任务。

自然语言翻译软件的正确率一直停留在60％左右的原因似乎就在于：对后一类需要理解其内容以便向对方传递某种知识才能完成翻译任务的语句缺乏有效的处理手段。原因很明显：计算机缺乏知识。更具体地说，计算机缺乏以下两件东西：

(1) 必要的社会常识和专业领域知识

(2) 运用这些知识来理解、补充、校正外来语言符号信息的能力。

我觉得，自然语言翻译与人工语言翻译之间的最大区别就在这里。

自然语言处理软件的功能边界和考核问题

任何工程都需要消耗资源，而资源总是有限度的。另一方面，从语言学的角度观察，自然语言本身就是一个没有边界的开放系统。若涉及到知识，“吾生有涯，而知也无涯”，就更没有边际了。即便是作为万物之灵的人，如果撇开群体，只讨论具体的一个一个的人，他的知识面和他所能阅读的范围也是十分有限的。因此对于自然语言信息处理软件，更需要以合理的方式加以分级，并提出不同的要求。

以通用机器翻译软件为例，我们不妨设计三种用来评估翻译软件的题库。

l 题库A：包含那些只需要做到对词语、句法分析即可完成翻译工作的语句

l 题库B：包含那些需要对语句或语句中某一部分的内容有所理解才能完成翻译工作的语句。为此要求计算机装备有一定自然与社会科学常识以及运用这些常识来理解语句中有关内容的能力。由于“常识”也是无边际的，因此可以设计若干分题库：
… 题库B1：学龄前常识水平
… 题库B2：小学毕业生常识水平
… 题库B3：初中毕业生常识水平
… 题库B4：高中毕业生常识水平

l 题库C：包含若干前后有联系的语句群，以考核翻译软件动态增删知识的能力。

然而，什么是“学龄前常识水平”，“ 小学毕业生常识水平”，…呢？吁，这又是一项有待开展的基础研究工作，并已超出本文的范围，在此姑且置之弗论吧。然而在此之前，我们总得想一个临时性的解决办法。我认为，在面向自然语言理解的常识库未能实现之前，通过人机交互对原始自然语言文本进行改写或者添加注解是当前实现计算机自然语言理解的具有现实性的途径。关于这一想法的实现拟在另一文中讨论。

面向计算机的汉语标注和改写

为了帮助因知识水平不够而无法读懂某一类文章的人们，我们常用改写成平易浅显的文体，例如书店中常见的英语文学普及读物：《简爱（缩写本）》，《聊斋（白话本）》等。或者用添加注解的办法给他们补充知识：例如添加了许多注解的《唐诗三百首》《宋词选注》，《唐宋传奇》等等。

由于当前的计算机在知识水平方面远逊于人，为了让计算机来理解利用自然语言书写的文献，也可以采取同样的措施。如果写作者是在计算机上撰写文章，那么让计算机采取“我很笨，但我勤学好问，决不‘不懂装懂’”的态度，通过写作软件与作者的对话，让写作者适当地改写，或者实时地添加注解，形成加有标注的汉字流，就可以达到帮助计算机理解正文的目的。

例1：

写作者在计算机上写道：“她打了一件浅兰色的长袖毛衣。”

计算机从机内词典中查到“打”字有二十多个义项，拿不准该使用那一个，就列出一张清单让写作者选择。

写作者用鼠标点选“编织”。

计算机就加上一个标注成为〖她打（编织）了一件浅兰色的长袖毛衣。〗放在机器里供随后的处理使用。

例2：

写作者在计算机上写道：“湖广熟，天下足。”

计算机问：“湖广”是什么东西？

写作者答：就是“湖南、湖北、广东地区。”

计算机问：你的意思是“湖南、湖北、广东地区熟了”？

写作者觉得不对，补充道：“湖南、湖北、广东地区的稻米熟了”

如此下去…，直到双方都满意为止。

在计算机中装备知识的问题

综上所述，为了使计算机能够对自然语言信息加以处理，需要给计算机装备：

l 以电子词典。分词与句法分析程序为代表的语言知识

l 以社会生活常识、文化知识为代表的“常识”

l 如果要在某专业领域内使用，则还需要装备专门的“领域知识”

l 运用上述“知识”的能力。这种能力大约也需要以某种形式的知识－“运用知识的知识”－或称“元知识”

怎样在计算机中装备知识是一个极具有挑战性的问题。人工智能专家在各种专业领域知识的表达方面已经进行了许多工作，然而在“社会生活常识、文化知识”方面如何表达却似乎讨论不多。

在机器翻译领域，目前可以见到的知识装备形式有：

l 用来携载语言知识的电子词典。分词与句法分析程序。值得提出的是，如果扩大电子词典的边界，把“短语”也收罗进去，那么有许多原来需要利用生活常识加以处理的问题也可以通过查词典的方式加以解决。（见以下“模式识别与语法分析之间的界限”一节）。

l 用来处理各种特殊语法现象的大量“规则”。它们在某种程度上以混合的方式表达了一些语法知识和生活常识。然而如果这些规则是以不断补窟隆的方式产生的，就不会有很强的系统性，甚至出现自我矛盾的现象。

l 科学院声学所黄曾阳先生开创的“层次概念网络体系HNC”是我首次听闻的在语言理解方面认真开展的系统性的“常识”表达工作，而其“效应转移链”和“句类分析”则可能体现了运用上述“常识”的手段。我怀着很大的兴趣关注与期待这一工作可能带来的成果。

易理解性（可读性）问题－语言和文章的通顺、流畅性

和自然语言理解相关的一个问题是语言或文章的“易理解性”。“某某人的文章流畅或者生涩”的这类说法从语言的角度表明理解一次谈话或者一篇文章的难易程度。“流畅”或者“生涩”只是我们对主观上的感觉的粗略描述。语言学家们能不能从客观的角度探讨一下，语言或文章中是哪方面的因素或者性质会会影响“可读性”，从而造成我们的“流畅”或者“生涩”感觉呢？我想把自己的一些感觉列出如下，供有关专家参考：

l 由下向上捆绑时需要的回溯次数
听他人说话时，语气的停顿和声调的抑扬可以帮助我们大致划分句子的结构。然而在读别人的文章时，我们就要进行“把字组成词、把词合成短语、短语合成句或子句”的捆绑工作。进行这种捆绑工作时，我们是依据字与字、词与词之间的“亲和力”来判断的。由于捆绑的方式不止一种，在阅读长句、特别是翻译文章中的长句时，我们常常会发现第一次的尝试无法进行到底，不得不从头已另一种方式再试一次。这类回溯常常令人气馁。专业术语译名的不恰当选择常常带来这方面的困扰。最显著的例子之一是，软件中把 class 译为“类”。由于在与软件有关的文章中 class 的使用频率很高，而“类”字又可以和许多汉字有很强的亲和力，从而是人常常拿不准如何捆绑。例如遇到：
“这类声明......”,
这种句型时, 您就拿不准
它是指： "这个 /类/ 声明了......" (This class declares ....),
还是指： "这一类的/声明/ ......." (This kind of declaration .....),
还是指： "这一/类声明/ ........." (This declaration of class ....).

l 翻译文章难读的原因
不同的自然语言有不同的词法和句法规则，因而对不同的句式和句型会有不同的适应性。以英语为例：一方面英语句子中的词语之间有间隔、免除了“分词”之苦。另一方面由于词语有形态变化，对某一词语的较长的修饰成分可以放在被修饰词语的后面（也就是说短语或句子的中心词位置靠前），因即使写出较长的句子，也能让读者比较容易地捕捉住句子的中心词及主要（重点）成分。

汉语在以上几方面和英语相反，因而不适于书写太长的句子。英语特别是日语中的句子可以长到好几行。如果保持原来的句式，翻译成中文之后，动词名词不分，主动被动混淆，时态和其他词语形态变化等附属信息统统丢失，句子中心词的位置被推到后面，读者的“猜谜”负担就大大地增加了，有时甚至会造成“已经知道这个句子的意思的人能够看懂，而正需要从其中获取知识的人则怎么也读不通”的结果。我国理工科博士生的论文中，经常出现这种现象。因为他们多半读了大量的外文资料，用汉语来表达时，保持原来的句式当然省事，而且他们自己读起来也觉得很流畅易懂。因为读自己的文章只不过是调动他们头脑中早已存有的相关的知识而已，即使句子再浓缩一些也不影响理解过程。

这并不是说汉语就不如英语，而是说各有所长与所短。汉语最大的优点是“简洁”。我们的祖宗历来崇尚文字的“凝练”。话说得越精炼，越容易记得住，越能流传千古。汉语的特点使得它宜于用来书写短句。英语中的一个长句应该对应汉语中的一个句群。（这意味着，汉语中，句间的耦合程度要比英语大。很可能，汉语中的一个句群才相当于英语中的 Sentence 的概念。）除此之外，汉语虽然有分词的麻烦，但是有一些与其他汉字结合能力很弱的小字眼（例如虚词,方向词）可以用来： [我想不出这些”小字眼“应该叫什么词，暂时胡编乱造一下]
―― 作为“分隔符”或“锚点”使得读者一眼就能看出句子成分之间的边界。
―― 使具有多种词性的词语（例如“记录”）在句中的词性鲜明化。
文章写得流畅的人多半善于使用这种“小字眼”使得读者在阅读时“捆绑”过很少需要回溯，或者用不着来回地去猜测某个词是动词还是名词。反过来，省略掉这些“小字眼”往往增加了阅读的困难。例如：最近看到的一篇博士生论文中有这样一句话：

该技术利用项目文档中记录的应用系统的语境信息分类和组织框架等可复用资源。

第一次读起来有点儿费劲。如果加上几个“小字眼”：

该技术利用了项目文档中所记录的应用系统的语境信息来分类和组织框架等可复用资源。

就容易理解得多。

－加“了”不仅显示地表明了“利用”是一个动词，而且说明了“过去时态”。

－初次看到原句中“文档中记录”这一字符串，很容易理解为“某某文档中的记录”。把“记录的”改成“所记录的”显示地表明了“记录”是一个动词。

当然，把“分类”当作及物动词来使用依然不大符合汉语的习惯，因此最好进一步改为：

该技术利用了项目文档中所记录的应用系统的语境信息对框架等可复用资源进行分类和组织。

l 可预测性
良好的造句风格能够使读者在阅读的中途对随后的字句怀抱着某种预期。

下面一句话：

程序文件应明确受权批准设计更改的人员。

是对英文句子“Procedure should identify the personnel authorized to approve design changes.”的直译。其中, “明确”,“受权”,“批准”,“设计”,“更改”五个动词紧密并列, 如果不是预先已经看懂（猜懂）过这个句子, 多半叫人不知所云。然而,读原文却没有这个问题。对于这种情况, 翻译者应该想法去掉由于汉语缺乏形态变化而带来的模糊性。例如, 把它译成:

程序文件应明确哪些人员才有权批准 “设计更改”。

当读者读到“哪些人员才”时，他就会自然预期后面应该紧接着什么样的信息。类似地，以下句子：

TickIT审核员的一般指南

是对“Guideline for TickIT Auditor” 的直译，给人十分模糊的感觉。它可以被理解为“审核员拥有的的一般指南”，也可以理解为“供审核员使用的一般指南”。这是由于原文中的“for”没有被译出的缘故。若把它套进“供…使用的…" 句式中：

供TickIT审核员使用的一般指南

读来便顺畅得多。

如上所述，小字眼（例如：而，以致于，从而，…）通常具有比较孤立的性质，和其他汉字没有什么亲和力。它们的使用一方面减少了句法分析（或者说自下而上的捆绑过程）中的组合歧义出现的可能性，另一方面又有明确词性或暗示性的预期作用。因此虚词的掌握与灵活使用是提高汉语文章可读性的重要手段。目前专业性的翻译资料的可读性差，重要原因之一是译者未能充分调用虚词手段来弥补汉语“不分词、无形态”的缺陷。不知道现在中学语文老师是否可以多总结并传授一些这方面的知识？

模式识别与语法分析之间的界限

认识客观事物的方法有两种。对于比较简单，一下子就能把握的对象，往往采用模式识别办法。例如，识别一个图标，认出一个汉字、一个双字词。对于内部结构比较复杂的事物，例如一个长句、一整篇文章，我们的大脑一下子把握不住，就只好采用分析的办法来各个击破：先辨别出内部的结构，然后一一识别结构中的每一部件，最后再将它们综合起来，形成一个总的印象。显然，只要有可能，我们总是优先使用前一种方法，以获得高的效率。

具有不同阅读能力的人，两者的分界是不一样的。刚识字的孩子，要用手指点着方块字一个一个地念。经常阅读的人显然可以一眼把握更多的字句。读书破万卷的人在读他本行的书籍时，也许真能一目十行。中学老师教我们“快读”的办法是：不要从左到右逐行扫描，而是把眼光放在每一行的中部，从上向下扫描。对于套句连篇、了无新意的大块文章，很多人都是采取这种阅读方法，以珍惜生命。

那么，对计算机而言，这个分界划在哪里为好呢？我感觉目前的中文信息处理软件把这个界限定得似乎低了一点。当前的做法是：

l 在“字”的一级，我们通过OCR技术来识别，或者通过输入方法的使用把字的识别过程交给用户去作。

l 在“词”这一级，我们是通过分词算法与“查词典”的方式让机器来识别“词”的意义和属性。

l 对于短语或者更大一些的结构，则完全依赖分析方法。例如，有一篇文章在讨论《动名语义关系》时作如下分析和解释：

“吃食堂”表示动作和处所，

“吃快餐”表示动作和方式，

“吃公家”表示动作和对象，等等。

可是我还听到过“吃亚运会”，“吃利息”，“吃老本”，“吃官司”。上海方言里以“吃”打头的这类说法还有很多：“吃瘪（受压制）”，“吃生活（挨打）”，“吃排头（挨训斥）”等等。如果把这些字词都作为分析的对象，企图归纳出若干规则时，恐怕最终会陷进去无法自圆其说。

与人相比，计算机最不善于作分析，而更善于“博闻强记”。计算机中除了“词典”以外，为什么不能有"惯用语典"或者“短语典”？为什么不把上述难以用规则对其内部加以分析的短语收入“短语典”呢？这样作恐怕要灵活得多。我们在生活中听到别人说这类短语以及像“救火”，“恢复疲劳”，“爱听不听”时，似乎从来不去作深入短语内部的语法和语义分析，而是从大脑中直接调出他的意义。

类似地，除了短语，对于某些常用的句型，像“兹定于...”，“如果...否则...”，“只要...，那就...”，以及某些八股文章，是不是可以收入“带参数的句典”？可以认为，基于实例的机器翻译软件是采取这种思想方法(paradigm)的典型例子。

结论

l 语言理解是外来语言符号信息在信息接受者已有知识上的嫁接过程，其中包含了由于“知识同化”而带来的矫正、补充和扭曲现象。

l 理解过程有深浅之分。这取决于语言符号接受者的知识水准与结构。对于一个用来处理语言信息的软件产品，所需的理解深度视应用目的而定。

对于人工定义的形式化语言，理解的深度可以限于词法与句法分析层次。或者说，我们在定义这样的语言时，就是要求做到这一点。
对于自然语言，由于我们在生活中使用解自己的母语的时候，总是假定对方具有一定知识水平，从而习惯于以调动对方已有知识的方式来说话和写文章，以求得语言的简洁。因此，如果要求计算机来处理这样的语言信息，计算机也必须拥有相应水准的知识，并以某种适当的方式与外来的语言符号相结合，才能达到我们的要求。

l 面向自然语言理解的常识库的规划和设计应该提到日程上来。

在面向自然语言理解的常识库未能实现之前，通过人机交互对原始自然语言文本进行改写或者添加注解是当前实现计算机自然语言理解的具有现实性的途径。

你可能感兴趣的:(1.,搜索引擎理论)

Three.js学习笔记(一) hzxwonder three.js webgl three.js
Three.js学习笔记(一)1.四大组建1.场景任何要显示的东西，放在场景的任何位置一个页面可以有多个场景实现方式THREE.Scene=function()2.相机浏览器中所能看到的东西，就是由相机拍摄出来。即将相机能看到的内容显示在浏览器画面上分类1.透视相机近大远小+灭点2.正投影相机远处和近处一样大，也称正交相机参数THREE.PerspectiveCamera=function(fov
QT笔记——实现窗体自适应 lion_cxq QT qt
我们想要所有的控件都随窗口的大小改变而改变。第一种方法：思路：1.我们需要获取到所有的控件m_Widget=this->findChildren(QString(),Qt::FindDirectChildrenOnly);2.我们需要知道所有控件的位置以及大小3.重写resizeEvent事件protected:voidresizeEvent(QResizeEvent*event);4.获取主窗口
Vite 与 Pinia 的实战应用码力全開 vue.js 前端 javascript 开发语言 html Pina
目录Vue极速入门第14节：Vue开发工具与生态优化：Vite与Pinia的实战应用引言1.使用Vite提升开发体验：快速启动与热更新1.1什么是Vite？1.2Vite的安装与配置Vite目录结构2.集成Pinia状态管理：轻量级替代Vuex2.1什么是Pinia？2.2Pinia的安装与配置Pina目录结构3.实战案例：设计一个计数器应用3.1需求分析3.2实现步骤3.2.1使用Vite创建项
基于ROS的相机和激光雷达离线自动标定 AUBarryRobot 传感器标定数码相机
目录前言理论背景相机和激光雷达标定原理实现思路Reference前言因为本人实际工作中在做视觉和雷达的相关融合工作，所以相机和雷达的传感器之间的位姿RT矩阵则是要首先进行解决的。标定对大部分人来说都很头疼，抵触，在网上进行调研也没有什么太好的方法，或者别人分享的项目和自己的相差很大，根本不适用或者不好复现。而且可能全程比较繁琐，需要手动进行各种操作，运行一大堆程序。我的联合标定程序，只需要采集对应
【ArkUI】对于Flex布局与基础组件&&声明式UI-组件封装&&父子组件相互绑定的运用一键难忘 harmonyos 华为 OpenHarmony 对于Flex布局与基础组件声明式UI-组件封装
文章目录一.Flex布局与基础组件二.声明式UI-组件封装和父对子组件传值2.1组件封装2.2父对子组件传值三.父子组件相互绑定3.1远程模拟器3.2Link装饰器一.Flex布局与基础组件Flex是FlexibleBox的缩写，意为”弹性布局”，用来为盒状模型提供最大的灵活性。任何一个容器都可以指定为Flex布局。1.先规定弹性布局的大小，设置为百分之百。.width("100%").heigh
CPU中断机制万物琴弦光锥之外操作系统操作系统
CPU的中断机制是操作系统和硬件之间通信的重要方式，用于处理外部事件和内部任务。中断可以分为硬中断（HardwareInterrupts）和软中断（SoftwareInterrupts）。以下是详细的讲解：1.中断的基本概念定义中断：是一种异步事件，它会打断当前正在执行的程序或指令流，使CPU转而去处理特定的中断服务程序（InterruptServiceRoutine,ISR），处理完毕后再返回原
Windows系统加固泷羽Sec-pp windows 安全
一、身份鉴别1.密码安全策略位置：开始—>管理工具—>本地安全策略—>账户策略—>密码策略。加固设置：（1）开启密码复杂度:使用数字、大小写字母、特殊符号等（2）密码长度最小值为8个字符（3）密码最短使用期限30天（4）密码最长使用期限90天（5）强制密码历史5个2.账户锁定策略位置：开始—>管理工具—>本地安全策略—>账户策略—>账号锁定策略。加固设置：（1）账户锁定时间30分钟（2）账户锁定阈
游戏AI 技术方案部分解析 |用 AI 技术，练就 FPS 游戏中的刚枪王！游戏智眼游戏 AI 人工智能
一、整体方案详情FPS作为重度竞技游戏品类，存在显著的新手留存问题及高端匹配困难问题，通过引入AI陪玩智能体来针对性解决FPS品类通用痛点。在这个过程中，我们用到了强化学习，让AI通过自我在游戏中学习探索，最终成为超越或比肩人类顶尖玩家水平的强大AI。1.针对新手留存问题通过引入不同水平的陪玩智能体+智能投放来为新手玩家设计好前20局甚至前50局的对战，为玩家制造一个平滑的新手过渡期，帮手玩家更顺
基于知识图谱的用户画像构建与应用 cooldream2009 AI技术知识图谱知识图谱人工智能
目录前言1.知识图谱在用户画像中的作用1.1数据整合与清洗1.2多维关系挖掘1.3动态更新能力1.4可解释性2.用户画像构建过程中的知识图谱应用2.1数据采集2.2知识图谱构建2.2.1实体节点构建2.2.2关系建模2.3用户画像生成2.3.1静态特征2.3.2动态特征2.3.3关系网络3.基于知识图谱的用户画像应用场景3.1精准营销3.2内容推荐3.3用户需求预测3.4风险控制结语前言随着大数据
删除Docker出现: device or resource busy错误 alxe_made Docker device or resource busy Docker
最近在折腾Docker,然后需要删除Docker然后出现deviceorresourcebusy错误，也是很麻烦。1.安装Docker主要是参考阿里云的Docker安装,然后配置镜像加速器2.问题出现，删除Docker.先是参考这篇帖子Ubuntu彻底卸载Docker,然后出现Deviceorresourcebusy错误。如果执行sudoservicedockerstart命令，出现错误：star
【力扣Hot 100】普通数组1 SharkWeek. leetcode 算法数据结构
1.最大子数组和给你一个整数数组nums，请你找出一个具有最大和的连续子数组（子数组最少包含一个元素），返回其最大和。子数组是数组中的一个连续部分。示例1：输入：nums=[-2,1,-3,4,-1,2,1,-5,4]输出：6解释：连续子数组 [4,-1,2,1]的和最大，为 6。示例2：输入：nums=[1]输出：1示例3：输入：nums=[5,4,-1,7,8]输出：23提示：1&nums){
【力扣Hot 100】链表1 SharkWeek. leetcode 链表算法
1.相交链表给你两个单链表的头节点headA和headB，请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点，返回null。图示两个链表在节点c1开始相交**：**!https://assets.leetcode-cn.com/aliyun-lc-upload/uploads/2018/12/14/160_statement.png题目数据保证整个链式结构中不存在环。注意，函数返回
使用YOLOv8训练一个无人机（UAV）检测模型，深度学习目标检测中_并开发一个完整的系统 yolov8来训练无人机数据集并检测无人机 QQ_767172261 无人及视角 YOLO 无人机深度学习
使用YOLOv8训练一个无人机（UAV）检测模型，深度学习目标检测中_并开发一个完整的系统yolov8来训练无人机数据集并检测无人机无人机数据集，yolo格式种类为uav，一共近5w张图片，如何用yolov8代码训练无人机检测数据集文章目录以下文章及内容仅供参考。1.环境部署2.数据预处理数据集准备划分数据集3.模型定义4.训练模型5.评估模型6.结果分析与可视化7.集成与部署PyQt6GUI(`
程序代码篇---python回调函数&异步编程 Ronin-Lotus 程序代码篇 python 前端开发语言学习程序人生回调函数异步编程
文章目录前言第一部分：Python的回调函数1.基本概念2.如何实现定义回调函数：定义主函数：例子3.回调函数的应用场景事件处理异步编程库和框架注意事项调用时机错误处理闭包第二部分：async和await关键字1.异步编程的概念2.async定义用法特性3.await定义用法特性4.异步编程的例子5.注意事项总结前言以上就是今天要讲的内容，本文简单介绍了Python中的回调函数以及异步编程。第一部
使用 Python 开发一个 AI Agent 自媒体助手示例程序员陆通 python 人工智能媒体
1.项目背景随着自媒体行业的快速发展，内容创作者需要处理大量重复性任务，例如撰写文章、生成标题、优化关键词、分析数据等。通过开发一个AIAgent自媒体助手，可以帮助创作者高效完成这些任务，节省时间并提升内容质量。本文将展示如何使用Python构建一个简单的AIAgent自媒体助手，支持以下功能：自动生成文章标题。根据关键词生成文章段落。分析文章的关键词密度。2.技术架构AIAgent自媒体助手的
微信小程序获取用户位置李十岁a 微信小程序小程序
文章目录概要整体流程小结概要使用uniapp实现微信小程序获取用户位置信息整体流程例如：1.首先进入微信公众平台-开发-开发管理-接口设置-点击开通-wx.getLocation（注意：申请接口时填写详细说明，上传图片，可查看示例进行填写，不然可能需要申请好几遍亲测）2.在uniapp-page.json中小程序配置"mp-weixin"里添加以下内容或者在manifest.json配置文件中勾选
C++中的链表基础暴躁的白菜 c++链表开发语言
C++中的链表基础1.链表节点structListNode{intval;//这个成员变量存储节点的值，它的类型是整数。ListNode*next;//这是一个指针，指向下一个ListNode类型的节点，用于连接链表中的下一个元素ListNode():val(0),next(nullptr){}//这是一个无参构造函数，当没有提供初始值时，它会创建一个值为0，next指针为nullptr的节点。L
开启hyper-v，如何开启hyper-v？ hyper-v
信息爆炸的时代，海量的数据、事务等犹如堆积如山的宝藏等待挖掘，而批量管理则是开启这座宝藏的高效钥匙。今天小编将讲解如何开启hyper-v。要在Windows7中开启hyper-v，您可以按照以下步骤操作：1.检查CPU虚拟化支持：确保您的CPU支持虚拟化技术（IntelVT-x或AMD-V）。打开“命令提示符”（以管理员身份运行），输入systeminfo并按Enter，查看“hyper-v要求”
Elasticsearch聚合分析：未来发展趋势 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1大数据时代的分析需求随着互联网、物联网、移动互联网等技术的快速发展，全球数据量呈现爆炸式增长，我们正步入一个前所未有的大数据时代。海量数据的背后蕴藏着巨大的商业价值，如何高效地存储、管理、分析和挖掘这些数据，成为企业和组织面临的重大挑战。1.2Elasticsearch：分布式搜索和分析引擎Elasticsearch作为一个开源的分布式搜索和分析引擎，凭借其高性能、可扩展性和易用
C++的list-map链表与映射表芯动大师 C++语法嵌入式开发应用案例 c++list 链表
C++list-map链表与映射表的简单使用，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值。list链表链表是由节点之间通过指针连接而成的链式结构存储结构体，对于链表，C++标准库中已经提供了封装好的链表了。require:#include //1.包含头文件usingnamespacestd; //2.打开标准命名空间定义链表，并在首、尾添加、删除元素listlst
矩阵可逆的充要条件及证明吴天德少侠线性代数
1.定理设AAA为nnn阶矩阵，则如下命题等价AAA是可逆的AX=0AX=0AX=0只有0解AAA与III行等价AAA可表示为有限个初等矩阵的乘积2.证明2.1证明:1→21\rightarrow21→2已知AAA可逆，证明AX=0AX=0AX=0只有0解。证明：∵A\because\A∵A可逆∴A−1\therefore\A^-1∴A−1存在⇒A−1AX=A−10\Rightarrow\A^{-
【无标题】海尔AI英语面试 Gui林面试职场和发展
1.自我介绍Goodmorning.IamdelightedtohavethisEnglishinterview.Mynameisfuguilin.IgraduatedfromCDUTwithadegreeinInformationengineering.Duringmyuniversityyears,Ihavelaidasolidfoundationinmyprofessionalknowled
网页性能优化之懒加载与预加载：概念、原理、实现及对比不在·· javascript 前端
1.什么是懒加载？懒加载也就是延迟加载。当访问一个页面的时候，先把img元素或是其他元素的背景图片路径替换成一张大小为1*1px图片的路径（这样就只需请求一次，俗称占位图），只有当图片出现在浏览器的可视区域内时，才设置图片正真的路径，让图片显示出来。这就是图片懒加载。2.为什么要使用懒加载？很多页面，内容很丰富，页面很长，图片较多。比如说各种商城页面。这些页面图片数量多，而且比较大，少说百来K，多
初学Guns only空格笔记 java 开发语言
大道至简系列目标：系统架构师系列课程课程：大道至简之Guns框架介绍-慕课网1、系统高可用，包括：负载均衡、限流测试、分布式事务、分布式Session、压力测试等等。2、系统高并发，包括：缓存应用、HTTP缓存、异步高并发处理、JVM的优化、队列应用、动静分离等等。构建应用系统：框架guns，快速构建应用系统，Guns基本概念1.快速构建后台管理系统的开源框架2.Guns默认提高诸多业务系统的基本
C++实现链表洗艾斯迪恩重度依赖 c++链表
1.单向静态链表constintN=10000;structnode{intid;intdata;intnextid;}nodes[N];nodes[0].nextid=1;//为next指针赋初值for(inti=1;i//定义链表listnode;//为链表赋值for(inti=1;i::iteratorit=node.begin();while(node.size()>1){it++;if(
【AirSim+Python】无人机简单API控制-Python代码退堂鼓选手⑥ 无人机 python
1.无人机起飞/下降importairsim#与airsim建立连接client=airsim.MultirotorClient()client.confirmConnection()#确定是否要用API控制client.enableApiControl(True)#解锁无人机转起来client.armDisarm(True)#join()等任务结束再进行下个任务#起飞client.takeoff
代码随想录 Day 11 | 【第五章栈与队列】150.逆波兰表达式求值、239.滑动窗口最大值、347.前 K 个高频元素、总结 Accept17 java 开发语言
一、150.逆波兰表达式求值本题不难，但第一次做的话，会很难想到，所以先看视频，了解思路再去做题题目链接/文章讲解/视频讲解：代码随想录1.看完代码随想录的想法（1）首先需要充分理解什么是逆波兰表达式，相当于树中的后缀表达式，与平时使用的中序表达式并不相同。定义一个初始化的空栈，然后去遍历输入的逆波兰表达式，遇到数字就向栈中添加数字元素，遇到运算符就取出栈顶的两个数字进行运算，再存放进栈中。直到最
分解质因数，求最大公约数和最小公倍数 2401_86161528 c++linux
3个c++程序分解质因数，求最大公约数和最小公倍数，方便数学计算1.分解质因数##includeusingnamespacestd;intmain(){while(1){longlongx,c=0,count=2;cout>x;cout=2){while((c!=0||countusingnamespacestd;longlonglcm(longlongx,longlongy);intmain()
Windows电脑安装USB Redirector并实现内外网跨网USB共享通信访问春人. 春人闲谈 windows 电脑
文章目录前言1.安装下载软件1.1内网安装使用USBRedirector1.2下载安装cpolar内网穿透2.完成USBRedirector服务端和客户端映射连接3.设置固定的公网地址前言我们每天都在与各种智能设备打交道，从手机到电脑，再到各种外设，它们已经成为了生活中不可或缺的一部分。但你有没有遇到过这样的烦恼：明明有一个重要的文件存储在U盘里，却因为不在身边而无法访问？或者你的打印机只能连接一
jira.issueviews yaoshengting jira jira
jira.issueviews是JIRA提供的一种功能，用于以多种格式（如Excel、XML、RSS、Word等）导出查询结果或单个Issue的详细信息。这一功能特别适用于JIRAServer和JIRADataCenter环境，方便用户将数据导出并进一步分析或分享。以下是对jira.issueviews的详细介绍：1.功能概述jira.issueviews提供了多种数据导出格式，用户可以通过特定的
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23