达观数据：综述中英文自然语言处理的异和同

BOUT

关于作者

陈运文：达观数据创始人，复旦大学计算机博士，科技部“万人计划”专家，国际计算机学会（ACM）、电子电器工程师学会（IEEE）、中国计算机学会（CCF）、中国人工智能学会（CAAI）高级会员；第九届上海青年科技英才。在人工智能领域拥有丰富研究成果，是复旦大学、上海财经大学聘任的校外研究生导师，在IEEE Transactions、SIGKDD等国际顶级学术期刊和会议上发表数十篇高水平科研成果论文，译有人工智能经典著作《智能Web 算法》（第2 版），并参与撰写《数据实践之美》等论著；曾多次摘取ACM KDD CUP、CIKM、EMI Hackathon等世界最顶尖的大数据竞赛的冠亚军荣誉。

人类经过漫长的历史发展，在世界各地形成了很多不同的语言分支，其中汉藏语系和印欧语系是使用人数最多的两支。英语是印欧语系的代表，而汉语则是汉藏语系的代表。中英文语言的差异十分鲜明，英语以表音（字音）构成，汉语以表义（字形）构成，印欧和汉藏两大语系有很大的区别。

尽管全世界语言多达5600种，但大部数人类使用的语言集中在图中的前15种（覆盖全球90%以上人群）。其中英语为母语和第二语的人数最多，近14亿人，是事实上的世界通用语。其次是汉语，约占世界人口的23%。英语和汉语相加的人数占世界总人数的近一半，因此处理中英文两种语言非常关键。

人工智能时代，让计算机自动化进行文字语义理解非常重要，广泛应用于社会的方方面面，而语言本身的复杂性又给计算机技术带来了很大的挑战，攻克文本语义对实现AI全面应用有至关重要的意义。相应的自然语言处理（Natural Language Processing，NLP）技术因而被称为是“人工智能皇冠上的明珠”。

中国和美国作为AI应用的两个世界大国，在各自语言的自动化处理方面有一些独特之处。接下来笔者对中文和英文语言特点的角度出发，结合自己的从业经验来归纳下两种语言下NLP的异同点。（达观数据陈运文）

一、中英文分词方式不同

分词是中英文NLP差异最广为人知的一点。我们都知道英文的单词之间天然存在空格来分隔，因此在进行英文文本处理时，可以非常容易的通过空格来切分单词。例如英文句子：

DataGrand is a Chinese company

可轻松切分为DataGrand / is / a / Chinese / company （文本用/表示词汇分隔符）。

中文在每句话中间是不存在分隔符的，而是由一串连续的汉字顺序连接构成了句子。现代汉语里表达意思的基本语素是词而不是字。例如“自然”，拆为“自”和“然”都不能单独表意，两个字合并组成的词才能有准确的意义，对应英文单词是Nature。因此在我们使用计算机技术对中文进行自动语义分析时，通常首要操作就是中文分词（Chinese Word Segmentation）。中文分词是指按人理解汉语的方式，将连续的汉字串切分为能单独表义的词汇。例如中文句子：

“达观数据是一家中国公司。”

让计算机来处理，第一步需要切分为“达观数据/是/一家/中国/公司”这样的词串的形式，然后再进行后续的理解和处理。

如何正确的根据语义完成中文切分是一个挑战性的任务，一旦切词发生失误，会导致后续的文本处理产生连锁问题，给正确理解语义带来障碍。为了快速准确的切分好中文，学术界迄今有超过50年的研究，提出了很多方法。中文切词常见方法里既有经典的机械切分法（如正向/逆向最大匹配，双向最大匹配等），也有效果更好一些的统计切分方法（如隐马尔可夫HMM，条件随机场CRF），以及近年来兴起的采用深度神经网络的RNN，LSTM等方法。

由于汉语语法本身极为灵活，导致歧义语义时常发生，给正确完成中文分词带来了很多障碍。如例句“严守一把手机关了”所示，按照语义理解，正确切分方式为“严守一/把/手机/关了”，而算法有误时容易切分为“严守/一把/手机/关了”。

更困难的是，有些时候两种切词方法意思都对，例如“乒乓球拍卖了”，切分为“乒乓/球拍/卖了”和“乒乓球/拍卖/了”本身都可行，必须要依赖更多上下文来选择当前正确的切分方法。类似的还有“南京市长江大桥”、“吉林省长春药店”等等。如果把“市长”“省长”等切出来，整句话的理解就偏差很多了。常见歧义类型包括交叉歧义（Cross Ambiguity）和组合歧义（Combination Ambiguity）等，在语义消岐方面近年不断有国内外学者提出新的解决思路，来解决汉藏语系的这个特定问题。

此处顺便一提，和中文类似，日文句子内部同样缺乏天然的分隔符，因此日文也同样存在分词需求。日文受汉语语法的影响很深，但同时又受表音语法的影响，明治时代还曾兴起过废汉字兴拼音的运动，行文上汉字和假名混杂，好比中英文混血儿。业内比较知名的日文分词器有MeCab，其算法内核是条件随机场CRF。事实上，如果将MeCab的内部训练语料由日文更换为中文后，也同样可以用于切分中文。

随着深度学习技术近年来在NLP领域成功的应用，一些seq2seq学习过程可以不再使用分词，而是直接将字作为输入序列，让神经网络自动学习其中的特征，这在一些端到端的应用中（如自动摘要、机器翻译、文本分类等）确实省略了中文分词这一步骤，但是一方面还有很多的NLP应用离不开分词的结果，如关键词提取、命名实体识别、搜索引擎等；另一方面切分所得的词汇也可以和单字一起作为特征输入，用以增强效果。因此分词仍然是工程界进行中文处理时的一项重要技术。

二、英文语素和中文偏旁的使用

英文单词的提取虽然比中文简单的多，通过空格就能完整的获取单词，但英文特有的现象是单词存在丰富的变形变换。为了应对这些复杂的变换，英文NLP相比中文存在一些独特的处理步骤，我们称为词形还原（Lemmatization）和词干提取（Stemming）。

词形还原是因为英文单词有丰富的单复数、主被动、时态变换（共16种）等情况，在语义理解时需要将单词“恢复”到原始的形态从而让计算机更方便的进行后续处理。例如“does，done，doing，do，did”这些单词，需要通过词性还原统一恢复为“do”这个词，方便后续计算机进行语义分析。类似的：“potatoes，cities，children，teeth”这些名词，需要通过Lemmatization转为“potato，city，child，tooth”这些基本形态；同样“were，beginning，driven”等要转为“are，begin，drive”。请注意词形还原通常还需要配合词性标注（pos-tag）一起来进行，以确保还原准确度，避免歧义发生。因为英文中存在一些多义词的情况，例如calves就是个多义词，即可以作为calf（名词，牛犊）的复数形式，也可以是calve（动词，生育小牛）的第三人称单数。所以词形还原也有两种选择，需要按实际所表示的词性来挑选合适的还原方法。

词干提取（Stemming）是英文中另一项独有的处理技术。英文单词虽然是句子中的基础表义单元，但并非是不可再分的。英文单词内部都是由若干个词素构成的。词素又分为词根（roots）和词缀（前缀prefix或后缀suffix），而词根的原形称为词干（stems）。例如单词disability，dis-就是表示否定意思的常用前缀，-lity是名词常用后缀，able是表示“能力”的词干，这些词素合并在一起就构成了单词的含义。

英文的词素种类非常多（最常用的有300多个），很多源自拉丁语和希腊文。提取词素对理解英文单词的含义起着非常重要的作用，例如semiannually这个单词，可能有的朋友并不认识，如果通过词素来看：前缀semi-表示“一半”的意思，词干annul表示年，-ly是副词后缀，semiannually这个单词的含义是“每半年进行一次的”。Ambidextrous，heterophobia，interplanetary，extraterritorial等这些看着很复杂的词汇，通过拆解词干的方法能很方便的把握单词含义，对人类和对计算机来说都是如此。常见Stemming方法包括Porter Stemming Algorithm, Lovins Algorithm和Lancaster(Paice/Husk) Algorithm。目前大部分英文NLP系统都包括词形还原（Lemmatization）和词干提取（Stemming）模块。（陈运文）

相比英文，中文里是没有词干的概念的，也无需进行词干提取，这是中文NLP中相对简便的一块。但在中文里有一个相近的概念是偏旁部首。和英文中“单词不懂看词干”类似，中文里“汉字不识看偏旁”。例如“猴、狗、猪、猫、狼”这些汉字，显然都是动物名词。当出现汉字“狁”时，即使不认识也能通过部首“犭”猜出这是一个动物名称，且发音类似“允”字。再比如“木，林，森”这些字都和树木相关，数量还递增。“锁、锡、银、镜、铁、锹”都和金属有关。“采”字和手抓植物有关。“囚”字和“孕”字就更直观形象了。

借鉴英文中词干提取的方法，很多人自然会立刻想到：是否我们拆分中文汉字的偏旁部首，作为特征输入，也能更好的帮助计算机理解中文语义呢？学术界确实也有人做过此类尝试，但是整体收益都不像英文词干分析那么明显，这背后的原因是什么呢？笔者认为，其原因首先是常用汉字的数量远比英文单词要少，相比英文单词数量动辄数万计，加上各种前后缀和词形变换数量更多，中文汉字最常用的才过千个。因为字少，每个汉字的意思多，这些汉字的含义通过上下文来获取的语义描述信息足够充分，拆分偏旁后额外再能添补的信息作用非常小。即便对罕见字来说偏旁确实能额外补充特征，但因为它们在日常文本中出现频次太少，对整体文本语义理解的作用很有限，只有在一些专业性文书的应用上可能起少量帮助。

其次是汉字经过数千年的演化，再加上简化字的使用，很多字形和含义已经发生了巨大变化，偏旁未必能准确表达字的意思，甚至使用偏旁可能还会引入一些噪声特征。第三是现代汉语里表义的基本单元是多个汉字构成的词，而不是单字。这和英文中表义单元是单词完全不同。因此对单个汉字的偏旁处理对整个中文NLP起到的作用非常轻微，并未成为中文NLP里常用的做法。

三、词性标注方法的差异

词性是语言学的一个概念，根据上下文将每个词根据性质划归为特定的类型，例如n.名词 v.动词 adj.形容词 adv.副词等就是最常见的几类词性。中英文的词性尽管整体相似，例如表达一个物品（如苹果Apple，火车Train）通常是名词，而描述一个动作（如跑步Run，打开Open）一般是动词，但在很多细节上存在差异。如果计算机能够对每个词汇的词性进行正确的识别，无疑对增强语义分析的效果有帮助（注：同样在seq2seq里词性并不必须，但是对词性的正确理解仍然有其特定价值）。

在NLP里有技术分支称为词性标注（Part-Of-Speech tagging, POS tagging），中英文各自有其特点。

其一是英文中有一些中文所没有的词性。这些词性大量存在，给语义理解带来了很好的指引作用。其中最典型的就是英文特有的两个词性：一是冠词，二是助动词。中文里没有冠词一说，在英文中冠词（Article，一般简称art.）也是词性最小的一类，只有三个：不定冠词（Indefinite art.）、定冠词（Definite art.）和零冠词（Zero art.）。如英文中无处不在的单词“the”就是定冠词，the后面通常会紧跟着出现句子的关键名词+介词短语。例如“Show me the photo of your company”，通过定冠词the的指示，很容易的定位本句话的关键实词是photo。类似的，前面例句“DataGrand is a Chinese company”里“a”这样的不定冠词也可以很好的指示出宾语“company”。这些大量出现的冠词虽然是虚词，本身并没有明确含义，但在NLP中用于定位句子中的关键实词，判断实词种类（是否可数，是否专有名词等），进而识别出句法结构（后面还会详细介绍）等，起到了很大的指示作用，也降低了计算机进行语义理解的难度，因而这方面英文比中文有先天优势。

助动词（Auxiliary Verb）也是英文特有的现象，助动词的作用是协助主要动词构成谓语词组，如am, is, have, do, are, will, shall, would,should, be going to等都是常见助动词，在英文句子中也大量存在，和冠词用于指示主语宾语类似，助动词对识别主要动词（Main Verb）和谓语会起帮助。

其次，英文在词性方面的划分和使用更严谨，词汇在变换词性的时候会在词尾形成丰富的变化。例如-ing、-able、-ful、-ment、-ness等都对确认词性给出具体的提示。名词中还会进一步区分可数名词、不可数名词，在词尾用-s、-es来区分。动词也同样会存在发生时态的指示，过去式，现在时，未来时等非常明确，因此在英文语法中几乎没有词性混淆不清的情况发生。

而中文的词性则缺乏类似英文这样的明确规范。中国著名的语言学家沈家煊先生在著作《语法六讲》中就曾提出“汉语动词和名词不分立”的观点，将确认汉语词性的问题描述为“词有定类”则“类无定职”，而“类有定职”则“词无定类”。和英文中名词、动词、形容词三大类词汇相互独立的“分立模式”不同，中文更类似“包含模式”，即形容词作为一个次类包含在动词中，动词本身又作为次类被名词包含，而且这个词性的转换过程非常微妙，缺乏表音语言中的前后缀指示。例如“他吃饭去了”中“吃饭”是动词，只需要句式稍加变换为“他吃饭不好”，此时“吃饭”就摇身一变成名词了。“热爱编程”、“挖掘数据”中，“编程”、“挖掘”等词，既可以是名词也可以是动词。形容词也有类似的情况，如“活跃”是个常见的形容词，常用句为“他表现非常活跃”。但有时也可以变身为动词“他去活跃气氛”，还能变为名词“活跃是一种行为习惯”。可见汉语语境的变化给词性带来非常微妙的变化。（陈运文）

汉语没有英文的屈折变化的特点，不像英语能通过灵活的词尾变化来指示词性变化，汉语这种一词多性且缺乏指示的特点，给计算机词性标注带来了很大的困难，业界对词性的标准以及标准测试集也很不完善。很多具体词汇的词性甚至让人工来研读都模棱两可，让算法自动来识别就更难了。例如：“他很开心”、“他逗她开心”、“他开心不起来”、“他开心的很”、“开心是他很重要的特点”，这里“开心”的词性让人来判断都很难搞明白，甚至存在争议。而反观英语里一个词被标为动词还是名词几乎不存在争议。对这些模糊的情况，一些中文语料标注库里干脆用“动名词vn”、“形名词an”等来标记，搁置争议，模糊处理。

在目前中文NLP词性标注中，“名动形”糊在一起的特点仍然没有找到特别好的处理手段，也给后面的句法结构分析，词汇重要性判断，核心关键词提取等语义理解课题带来了干扰。

四、标点符号和字体特征

在自然语言处理应用中，很容易被忽略的是标点和字体等信息的利用。尤其学术界研究核心算法时一般都会忽略这些“次要”信息，大部分学术测试集合干脆是没有字体信息的，标点也不讲究。但是在实际工程应用中，这些信息能起不小的作用。而英汉语在其使用方面也存在一些差异。标点（如？！：——。等）和字体（字母大小写，斜体，粗体等）虽然本身没有具体语义，但在辨识内容时起重要的引导作用。不妨让我们想像一下，如果把我这篇文章里所有标点、分段、标题字体等都去掉，让人来阅读理解本文内容，难度是不是立刻会加大很多？若是换成计算机来读那就更麻烦了。

在英语中（尤其是书面语中），逗号和句号的使用有明确规范，一句话结尾要求必须用句号符“.”，并且下一句话的第一个单词的首字母要求大写。英文中从句非常多，从句之间要求用逗号“,”连接，以表示语义贯通。不仅如此，当一句话的主谓宾完整出现后，如果下一句话也同样是一个完整句子，则两句话中间或者需要用连词（如and, or, therefore, but, so, yet, for, either等）连接，或者必须用句号“.”分割，如果中间用“,”且没有连接词，则属于正式文书中的用法错误。如：

The algorithms and programs,which used on the website, are owned by the company called DataGrand, and are well known in China.

这里出现的标点和大小写字体是良好的句子语义指示符，既分割不同句子，也在句子内部分割不同语义，这些规范给英文NLP处理创造了较好的环境。

中文标点的使用则没有这么强的规范。事实上中文标点在中国古代官方文书中一直不被采用，仅扮演民间阅读中的停顿辅助符的角色。直到1919年中华民国教育部在借鉴了西方各国标点规范后才第一次制定了汉语的12中符号和使用方法，建国后在1951年和1990年两次修订后逐步成型。因为历史沿革的原因，这些对标点的使用规范更多偏向于指导意见，而不是一套强制标准。例如对逗号和句号何时使用，并不像英语中有特别严格的界定。汉语的分句较为模糊，意思表达完以后虽通常用句号，但用逗号继续承接后面的句子也并不算错，只要整篇文章不是极端的“一逗到底”，即使语文老师在批阅作文时也都不会过分对标点较真，而日常文章中标点的使用更是随心所欲了。

与此同时，英文里专有名词用大写或者斜体字体来区分，首字母大写等用法，在中文中也不存在。NLP处理中，中文标点和字体使用的相对随意给句法分析也带来了巨大的挑战，尤其在句子级别的计算机语义理解方面中文比英文要困难很多。

除了上述不利因素，中文也有一些独特的标点带来有利的因素。例如书名号《》就是中文所独有的符号，感谢这个符号！书名号能非常方便的让计算机程序来自动识别专有名词（如书名、电影名、电视剧、表演节目名等），这些名词往往都是未登录词，如果没有书名号的指引，让计算机程序自动识别这些中文专名的难度将加大很多，而这些专名词汇恰恰都体现了文章的关键语义。例如下面这段新闻如果让计算机来阅读：“由于流浪地球的内容很接近好莱坞大片，因此影评人比较后认为不仅达到了2012的水平，而且对比星际穿越也毫不逊色。”。要求计算机自动提取上面这句话的关键词会非常困难，因为里面有很多未登录词，对“2012”的理解也会有歧义（时间词？or电影名？）

而正因为我们中文有书名号，迎刃而解：“由于《流浪地球》的内容很接近好莱坞大片，因此影评人比较后认为不仅达到了《2012》的水平，而且对比《星际穿越》也毫不逊色。”。除了书名号，汉语的顿号（、）也能很好的指示并列关系的内容，“达观每天下午的水果餐很丰富，有桃子、葡萄、西瓜和梨”，这些并列的内容可以很方便的被计算机解读。

英文则没有书名号和顿号等，而是采用特殊字体（例如加粗、斜体、大写，各不相同，没有强制约定）等形式来标识出这些专有名词。因此在处理英文时，这些字体信息起很重要的作用，一旦丢失会带来麻烦。

值得一提的是，在日常聊天文字中，标点符号和字母使用的含义产生了很多新的变化。例如对话文本中“。。。。。”往往表达出“无语”的情绪。“？”和“？？？”前者是疑问，后者更多表达震惊。还有 ? ^o^/ ORZ等各类的符号的变换使用，给开发对话机器人的工程师们带来了很多新的挑战。

五、词汇粒度的处理方法差异

词汇粒度问题虽然在NLP学界被讨论的不多，但的的确确NLP实战应用中的一个关键要点，尤其在搜索引擎进行结果召回和排序时，词汇粒度在其中扮演关键角色，如果对其处理不恰当，很容易导致搜索质量低下的问题。

我们先看中文，词汇粒度和分词机制有很大关系，先看个例子：“中华人民共和国”这样一个词，按不同粒度来切，既可大粒度切为：“中华人民，人民共和国”，也可进一步切出“中华，人民，共和国”，而“共和国”还可以进一步切为“共和，国”。一般我们把按最小粒度切分所得的词称为“基本粒度词”。在这个例子中，基本粒度词为“中华，人民，共和，国”4个词。甚至“中华”还能继续切出“中/华”也有表义能力（这个后面还会详细分析）

为什么分词需要有不同的粒度呢？因为各有作用。大粒度词的表义能力更强，例如“中华人民共和国”这样的大粒度词，能完整准确的表达一个概念，适合作为文章关键词或标签提取出来。在搜索引擎中直接用大粒度词去构建倒排索引并搜索，一般可得到相关性（准确率）更好的结果。

但从事过信息检索的朋友们想必清楚召回率（Recall）和准确率（Precision）永远是天平两端互相牵制的两个因素。大粒度词在搜索时会带来召回不足的问题。例如一篇写有“人民共和国在中华大地上诞生了起来”的文章，如果用“中华人民共和国”这个词去倒排索引中搜索，是无法匹配召回的，但拆分为“中华人民共和国”三个词进行搜索就能找出来。所以一个成熟的分词器，需要因地制宜的设置不同粒度的分词策略，并且最好还能确保在检索词处理（Query Analysis）和索引构建（Index Building）两端的切分策略保持一致（陈运文）。目前学术界公开的分词测试集合，往往都是只有一种粒度，而且粒度划分标准也并不一致，导致很多评测结果的高低离实际使用效果好坏有一定距离。

在中文分词粒度里，有一个非常令人头疼的问题是“基本粒度词”是否可继续拆分的问题。就好比在化学中，通常约定原子（atom）是不可再分的基本微粒，由原子来构成各类化学物质。但如果进一步考虑原子可分，那么整个化学的根基就会动摇。同样在中文NLP领域，虽然学术界通常都默认基本粒度词不再可分，但在实际工程界，基本词不可再分会导致很多召回不足的问题，引入难以解决的bad case。不要小看这个问题，这是目前限制中文语义理解的一个特别常见的难题。要解释清楚来龙去脉，笔者还得从汉语的发展历程说起。

中国古代汉语的表义基本单位是字而不是词。我从《论语》中拿一句话来举例：“己所不欲，勿施于人”。古代汉语一字一词，这句话拿来分词的话结果应该是“己/所/不/欲，勿/施/于/人”，可见全部切散为单字了。如果用现代白话文把这句话翻译过来，则意思是“自己都不愿意的方式，不要拿来对待别人”。现代汉语的特点是一般喜欢把单字都双音节化，“己–>自己，欲–>愿意，勿–>不要，施–>对待，人–>别人”。可以看出这些双音节（或多音节）词汇中部分蕴含着来源单字的意义。这种现象在现代汉语词汇中比比皆是，例如“狮子”，“老虎”，“花儿”，“图钉”，“水果”，“红色”等，对应“狮，虎，花，钉，果，红”等有意义的单字。而如果把这些双音节词作为不可再切分的基本粒度词的话，当用户搜“狮”的时候，即使文章中出现了词汇“狮子”，也是无法被搜到的。

那么如果将这些基本粒度词再进一步切分呢？会切出“子，老，儿，图，水，色”这样存在转义风险的词汇（即这些单字对应的含义并未体现在原文中），带来很多“副作用”。例如用户搜“老”的时候，当然不希望把介绍“老虎”的文章给找出来。

与此同时，还有另一类的情况是有一些词汇切为单字后，两个单字都分别有表义能力，如“北欧”切为“北/欧”，对应“北部，欧洲”两方面的意思。“俄语”切为“俄/语”，对应“俄国，语言”，“苦笑”，切为“苦/笑”，对应“痛苦，笑容”，以及“海洋”，“图书”，“亲友”，“时空”等都是可细分的。

还有第三类情况是，词汇切分后单字都不能体现原词含义，例如“自然”，如果切分为“自/然”，两个字都没有意义。类似的还有“萝卜”，“点心”，“巧克力”等，外来语为多。

之所以前面提到如今中文语义分析时，基本粒度问题是一个关键难题，原因是在现代汉语写作时，既有现代双音节/多音节词汇，也夹杂很多源于古代汉语的单字，半文半白的现象很常见，这就一下给语义理解带来很大的挑战。不管是切分粒度的选择，还是单字和词汇间关联关系的提取，标题和正文语义的匹配，当面临文白间杂时都会遇到难关。常见的情况为：新闻标题为了精炼，经常喜欢采用源自古汉语习惯的单字简称或缩略语。例如“中美援非模式差异带来效果大相径庭”，是选择“中美/援非”这样的基本切分粒度，还是按单字表义切分为“中/美/援/非”，对应“中国美国援助非洲”这样的内容，是存在各自的利弊的。计算机提取文章关键词时，还需要把“援—>援助，非–>非洲”还原为词并建立关联才能很好的解读处理。

目前业界并没有一个公认的粒度标准，常见的几个评测语料集合，如北大pku-test，微软亚洲研究院msr-test，人民日报标注语料等，切分标准都有所不同。虽然一般普遍采用的双音节词为主的基本粒度标准，但是在应用于搜索引擎、问答对话时都会出现大量召回不足的问题。而大量采用单字作为基本粒度词又会引入有转义风险的无效单字，并且还会出现运算性能等隐患。

为了解决基本粒度词的问题，笔者曾在百度设计开发了亚粒度词（subterm）补足的策略，缓解了召回不足的问题，工业界还有一些其他的同义词关联等方法来应对，但到目前为止词汇粒度问题仍然是困扰中文NLP的一个“慢性病”。近年来兴起的BERT模型，利用大量文本进行Transform预训练，填补各种粒度词汇的语义信息，也是是一种缓解问题的办法。

英文因为不存在切分问题，所以粒度问题只需要考虑词组（Phrase）切分的问题。例如Harvard University，两个单词可以切为Phrase来表达一个具体机构。相比中文的从细到粗的多粒度切分要简单很多。

六、句法结构分析方法异同

自然语言处理在词汇级别之上是语句级别，因为语句是由一系列的词汇排列组合后生成的。通过学习语法我们知道句子结构是由“主谓宾定状补”这样的句法元素构成的。例句“陈运文去达观数据上班，”主语是“陈运文”，谓语“上班”，“达观数据”是状语，说明动作发生的地点。

在句子结构方面，“英语重形合，汉语重义合”的特点体现的非常明显。英语为了充分体现句子中的各种承接、转折、从属、并列等关系，不厌其烦的准备了大量的连词、助词、介词、冠词等作为填充剂，来补充实词之间的缝隙，构成了很多从句、引导句。这些包含各类结构的结构，让计算机来进行语义角色标注(SemanticRole Labeling, SRL)和语义依存分析(SemanticDependency Parsing, SDP)相对比较容易。

因为这些形式指示词的存在，一个大家能很直观发现的现象就是英文写出来的句子往往都特别长，整篇文章篇幅多。而同样的意思用中文写出来，篇幅往往只需要英文的一半甚至更少，汉语的句子非常精炼，尤其诗歌用短短几个字能描述出丰富的内涵——“孤帆远影碧空尽，唯见长江天际流”，多么洗练优美有意境。

从计算机的视角来看，恰恰因为汉语讲究意合而不重形式，句子结构都比较松散，并没有英文中那么多的虚词作为实词间的语义粘合剂，而是依赖词汇前后顺序关系，隐含表达出句子结构，所以也给计算机处理带来了挑战。例如“中国人工智能创业企业获奖名单公布”这句话里，“中国，人工智能，创业，企业，获奖”这一连串的名词均是主语“名单”的定语，如果用英语来写这句话，一定会出现形如“the…of…that…which…”这样一系列的辅助词来把这些名词粘接到一起，而中文并没有它们。所以当我们训练算法去识别句子主语和定语的时候，必须要小心的判断哪个名词才是句子的真正主语所在。汉语中句子的重心往往后移，相反英语中句子主要部分前移，所以通常生成句法依存树时中文都会自动选择靠后的名词。

除了句子内部的辅助词外，在句子间关系识别时，中英文都会通过特定标识词连接子句间关系，例如转折关系（虽然…但是…），假设关系（如果….就…），递进关系（不仅…而且…），因果关系（因为….所以….），英文则是because…, Although…, If…, but also… 等。在中英文中这些标识词经常会被自动省略，例如“车站人流量大，大家要照看好自己的行李”。这里隐含的语义为“[因为]车站人流量大，[所以]大家要照看好自己的行李”，[-]内的词汇被自动省略了。区别在于英文一般会省略其中一个，例如“because…, so…，”这样的句子会省掉其中一个，中文则既可以全省掉，也可以全写出，实际进行语义理解时需要额外补充处理。

目前句法依存分析在实际工程应用中并没有发挥很大作用，其原因一方面是上述一些现象导致了很难抽取得到特别准确的句法关系结果，另一方面是大部分NLP应用选择了直接从词汇或篇章级别来获得结果，省去了中间句子这层。目前业界针对长程的语义上下文关系，逐步放弃传统的RST方法，更多倾向于利用记忆网络（如bi-LSTM）等技术完成提炼。在聊天对话等应用方面，用句法结构来把握语义仍然是会有价值的。

七、中文英文指代消解处理

计算机进行文章内容解读时，经常碰到指代消解（ReferenceResolution）的问题。不论是在书面文本中进行长文章解读，还是在对话文本中回溯前文问题，指代消解都起到非常关键的作用。计算机需要能像人类一样建立起上下文间这些词汇间的关联关系，做到把概念串联起来“读懂”文章的意思。例如这句话：

“达观数据 顺利入驻浦东软件园，公司创始人陈运文表示，达观专注于为企业提供文本智能处理软件系统和技术服务。他说：‘文本理解任重道远’”

这句话里“公司”、“达观”、“他”这些都是指代词，“达观数据”、“陈运文”是真正的实体，称为先行语（antecedent），而“公司”、“达观”、“他”是回指语（或称为照应语，anaphor）。回指语有时是代词（如“He”、“that”、“该公司”、“上述条款”、“前者”、“被告人”等等），有时是简称或缩写（如“达观”、“CEO”、“NLP”、“WTO”），有时采用借代方法，如“白宫的态度非常坚决”，“范冰冰们的纳税情况逐步被公布”，“白宫”=“美国总统”，“范冰冰们”=“大陆影视演员”。人类的阅读能力非常强，各类指代的情况人都能通畅理解，但对计算机来说并不简单。在NLP领域为此专门存在技术分支称为指代消解。指代消解通常又细分为回指、预指、共指等情形，实践中通常称为共指消解（CoreferenceResolution）

英文中常见指代语是专名首字母缩写，也是表音文字特别之处。英文中专有名词往往由多个单词构成，篇幅长，从中抽取字母构成各类缩写约定非常常见。缩写一部分是行业内通用的（例如计算机领域常见的CV，DNS，CPU，NLP等），另一些则是在文中第一次出现专名时临时约定的。例如一篇行业分析报告里的句子：“High Carbon Steel (HCS) is typically producedas low carbon steel. HCS export volume in YTD 2017 reached to 6.9 millionmetric tons(MMT).”。这里临时性缩写（HCS，YTD，MMT等）大量出现。这些回指语是一个新的独立单词（例如例子中的HCS），和原词汇的关联处理通过共指消解来完成。另一类回指语是“it、which、where、there、that”等这样的指代词，要通过上下文依赖关系去寻找实体。

中文的缩写通常是从实体中抽取若干汉字新构成的词，例如北京大学简称北大，复旦大学简称复旦，XX银行，通常简写为X行，XX局长，简写为X局。（陈运文）因为汉字里单字的表义能力比英文中单独的字母要强的多。我们知道常用汉字有5000多个，而英文字母只有26个，所以中文缩写词更容易能让人“望文生义”，读懂含义。例如“高碳钢”这个缩写即使是外行也能猜出意思，但是HCS怕是很难直接让人明白是啥，即汉语在缩略语的可读性上优于英文。

正因为英文缩略语可读性弱，且重复歧义多，所以为了让人能读懂，英文里通常都会清楚标出先行语和缩写规则。而汉语里除非严格的法律文书会前置术语表，一般文本里用缩略语时比较随意，很多时候约定俗成，并不“提前打招呼”。例如新闻：“北大学生在刚刚结束的奥数竞赛中成功摘得两枚金牌”。如果按缩略语习惯，应该写为：“北京大学（以下简称北大）学生在刚刚结束的国际奥林匹克数学邀请赛（以下简称奥数）中成功摘得两枚金牌。”

在共指消解中还会遇到的一类问题是因为语法结构导致的指向歧义的问题。例如“这张照片里有陈运文和高翔的同事”、“那边坐着三个公司的工程师”，这在前面句法结构解析时提到过，也同样会影响中英文在处理共指消解时的结果。

在实际工程应用中，共指消解最常用到的场景是对人名、机构名、地点、条款、具体事件、关系类型等要素的指代处理。在超长文书（如证券行业的上市公司重组公告、招股说明书等）处理方面该技术也起了很大作用。日常中文的共指消解存在一定的行文规律，通过预先挖掘简写和指代词表导入算法中可显著提升效果。业界常见的共指消解方法既有传统的规则启发法，也有经典的统计学习、聚类算法、概率图模型等，此外深度强化学习、长短时记忆网络等新的Meural Mention-ranking方法也有良好的效果。

八、英汉语词汇间关联关系挖掘

词汇间关系是构建语义网络的一项基础技术，我们知道同义词、近义词、相关词是特别常见的词汇关系，此外词汇的上下位（例如在生物知识网络中Sparrow属于Bird，Shanghai属于China）和词向量等在NLP处理中都很重要。和英文单词相比，汉字的数量少得多，常用汉字数才2000-3000个，其中最常用的1000个汉字已经能覆盖92%的书面资料了。这1000个汉字中去掉偏旁部首类似的字，独立语素更是不到500个。在表述事物时汉语中采用字组合的方式，可以非常方便的理解词义并且研读出词汇之间的关联关系。

而英文单词动辄2万-3万个（美国成年人平均单词量），而且意思相似的词汇间的字母构成差异很大，所以很多情况下如果没见过某个单词，很难像中文一样大致能猜出词汇所指的意思。请大家不查词典猜猜limousine、roadster、saloon分别是什么意思，再看看对应的中文意思，就能理解为什么会有这么多英文单词了。

我们再用下面的这样一些例子给大家直观的展示英文在表述相近事物时的差异性：Chick, Rooster, Hen, Egg彼此之间从字母分布上来看很难看出有什么关联，但是换成中文，对应的是小鸡、公鸡、母鸡、鸡蛋，很容易就能发现其中的规律。中文词汇是由有意思的单字组合构成的，因此通过字就很容易观察和理解词汇间的关系。类似的，小牛，公牛，母牛的英文单词为Calf，Ox，Cow，甚至公牛在英文中还区分阉割后的steer和没被阉割的bull。因此汉语NLP中只需要根据动物名“鸡”、“牛”、“猪”、“鸭”加上相应的形容词就可以知道意思了，而在英文中由于单词的差异无法直接通过单词的语素关系直接计算获得，所以为验证语义关系时略为复杂一些。

知识图谱（Knowledge Graph）是理解这些词汇间关系一种好办法。词汇（或称为实体Entity）间的关系通过挖掘大量文本、Wiki等来构建。英文词汇间的关系不像中文这样能让人能观察到，因此构建知识图谱对英文来说非常有价值。例如spaghetti，penne，capellini，fusilli，lasagne，macaroni这些实体，通过构建出知识图谱，才能让计算机知道他们都属于Pasta（意大利面）下面的某个品类的名字。近几年兴起的基于Skip-gram或CBOW模型的Word2Vec方法一经提出就得到了非常广泛的应用，在实践中好评如潮，就是因为embedding技术恰好弥补了英文中词汇之间关系不直观的问题，对提高计算机英文语义理解的能力起到了很好的帮助作用。类似的，中文词向量、预训练等技术构建好后，也带来了整体语义分析效果的大幅度进步。汉语和英语在词汇间关系挖掘这个方面，目前整体的算法都是相同的，区别在于汉语的词汇间关系可以更加显式的被人观察到。毕竟，让人来判断hepatitis和pneumonia，Grape和Raisin，January和March，Monday和Thursday间的关系，相比分析肝炎和肺炎，葡萄和葡萄干，一月和三月，周一和周三之间的关系，还是要困难很多的，对计算机来说也是如此。

九、中英文省略和内容补足的处理

语境是一个微妙的概念，人类在进行文字阅读时，不只是看到文字内容本身，而是不自觉的会将语境相关的词汇自动补充进入字里行间，辅助语义理解。反之，人类在文字写作时，会将一些重复内容省略掉，主语或宾语是最常被省略的对象。例如摘录自合同文书的一段文字“本协议中约定了大桥建设工程的具体内容，其中乙方负责承接，丙方负责监督，以确保顺利交付”。如果让计算机来解读，需要把指代语补齐（用[-]表示）为：“本协议中约定了大桥建设工程的具体内容，乙方负责承接[该工程]，丙方负责监督[乙方的工作]，确保[该工程]顺利交付”。书面文本还相对规范，如果是日常对话的口语文本，那么省略更加是无处不在，以一个电商客服问答为例：“这双卖多少？”，“58”。“少点？”，“最低了”。“行吗？”，“做不了哎”。如果补齐省略语，应该为：“这双[鞋子的价钱]卖多少？”“[价钱]少点[行吗]？”“[价钱少点]行吗？”

除了主谓语省略，一些非常重要的连词也经常被省略，例如“因为…所以…，虽然…但是…，尽管…然而…”，例如：“开车不注意，亲人泪两行”，“股市有风险，投资需谨慎”，补充逻辑连词后为“[如果]开车不注意，[那么]亲人泪两行”，“[因为]股市有风险，[所以]投资需谨慎”。

英文的省略习惯也存在（全世界人民都爱偷懒），例如省略主语it：“Looks as if it will snow”，省略谓语comes：“Who next?”，省略宾语thedishes:“Let ‘ s do the dishes. I ‘ ll wash and you ‘ ll dry.”,省略连词that“It ‘ s a pity[that] she ‘ s leaving”。当然英文中还有一类约定俗成的独特简称（很多来自拉丁语）e.g., etc., al., i.e., viz.等。

区别在于英文书面文本中省略出现的较少，同时语义连接词的省略有固定规范，例如“because…so…”要求只省其中一个。英文行文时单词使用量比中文多，同样的内容英文篇幅通常是中文的200%左右，也即中文1页纸写完的内容，如果用英文写要2页甚至更多。如果对比惜字如金的文言文，就更浓缩了。如“民为贵，社稷次之，君为轻”，10个字如果改用英文写，没有几十个单词怕是说不清楚。那么放到省略环境下看时，汉语就比较吃亏了，因为本来就浓缩，再加上语法约束不严导致时不时省略，对信息的损失比较大。从10个汉字的短句中省略2个字，和从一段20个单词的英文句子中省略2个单词，前者对计算机处理来说要费力不少。达观在进行文本应用实践中，也在想办法主动“脑补”出这些省略语，加深对文字理解的深度（陈运文）。近年兴起的文本预训练（例如大名鼎鼎的BERT，MT-DNN等）技术通过海量文本的预训练，对文本进行表示学习，运用transform编码器等把这些词句中的隐语义信息嵌入（Embedding），结合Attention机制，填补省略内容，在自然语言理解（NLU）的很多应用（例如GLUE benchmark、斯坦福阅读推理SQuAD、SNLI、MultiNLI、SciTail）能大幅度提升效果。

十、歧义问题与子串转义处理

虽然大部分NLP的算法都具备语言无关性（Language independent），但是在具体工程任务中还是有很多语言相关的问题。在汉语中经常发生的一类情况是文字子串局部转义的问题。这个问题因为是汉语所独有的，在英文中几乎不曾出现，所以在自然语言处理的学术界并不作为主流的课题被研究（因为学术界主流还是倾向于研究语言无关性的课题和方法）。但是笔者在多年从事NLP以及搜索和推荐系统技术研发工作时，深深的感受到子串转义是一个非常困难却也非常重要的汉语NLP课题。对这个课题处理水平的高低直接影响着大量的实际工程效果。下面具体阐述下该问题的定义。

前文我曾提到过汉语中单字不多（3000个汉字可以覆盖99%的中文文本了），所以汉语里的词汇大多是由几个汉字顺序组合来形成的。这里潜伏着一个巨大的隐患是，因为字的排列组合形式很多，所以会导致局部出现的一些组合所构成的意思，和整体词的意思不同，出现歧义；或者说一个词汇中的子串和整个词的意思会出现很大的差异，因而也称为子串转义问题。这里我用数学形式化的方法再来表述下：假设A、B、C分别表示三个汉字，那么子串转义就是指词汇ABC的含义，和AB或者BC的含义完全不相同。当然4个汉字或者更长的短串也类似。例如ABCD和ABC或BCD或AB、BC、CD的意思可能会完全不同，这种意思“突变”的情况称为子串转义。

例如：“周杰伦”和其中的前两个字构成的词“周杰”显然指的是完全不同的两个人，“荨麻疹”和“麻疹”是两种病，“亚健康”和“健康”的意思截然相反。这会给计算机处理带来很多困难，尤其在搜索引擎中，当用户搜“周杰”或“麻疹”或“健康”时，如果结果出“周杰伦上海粉丝见面会”、或“荨麻疹治疗方法”、“导致白领亚健康的主要原因”都是不太好的结果。我们在搜索引擎中遇到的大量结果不相关的问题，很多都是由于汉语中局部转义现象导致的。

同样，在进行关键词提取、文本相似度计算、相关文章推荐等场景的时候，这些局部转义的问题同样也会带来很大麻烦。例如“周杰伦上海粉丝见面会”和“周杰伦现身上海电影节”两篇文章的内容相关度，显然远大于“周杰上海粉丝见面会”。

很多朋友可能会觉得这些都可以视为命名实体识别（NER）问题，将这些专名直接切为一个整体，就能解决上述局部转义的问题了。其实没这么简单，因为其实大量的中文词汇里，局部词组合成的意思和整体词汇是存在关联的，如果不切开会带来召回不足的问题。例如“消防队”和“消防”，“上班族”和“上班”，“315晚会”和“315”等，甚至前面例子里“周杰伦”和“杰伦”也有紧密的语义关联。当用户搜索词是“消防”、“杰伦”、“315”等query时，相应的整体词“周杰伦”、“315晚会”等所在的文章也理应被搜出来。因为明明文章里有这个词且意思相关，如果没被找出来是不能被用户接受的。通过这些例子可见正确处理汉语的字词组合的确是一件很棘手的课题。再举个例子：“不可以”这个常用词，把“不可”单独作为子串提取出来是非常有必要的，因为和原词意思相同。但是把“可以”单独提取出来就很危险，因为和原词意思相反，单独进行搜索匹配会导致歧义。再如我们可以把“阿里巴巴”里的子串“阿里”切出来，因为很多时候用户称呼“阿里”就是指“阿里巴巴”，但是把“里巴”或“巴巴”切出来则是不合适的。

究竟哪些子串词汇和原词意思相同相近？哪些又会发生转义？这需要计算机更智能的进行判断才行，目前我们已经想了一些方法去解决，例如通过字的共现频率等进行处理，但离彻底解决汉语里子串转义的问题还有距离。

除了子串转义外，汉语中其他歧义的情况也是比比皆是，例如“我去上课了”、“她看病去了”（主动和被动不明，导致无法区分老师还是学生，病人还是医生）、“要多少有多少”（无法区分核心语义是多还是少）、“咬死了猎人的狗”、“喜欢山区的孩子”（无法区分狗或孩子是主语还是宾语）。因为中文不是靠词汇的变形变换来体现修饰、主被动等关系，而是靠顺序组合来体现，因此在中文NLP的各个环节，从分词、词性、句法、指代，到局部子串处理等，都会带来歧义理解的问题。

英文中也存在歧义问题，最常见的情况是英文多义词导致的。例如“He went to the bank”既可以理解为“他去了银行”，也可以理解为“他去了河岸边”，“The doctor saw the Indian dance”，单词Indian 既可以视为形容词“印第安人的舞蹈”，也可以是名词“印第安人+跳舞”，还有英文中不定式导致的歧义，如“Not many books filled the shelves”，可以理解为“书架上没有几本书”或者“要放满那些书架不用很多书”。

其实所有的人类语言都存在着各式各样的歧义的问题，我们看到各个民族所流传的笑话里很多都是拿这些歧义语义来打趣的。不同语言处理歧义的具体方法不同，但整体思路都是将歧义句放到句子上下文里来解读，引入更多语境信息来正确获得意思。

可以说计算机进行语义理解的结果，某种程度上就是在和各种各样的歧义做斗争的过程。打个比方，自然语言处理的过程就像是让计算机拿着用上下文语境拼凑出的一张残缺的地图，拨开云遮雾绕的文字迷雾，越过歧义所埋下的一个个大坑，逐步接近语义真相的过程。

中英文NLP差异总结

中文和英文这两类全球使用人数最多，影响力最大的语言，有各自鲜明的语言特色，在计算机进行自然语言处理领域也有各自独树一帜的地方。本文从语言特点的角度出发，从10个方面分析了中英文在自然语言处理上的差异。随着全球化的发展，中英文在不断相互影响，相互渗透。例如中文中有大量的外来语来自英文，沙发、咖啡、巧克力、牛顿等这些频繁出现的词汇都源于英文，还有很多专业术语如NGO、WTO、CFO等，甚至NLP一词本身也是源自英文。英文也在受中文影响，每年都有近千条外来词汇新收录入英文词典，如Kungfu（功夫），tofu（豆腐）等。

无论是中英文各自的NLP应用，还是两种语言之间的相互翻译，都面临着非常巨大的技术挑战，因为语言的产生和发展受人类日常交流和使用的影响，虽然有一定的语法规律，但并不完全严格的，另外语义理解还受上下文语境、以及领域知识的影响非常大，这些都给计算机处理带来了很多困难。

虽然整体上NLP的算法都是语言无关的，但是在细节处理上还是存在很多差异，尤其在实际工程应用中为了达到尽可能好的效果，往往要深入探究语言的特点。因此本文从两种语言的特点出发，结合作者在计算机文本处理方面的从业经验，分析了两者NLP的异同点，虽挂一漏万，但期望对各位读者有所启发，也期待未来中英文的语义理解技术都不断创造新的突破。（陈运文达观数据）

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
使用LangChain和OpenAI实现高效文本标注 aehrutktrjk langchain python
使用LangChain和OpenAI实现高效文本标注引言在自然语言处理(NLP)领域，文本标注是一项重要且常见的任务。它涉及为文本分配标签，如情感、语言、风格等。本文将介绍如何使用LangChain和OpenAI的API来实现高效的文本标注系统。我们将探讨如何设置环境、定义标注模式，以及如何使用OpenAI的模型来执行标注任务。环境准备首先，我们需要安装必要的库并设置API密钥：%pipinsta
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
多模态Transformer之文本与图像联合建模 - Transformer教程 shandianfk_com ChatGPT Transformer transformer 深度学习人工智能
大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。对于很多小伙伴来说，Transformer这个词已经不陌生了，但它不仅仅应用于自然语言处理，还能在图像处理、甚至是多模态数据的处理上大显身手。接下来，我会带大家深入了解什么是多模态Transformer，以及它是如何实现文本与图像的联合建模的。Transformer简介首先，我们简单回顾一下T
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
使用LangChain与Together AI模型交互：深入探讨和实践指南 llzwxh888 langchain 人工智能交互 python
使用LangChain与TogetherAI模型交互：深入探讨和实践指南1.引言在人工智能和自然语言处理领域，TogetherAI已经成为一个强大的平台，提供了对50多个领先开源模型的访问。本文将深入探讨如何使用LangChain与TogetherAI模型进行交互，为开发者提供实用的知识和见解，同时解决可能遇到的常见问题。2.TogetherAI简介TogetherAI是一个强大的API平台，允许
OpenLM: 一个灵活的开源大语言模型接口工具 llzwxh888 语言模型人工智能自然语言处理 python
OpenLM:一个灵活的开源大语言模型接口工具引言在人工智能和自然语言处理快速发展的今天，大语言模型(LLM)已经成为许多应用的核心。然而，不同的LLM提供商往往有着各自的API和使用方式，这给开发者带来了一定的挑战。本文将介绍OpenLM，这是一个零依赖、兼容OpenAIAPI的LLM提供者接口，它可以直接通过HTTP调用不同的推理端点。我们将深入探讨OpenLM的特性、使用方法，以及如何将其与
使用中专API实现AI模型调用与部署 llzwxh888 人工智能 easyui 前端 python
在AI技术领域，如何调用和部署大语言模型（LLM）是一个常见的需求。本文将详细介绍如何通过中专API地址http://api.wlai.vip，实现对OpenAI大模型的调用与部署，并提供一个详细的demo代码示例。引言随着人工智能技术的飞速发展，大语言模型在自然语言处理任务中的表现尤为突出。然而，由于国内访问海外API存在一定限制，本文将使用中专API地址来解决这一问题，并展示如何在本地环境中配
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
基于人工智能的智能语音助手人工智能发烧友人工智能
语音助手的自然语言处理模块是语音助手系统的关键组成部分。通过这个模块，系统能够识别用户的意图并做出相应的回应。我们可以使用NLP技术来解析文本输入，并将其转换为系统可以理解的命令或指令。在本项目中，我们将结合语音识别、自然语言处理和语音合成技术，构建一个功能简化的语音助手。一、项目背景与需求分析1.1项目目标本项目旨在创建一个语音助手系统，它可以：1.语音识别：从用户的语音输入中提取文本信息。2.
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
安装jina，并使用jina的向量化和重排序的功能 MonkeyKing.sun milvus numpy
为了在Python的FastAPI项目中使用Jina进行向量化和重排序，您需要按照以下步骤安装和使用Jina。1.安装Jina首先，确保您已经安装了Jina。可以使用pip来安装。pipinstalljina如果需要特定的功能模块，例如自然语言处理相关的向量化模型，可以通过JinaHub获取。pipinstalljina[hub]2.在FastAPI项目中集成Jina接下来，我们将Jina集成到F
Matlab,Python,Java,C++的比较 Codefengfeng python java c++
Matlabmatlab是一个大型计算机，擅长矩阵计算与科学计算，适合构建模型；然而，编译软件的运行效率低，不适合大型软件开发。Pythonpython的优势是简单，入门快。适合做数据挖掘、数据分析、机器学习、人工智能、自然语言处理、爬虫、批量文件处理等，此外，Python开源免费，有很多的库，开发环境开发社区都比较友好；不过，Python是动态型的语言，需要更多的测试，并且错误仅仅是在运行的时候
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

达观数据：综述中英文自然语言处理的异和同

你可能感兴趣的:(自然语言处理)